Intelligence artificielle
Édition de l’espace latent d’un GAN avec des ‘blobs’

De nouvelles recherches de l’UC Berkeley et d’Adobe offrent un moyen d’éditer directement le contenu hyper-réaliste qui peut être créé par un réseau antagoniste génératif (GAN), mais qui ne peut généralement pas être contrôlé, animé ou manipulé librement de manière familière aux utilisateurs de Photoshop et aux praticiens de la CGI.
Intitulé BlobGAN, la méthode consiste à créer une grille de ‘blobs’ – des constructions mathématiques qui correspondent directement au contenu dans l’espace latent du GAN.
En déplaçant les blobs, vous pouvez déplacer les ‘objets’ dans une représentation de scène, de manière intuitive qui est plus proche des méthodes de CGI et de CAD que de nombreuses tentatives actuelles pour cartographier et contrôler l’espace latent du GAN :

Manipulation de scène avec BlobGAN : lorsque les ‘blobs’ sont déplacés par l’utilisateur, la disposition des objets et des styles latents dans le GAN sont modifiés en conséquence. Pour plus d’exemples, voir la vidéo accompagnant l’article, intégrée à la fin de cet article, ou à https://www.youtube.com/watch?v=KpUv82VsU5k
Puisque les blobs correspondent à des ‘objets’ dans la scène cartographiée dans l’espace latent du GAN, tous les objets sont désentrelacés a priori, ce qui permet de les modifier individuellement :

Les objets peuvent être redimensionnés, réduits, clonés et supprimés, entre autres opérations.
Comme pour tout objet dans un logiciel de retouche photo (ou même de traitement de texte), un blob peut être dupliqué et manipulé par la suite :

Les blobs peuvent être dupliqués dans l’interface, et leurs représentations latentes correspondantes seront également ‘copiées et collées’. Source : https://dave.ml/blobgan/#results
BlobGAN peut également analyser des images nouvelles et sélectionnées par l’utilisateur dans son espace latent :

Avec BlobGAN, vous n’avez pas besoin d’incorporer les images que vous souhaitez manipuler directement dans les données d’entraînement, puis de rechercher leurs codes latents, mais vous pouvez saisir des images sélectionnées à volonté et les manipuler. Source : https://dave.ml/blobgan/#results
Plus de résultats peuvent être vus ici, et dans la vidéo YouTube accompagnante YouTube (intégrée à la fin de cet article). Il existe également une démo interactive Colab démo*, et un référentiel GitHub repo**.
Ce type d’instrumentalité et de portée peut sembler naïf dans l’ère post-Photoshop, et les logiciels paramétriques tels que Cinema4D et Blender permettent aux utilisateurs de créer et de personnaliser des mondes 3D depuis des décennies ; mais cela représente une approche prometteuse pour dompter les excentricités et la nature ésotérique de l’espace latent dans un réseau antagoniste génératif, en utilisant des entités proxy qui sont cartographiées à des codes latents.












