Intelligence artificielle

Création d’un réseau antagoniste génératif personnalisé avec des croquis

Published August 6, 2021

Updated April 28, 2026

Martin Anderson

Les chercheurs de Carnegie Mellon et du MIT ont développé une nouvelle méthodologie qui permet à un utilisateur de créer des systèmes de création d’images de réseau antagoniste génératif (GAN) personnalisés simplement en dessinant des croquis indicatifs.

Un système de ce type pourrait permettre à un utilisateur final de créer des systèmes de génération d’images capables de générer des images très spécifiques, telles que des animaux particuliers, des types de bâtiments – et même des personnes individuelles. Actuellement, la plupart des systèmes de génération de GAN produisent des sorties larges et assez aléatoires, avec une capacité limitée à spécifier des caractéristiques particulières, telles que la race d’un animal, les types de cheveux chez les personnes, les styles d’architecture ou les identités faciales réelles.

L’approche, décrite dans le document Croquer votre propre GAN, utilise une nouvelle interface de croquis comme une fonction de « recherche » efficace pour trouver des fonctionnalités et des classes dans des bases de données d’images surpeuplées qui peuvent contenir des milliers de types d’objets, y compris de nombreux sous-types qui ne sont pas pertinents pour l’intention de l’utilisateur. Le GAN est ensuite formé sur cet sous-ensemble de données d’images.

En dessinant le type d’objet spécifique avec lequel l’utilisateur souhaite calibrer le GAN, les capacités de génération du cadre deviennent spécialisées dans cette classe. Par exemple, si un utilisateur souhaite créer un cadre qui génère un type spécifique de chat (plutôt que n’importe quel vieux chat, comme on peut l’obtenir avec This Cat Does Not Exist), leurs croquis d’entrée servent de filtre pour éliminer les classes non pertinentes de chats.

Source: https://peterwang512.github.io/GANSketching/

La recherche est menée par Sheng Yu-Wang de l’Université Carnegie Mellon, ainsi que par son collègue Jun-Yan Zhu, et David Bau du Laboratoire d’informatique et d’intelligence artificielle du MIT.

La méthode elle-même est appelée « croquis de GAN », et utilise les croquis d’entrée pour modifier directement les poids d’un modèle de GAN « template » pour cibler spécifiquement le domaine ou le sous-domaine identifié à travers la perte antagoniste entre domaines.

Différentes méthodes de régularisation ont été explorées pour garantir que la sortie du modèle est diverse, tout en maintenant une haute qualité d’image. Les chercheurs ont créé des applications d’exemple capables d’interpoler l’espace latent et de réaliser des procédures d’édition d’images.

Ceci [$class] n’existe pas

Les systèmes de génération d’images basés sur GAN sont devenus une mode, sinon un mème, au cours des dernières années, avec une prolifération de projets capables de générer des images de choses non existantes, y compris des personnes, des appartements à louer, des snacks, des pieds, des chevaux, des politiciens et des insectes, entre autres.

Les systèmes de synthèse d’images basés sur GAN sont créés en compilant ou en curant des ensembles de données étendus contenant des images du domaine cible, telles que des visages ou des chevaux ; en formant des modèles qui généralisent une gamme de fonctionnalités à travers les images de la base de données ; et en mettant en œuvre des modules de générateur qui peuvent produire des exemples aléatoires basés sur les fonctionnalités apprises.

Sortie de DeepFacePencil, qui permet aux utilisateurs de créer des visages photoréalistes à partir de croquis. De nombreux projets de croquis-à-image similaires existent. Source: https://arxiv.org/pdf/2008.13343.pdf

Les fonctionnalités à haute dimension sont parmi les premières à être concrétisées pendant le processus de formation, et sont équivalentes aux premières touches de couleur d’un peintre sur une toile. Ces fonctionnalités à haute dimension seront finalement corrélées à des fonctionnalités plus détaillées (par exemple, l’éclat de l’œil et les moustaches pointues d’un chat, plutôt que simplement un blob beige générique représentant la tête).

Je sais ce que vous voulez dire…

En cartographiant la relation entre ces formes seminales précoces et les interprétations détaillées qui sont obtenues beaucoup plus tard dans le processus de formation, il est possible d’inférer des relations entre des images « vagues » et « spécifiques », permettant aux utilisateurs de créer des images complexes et photoréalistes à partir de croquis grossiers.

Récemment, NVIDIA a publié une version de bureau de sa recherche à long terme GauGAN sur la génération de paysages basée sur GAN, qui démontre facilement ce principe :

Approximations de daubs sont traduites en riches images scéniques via NVIDIA’s GauGAN, et maintenant l’application NVIDIA Canvas. Source: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

De même, de multiples systèmes tels que DeepFacePencil ont utilisé le même principe pour créer des générateurs d’images photoréalistes induits par croquis pour divers domaines.

L’architecture de DeepFacePencil.

Simplification de Sketch-To-Image

L’approche de GAN Sketching cherche à supprimer la lourde charge de collecte et de curation de données qui est généralement impliquée dans le développement de cadres d’images GAN, en utilisant les entrées de l’utilisateur pour définir quel sous-ensemble d’images doit constituer les données de formation.

Le système a été conçu pour nécessiter seulement un petit nombre de croquis d’entrée pour calibrer le cadre. Le système inverse effectivement la fonctionnalité de PhotoSketch, une initiative de recherche conjointe de 2019 par des chercheurs de Carnegie Mellon, Adobe, Uber ATG et Argo AI, qui est intégrée dans le nouveau travail. PhotoSketch a été conçu pour créer des croquis artistiques à partir d’images, et contient déjà la cartographie efficace des relations de création d’images vagues>spécifiques.

Pour la partie de génération du processus, la nouvelle méthode ne modifie que les poids de StyleGAN2. Puisque les données d’images utilisées ne sont qu’un sous-ensemble des données totales disponibles, la simple modification du réseau de mapping obtient des résultats souhaitables.

La méthode a été évaluée sur un certain nombre de sous-domaines populaires, y compris les équitation, les églises et les chats.

L’ensemble de données LSUN de l’Université de Princeton en 2016 a été utilisé comme matériau principal à partir duquel dériver les sous-domaines cibles. Pour établir un système de cartographie de croquis robuste aux particularités des entrées de l’utilisateur réel, le système est formé sur des images de l’ensemble de données QuickDraw développé par Microsoft entre 2021-2016.

Bien que les cartographies de croquis entre PhotoSketch et QuickDraw soient quite différentes, les chercheurs ont constaté que leur cadre réussit bien à les combiner facilement sur des poses relativement simples, bien que des poses plus compliquées (comme des chats allongés) prouvent plus difficiles, tandis que des entrées d’utilisateur abstraites (par exemple, des dessins trop grossiers) entravent également la qualité des résultats.

Espace latent et édition d’images naturelles

Les chercheurs ont développé deux applications basées sur le travail de base : l’édition de l’espace latent et l’édition d’images. L’édition de l’espace latent offre des contrôles utilisateur interprétables qui sont facilités au moment de la formation, et permettent un large degré de variation tout en restant fidèle au domaine cible, et agréablement cohérent à travers les variations.

Interpolation lisse de l’espace latent avec les modèles personnalisés de GAN Sketching.

Le composant d’édition de l’espace latent a été alimenté par le projet GANSpace de 2020, une initiative conjointe de l’Université Aalto, Adobe et NVIDIA.

Une seule image peut également être fournie au modèle personnalisé, facilitant l’édition d’images naturelles. Dans cette application, une seule image est projétée sur le GAN personnalisé, permettant non seulement une édition directe, mais également la préservation de l’édition de l’espace latent de niveau supérieur, si cela a également été utilisé.

Ici, une image réelle a été utilisée comme entrée pour le GAN (modèle de chat), qui édite l’entrée pour correspondre aux croquis soumis. Cela permet l’édition d’images via le croquis.

Bien que configurable, le système n’est pas conçu pour fonctionner en temps réel, du moins en termes de formation et de calibration. Actuellement, GAN Sketching nécessite 30 000 itérations de formation. Le système nécessite également l’accès aux données d’origine pour le modèle d’origine.

Dans les cas où l’ensemble de données est open source et dispose d’une licence qui permet la copie locale, cela pourrait être pris en charge en incluant les données source dans un package installé localement, bien que cela prendrait beaucoup d’espace disque ; ou en accédant ou en traitant les données à distance, via une approche basée sur le cloud, qui introduit des surcoûts réseau et (dans le cas où le traitement se produit réellement sur le cloud) des considérations de coût de calcul.

Transformations à partir de modèles FFHQ personnalisés formés sur seulement 4 croquis générés par l’homme.

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.