Intelligence Artificielle
Création d'un réseau antagoniste génératif personnalisé avec des croquis

Des chercheurs de Carnegie Mellon et du MIT ont développé une nouvelle méthodologie qui permet à un utilisateur de créer des Réseau d'adversaire génératif (GAN) systèmes de création d'images simplement en esquissant des griffonnages indicatifs.
Un système de ce type pourrait permettre à un utilisateur final de créer des systèmes de génération d'images capables de générer des images très spécifiques, telles que des animaux particuliers, des types de bâtiments - et même des personnes individuelles. Actuellement, la plupart des systèmes de génération GAN produisent une sortie large et assez aléatoire, avec une facilité limitée pour spécifier des caractéristiques particulières, telles que la race animale, les types de cheveux chez les personnes, les styles d'architecture ou les identités faciales réelles.
L'approche, décrite dans le papier Dessinez votre propre GAN, utilise une nouvelle interface de dessin comme fonction de recherche efficace pour trouver des entités et des classes dans des bases de données d'images par ailleurs surchargées, pouvant contenir des milliers de types d'objets, dont de nombreux sous-types non pertinents pour l'utilisateur. Le GAN est ensuite entraîné sur ce sous-ensemble d'images filtré.
En dessinant le type d'objet spécifique avec lequel l'utilisateur souhaite calibrer le GAN, les capacités génératrices du framework sont spécialisées pour cette classe. Par exemple, si un utilisateur souhaite créer un framework générant un type de chat spécifique (plutôt qu'un chat quelconque, comme c'est le cas avec Ce chat n'existe pas), leurs croquis d'entrée servent de filtre pour exclure les classes de chat non pertinentes.

Source : https://peterwang512.github.io/GANSketching/
La recherche est dirigée par Sheng Yu-Wang de l'Université Carnegie Mellon, en collaboration avec son collègue Jun-Yan Zhu et David Bau du Laboratoire d'informatique et d'intelligence artificielle du MIT.
La méthode elle-même est appelée « croquis GAN » et utilise les croquis d'entrée pour modifier directement les poids d'un modèle GAN « modèle » afin de cibler spécifiquement le domaine ou le sous-domaine identifié via perte contradictoire inter-domaines.
Différentes méthodes de régularisation ont été explorées afin de garantir la diversité des résultats du modèle, tout en préservant une qualité d'image élevée. Les chercheurs ont créé des exemples d'applications capables d'interpoler l'espace latent et d'effectuer des opérations d'édition d'images.
Cette [$classe] n'existe pas
Les systèmes de génération d'images basés sur GAN sont devenus une mode, sinon un mème, au cours des dernières années, avec un prolifération de projets capables de générer des images de choses inexistantes, y compris des personnes, des appartements en location, des collations, des pieds, des chevaux, des politiciens et des insectes, parmi tant d'autres.
Les systèmes de synthèse d'images basés sur GAN sont créés en compilant ou en conservant de vastes ensembles de données contenant des images du domaine cible, telles que des visages ou des chevaux ; des modèles de formation qui généralisent une gamme de fonctionnalités sur les images de la base de données ; et mettre en œuvre des modules générateurs qui peuvent produire des exemples aléatoires sur la base des caractéristiques apprises.

Sortie de croquis dans DeepFacePencil, qui permet aux utilisateurs de créer des visages photoréalistes à partir de croquis. De nombreux projets similaires de croquis à image existent. Source : https://arxiv.org/pdf/2008.13343.pdf
Les caractéristiques de grande dimension sont parmi les premières à se concrétiser lors de la formation et sont comparables aux premiers échantillons de couleur d'un peintre sur une toile. Ces caractéristiques de grande dimension donneront éventuellement naissance à des traits beaucoup plus détaillés (par exemple, le regard brillant et les moustaches pointues d'un chat, au lieu d'une simple tache beige générique représentant la tête).
Je vois ce que tu veux dire…
En cartographiant la relation entre ces formes séminales antérieures et les interprétations détaillées obtenues beaucoup plus tard dans le processus de formation, il est possible de déduire des relations entre des images « vagues » et « spécifiques », permettant aux utilisateurs de créer des images complexes et photoréalistes à partir de barbouillages bruts.
Récemment, NVIDIA a publié un version de bureau de sa recherche GauGAN à long terme sur la génération de paysage basée sur GAN, qui démontre facilement ce principe :

Les tracés approximatifs sont traduits en images panoramiques riches grâce à GauGAN de NVIDIA, et désormais à l'application NVIDIA Canvas. Source : https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/
De même, plusieurs systèmes tels que DeepFaceCrayon ont utilisé le même principe pour créer des générateurs d'images photoréalistes induites par croquis pour divers domaines.
Simplification de l'esquisse Ă l'image
L'approche GAN Sketching du nouveau document vise à supprimer le formidable fardeau de la collecte et de la conservation des données qui est généralement impliqué dans le développement des cadres d'images GAN, en utilisant la saisie de l'utilisateur pour définir quel sous-ensemble d'images doit constituer les données de formation.
Le système a été conçu pour ne nécessiter qu'un petit nombre de croquis d'entrée afin de calibrer le cadre. Le système inverse efficacement la fonctionnalité de PhotoSketch, une initiative de recherche conjointe de 2019 par des chercheurs de Carnegie Mellon, Adobe, Uber ATG et Argo AI, qui est intégrée dans le nouveau travail. PhotoSketch a été conçu pour créer des croquis artistiques à partir d'images et contient déjà le mappage efficace des relations de création d'images vagues>spécifiques.
Pour la partie génération du processus, la nouvelle méthode ne modifie que les poids des StyleGAN2. Etant donné que les données d'image utilisées ne sont qu'un sous-ensemble des données disponibles totales, une simple modification du réseau de mappage permet d'obtenir des résultats souhaitables.
La méthode a été évaluée sur un certain nombre de sous-domaines populaires, notamment les sports équestres, les églises et les chats.
2016 de l'Université de Princeton Jeu de données LSUN a été utilisé comme matériau de base pour dériver les sous-domaines cibles. Pour établir un système de cartographie d'esquisses robuste face aux excentricités des esquisses saisies par les utilisateurs du monde réel, le système est entraîné sur des images issues du Jeu de données QuickDraw développé par Microsoft entre 2021 et 2016.
Bien que la cartographie des croquis entre PhotoSketch et QuickDraw soit assez différente, les chercheurs ont constaté que leur cadre réussit bien à les chevaucher assez facilement sur des poses relativement simples, bien que des poses plus compliquées (comme des chats couchés) s'avèrent plus difficiles, bien que très abstraites. la saisie de l'utilisateur (c'est-à -dire des dessins trop rudimentaires) nuit également à la qualité des résultats.

Espace latent et édition d'images naturelles
Les chercheurs ont développé deux applications basées sur le travail de base : l'édition de l'espace latent et l'édition d'images. L'édition de l'espace latent offre des commandes utilisateur interprétables qui sont facilitées au moment de la formation et permettent un large degré de variation tout en restant fidèle au domaine cible et agréablement cohérent à travers les variations.
Le composant d'édition de l'espace latent a été alimenté par le 2020 Projet GANSpace, une initiative conjointe de l'Université Aalto, Adobe et NVIDIA.
Une seule image peut également être introduite dans le modèle personnalisé, ce qui facilite l'édition naturelle des images. Dans cette application, une seule image est projetée au GAN personnalisé, permettant non seulement l'édition directe, mais préservant également l'édition de l'espace latent de niveau supérieur, si cela a également été utilisé.

Ici, une image réelle a été utilisée comme entrée pour le GAN (modèle de chat), qui édite l'entrée pour correspondre aux croquis soumis. Cela permet l'édition d'images via l'esquisse.
Bien que configurable, le système n'est pas conçu pour fonctionner en temps réel, du moins en termes de formation et d'étalonnage. Actuellement, GAN Sketching nécessite 30,000 XNUMX itérations de formation. Le système nécessite également l'accès aux données d'entraînement d'origine pour le modèle d'origine.
Dans les cas où l'ensemble de données est open source et dispose d'une licence qui permet la copie locale, cela pourrait être pris en charge en incluant les données source dans un package installé localement, bien que cela occuperait un espace disque considérable ; ou en accédant ou en traitant des données à distance, via une approche basée sur le cloud, qui introduit des frais généraux de réseau et (dans le cas d'un traitement se produisant réellement sur le cloud) éventuellement des considérations de coût de calcul.

Transformations personnalisées FFHQ modèles entraînés uniquement pour les croquis générés par l'homme.















