Suivez nous sur

Création d'un réseau antagoniste génératif personnalisé avec des croquis

Intelligence Artificielle

Création d'un réseau antagoniste génératif personnalisé avec des croquis

mm

Des chercheurs de Carnegie Mellon et du MIT ont développé une nouvelle méthodologie qui permet à un utilisateur de créer des Réseau d'adversaire génératif (GAN) systèmes de création d'images simplement en esquissant des griffonnages indicatifs.

Un système de ce type pourrait permettre à un utilisateur final de créer des systèmes de génération d'images capables de générer des images très spécifiques, telles que des animaux particuliers, des types de bâtiments - et même des personnes individuelles. Actuellement, la plupart des systèmes de génération GAN produisent une sortie large et assez aléatoire, avec une facilité limitée pour spécifier des caractéristiques particulières, telles que la race animale, les types de cheveux chez les personnes, les styles d'architecture ou les identités faciales réelles.

L'approche, décrite dans le papier Dessinez votre propre GAN, utilise une nouvelle interface de dessin comme fonction de recherche efficace pour trouver des entités et des classes dans des bases de données d'images par ailleurs surchargées, pouvant contenir des milliers de types d'objets, dont de nombreux sous-types non pertinents pour l'utilisateur. Le GAN est ensuite entraîné sur ce sous-ensemble d'images filtré.

En dessinant le type d'objet spécifique avec lequel l'utilisateur souhaite calibrer le GAN, les capacités génératrices du framework sont spécialisées pour cette classe. Par exemple, si un utilisateur souhaite créer un framework générant un type de chat spécifique (plutôt qu'un chat quelconque, comme c'est le cas avec Ce chat n'existe pas), leurs croquis d'entrée servent de filtre pour exclure les classes de chat non pertinentes.

 

Source : https://peterwang512.github.io/GANSketching/

Source : https://peterwang512.github.io/GANSketching/

La recherche est dirigée par Sheng Yu-Wang de l'Université Carnegie Mellon, en collaboration avec son collègue Jun-Yan Zhu et David Bau du Laboratoire d'informatique et d'intelligence artificielle du MIT.

La méthode elle-même est appelée « croquis GAN » et utilise les croquis d'entrée pour modifier directement les poids d'un modèle GAN « modèle » afin de cibler spécifiquement le domaine ou le sous-domaine identifié via perte contradictoire inter-domaines.

Différentes méthodes de régularisation ont été explorées afin de garantir la diversité des résultats du modèle, tout en préservant une qualité d'image élevée. Les chercheurs ont créé des exemples d'applications capables d'interpoler l'espace latent et d'effectuer des opérations d'édition d'images.

Cette [$classe] n'existe pas

Les systèmes de génération d'images basés sur GAN sont devenus une mode, sinon un mème, au cours des dernières années, avec un prolifération de projets capables de générer des images de choses inexistantes, y compris des personnes, des appartements en location, des collations, des pieds, des chevaux, des politiciens et des insectes, parmi tant d'autres.

Les systèmes de synthèse d'images basĂ©s sur GAN sont créés en compilant ou en conservant de vastes ensembles de donnĂ©es contenant des images du domaine cible, telles que des visages ou des chevaux ; des modèles de formation qui gĂ©nĂ©ralisent une gamme de fonctionnalitĂ©s sur les images de la base de donnĂ©es ; et mettre en Ĺ“uvre des modules gĂ©nĂ©rateurs qui peuvent produire des exemples alĂ©atoires sur la base des caractĂ©ristiques apprises.

Sortie de croquis dans DeepFacePencil, qui permet aux utilisateurs de créer des visages photoréalistes à partir de croquis. De nombreux projets similaires de croquis à image existent. Source : https://arxiv.org/pdf/2008.13343.pdf

Sortie de croquis dans DeepFacePencil, qui permet aux utilisateurs de créer des visages photoréalistes à partir de croquis. De nombreux projets similaires de croquis à image existent. Source : https://arxiv.org/pdf/2008.13343.pdf

Les caractéristiques de grande dimension sont parmi les premières à se concrétiser lors de la formation et sont comparables aux premiers échantillons de couleur d'un peintre sur une toile. Ces caractéristiques de grande dimension donneront éventuellement naissance à des traits beaucoup plus détaillés (par exemple, le regard brillant et les moustaches pointues d'un chat, au lieu d'une simple tache beige générique représentant la tête).

Je vois ce que tu veux dire…

En cartographiant la relation entre ces formes séminales antérieures et les interprétations détaillées obtenues beaucoup plus tard dans le processus de formation, il est possible de déduire des relations entre des images « vagues » et « spécifiques », permettant aux utilisateurs de créer des images complexes et photoréalistes à partir de barbouillages bruts.

RĂ©cemment, NVIDIA a publiĂ© un version de bureau de sa recherche GauGAN Ă  long terme sur la gĂ©nĂ©ration de paysage basĂ©e sur GAN, qui dĂ©montre facilement ce principe :

Des daubs approximatifs sont traduits en images scéniques riches grâce à GauGAN de NVIDIA, et maintenant à l'application NVIDIA Canvas. Source : https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Les tracĂ©s approximatifs sont traduits en images panoramiques riches grâce Ă  GauGAN de NVIDIA, et dĂ©sormais Ă  l'application NVIDIA Canvas. Source : https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

De même, plusieurs systèmes tels que DeepFaceCrayon ont utilisé le même principe pour créer des générateurs d'images photoréalistes induites par croquis pour divers domaines.

L'architecture de DeepFacePencil.

L'architecture de DeepFacePencil.

Simplification de l'esquisse Ă  l'image

L'approche GAN Sketching du nouveau document vise à supprimer le formidable fardeau de la collecte et de la conservation des données qui est généralement impliqué dans le développement des cadres d'images GAN, en utilisant la saisie de l'utilisateur pour définir quel sous-ensemble d'images doit constituer les données de formation.

Le système a été conçu pour ne nécessiter qu'un petit nombre de croquis d'entrée afin de calibrer le cadre. Le système inverse efficacement la fonctionnalité de PhotoSketch, une initiative de recherche conjointe de 2019 par des chercheurs de Carnegie Mellon, Adobe, Uber ATG et Argo AI, qui est intégrée dans le nouveau travail. PhotoSketch a été conçu pour créer des croquis artistiques à partir d'images et contient déjà le mappage efficace des relations de création d'images vagues>spécifiques.

Pour la partie génération du processus, la nouvelle méthode ne modifie que les poids des StyleGAN2. Etant donné que les données d'image utilisées ne sont qu'un sous-ensemble des données disponibles totales, une simple modification du réseau de mappage permet d'obtenir des résultats souhaitables.

La méthode a été évaluée sur un certain nombre de sous-domaines populaires, notamment les sports équestres, les églises et les chats.

2016 de l'Université de Princeton Jeu de données LSUN a été utilisé comme matériau de base pour dériver les sous-domaines cibles. Pour établir un système de cartographie d'esquisses robuste face aux excentricités des esquisses saisies par les utilisateurs du monde réel, le système est entraîné sur des images issues du Jeu de données QuickDraw développé par Microsoft entre 2021 et 2016.

Bien que la cartographie des croquis entre PhotoSketch et QuickDraw soit assez différente, les chercheurs ont constaté que leur cadre réussit bien à les chevaucher assez facilement sur des poses relativement simples, bien que des poses plus compliquées (comme des chats couchés) s'avèrent plus difficiles, bien que très abstraites. la saisie de l'utilisateur (c'est-à-dire des dessins trop rudimentaires) nuit également à la qualité des résultats.

Espace latent et édition d'images naturelles

Les chercheurs ont dĂ©veloppĂ© deux applications basĂ©es sur le travail de base : l'Ă©dition de l'espace latent et l'Ă©dition d'images. L'Ă©dition de l'espace latent offre des commandes utilisateur interprĂ©tables qui sont facilitĂ©es au moment de la formation et permettent un large degrĂ© de variation tout en restant fidèle au domaine cible et agrĂ©ablement cohĂ©rent Ă  travers les variations.

Interpolation fluide de l'espace latent avec les modèles personnalisés de GAN Sketching.

Interpolation fluide de l'espace latent avec les modèles personnalisés de GAN Sketching.

Le composant d'édition de l'espace latent a été alimenté par le 2020 Projet GANSpace, une initiative conjointe de l'Université Aalto, Adobe et NVIDIA.

Une seule image peut également être introduite dans le modèle personnalisé, ce qui facilite l'édition naturelle des images. Dans cette application, une seule image est projetée au GAN personnalisé, permettant non seulement l'édition directe, mais préservant également l'édition de l'espace latent de niveau supérieur, si cela a également été utilisé.

Ici, une image réelle a été utilisée comme entrée pour le GAN (modèle de chat), qui édite l'entrée pour correspondre aux croquis soumis. Cela permet l'édition d'images via l'esquisse.

Ici, une image réelle a été utilisée comme entrée pour le GAN (modèle de chat), qui édite l'entrée pour correspondre aux croquis soumis. Cela permet l'édition d'images via l'esquisse.

Bien que configurable, le système n'est pas conçu pour fonctionner en temps réel, du moins en termes de formation et d'étalonnage. Actuellement, GAN Sketching nécessite 30,000 XNUMX itérations de formation. Le système nécessite également l'accès aux données d'entraînement d'origine pour le modèle d'origine.

Dans les cas oĂą l'ensemble de donnĂ©es est open source et dispose d'une licence qui permet la copie locale, cela pourrait ĂŞtre pris en charge en incluant les donnĂ©es source dans un package installĂ© localement, bien que cela occuperait un espace disque considĂ©rable ; ou en accĂ©dant ou en traitant des donnĂ©es Ă  distance, via une approche basĂ©e sur le cloud, qui introduit des frais gĂ©nĂ©raux de rĂ©seau et (dans le cas d'un traitement se produisant rĂ©ellement sur le cloud) Ă©ventuellement des considĂ©rations de coĂ»t de calcul.

Transformations à partir de modèles FFHQ personnalisés formés sur seulement 4 croquis générés par l'homme.

Transformations personnalisées FFHQ modèles entraînés uniquement pour les croquis générés par l'homme.

 

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai