Suivez nous sur

Orchestrer la synthèse faciale avec la segmentation sémantique

Intelligence Artificielle

Orchestrer la synthèse faciale avec la segmentation sémantique

mm

Le problème d'inventer des visages humains avec un Réseau d'adversaire génératif (GAN) est que les données du monde réel qui alimentent les fausses images sont accompagnées d'accessoires indésirables et inséparables, tels que des cheveux sur la tête (et/ou le visage), des arrière-plans et divers types de meubles pour le visage, tels que des lunettes, des chapeaux et des boucles d'oreilles ; et que ces aspects périphériques de la personnalité deviennent inévitablement liés dans une identité « fusionnée ».

Dans les architectures GAN les plus courantes, ces éléments ne sont pas adressables dans leur propre espace dédié, mais sont plutôt étroitement associés à la face dans laquelle (ou autour de) laquelle ils sont intégrés.

Il n'est pas non plus généralement possible de dicter ou d'affecter l'apparence de sous-sections d'un visage créé par un GAN, comme rétrécir les yeux, allonger le nez ou changer la couleur des cheveux comme le ferait un dessinateur de la police.

Pourtant, le secteur de la recherche en synthèse d'images y travaille :

De nouvelles recherches sur la gĂ©nĂ©ration de visage basĂ©e sur le GAN ont sĂ©parĂ© les diffĂ©rentes sections d'un visage en zones distinctes, chacune avec son propre "gĂ©nĂ©rateur", travaillant de concert avec d'autres gĂ©nĂ©rateurs pour l'image. Dans la rangĂ©e du milieu, nous voyons la « carte des fonctionnalitĂ©s Â» d'orchestration construire des zones supplĂ©mentaires du visage. Source : https://arxiv.org/pdf/2112.02236.pdf

De nouvelles recherches sur la gĂ©nĂ©ration de visages par GAN ont sĂ©parĂ© les diffĂ©rentes sections d'un visage en zones distinctes, chacune dotĂ©e de son propre « gĂ©nĂ©rateur Â», fonctionnant de concert avec d'autres gĂ©nĂ©rateurs pour l'image. Sur la ligne du milieu, nous voyons la « carte des caractĂ©ristiques Â» orchestrant la crĂ©ation de zones supplĂ©mentaires du visage. Source : https://arxiv.org/pdf/2112.02236.pdf

Dans un nouveau papierDes chercheurs de la branche amĂ©ricaine du gĂ©ant technologique multinational chinois ByteDance ont utilisĂ© la segmentation sĂ©mantique pour dĂ©composer les parties constitutives du visage en sections distinctes, chacune Ă©tant dotĂ©e de son propre gĂ©nĂ©rateur, de sorte qu'il est possible d'atteindre un plus grand degrĂ© de  dĂ©mĂŞlage. Ou au moins, perceptive dĂ©mĂŞlage.

Le papier est intitulĂ© SemanticStyleGAN : Apprentissage des priors gĂ©nĂ©ratifs compositionnels pour la synthèse et l'Ă©dition d'images contrĂ´lables, et est accompagnĂ© d'un riche mĂ©dia page du projet prĂ©sentant de multiples exemples des diverses transformations fines qui peuvent ĂŞtre obtenues lorsque les Ă©lĂ©ments du visage et de la tĂŞte sont isolĂ©s de cette manière.

La texture du visage, la coiffure et la couleur des cheveux, la forme et la couleur des yeux et de nombreux autres aspects des caractéristiques autrefois indissolubles générées par le GAN peuvent désormais être démêlés, bien que la qualité de la séparation et le niveau d'instrumentalité soient susceptibles de varier selon les cas. Source : https://semanticstylegan.github.io/

La texture du visage, la coiffure et la couleur des cheveux, la forme et la couleur des yeux et de nombreux autres aspects des caractĂ©ristiques autrefois indissolubles gĂ©nĂ©rĂ©es par le GAN peuvent dĂ©sormais ĂŞtre de facto  dĂ©mĂŞlĂ©s, bien que la qualitĂ© de la sĂ©paration et le niveau d'instrumentalitĂ© soient susceptibles de varier d'un cas Ă  l'autre. Source : https://semanticstylegan.github.io/

L'espace latent ingouvernable

Un rĂ©seau antagoniste gĂ©nĂ©ratif formĂ© pour gĂ©nĂ©rer des visages - comme le StyleGan2 gĂ©nĂ©rateur qui alimente le site Web populaire thispersondoesnotexist.com – forme des interrelations complexes entre les « fonctionnalitĂ©s Â» (pas au sens facial) qu'il dĂ©rive de l'analyse de milliers de visages du monde rĂ©el, afin d'apprendre Ă  crĂ©er lui-mĂŞme des visages humains rĂ©alistes.

Ces processus clandestins sont des « codes latents », collectivement les espace latent. Ils sont difficiles à analyser, et par conséquent difficiles à instrumentaliser.

La semaine dernière, un nouveau projet de synthèse d'images a émergé qui tente de « cartographier » cet espace quasi-occulte pendant le processus de formation lui-même, puis de utilisez ces cartes pour y naviguer de manière interactive, et diverses autres solutions ont été proposées pour mieux contrôler le contenu synthétisé par GAN.

Des progrès ont Ă©tĂ© rĂ©alisĂ©s, avec une offre diversifiĂ©e d'architectures GAN qui tentent d'« accĂ©der Â» Ă  l'espace latent et de contrĂ´ler les gĂ©nĂ©rations faciales Ă  partir de lĂ . Ces efforts incluent InterfaceGAN, Flux de style, GANSpace et Style Rig, parmi d'autres offres dans un flux constamment productif de nouveaux papiers.

Ce qu'ils ont tous en commun, ce sont des degrés limités de démêlage ; les curseurs ingénieux de l'interface utilisateur graphique pour diverses facettes (telles que « cheveux » ou « expression ») ont tendance à faire glisser l'arrière-plan et/ou d'autres éléments dans le processus de transformation, et aucun d'entre eux (y compris l'article discuté ici) n'a résolu le problème des cheveux neuronaux temporels.

Diviser et conquérir l'espace latent

Dans tous les cas, la recherche ByteDance adopte une approche différente : au lieu d'essayer de discerner les mystères d'un seul GAN ​​fonctionnant sur une image de visage générée entière, SemanticStyleGAN formule une approche basée sur la mise en page, où les visages sont « composés » par des processus générateurs distincts.

Afin d'obtenir cette distinction de caractéristiques (faciales), SemanticStyleGAN utilise Caractéristiques de Fourier générer une carte de segmentation sémantique (distinctions grossièrement colorées de la topographie faciale, montrées vers le bas à droite de l'image ci-dessous) pour isoler les zones du visage qui recevront une attention individuelle et dédiée.

Architecture de la nouvelle approche, qui impose une couche interstitielle de segmentation sémantique sur le visage, transformant efficacement le cadre en un orchestrateur de plusieurs générateurs pour différentes facettes d'une image.

Architecture de la nouvelle approche, qui impose une couche interstitielle de segmentation sémantique sur le visage, transformant efficacement le cadre en un orchestrateur de plusieurs générateurs pour différentes facettes d'une image.

Les cartes de segmentation sont générées pour les fausses images qui sont systématiquement présentées au discriminateur du GAN pour évaluation à mesure que le modèle s'améliore, et pour les images sources (non fausses) utilisées pour la formation.

Au début du processus, un Perceptron multicouche (MLP) cartographie initialement des codes latents choisis au hasard, qui seront ensuite utilisés pour contrôler les poids des plusieurs générateurs qui prendront chacun le contrôle d'une section de l'image du visage à produire.

Chaque générateur crée une carte d'entités et une carte de profondeur simulée à partir des entités de Fourier qui lui sont transmises en amont. Cette sortie est la base des masques de segmentation.

Le réseau de rendu en aval n'est conditionné que par les cartes d'entités antérieures et sait maintenant comment générer un masque de segmentation à plus haute résolution, facilitant la production finale de l'image.

Enfin, un discriminateur bifurqué surveille la distribution concaténée à la fois des images RVB (qui sont, pour nous, le résultat final) et des masques de segmentation qui ont permis de les séparer.

Avec SemanticStyleGAN, il n'y a pas de perturbations visuelles indésirables lors de la « composition » des changements de caractéristiques faciales, car chaque caractéristique faciale a été formée séparément dans le cadre d'orchestration.

Substitution d'arrière-plans

Parce que l'intention du projet est de mieux contrôler l'environnement généré, le processus de rendu/composition comprend un générateur d'arrière-plan formé sur des images réelles.

Une raison impérieuse pour laquelle les arrière-plans ne sont pas entraînés dans les manipulations faciales dans SemanticStyleGAN est qu'ils sont assis sur un calque plus éloigné et sont complets, s'ils sont partiellement masqués par les visages superposés.

Une raison impérieuse pour laquelle les arrière-plans ne sont pas entraînés dans les manipulations faciales dans SemanticStyleGAN est qu'ils sont assis sur un calque plus éloigné et sont complets, s'ils sont partiellement masqués par les visages superposés.

Étant donnĂ© que les cartes de segmentation produiront des visages sans arrière-plan, ces arrière-plans « intĂ©grĂ©s Â» fournissent non seulement un contexte, mais sont Ă©galement configurĂ©s pour ĂŞtre appropriĂ©s, en termes d'Ă©clairage, aux visages superposĂ©s.

Formation et données

Les modèles « réalistes » ont été formés sur les 28,000 XNUMX images initiales de CelebAMask-HQ, redimensionné à 256 × 256 pixels pour s'adapter à l'espace d'apprentissage (c'est-à-dire la VRAM disponible, qui dicte une taille de lot maximale par itération).

Plusieurs modèles ont été entraînés, et divers outils, jeux de données et architectures ont été expérimentés au cours du processus de développement et de divers tests d'ablation. Le modèle le plus productif du projet, d'une résolution de 512×512, a été entraîné en 2.5 jours sur huit GPU NVIDIA Tesla V100. Après entraînement, la génération d'une image unique prend 0.137 s sur un GPU à lobes sans parallélisation.

Les expériences de style dessin animé/anime présentées dans les nombreuses vidéos sur la page du projet (voir le lien ci-dessus) sont dérivées de divers ensembles de données populaires basés sur le visage, notamment Toonifier, Visages rencontrés et Bitmoji.

Une solution palliative ?

Les auteurs soutiennent qu'il n'y a aucune raison pour laquelle SemanticStyleGAN ne pourrait pas être appliqué à d'autres domaines, tels que les paysages, les voitures, les églises et tous les autres domaines de test « par défaut » auxquels les nouvelles architectures sont régulièrement soumises au début de leur carrière.

Cependant, le document concède que lorsque le nombre de classes augmente pour un domaine (tel que 'voiture', 'lampadaire, 'piéton', 'bâtiment', 'voiture' etc.), cette approche fragmentaire pourrait devenir irréalisable de plusieurs manières, sans plus de travail sur l'optimisation. L'ensemble de données urbaines CityScapes, par exemple, a 30 cours dans 8 catégories.

Il est difficile de dire si l’intérêt actuel pour la conquête plus directe de l’espace latent est aussi voué à l’échec que l’alchimie ; ou si les codes latents seront finalement déchiffrables et contrôlables – une évolution qui pourrait rendre ce type d’approche plus « complexe extérieurement » redondant.

 

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai