Intelligence artificielle

Orchestrer la synthèse faciale avec la segmentation sémantique

Le kit de préparation mis à jour on 9 décembre 2022

Le problème d'inventer des visages humains avec un Réseau d'adversaire génératif (GAN) est que les données du monde réel qui alimentent les fausses images sont accompagnées d'accessoires indésirables et inséparables, tels que des cheveux sur la tête (et/ou le visage), des arrière-plans et divers types de meubles pour le visage, tels que des lunettes, des chapeaux, et boucles d'oreilles; et que ces aspects périphériques de la personnalité deviennent inévitablement liés dans une identité « fusionnée ».

Dans les architectures GAN les plus courantes, ces éléments ne sont pas adressables dans leur propre espace dédié, mais sont plutôt étroitement associés au visage dans (ou autour) duquel ils sont intégrés.

Il n'est pas non plus généralement possible de dicter ou d'affecter l'apparence de sous-sections d'un visage créé par un GAN, comme rétrécir les yeux, allonger le nez ou changer la couleur des cheveux comme le ferait un dessinateur de la police.

Pourtant, le secteur de la recherche en synthèse d'images y travaille :

De nouvelles recherches sur la génération de visage basée sur le GAN ont séparé les différentes sections d'un visage en zones distinctes, chacune avec son propre "générateur", travaillant de concert avec d'autres générateurs pour l'image. Dans la rangée du milieu, nous voyons la « carte des fonctionnalités » d'orchestration construire des zones supplémentaires du visage. Source : https://arxiv.org/pdf/2112.02236.pdf

Dans un nouveau papier, des chercheurs de la branche américaine du géant technologique multinational chinois ByteDance ont utilisé la segmentation sémantique pour décomposer les parties constitutives du visage en sections discrètes, chacune d'entre elles se voyant attribuer son propre générateur, de sorte qu'il est possible d'atteindre un plus grand degré de démêlage. Ou au moins, perceptive démêlage.

Les papier est intitulé SemanticStyleGAN : Apprentissage des priors génératifs compositionnels pour la synthèse et l'édition d'images contrôlables, et est accompagné d'un riche média page du projet présentant de multiples exemples des diverses transformations fines qui peuvent être obtenues lorsque les éléments du visage et de la tête sont isolés de cette manière.

La texture du visage, la coiffure et la couleur des cheveux, la forme et la couleur des yeux et de nombreux autres aspects des caractéristiques autrefois indissolubles générées par le GAN peuvent désormais être de facto démêlés, bien que la qualité de la séparation et le niveau d'instrumentalité soient susceptibles de varier d'un cas à l'autre. Source : https://semanticstylegan.github.io/

L'espace latent ingouvernable

Un réseau antagoniste génératif formé pour générer des visages - comme le StyleGan2 générateur qui alimente le site Web populaire thispersondoesnotexist.com - forme des interrelations complexes entre les « caractéristiques » (pas au sens facial) qu'il dérive de l'analyse de milliers de visages du monde réel, afin d'apprendre à créer lui-même des visages humains réalistes.

Ces procédés clandestins sont des « codes latents », collectivement les espace latent. Ils sont difficiles à analyser, et par conséquent difficiles à instrumentaliser.

La semaine dernière, un nouveau projet de synthèse d'images différent a émergé qui tente de «cartographier» cet espace quasi occulte pendant le processus de formation lui-même, puis de utilisez ces cartes pour y naviguer de manière interactive, et diverses autres solutions ont été proposées pour mieux contrôler le contenu synthétisé par GAN.

Certains progrès ont été réalisés, avec une offre diversifiée d'architectures GAN qui tentent d'atteindre l'espace latent d'une manière ou d'une autre et de contrôler les générations faciales à partir de là. De tels efforts comprennent InterfaceGAN, Flux de style, GANSpaceet Style Rig, parmi d'autres offres dans un flux constamment productif de nouveaux papiers.

Ce qu'ils ont tous en commun, ce sont des degrés limités de démêlage ; les curseurs ingénieux de l'interface graphique pour diverses facettes (telles que « cheveux » ou « expression ») ont tendance à faire glisser l'arrière-plan et/ou d'autres éléments dans le processus de transformation, et aucun d'entre eux (y compris l'article discuté ici) n'a résolu le problème du temps cheveux neuronaux.

Diviser et conquérir l'espace latent

Dans tous les cas, la recherche ByteDance adopte une approche différente : au lieu d'essayer de discerner les mystères d'un seul GAN fonctionnant sur une image de visage entière générée, SemanticStyleGAN formule une approche basée sur la mise en page, où les visages sont « composés » par des processus de génération séparés.

Afin d'obtenir cette distinction de caractéristiques (faciales), SemanticStyleGAN utilise Caractéristiques de Fourier générer une carte de segmentation sémantique (distinctions grossièrement colorées de la topographie faciale, montrées vers le bas à droite de l'image ci-dessous) pour isoler les zones du visage qui recevront une attention individuelle et dédiée.

Architecture de la nouvelle approche, qui impose une couche interstitielle de segmentation sémantique sur le visage, transformant efficacement le cadre en un orchestrateur de plusieurs générateurs pour différentes facettes d'une image.

Les cartes de segmentation sont générées pour les fausses images qui sont systématiquement présentées au discriminateur du GAN pour évaluation au fur et à mesure que le modèle s'améliore, et aux images sources (non fausses) utilisées pour l'apprentissage.

Au début du processus, un Perceptron multicouche (MLP) cartographie initialement des codes latents choisis au hasard, qui seront ensuite utilisés pour contrôler les poids des plusieurs générateurs qui prendront chacun le contrôle d'une section de l'image du visage à produire.

Chaque générateur crée une carte d'entités et une carte de profondeur simulée à partir des entités de Fourier qui lui sont transmises en amont. Cette sortie est la base des masques de segmentation.

Le réseau de rendu en aval n'est conditionné que par les cartes d'entités antérieures et sait maintenant comment générer un masque de segmentation à plus haute résolution, facilitant la production finale de l'image.

Enfin, un discriminateur bifurqué surveille la distribution concaténée à la fois des images RVB (qui sont, pour nous, le résultat final) et des masques de segmentation qui ont permis de les séparer.

Avec SemanticStyleGAN, il n'y a pas de perturbations visuelles indésirables lors de la "composition" des changements de caractéristiques faciales, car chaque caractéristique faciale a été formée séparément dans le cadre d'orchestration.

Substitution d'arrière-plans

Parce que l'intention du projet est de mieux contrôler l'environnement généré, le processus de rendu/composition comprend un générateur d'arrière-plan formé sur des images réelles.

Une raison impérieuse pour laquelle les arrière-plans ne sont pas entraînés dans les manipulations faciales dans SemanticStyleGAN est qu'ils sont assis sur un calque plus éloigné et sont complets, s'ils sont partiellement masqués par les visages superposés.

Étant donné que les cartes de segmentation se traduiront par des visages sans arrière-plan, ces arrière-plans « drop-in » fournissent non seulement un contexte, mais sont également configurés pour être pertinents, en termes d'éclairage, pour les visages superposés.

Formation et données

Les modèles « réalistes » ont été entraînés sur les 28,000 XNUMX images initiales en CelebAMask-HQ, redimensionné à 256 × 256 pixels pour s'adapter à l'espace d'apprentissage (c'est-à-dire la VRAM disponible, qui dicte une taille de lot maximale par itération).

Un certain nombre de modèles ont été formés et divers outils, ensembles de données et architectures ont été expérimentés au cours du processus de développement et de divers tests d'ablation. Le plus grand modèle productif du projet présentait une résolution de 512 × 512, entraîné pendant 2.5 jours sur huit GPU NVIDIA Tesla V100. Après l'entraînement, la génération d'une seule image prend 0.137 s sur un GPU à lobes sans parallélisation.

Les expériences de style dessin animé / anime les plus démontrées dans les nombreuses vidéos sur la page du projet (voir lien ci-dessus) sont dérivées de divers ensembles de données populaires basés sur le visage, y compris Toonifier, Visages rencontréset Bitmoji.

Une solution palliative ?

Les auteurs soutiennent qu'il n'y a aucune raison pour que SemanticStyleGAN ne puisse pas être appliqué à d'autres domaines, tels que les paysages, les voitures, les églises et tous les autres domaines de test "par défaut" auxquels les nouvelles architectures sont régulièrement soumises au début de leur carrière.

Cependant, le document concède que lorsque le nombre de classes augmente pour un domaine (tel que 'voiture', 'lampadaire', 'piéton', 'bâtiment', 'voiture' etc.), cette approche fragmentaire pourrait devenir irréalisable de plusieurs manières, sans plus de travail sur l'optimisation. L'ensemble de données urbaines CityScapes, par exemple, a 30 cours dans 8 catégories.

Il est difficile de dire si l'intérêt actuel pour conquérir plus directement l'espace latent est aussi voué à l'échec que l'alchimie ; ou si les codes latents seront éventuellement déchiffrables et contrôlables – un développement qui pourrait rendre redondant ce type d'approche plus « extérieurement complexe ».

Synthèse d'images humaines à partir d'ondes radio réfléchies

Ne manquez pas

Le système d'IA identifie les patients COVID-19 qui nécessitent une unité de soins intensifs

Martin Anderson

Écrivain sur l'apprentissage automatique, l'intelligence artificielle et le big data.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai