Intelligence Artificielle
Orchestrer la synthèse faciale avec la segmentation sémantique

Le problème d'inventer des visages humains avec un Réseau d'adversaire génératif (GAN) est que les données du monde réel qui alimentent les fausses images sont accompagnées d'accessoires indésirables et inséparables, tels que des cheveux sur la tête (et/ou le visage), des arrière-plans et divers types de meubles pour le visage, tels que des lunettes, des chapeaux et des boucles d'oreilles ; et que ces aspects périphériques de la personnalité deviennent inévitablement liés dans une identité « fusionnée ».
Dans les architectures GAN les plus courantes, ces éléments ne sont pas adressables dans leur propre espace dédié, mais sont plutôt étroitement associés à la face dans laquelle (ou autour de) laquelle ils sont intégrés.
Il n'est pas non plus généralement possible de dicter ou d'affecter l'apparence de sous-sections d'un visage créé par un GAN, comme rétrécir les yeux, allonger le nez ou changer la couleur des cheveux comme le ferait un dessinateur de la police.
Pourtant, le secteur de la recherche en synthèse d'images y travaille :

De nouvelles recherches sur la génération de visages par GAN ont séparé les différentes sections d'un visage en zones distinctes, chacune dotée de son propre « générateur », fonctionnant de concert avec d'autres générateurs pour l'image. Sur la ligne du milieu, nous voyons la « carte des caractéristiques » orchestrant la création de zones supplémentaires du visage. Source : https://arxiv.org/pdf/2112.02236.pdf
Dans un nouveau papierDes chercheurs de la branche américaine du géant technologique multinational chinois ByteDance ont utilisé la segmentation sémantique pour décomposer les parties constitutives du visage en sections distinctes, chacune étant dotée de son propre générateur, de sorte qu'il est possible d'atteindre un plus grand degré de démêlage. Ou au moins, perceptive démêlage.
Le papier est intitulé SemanticStyleGAN : Apprentissage des priors génératifs compositionnels pour la synthèse et l'édition d'images contrôlables, et est accompagné d'un riche média page du projet présentant de multiples exemples des diverses transformations fines qui peuvent être obtenues lorsque les éléments du visage et de la tête sont isolés de cette manière.

La texture du visage, la coiffure et la couleur des cheveux, la forme et la couleur des yeux et de nombreux autres aspects des caractéristiques autrefois indissolubles générées par le GAN peuvent désormais être de facto démêlés, bien que la qualité de la séparation et le niveau d'instrumentalité soient susceptibles de varier d'un cas à l'autre. Source : https://semanticstylegan.github.io/
L'espace latent ingouvernable
Un réseau antagoniste génératif formé pour générer des visages - comme le StyleGan2 générateur qui alimente le site Web populaire thispersondoesnotexist.com – forme des interrelations complexes entre les « fonctionnalités » (pas au sens facial) qu'il dérive de l'analyse de milliers de visages du monde réel, afin d'apprendre à créer lui-même des visages humains réalistes.
Ces processus clandestins sont des « codes latents », collectivement les espace latent. Ils sont difficiles à analyser, et par conséquent difficiles à instrumentaliser.
La semaine dernière, un nouveau projet de synthèse d'images a émergé qui tente de « cartographier » cet espace quasi-occulte pendant le processus de formation lui-même, puis de utilisez ces cartes pour y naviguer de manière interactive, et diverses autres solutions ont été proposées pour mieux contrôler le contenu synthétisé par GAN.
Des progrès ont été réalisés, avec une offre diversifiée d'architectures GAN qui tentent d'« accéder » à l'espace latent et de contrôler les générations faciales à partir de là . Ces efforts incluent InterfaceGAN, Flux de style, GANSpace et Style Rig, parmi d'autres offres dans un flux constamment productif de nouveaux papiers.
Ce qu'ils ont tous en commun, ce sont des degrés limités de démêlage ; les curseurs ingénieux de l'interface utilisateur graphique pour diverses facettes (telles que « cheveux » ou « expression ») ont tendance à faire glisser l'arrière-plan et/ou d'autres éléments dans le processus de transformation, et aucun d'entre eux (y compris l'article discuté ici) n'a résolu le problème des cheveux neuronaux temporels.
Diviser et conquérir l'espace latent
Dans tous les cas, la recherche ByteDance adopte une approche différente : au lieu d'essayer de discerner les mystères d'un seul GAN ​​fonctionnant sur une image de visage générée entière, SemanticStyleGAN formule une approche basée sur la mise en page, où les visages sont « composés » par des processus générateurs distincts.
Afin d'obtenir cette distinction de caractéristiques (faciales), SemanticStyleGAN utilise Caractéristiques de Fourier générer une carte de segmentation sémantique (distinctions grossièrement colorées de la topographie faciale, montrées vers le bas à droite de l'image ci-dessous) pour isoler les zones du visage qui recevront une attention individuelle et dédiée.

Architecture de la nouvelle approche, qui impose une couche interstitielle de segmentation sémantique sur le visage, transformant efficacement le cadre en un orchestrateur de plusieurs générateurs pour différentes facettes d'une image.
Les cartes de segmentation sont générées pour les fausses images qui sont systématiquement présentées au discriminateur du GAN pour évaluation à mesure que le modèle s'améliore, et pour les images sources (non fausses) utilisées pour la formation.
Au début du processus, un Perceptron multicouche (MLP) cartographie initialement des codes latents choisis au hasard, qui seront ensuite utilisés pour contrôler les poids des plusieurs générateurs qui prendront chacun le contrôle d'une section de l'image du visage à produire.
Chaque générateur crée une carte d'entités et une carte de profondeur simulée à partir des entités de Fourier qui lui sont transmises en amont. Cette sortie est la base des masques de segmentation.
Le réseau de rendu en aval n'est conditionné que par les cartes d'entités antérieures et sait maintenant comment générer un masque de segmentation à plus haute résolution, facilitant la production finale de l'image.
Enfin, un discriminateur bifurqué surveille la distribution concaténée à la fois des images RVB (qui sont, pour nous, le résultat final) et des masques de segmentation qui ont permis de les séparer.
Avec SemanticStyleGAN, il n'y a pas de perturbations visuelles indésirables lors de la « composition » des changements de caractéristiques faciales, car chaque caractéristique faciale a été formée séparément dans le cadre d'orchestration.
Substitution d'arrière-plans
Parce que l'intention du projet est de mieux contrôler l'environnement généré, le processus de rendu/composition comprend un générateur d'arrière-plan formé sur des images réelles.

Une raison impérieuse pour laquelle les arrière-plans ne sont pas entraînés dans les manipulations faciales dans SemanticStyleGAN est qu'ils sont assis sur un calque plus éloigné et sont complets, s'ils sont partiellement masqués par les visages superposés.
Étant donné que les cartes de segmentation produiront des visages sans arrière-plan, ces arrière-plans « intégrés » fournissent non seulement un contexte, mais sont également configurés pour être appropriés, en termes d'éclairage, aux visages superposés.
Formation et données
Les modèles « réalistes » ont été formés sur les 28,000 XNUMX images initiales de CelebAMask-HQ, redimensionné à 256 × 256 pixels pour s'adapter à l'espace d'apprentissage (c'est-à -dire la VRAM disponible, qui dicte une taille de lot maximale par itération).
Plusieurs modèles ont été entraînés, et divers outils, jeux de données et architectures ont été expérimentés au cours du processus de développement et de divers tests d'ablation. Le modèle le plus productif du projet, d'une résolution de 512×512, a été entraîné en 2.5 jours sur huit GPU NVIDIA Tesla V100. Après entraînement, la génération d'une image unique prend 0.137 s sur un GPU à lobes sans parallélisation.
Les expériences de style dessin animé/anime présentées dans les nombreuses vidéos sur la page du projet (voir le lien ci-dessus) sont dérivées de divers ensembles de données populaires basés sur le visage, notamment Toonifier, Visages rencontrés et Bitmoji.
Une solution palliative ?
Les auteurs soutiennent qu'il n'y a aucune raison pour laquelle SemanticStyleGAN ne pourrait pas être appliqué à d'autres domaines, tels que les paysages, les voitures, les églises et tous les autres domaines de test « par défaut » auxquels les nouvelles architectures sont régulièrement soumises au début de leur carrière.
Cependant, le document concède que lorsque le nombre de classes augmente pour un domaine (tel que 'voiture', 'lampadaire, 'piéton', 'bâtiment', 'voiture' etc.), cette approche fragmentaire pourrait devenir irréalisable de plusieurs manières, sans plus de travail sur l'optimisation. L'ensemble de données urbaines CityScapes, par exemple, a 30 cours dans 8 catégories.
Il est difficile de dire si l’intérêt actuel pour la conquête plus directe de l’espace latent est aussi voué à l’échec que l’alchimie ; ou si les codes latents seront finalement déchiffrables et contrôlables – une évolution qui pourrait rendre ce type d’approche plus « complexe extérieurement » redondant.










