Intelligence Artificielle
GAN en tant que moteur de rendu de visage pour CGI "traditionnel"

Opinion Lorsque les réseaux antagonistes génératifs (GAN) ont démontré pour la première fois leur capacité à reproduire de manière époustouflante réaliste Faces 3D, l'avènement a déclenché une ruée vers l'or pour le potentiel non exploité des GAN pour créer une vidéo temporellement cohérente mettant en vedette des visages humains.
Quelque part dans l'espace latent du GAN, il semblait qu'il y avait doit être un ordre et une rationalité cachés - un schéma de logique sémantique naissante, enfoui dans les codes latents, qui permettrait à un GAN de générer des vues multiples cohérentes et des interprétations multiples (telles que des changements d'expression) du même face – et ensuite offrir une méthode vidéo deepfake temporellement convaincante qui exploserait auto-encodeurs hors de l'eau.
Une sortie haute résolution serait triviale, comparée aux environnements basse résolution de type bidonville dans lesquels les contraintes GPU obligent DeepFaceLab et FaceSwap à fonctionner, tandis que la «zone d'échange» d'un visage (dans les flux de travail d'encodeur automatique) deviendrait la «zone de création» d'un GAN, informé par une poignée d'images d'entrée, voire une seule image.
Il n'y aurait plus de discordance entre les faces 'swap' et 'host', car la intégralité de l'image serait générée à partir de zéro, y compris les cheveux, les lignes de la mâchoire et les extrémités les plus externes des linéaments du visage, ce qui s'avère souvent un défi pour les deepfakes « traditionnels » à encodeur automatique.
L'hiver de la vidéo faciale GAN
Comme il s'est avéré, cela n'allait pas être aussi facile. Finalement, démêlage s'est avéré être le problème central et demeure le principal défi. Comment pouvez-vous garder une identité faciale distincte et changer sa pose ou son expression sans rassembler un corpus de milliers d'images de référence qui enseignent à un réseau de neurones ce qui se passe lorsque ces changements sont mis en œuvre, comme le font si laborieusement les systèmes d'auto-encodage ?
Au contraire, la réflexion ultérieure dans la recherche sur la mise en acte et la synthèse faciale du GAN était qu'une identité d'entrée pourrait peut-être être soumise à des critères téléologiques, génériques, modélisé transformations qui ne sont pas spécifiques à l'identité. Un exemple de ceci serait d'appliquer une expression à un visage GAN qui n'était présent dans aucune des images de cette personne que le GAN connaît.

À partir de l'article de 2022 Tensor-based Emotion Editing in the StyleGAN Latent Space, des expressions modélisées sont appliquées à un visage d'entrée à partir de l'ensemble de données FFHQ. Source : https://arxiv.org/pdf/2205.06102.pdf
Il est évident qu'une approche « taille unique » ne peut pas couvrir la diversité des expressions faciales propres à un individu. C'est à se demander si un sourire aussi unique que celui de Jack Nicholson ou de Willem Dafoe pourrait recevoir une interprétation fidèle sous l'influence de codes latents d'une telle « moyenne expression moyenne ».

Qui est ce charmant étranger latino ? Bien que la méthode GAN produise un visage plus «réaliste» et à plus haute résolution, la transformation n'est pas informée par plusieurs images réelles de l'acteur, comme c'est le cas avec DeepFaceLab, qui s'entraîne intensivement sur une base de données de milliers de ces images, et par conséquent la ressemblance est compromise. Ici (arrière-plan) un modèle DeepFaceLab est importé dans DeepFaceLive, une implémentation en streaming du logiciel populaire et controversé. Les exemples proviennent de https://www.youtube.com/watch?v=9tr35y-yQRY (2022) et https://arxiv.org/pdf/2205.06102.pdf.
Un certain nombre d'éditeurs d'expressions faciales GAN ont été proposés au cours des dernières années, la plupart d'entre eux faire face à des identités inconnues, où la fidélité des transformations est impossible à connaître pour le lecteur occasionnel, puisqu'il ne s'agit pas de visages familiers.

Des identités obscures transformées dans l'offre 2020 Cascade-EF-GAN. Source : https://arxiv.org/pdf/2003.05905.pdf
Peut-être que l'éditeur de visages du GAN qui a suscité le plus d'intérêt (et de citations) au cours des trois dernières années est InterfaceGAN, qui peut effectuer des traversées spatiales latentes dans des codes latents liés à la pose (angle de la caméra/du visage), à ​​l'expression, à l'âge, à la race, au sexe et à d'autres qualités essentielles.
Les capacités de "morphing" de style années 1980 d'InterFaceGAN et de frameworks similaires sont principalement un moyen d'illustrer le chemin vers la transformation lorsqu'une image est reprojetée à travers un code latent approprié (tel que "l'âge"). En termes de production de séquences vidéo avec une continuité temporelle, de tels schémas ont jusqu'à présent été qualifiés de «catastrophes impressionnantes».
Si vous ajoutez à cela le difficulté à créer des cheveux temporellement cohérents, et le fait que la technique d'exploration/manipulation de code latent n'a pas de directives temporelles innées avec lesquelles travailler (et il est difficile de savoir comment injecter de telles directives dans un cadre conçu pour accueillir et générer des images fixes, et qui n'a aucune disposition native pour la sortie vidéo), il pourrait être logique de conclure que GAN n'est pas All You Need™ pour la synthèse vidéo faciale.
Par conséquent, les efforts ultérieurs ont donné améliorations progressives en démêlage, tandis que d'autres se sont appuyés sur d'autres conventions de vision par ordinateur comme « couche d'orientation », comme l'utilisation de la segmentation sémantique comme mécanisme de contrôle fin 2021. papier SemanticStyleGAN : Apprentissage des priors génératifs compositionnels pour la synthèse et l'édition d'images contrôlables.

La segmentation sémantique comme méthode d'instrumentalité de l'espace latent dans SemanticStyleGAN. Source : https://semanticstylegan.github.io/
Guidage paramétrique
La communauté de recherche sur la synthèse faciale du GAN s'oriente de plus en plus vers l'utilisation de visages CGI paramétriques «traditionnels» comme méthode pour guider et mettre de l'ordre dans les codes latents impressionnants mais indisciplinés dans l'espace latent d'un GAN.
Bien que les primitives faciales paramétriques aient été un élément essentiel de la recherche sur la vision par ordinateur pendant plus de vingt ans, l'intérêt pour cette approche s'est accru ces derniers temps, avec l'utilisation accrue du modèle linéaire multi-personnes à peau (SMPL) Les primitives CGI, une approche mise au point par l'Institut Max Planck et l'ILM, et améliorée depuis avec le Sparse Trained Articulated Human Body Regressor (STAR) cadre.

SMPL (dans ce cas une variante appelée SMPL-X) peut imposer un maillage paramétrique CGI qui s'accorde avec la pose estimée (y compris les expressions, si nécessaire) de l'intégralité du corps humain présenté dans une image, permettant d'effectuer de nouvelles opérations sur l'image en utilisant le maillage paramétrique comme volumétrique ou perceptuel ligne directrice. Source : https://arxiv.org/pdf/1904.05866.pdf
Le développement le plus acclamé de cette gamme a été Disney's 2019 Rendu avec style initiative, qui a fusionné l'utilisation de cartes de texture traditionnelles avec des images générées par GAN, dans le but de créer une sortie animée améliorée de « style deepfake ».

L'ancien rencontre le nouveau, dans l'approche hybride de Disney des deepfakes générés par le GAN. Source : https://www.youtube.com/watch?v=TwpLqTmvqVk
L'approche Disney impose des facettes CGI traditionnellement rendues dans un réseau StyleGAN2 pour "peindre" des sujets faciaux humains dans des "zones à problèmes", où la cohérence temporelle est un problème pour la génération vidéo - des zones telles que la texture de la peau.

Le flux de travail Rendu avec style.
Étant donné que la tête CGI paramétrique qui guide ce processus peut être modifiée et modifiée en fonction de l'utilisateur, le visage généré par GAN est capable de refléter ces changements, y compris les changements de pose et d'expression de la tête.
Bien que conçus pour marier l'instrumentalité de CGI avec le réalisme naturel des visages GAN, au final, les résultats démontrent le pire des deux mondes, et ne parviennent toujours pas à maintenir la cohérence de la texture des cheveux et même du positionnement des fonctionnalités de base :

Un nouveau type de vallée étrange émerge de Rendering with Style, bien que le principe ait encore du potentiel.
La solution 2020 papier StyleRig : Rigging StyleGAN pour un contrôle 3D sur des images de portrait adopte une approche de plus en plus populaire, avec l'utilisation de modèles de visage morphables en trois dimensions (3DMM) en tant que mandataires pour modifier les caractéristiques dans un environnement StyleGAN, dans ce cas via un nouveau réseau de gréement appelé RigNet :

Les 3DMM servent de proxy pour les interprétations de l'espace latent dans StyleRig. Source : https://arxiv.org/pdf/2004.00121.pdf
Cependant, comme d'habitude avec ces initiatives, les résultats à ce jour semblent limités à des manipulations de pose minimales et à des changements d'expression/d'affect « non informés ».

StyleRig améliore le niveau de contrôle, bien que des cheveux cohérents dans le temps restent un défi non résolu. Source : https://www.youtube.com/watch?v=eaW_P85wQ9k
Une sortie similaire peut être trouvée auprès de Mitsubishi Research LE PLUS-GAN, Un 2021 papier qui utilise des 3DMM non linéaires comme architecture de désenchevêtrement, mais qui les luttes pour obtenir un mouvement dynamique et cohérent.
La dernière recherche pour tenter d'instrumentalité et de démêlage est Reconstitution faciale unique sur mégapixels, qui utilise à nouveau les têtes paramétriques 3DMM comme interface conviviale pour StyleGAN.

Dans le flux de travail MegaFR de One-Shot Face Reenactment, le réseau effectue une synthèse faciale en combinant une image inversée du monde réel avec des paramètres tirés d'un modèle 3DMM rendu. Source : https://arxiv.org/pdf/2205.13368.pdf
OSFR appartient à une classe croissante d'éditeurs de visage GAN qui cherchent à développer des flux de travail d'édition linéaire de style Photoshop/After Effects où l'utilisateur peut saisir une image souhaitée sur laquelle des transformations peuvent être appliquées, plutôt que de rechercher dans l'espace latent des codes latents liés à une identité.
Encore une fois, les expressions paramétriques représentent une méthode globale et non personnalisée d'injection d'expression, conduisant à des manipulations qui semblent «étranges» à leur manière, pas toujours positives.
Comme les travaux antérieurs, OSFR peut déduire des poses quasi originales à partir d'une seule image, et également effectuer une `` frontalisation '', où une image posée décentrée est traduite en un mugshot:

Images mugshot originales (ci-dessus) et déduites de l'une des implémentations d'OSFR détaillées dans le nouvel article.
En pratique, ce type d'inférence est similaire à certains des principes de photogrammétrie qui sous-tendent Champs de rayonnement neuronal (NeRF), sauf que la géométrie ici doit être définie par une seule photo, plutôt que par les 3-4 points de vue qui permettent à NeRF d'interpréter les poses interstitielles manquantes et de créer des scènes neurales 3D explorables mettant en scène des humains.
(Cependant, NeRF n'est pas non plus All You Need™, car il porte presque ensemble de barrages routiers entièrement différent aux GAN en termes de production de synthèse vidéo faciale)
Le GAN a-t-il sa place dans la synthèse vidéo faciale ?
Réaliser des expressions dynamiques et des poses hors distribution à partir d'une image source unique semble être une obsession alchimique dans la recherche sur la synthèse faciale GAN en ce moment, principalement parce que les GAN sont la seule méthode actuellement capable de produire une résolution assez élevée et relativement élevée. faces neurales de fidélité : bien que les frameworks deepfake d'auto-encodeur puissent s'entraîner sur une multitude de poses et d'expressions du monde réel, ils doivent fonctionner à des résolutions d'entrée/sortie restreintes à la VRAM et nécessitent un "hôte" ; tandis que NeRF est soumis à des contraintes similaires et, contrairement aux deux autres approches, ne dispose actuellement d'aucune méthodologie établie pour modifier les expressions faciales et souffre d'une éditabilité limitée en général.
Il semble que la seule voie à suivre pour un système de synthèse faciale CGI/GAN précis soit une nouvelle initiative visant à trouver un moyen d'assembler une entité d'identité multi-photos à l'intérieur de l'espace latent, où un code latent pour l'identité d'une personne n'a pas à parcourir tout le chemin à travers l'espace latent pour exploiter des paramètres de pose non liés, mais peut se référer à ses propres images liées (du monde réel) comme références pour les transformations.
Même dans un tel cas, ou même si un réseau StyleGAN entier était formé sur un ensemble de visages à identité unique (similaire aux ensembles de formation utilisés par les encodeurs automatiques), la logique sémantique manquante devrait encore probablement être fournie par des technologies complémentaires telles que segmentation sémantique ou visages 3DMM paramétriques, qui, dans un tel scénario, auraient au moins plus de matière à travailler.