Intelligence artificielle
GAN en tant que rendu de visage pour la ‘traditionnelle’ CGI

Opinion Lorsque les réseaux antagonistes génératifs (GAN) ont démontré leur capacité à reproduire des visages 3D réalistes, l’avènement a déclenché une ruée vers l’or pour le potentiel inexploité des GAN pour créer des vidéos temporellement cohérentes mettant en scène des visages humains.
Quelque part dans l’espace latent du GAN, il semblait qu’il devait y avoir un ordre caché et une rationalité – un schéma de logique sémantique nascente, enfoui dans les codes latents, qui permettrait à un GAN de générer des vues multiples et des interprétations multiples (telles que des changements d’expression) du même visage – et de proposer par la suite une méthode de vidéo deepfake temporellement convaincante qui ferait exploser les autoencodeurs hors de l’eau.
La sortie haute résolution serait trivialement simple, par rapport aux environnements basse résolution ressemblant à des bidonvilles dans lesquels les contraintes GPU obligent DeepFaceLab et FaceSwap à fonctionner, tandis que la « zone d’échange » d’un visage (dans les flux de travail d’autoencodeurs) deviendrait la « zone de création » d’un GAN, informée par une poignée d’images d’entrée, ou même par une seule image.
Il n’y aurait plus de discordance entre les visages « d’échange » et « hôte », car la totalité de l’image serait générée à partir de zéro, y compris les cheveux, les mâchoires et les extrémités les plus externes des traits du visage, qui prouvent souvent être un défi pour les « traditionnels » deepfakes d’autoencodeurs.
L’hiver du visage GAN
Comme il s’est avéré, ce n’allait pas être aussi facile. Finalement, la disjonction s’est avérée être le problème central et reste le principal défi. Comment peut-on conserver une identité faciale distincte et changer sa pose ou son expression sans rassembler un corpus de milliers d’images de référence qui enseignent à un réseau neuronal ce qui se passe lorsque ces changements sont mis en œuvre, de la même manière que les systèmes d’autoencodeurs le font avec tant de peine ?
Plutôt, la réflexion ultérieure dans la recherche sur la synthèse et l’incarnation faciale GAN a été que l’identité d’entrée pourrait peut-être être soumise à des transformations génériques, téléologiques, templétées qui ne sont pas spécifiques à l’identité. Un exemple de ceci serait d’appliquer une expression à un visage GAN qui n’était pas présente dans aucune des images de cette personne que le GAN connaît.

À partir du document de 2022 Tensor-based Emotion Editing in the StyleGAN Latent Space, des expressions templétées sont appliquées à un visage d’entrée à partir de l’ensemble de données FFHQ. Source : https://arxiv.org/pdf/2205.06102.pdf
Il est évident qu’une approche « taille unique » ne peut pas couvrir la diversité des expressions faciales uniques à un individu. Nous devons nous demander si un sourire aussi unique que celui de Jack Nicholson ou Willem Dafoe pourrait jamais recevoir une interprétation fidèle sous l’influence de tels codes latents « moyenne d’expression ».

Qui est cet étranger latin charmant ? Bien que la méthode GAN produise un visage plus « réaliste » et à plus haute résolution, la transformation n’est pas informée par de multiples images du monde réel de l’acteur, comme c’est le cas avec DeepFaceLab, qui s’entraîne longuement sur une base de données de milliers de telles images, et par conséquent la ressemblance est compromise. Ici (en arrière-plan) un modèle DeepFaceLab est importé dans DeepFaceLive, une mise en œuvre de streaming du logiciel populaire et controversé. Exemples à partir de https://www.youtube.com/watch?v=9tr35y-yQRY (2022) et https://arxiv.org/pdf/2205.06102.pdf.
Un certain nombre d’éditeurs d’expressions faciales GAN ont été proposés au cours des dernières années, la plupart d’entre eux traitant d’identités inconnues, où la fidélité des transformations est impossible pour le lecteur occasionnel de savoir, puisque ce sont des visages qui ne sont pas familiers.

Des identités obscures transformées dans l’offre 2020 Cascade-EF-GAN. Source : https://arxiv.org/pdf/2003.05905.pdf
Peut-être que l’éditeur de visage GAN qui a reçu le plus d’intérêt (et de citations) au cours des trois dernières années est InterFaceGAN, qui peut effectuer des traversées d’espace latent dans les codes latents relatifs à la pose (angle de la caméra/visage), à l’expression, à l’âge, à la race, au sexe et à d’autres qualités essentielles.
Les capacités de « morphing » à la mode des années 80 d’InterFaceGAN et de cadres similaires sont principalement un moyen d’illustrer le chemin vers la transformation lorsqu’une image est reprojétée à travers un code latent approprié (tel que « l’âge »). En termes de production de séquences vidéo avec une continuité temporelle, de tels schémas sont à ce jour qualifiés de « désastres impressionnants ».
Si vous ajoutez à cela la difficulté de créer des cheveux temporellement cohérents, et le fait que la technique d’exploration/manipulation de code latent n’a pas de lignes directrices temporelles innées pour travailler (et qu’il est difficile de savoir comment injecter de telles lignes directrices dans un cadre conçu pour accueillir et générer des images fixes, et qui n’a pas de provision native pour la sortie vidéo), il pourrait être logique de conclure que GAN n’est pas Tout ce dont vous avez besoin ™ pour la synthèse de vidéo faciale.
Par conséquent, les efforts ultérieurs ont donné lieu à des améliorations incrémentielles dans la disjonction, tandis que d’autres ont ajouté d’autres conventions en vision par ordinateur en tant que « couche de guidage », telles que l’utilisation de la segmentation sémantique comme mécanisme de contrôle dans le document de fin 2021 paper SemanticStyleGAN : Apprentissage de priorités génératives compositionnelles pour la synthèse et l’édition d’images contrôlables.

La segmentation sémantique comme méthode d’instrumentalité de l’espace latent dans SemanticStyleGAN. Source : https://semanticstylegan.github.io/
Guidage paramétrique
La communauté de recherche sur la synthèse faciale GAN se dirige de plus en plus vers l’utilisation de visages CGI « traditionnels » paramétriques comme méthode pour guider et apporter de l’ordre aux codes latents impressionnants mais indisciplinés dans l’espace latent d’un GAN.
Bien que les primitives faciales paramétriques aient été un élément essentiel de la recherche en vision par ordinateur depuis plus de vingt ans, l’intérêt pour cette approche a augmenté ces derniers temps, avec l’utilisation accrue de primitives CGI Skinned Multi-Person Linear Model (SMPL), une approche pionnière par l’Institut Max Planck et ILM, et depuis améliorée avec le cadre Sparse Trained Articulated Human Body Regressor (STAR).

SMPL (dans ce cas une variante appelée SMPL-X) peut imposer une maille paramétrique CGI qui correspond à la pose estimée (y compris les expressions, si nécessaire) de la totalité du corps humain présent dans une image, permettant de nouvelles opérations à effectuer sur l’image en utilisant la maille paramétrique comme guide volumétrique ou perceptuel. Source : https://arxiv.org/pdf/1904.05866.pdf
Le développement le plus acclamé dans cette ligne a été l’initiative « Rendering with Style » de Disney en 2019, qui a fusionné l’utilisation de cartes de texture traditionnelles avec des images générées par GAN, dans une tentative de créer une sortie animée améliorée, de type « deepfake ».

Le vieux rencontre le nouveau, dans l’approche hybride de Disney pour les deepfakes générés par GAN. Source : https://www.youtube.com/watch?v=TwpLqTmvqVk
L’approche de Disney impose des facettes CGI traditionnellement rendues dans un réseau StyleGAN2 pour « retoucher » les sujets faciaux humains dans les « zones de problème », où la cohérence temporelle est un problème pour la génération de vidéos – des zones telles que la texture de la peau.

Le flux de travail Rendering with Style.
Puisque la tête CGI paramétrique qui guide ce processus peut être ajustée et modifiée pour convenir à l’utilisateur, le visage généré par GAN est en mesure de refléter ces changements, y compris les changements de pose et d’expression de la tête.
Bien que conçu pour marier l’instrumentalité de la CGI avec le réalisme naturel des visages GAN, finalement, les résultats démontrent le pire des deux mondes, et échouent toujours à maintenir la texture des cheveux et même la position des traits de base cohérentes :

Un nouveau type de vallée de l’incroyable émerge de Rendering with Style, bien que le principe conserve encore un certain potentiel.
Le document de 2020 paper StyleRig : Equipement de StyleGAN pour un contrôle 3D sur les images de portrait adopte une approche de plus en plus populaire, avec l’utilisation de modèles de visage morphables 3D (3DMM) comme proxys pour modifier les caractéristiques dans un environnement StyleGAN, dans ce cas à travers un réseau de gréage appelé RigNet :

Les 3DMM servent de proxys pour les interprétations de l’espace latent dans StyleRig. Source : https://arxiv.org/pdf/2004.00121.pdf
Cependant, comme d’habitude avec ces initiatives, les résultats à ce jour semblent limités à des manipulations minimales de pose, et à des changements d’expression « non informés ».

StyleRig améliore le niveau de contrôle, bien que les cheveux temporellement cohérents restent un défi non résolu. Source : https://www.youtube.com/watch?v=eaW_P85wQ9k
Des sorties similaires peuvent être trouvées à partir de Mitsubishi Research’s MOST-GAN, un document de 2021 paper qui utilise des 3DMM non linéaires comme une architecture de disjonction, mais qui luttent également pour atteindre un mouvement dynamique et cohérent.
La dernière recherche à tenter l’instrumentalité et la disjonction est Reconstitution d’un visage en une seule prise sur des mégapixels, qui utilise à nouveau des têtes 3DMM paramétriques comme interface conviviale pour StyleGAN.

Dans le flux de travail MegaFR de Reconstitution d’un visage en une seule prise, le réseau effectue une synthèse faciale en combinant une image du monde réel inversée avec des paramètres pris à partir d’un modèle 3DMM rendu. Source : https://arxiv.org/pdf/2205.13368.pdf
OSFR appartient à une classe croissante d’éditeurs de visage GAN qui cherchent à développer des flux de travail d’édition linéaire de type Photoshop/After Effects, où l’utilisateur peut saisir une image souhaitée sur laquelle des transformations peuvent être appliquées, plutôt que de parcourir l’espace latent à la recherche de codes latents liés à une identité.
Encore une fois, les expressions paramétriques représentent une méthode globale et non personnalisée d’injecter une expression, conduisant à des manipulations qui semblent « incroyables » à leur manière, pas toujours positive.
Comme les travaux précédents, OSFR peut inférer des poses presque originales à partir d’une seule image, et effectuer également une « frontalisation », où une image posée hors centre est traduite en une photo de face :

Image originale (au-dessus) et image de face inférée à partir de l’une des mises en œuvre d’OSFR détaillées dans le nouveau document.
Dans la pratique, ce type d’inférence est similaire à certains principes de photogrammétrie qui sous-tendent les Champs de rayonnement neural (NeRF), à l’exception que la géométrie ici doit être définie par une seule photo, plutôt que les 3-4 points de vue qui permettent à NeRF d’interpréter les poses interstitielles manquantes et de créer des scènes neurales 3D explorables mettant en scène des humains.
(Cependant, NeRF n’est pas Tout ce dont vous avez besoin ™ non plus, car il comporte presque un ensemble entièrement différent d’obstacles pour les GAN en termes de production de synthèse de vidéo faciale)
Le GAN a-t-il sa place dans la synthèse de vidéo faciale ?
Atteindre des expressions dynamiques et des poses hors de la distribution à partir d’une seule image source semble être une obsession alchimique dans la recherche sur la synthèse faciale GAN en ce moment, principalement parce que les GAN sont la seule méthode actuellement capable de produire des visages neuronaux à haute résolution et à fidélité relativement élevée : bien que les cadres de deepfake d’autoencodeur puissent s’entraîner sur une multitude de poses et d’expressions du monde réel, ils doivent fonctionner à des résolutions d’entrée/sortie restreintes par la VRAM, et nécessitent un « hôte » ; tandis que NeRF est similairement contraint, et – contrairement aux deux autres approches – n’a actuellement pas de méthodologies établies pour changer les expressions faciales, et souffre d’une éditabilité limitée en général.
Il semble que la seule voie à suivre pour un système de synthèse de visage CGI/GAN précis est qu’une nouvelle initiative trouve un moyen d’assembler une entité d’identité multi-photo à l’intérieur de l’espace latent, où un code latent pour l’identité d’une personne n’a pas besoin de parcourir tout l’espace latent pour exploiter des paramètres de pose non liés, mais peut se référer à ses propres images liées (du monde réel) comme références pour les transformations.
Même dans un tel cas, ou même si un réseau StyleGAN entier était formé sur un ensemble de visages à identité unique (semblable aux ensembles de formation que les autoencodeurs utilisent), la logique sémantique manquante devrait encore probablement être fournie par des technologies auxiliaires telles que la segmentation sémantique ou les visages 3DMM paramétriques, qui, dans un tel scénario, auraient au moins plus de matériel à travailler.











