Connect with us

Intelligence artificielle

Pourquoi les Deepfakes Ne Peuvent Actuellement Conveyeur de Subtilité d’Émotion

mm
The Book of Boba Fett - Disney

L’annonce d’hier de l’épisode 6 de la série dérivée Star Wars The Book of Boba Fett semble avoir divisé l’opinion des fans. Accueilli avec une approbation générale, il y a une hypothèse répandue sur les réseaux sociaux que la récréation améliorée d’un Mark Hamill rajeuni (comparé à l’apparition précédente du personnage dans le final de la saison 2 de The Mandalorian en 2020) est le résultat direct de l’embauche par Industrial Light and Magic de l’amateur de deepfakes Shamook (qui avait radicalement amélioré son travail avec des logiciels open source) ; et que les rendus du personnage doivent être une combinaison de technologie de deepfake, peut-être nettoyée avec de la CGI.

Il y a actuellement une confirmation limitée de cela, bien que Shamook n’ait dit peu de choses au monde depuis que l’ILM a descendu le NDA contractuel. Néanmoins, le travail est une amélioration extraordinaire par rapport à la CGI de 2020 ; il présente certains des aspects de « brillance » associés aux modèles de deepfake dérivés d’œuvres d’archives ; et en général, il correspond au meilleur standard visuel actuel pour les deepfakes.

L’autre branche de l’opinion des fans est que la nouvelle tentative de « Young Luke » a un ensemble différent de défauts que la précédente. Peut-être le plus révélateur, le manque d’expressivité et d’émotions subtiles et appropriées dans les très longues séquences mettant en vedette la nouvelle récréation de Skywalker sont plus typiques des deepfakes que de la CGI ; The Verge a décrit la simulation de Boba Fett en termes de ‘visage blanc et vide de Mark Hamill en 1983’.

Quelles que soient les technologies derrière la nouvelle récréation d’ILM, les transformations de deepfake ont un problème fondamental avec la subtilité de l’émotion qui est difficile à résoudre, soit par des changements dans l’architecture, soit par l’amélioration du matériel de formation source, et qui est généralement évité par les choix soigneux que les créateurs de deepfakes virales font lors de la sélection d’une cible vidéo.

Limitations d’alignement facial

Les deux référentiels de deepfakes FOSS les plus couramment utilisés sont DeepFaceLab (DFL) et FaceSwap, tous deux dérivés du code source anonyme et controversé de 2017, avec DFL ayant une énorme avance dans l’industrie des effets visuels, malgré son instrumentalité limitée.

Chacun de ces packages est chargé, initialement, d’extraire des repères faciaux des visages qu’il a pu identifier à partir du matériel source (c’est-à-dire des cadres de vidéos et/ou des images fixes).

Adrian Bulat's Facial Alignment Network (FAN) en action, à partir du référentiel officiel. Source : https://github.com/1adrianb/face-alignment

Le Facial Alignment Network (FAN) en action, à partir du référentiel officiel. Source : https://github.com/1adrianb/face-alignment

Les deux DFL et FaceSwap utilisent la bibliothèque Facial Alignment Network (FAN). FAN peut créer des repères faciaux 2D et 3D (voir image ci-dessus) pour les visages extraits. Les repères 3D peuvent prendre en compte de manière extensive l’orientation perçue du visage, jusqu’à des profils extrêmes et des angles relativement aigus.

Cependant, il est évident que ce sont des directives très rudimentaires pour herder et évaluer les pixels :

À partir du forum FaceSwap, un indicateur approximatif des repères disponibles pour les linéaments faciaux. Source : https://forum.faceswap.dev/viewtopic.php?f=25&t=27

À partir du forum FaceSwap, un indicateur approximatif des repères disponibles pour les linéaments faciaux. Source : https://forum.faceswap.dev/viewtopic.php?f=25&t=27

Les linéaments les plus basiques du visage sont autorisés : les yeux peuvent s’ouvrir et se fermer, ainsi que la mâchoire, tandis que les configurations de base de la bouche (comme sourire, froncer les sourcils, etc.) peuvent être tracées et adaptées. Le visage peut pivoter dans n’importe quelle direction jusqu’à environ 200 degrés par rapport au point de vue de la caméra.

Au-delà de cela, ce sont des clôtures assez grossières pour les façons dont les pixels se comporteront dans ces limites, et représentent les seules directives faciales mathématiques et précises dans l’ensemble du processus de deepfake. Le processus de formation lui-même compare simplement la façon dont les pixels sont disposés à l’intérieur ou à proximité de ces limites.

Formation dans DeepFaceLab. Source : https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

Formation dans DeepFaceLab. Source : https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

Puisqu’il n’y a pas de disposition pour la topologie des sous-parties du visage (convexité et concavité des joues, détails de vieillissement, fossettes, etc.), il n’est même pas possible de tenter de correspondre à ces ‘subtiles’ sous-fonctions entre une source (‘visage que vous voulez écrire’) et une cible (‘visage que vous voulez coller’) identité.

Faire avec des données limitées

Obtenir des données correspondantes entre deux identités à des fins de formation de deepfakes n’est pas facile. Plus l’angle dont vous avez besoin pour correspondre est inhabituel, plus vous devrez peut-être compromettre sur le fait que cet angle de correspondance (rare) entre les identités A et B comporte réellement la même expression.

Près, mais pas exactement une correspondance.

Près, mais pas exactement une correspondance.

Dans l’exemple ci-dessus, les deux identités sont assez similaires dans la disposition, mais c’est autant que ce jeu de données peut se rapprocher d’une correspondance exacte.

Des différences claires subsistent : l’angle et l’objectif ne correspondent pas exactement, et la lumière non plus ; le sujet A n’a pas les yeux complètement fermés, contrairement au sujet B ; la qualité d’image et la compression sont pires dans le sujet A ; et d’une manière ou d’une autre, le sujet B semble beaucoup plus heureux que le sujet A.

Mais, vous savez, c’est tout ce que nous avons, donc nous allons devoir nous former dessus quand même.

Puisque cette correspondance A < > B comporte autant d’éléments inhabituels, vous pouvez être certain qu’il y a peu, si ce n’est pas d’appariements similaires dans l’ensemble.

Par conséquent, la formation va soit sous-ajuster soit surdajuster.

Sous-ajuster : Si cette correspondance est une véritable minorité (c’est-à-dire que l’ensemble de données parent est assez grand et ne comporte pas souvent les caractéristiques de ces deux photos), elle n’obtiendra pas beaucoup de temps de formation par rapport aux appariements plus ‘populaires’ (c’est-à-dire faciles / neutres). Par conséquent, cet angle / expression ne sera pas bien représenté dans un deepfake réalisé avec le modèle formé.

Surdajuster : Dans le désespoir de rares correspondances de données pour de tels appariements rares A < > B, les créateurs de deepfakes vont parfois dupliquer l’appariement plusieurs fois dans l’ensemble de données, afin qu’il obtienne une meilleure chance de devenir une fonctionnalité dans le modèle final. Cela entraînera une surdajustement, où les vidéos de deepfake réalisées avec le modèle sont susceptibles de répéter pédamment les correspondances qui sont évidentes entre les deux photos, comme la mesure dans laquelle les yeux sont fermés.

Dans l’image ci-dessous, nous voyons Vladimir Poutine formé dans DeepFaceLab pour effectuer un échange avec Kevin Spacey. Ici, la formation est relativement avancée à 160 000 itérations.

Source : https://i.imgur.com/OdXHLhU.jpg (à l'origine à partir d'un site que je ne peux pas lier ici).

Source : https://i.imgur.com/OdXHLhU.jpg

L’observateur occasionnel pourrait affirmer que Poutine a l’air un peu, eh bien, spacier que Spacey dans ces échanges de test. Voyons ce qu’un programme de reconnaissance d’émotion en ligne fait de la correspondance de l’expression :

Source : https://www.noldus.com/facereader/measure-your-emotions

Source : https://www.noldus.com/facereader/measure-your-emotions

Selon cet oracle particulier, qui analyse une topographie faciale beaucoup plus détaillée que DFL et Faceswap, Spacey est moins en colère, dégoûté et méprisant que le deepfake de Poutine résultant dans cette paire.

Les expressions inégales font partie d’un paquet entrelacé, puisque les applications de deepfakes populaires n’ont pas la capacité de reconnaître ou de correspondre des expressions ou des émotions, sauf de manière tacite, comme un mappage de pixel à pixel brut.

Pour nous, les différences sont énormes. Nous apprenons à lire les expressions faciales comme une technique de survie de base à partir de nos premières années, et continuons à nous appuyer sur cette compétence à l’âge adulte à des fins d’intégration sociale et de progression, d’accouplement et en tant que cadre d’évaluation de la menace en cours. Puisque nous sommes si sensibilisés aux micro-expressions, les technologies de deepfake devraient finalement tenir compte de cela.

À rebours

Bien que la révolution des deepfakes ait apporté la promesse d’insérer des ‘stars de cinéma classiques’ dans des films et des émissions de télévision modernes, l’IA ne peut pas revenir en arrière et tourner leurs œuvres classiques à une définition et une qualité plus compatibles, ce qui est essentiel à cet usage.

En supposant (et pour nos fins, cela n’a pas d’importance si c’est faux) que la reconstruction de Boba Fett de Hamill était en grande partie l’œuvre d’un modèle de deepfake formé, l’ensemble de données pour le modèle aurait dû exploiter des séquences provenant de la période proche de la chronologie de l’émission (c’est-à-dire Hamill en tant que jeune trentenaire autour du moment de la production pour Return of the Jedi, 1981-83).

Le film a été tourné sur du négatif Eastman Color 250T 5293/7293, un émulsion 250ASA considérée comme à grain moyen à fin à l’époque, mais dépassée en clarté, en gamme de couleurs et en fidélité même à la fin des années 80. Il s’agit d’un stock de son époque, et la portée opératique de Jedi n’a accordé que peu de gros plans même à ses acteurs principaux, ce qui rend les problèmes de grain encore plus critiques, puisque les visages sources n’occupent qu’une partie du cadre.

Une gamme de scènes de Hamill dans Return of the Jedi (1983).

Une gamme de scènes de Hamill dans Return of the Jedi (1983).

De plus, une grande partie des séquences avec effets visuels mettant en vedette Hamill aurait été exécutée sur une imprimante optique, augmentant le grain du film. Cependant, l’accès aux archives de Lucasfilm – qui ont probablement pris soin des négatifs maîtres et pourraient offrir des heures de séquences brutes non utilisées supplémentaires – pourrait surmonter ce problème.

Parfois, il est possible de couvrir une gamme d’années de production d’un acteur afin d’augmenter et de diversifier l’ensemble de données de deepfake. Dans le cas de Hamill, les créateurs de deepfakes sont handicapés par son changement d’apparence après un accident de voiture en 1977, et le fait qu’il a commencé immédiatement sa deuxième carrière en tant qu’acteur de voix acclamé après Jedi, ce qui rend le matériel source relativement rare.

Plage limitée d’émotions ?

Si vous avez besoin que votre acteur de deepfake mastique le décor, vous aurez besoin de séquences source qui contiennent une gamme inhabituellement large d’expressions faciales. Il se peut que les seules séquences source disponibles à l’âge approprié ne comportent pas beaucoup de ces expressions.

Par exemple, au moment où l’arc narratif de Return of the Jedi est venu, le personnage de Hamill avait en grande partie maîtrisé ses émotions, un développement absolument central à la mythologie de la franchise originale. Par conséquent, si vous créez un modèle de deepfake de Hamill à partir de données de Jedi, vous devrez travailler avec la gamme plus limitée d’émotions et de composition faciale inhabituelle que le rôle de Hamill exigeait de lui à ce moment-là, par rapport à ses entrées précédentes dans la franchise.

Même si vous considérez qu’il y a des moments dans Return of the Jedi où le personnage de Skywalker est sous pression et pourrait fournir du matériel pour une plus grande gamme d’expressions, le matériel facial dans ces scènes est néanmoins fugace et soumis au flou de mouvement et à la coupe rapide typique des scènes d’action ; donc les données sont assez déséquilibrées.

Généralisation : le mélange des émotions

Si la reconstruction de Boba Fett de Skywalker est effectivement un deepfake, le manque de gamme d’expression qui lui a été imputé de la part de certains quartiers ne serait pas entièrement dû à un matériel source limité. Le processus de formation d’encodeur-décodeur des deepfakes recherche un modèle généralisé qui distille avec succès les fonctionnalités centrales de milliers d’images et peut au moins tenter de deepfaker un angle qui manquait ou était rare dans l’ensemble de données.

Si ce n’était pas pour cette flexibilité, une architecture de deepfake serait simplement en train de copier et de coller des morphes de base sur une base par cadre, sans tenir compte de l’adaptation temporelle ou du contexte.

Cependant, le compromis douloureux pour cette polyvalence est que la fidélité de l’expression est susceptible d’être une victime du processus, et que les expressions qui sont ‘subtiles’ peuvent ne pas être les bonnes. Nous jouons tous nos visages comme des orchestres à 100 pièces et sommes bien équipés pour le faire, tandis que les logiciels de deepfake sont arguables manquent d’au moins la section des cordes.

Disparité d’affect dans les expressions

Les mouvements faciaux et leurs effets sur nous ne sont pas un langage uniforme sur tous les visages ; le sourcil levé qui a l’air insouciant sur Roger Moore pourrait avoir l’air moins sophistiqué sur Seth Rogan, tandis que le charme séducteur de Marilyn Monroe pourrait se traduire par une émotion négative si elle est deepfakée sur une personne dont le rôle le plus disponible est ‘en colère’ ou ‘défectueux’ (comme le personnage d’Aubrey Plaza dans sept saisons de Parks and Recreation).

Par conséquent, l’équivalence pixel à pixel entre les ensembles de visages A / B n’est pas nécessairement utile à cet égard ; mais c’est tout ce qui est offert dans les logiciels de deepfake FOSS de pointe.

Ce qui est arguables nécessaire est un cadre de deepfake qui ne peut pas seulement reconnaître les expressions et inférer les émotions, mais a la capacité d’incarner des concepts de haut niveau tels que en colère, séducteur, ennuyé, fatigué, etc., et de catégoriser ces émotions et leurs expressions liées dans chacune des deux identités de visage, plutôt que d’examiner et de répliquer la disposition d’une bouche ou d’une paupière.

 

 

Publié pour la première fois le 3 février 2022. Mis à jour à 19h47 EET, attribution de nom incorrecte.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.