Intelligence artificielle
Le désenchevêtrement est la prochaine révolution Deepfake
L'augmentation des données CGI est utilisée dans un nouveau projet pour mieux contrôler les images deepfake. Bien que vous ne puissiez toujours pas utiliser efficacement les têtes CGI pour combler les lacunes manquantes dans les ensembles de données faciales deepfake, une nouvelle vague de recherche sur la séparation de l'identité du contexte signifie que bientôt, vous n'aurez peut-être plus à le faire.
Les créateurs de certaines des vidéos deepfake virales les plus réussies de ces dernières années sélectionnent très soigneusement leurs vidéos sources, en évitant les prises de vue de profil soutenues (c'est-à-dire le genre de clichés latéraux popularisés par les procédures d'arrestation policière), les angles aigus et les expressions inhabituelles ou exagérées. . De plus en plus, les vidéos de démonstration produites par les deepfakers viraux sont des compilations éditées qui sélectionnent les angles et les expressions les plus "faciles" à deepfake.
En fait, la vidéo cible la plus accommodante dans laquelle insérer une célébrité deepfake est celle où la personne d'origine (dont l'identité sera effacée par le deepfake) regarde directement la caméra, avec une gamme minimale d'expressions.
Parce que les technologies deepfake telles que Laboratoire DeepFace ainsi que Échange de visage effectuent très bien ces échanges plus simples, nous sommes suffisamment éblouis par ce qu'ils accomplissent pour ne pas remarquer ce dont ils sont incapables et - souvent - n'essayent même pas :
Nouvelle recherche d'Israël propose une nouvelle méthode d'utilisation de données synthétiques, telles que les têtes CGI, pour introduire le deepfaking dans les années 2020, en séparant véritablement les identités faciales (c'est-à-dire les caractéristiques faciales essentielles de « Tom Cruise », sous tous les angles) de leur contexte (c'est-à-dire les caractéristiques faciales essentielles de « Tom Cruise », sous tous les angles). levant les yeux, regarder de côté, renfrogné, renfrogné dans le noir, les sourcils froncés, yeux fermés, Etc).
Ce n'est pas simple marionnette de tête deepfake, une technique plus adaptée aux avatars et à la synchronisation labiale partielle du visage, et qui a un potentiel limité pour les transformations vidéo deepfake à part entière.
Cela représente plutôt une voie vers une séparation fondamentale de l'instrumentalité (telle que 'changer l'angle de la tête', 'créer un froncement de sourcils') de l'identité, offrant un chemin vers un framework deepfake basé sur la synthèse d'images de haut niveau plutôt que "dérivé".
Le nouveau journal s'intitule Delta-GAN-Encoder : codage des modifications sémantiques pour l'édition d'images explicites, à l'aide de quelques échantillons synthétiques, et provient de chercheurs du Technion - Israel Institute of Technology.
Pour comprendre ce que signifie le travail, examinons comment les deepfakes sont actuellement produits partout, des sites pornographiques deepfake aux Lumière et magie industrielles (puisque le référentiel open source DeepFaceLab est actuellement dominant dans le deepfaking "amateur" et professionnel).
Qu'est-ce qui retient la technologie Deepfake actuelle ?
Les deepfakes sont actuellement créés en formant un encodeur/décodeur modèle d'apprentissage automatique sur deux dossiers d'images de visage : la personne que vous souhaitez « peindre » (dans l'exemple précédent, il s'agit d'Arnie) et la personne que vous souhaitez superposer dans la séquence (Sly).
Le système codeur/décodeur compare chaque image dans chaque dossier l'un à l'autre, entretenant, améliorant et répétant cette opération pendant des centaines de milliers d'itérations (souvent aussi longtemps qu'une semaine), jusqu'à ce qu'il comprenne suffisamment bien les caractéristiques essentielles des deux identités pour les échanger à volonté.
Pour chacune des deux personnes échangées au cours du processus, ce que l'architecture deepfake apprend sur l'identité est enchevêtré avec le contexte. Il ne peut pas apprendre et appliquer les principes d'une pose générique "pour le bien et pour tous", mais a besoin d'exemples abondants dans l'ensemble de données de formation, pour chaque identité qui sera impliquée dans l'échange de visage.
Par conséquent, si vous souhaitez échanger deux identités qui font quelque chose de plus inhabituel que simplement sourire ou regarder directement la caméra, vous aurez besoin de nombreuses instances de cette pose/identité particulière sur les deux ensembles de visages :
Si l'ensemble A contient la pose inhabituelle, mais que l'ensemble B n'en a pas, vous n'avez pas de chance ; quelle que soit la durée d'entraînement du modèle, il n'apprendra jamais à bien reproduire cette pose entre les identités, car il ne disposait que de la moitié des informations nécessaires lors de son entraînement.
Même si vous avez des images correspondantes, cela peut ne pas suffire : si l'ensemble A a la pose correspondante, mais avec un éclairage latéral sévère, par rapport à la pose équivalente éclairée à plat dans l'autre ensemble de visages, la qualité de l'échange a gagné ne sera pas aussi bon que si chacun partageait des caractéristiques d'éclairage communes.
Pourquoi les données sont rares
À moins que vous ne soyez arrêté régulièrement, vous n'avez probablement pas autant de photos de profil de vous-même. Tout ce qui est venu, vous l'avez probablement jeté. Comme les agences photo font de même, les photos de visage de profil sont difficiles à trouver.
Les deepfakers incluent souvent plusieurs copies des données de profil de vue latérale limitées dont ils disposent pour une identité dans un ensemble de visages, juste pour que la pose obtienne au moins un peu l'attention et le temps pendant la formation, au lieu d'être considéré comme un valeur aberrante.
Mais il y a beaucoup plus de types possibles d'images de visage en vue latérale que ceux qui sont susceptibles d'être disponibles pour être inclus dans un ensemble de données - souriant, renfrogné, crier, pleurs, sombrement éclairé, méprisant, ennuyé, joyeux, flash éclairé, levant les yeux, regarder en bas, les yeux ouverts, yeux fermés…et ainsi de suite. Chacune de ces poses, dans de multiples combinaisons, pourrait être nécessaire dans une vidéo cible deepfake cible.
Et ce ne sont que des profils. Combien de photos avez-vous de vous-même regardant tout droit? En avez-vous assez pour représenter largement le 10,000 XNUMX expressions possibles que vous portez peut-être en tenant cette pose exacte sous cet angle de caméra exact, couvrant au moins une partie de la un million d'ambiances lumineuses possibles?
Il y a de fortes chances que vous n'ayez même pas UN photo de vous regardant vers le haut. Et ce ne sont que deux angles sur cent ou plus nécessaires pour une couverture complète.
Même s'il était possible de générer une couverture complète d'un visage sous tous les angles dans une gamme de conditions d'éclairage, l'ensemble de données résultant serait beaucoup trop volumineux pour être formé, de l'ordre de centaines de milliers d'images ; et même s'il pourriez être formé, la nature du processus de formation pour les frameworks deepfake actuels rejetterait la grande majorité de ces données supplémentaires au profit d'un nombre limité de fonctionnalités dérivées, car les frameworks actuels sont réductionnistes et peu évolutifs.
Substitution synthétique
Depuis l'aube des deepfakes, les deepfakers ont expérimenté l'utilisation d'images de style CGI, des têtes réalisées dans des applications 3D telles que Cinema4D et Maya, pour générer ces "poses manquantes".
Cette méthode est généralement abandonnée tôt par les nouveaux praticiens du deepfake, car bien qu'elle puisse fournir des poses et des expressions autrement indisponibles, l'apparence synthétique des faces CGI saigne généralement jusqu'aux échanges en raison de l'enchevêtrement de l'ID et des informations contextuelles/sémantiques.
Cela peut conduire à l'apparition soudaine de visages dans une "vallée étrange" dans une vidéo deepfake par ailleurs convaincante, car l'algorithme commence à s'appuyer sur les seules données qu'il peut avoir pour une pose ou une expression inhabituelle - des visages manifestement faux.
Les visages de CGI en tant que lignes directrices conceptuelles détachées
Au lieu de cela, la nouvelle méthode Delta-GAN Encoder (DGE) des chercheurs israéliens est plus efficace, car la pose et les informations contextuelles des images CGI ont été complètement séparées des informations "d'identité" de la cible.
Nous pouvons voir ce principe en action dans l'image ci-dessous, où différentes orientations de la tête ont été obtenues en utilisant l'imagerie CGI comme ligne directrice. Étant donné que les caractéristiques d'identité ne sont pas liées aux caractéristiques contextuelles, il n'y a pas de saignement à travers l'apparence synthétique fausse du visage CGI, ni de l'identité qui y est représentée :
Cette séparation de l'identité et du contexte est réalisée dans la phase de formation. Le pipeline de la nouvelle architecture deepfake recherche le vecteur latent dans un réseau antagoniste génératif (GAN) pré-formé qui correspond à l'image à transformer - une méthodologie Sim2Real qui s'appuie sur un 2018 Projet de la section de recherche sur l'IA d'IBM.
Les chercheurs observent :
«Avec seulement quelques échantillons, qui diffèrent par un attribut spécifique, on peut apprendre le comportement démêlé d'un modèle génératif intriqué pré-entraîné. Il n'est pas nécessaire d'avoir des échantillons exacts du monde réel pour atteindre cet objectif, ce qui n'est pas nécessairement réalisable.
«En utilisant des échantillons de données non réalistes, le même objectif peut être atteint grâce à l'exploitation de la sémantique des vecteurs latents codés. L'application des modifications souhaitées sur des échantillons de données existants peut être effectuée sans exploration explicite du comportement de l'espace latent.
Les chercheurs prévoient que les principes fondamentaux de démêlage explorés dans le projet pourraient être transférés à d'autres domaines, tels que les simulations d'architecture d'intérieur, et que la méthode Sim2Real adoptée pour Delta-GAN-Encoder pourrait éventuellement permettre une instrumentalisation profonde basée sur de simples croquis, plutôt que Entrée de style CGI.
On pourrait faire valoir que la mesure dans laquelle le nouveau système israélien pourrait ou non être en mesure de synthétiser des vidéos deepfakes est bien moins importante que les progrès réalisés par la recherche pour démêler le contexte de l'identité, acquérant ainsi plus de contrôle sur l'espace latent. d'un GAN.
Le désenchevêtrement est un domaine de recherche actif en synthèse d'images ; en janvier 2021, une recherche dirigée par Amazon papier ont démontré un contrôle de pose et un démêlage similaires, et en 2018 un papier des instituts de technologie avancée de Shenzhen de l'Académie chinoise des sciences ont fait des progrès dans la génération de points de vue arbitraires dans un GAN.