talon Le désenchevêtrement est la prochaine révolution Deepfake - Unite.AI
Suivez nous sur

Intelligence artificielle

Le désenchevêtrement est la prochaine révolution Deepfake

mm
Le kit de préparation mis à jour on

L'augmentation des données CGI est utilisée dans un nouveau projet pour mieux contrôler les images deepfake. Bien que vous ne puissiez toujours pas utiliser efficacement les têtes CGI pour combler les lacunes manquantes dans les ensembles de données faciales deepfake, une nouvelle vague de recherche sur la séparation de l'identité du contexte signifie que bientôt, vous n'aurez peut-être plus à le faire.

Les créateurs de certaines des vidéos deepfake virales les plus réussies de ces dernières années sélectionnent très soigneusement leurs vidéos sources, en évitant les prises de vue de profil soutenues (c'est-à-dire le genre de clichés latéraux popularisés par les procédures d'arrestation policière), les angles aigus et les expressions inhabituelles ou exagérées. . De plus en plus, les vidéos de démonstration produites par les deepfakers viraux sont des compilations éditées qui sélectionnent les angles et les expressions les plus "faciles" à deepfake.

En fait, la vidéo cible la plus accommodante dans laquelle insérer une célébrité deepfake est celle où la personne d'origine (dont l'identité sera effacée par le deepfake) regarde directement la caméra, avec une gamme minimale d'expressions.

La majorité des deepfakes populaires de ces dernières années ont montré des sujets directement face à la caméra, et ne portant que des expressions populaires (comme le sourire), qui peuvent être facilement extraites de la production de paparazzi sur le tapis rouge, ou (comme avec le faux 2019 de Sylvester Stallone comme Terminator, sur la photo de gauche), idéalement sans aucune expression, car les expressions neutres sont extrêmement courantes, ce qui les rend faciles à incorporer dans des modèles deepfake.

La majorité des deepfakes populaires de ces dernières années ont montré des sujets directement face à la caméra, et ne portant que des expressions populaires (comme le sourire), qui peuvent être facilement extraites de la production de paparazzi sur le tapis rouge, ou (comme avec le faux 2019 de Sylvester Stallone comme Terminator, sur la photo de gauche), idéalement sans aucune expression, car les expressions neutres sont extrêmement courantes, ce qui les rend faciles à incorporer dans des modèles deepfake.

Parce que les technologies deepfake telles que Laboratoire DeepFace ainsi que Échange de visage effectuent très bien ces échanges plus simples, nous sommes suffisamment éblouis par ce qu'ils accomplissent pour ne pas remarquer ce dont ils sont incapables et - souvent - n'essayent même pas :

Extrait d'une vidéo deepfake acclamée où Arnold Schwarzenegger est transformé en Sylvester Stallone – à moins que les angles ne soient trop délicats. Les profils restent un problème persistant avec les approches deepfake actuelles, en partie parce que le logiciel open source utilisé pour définir les poses faciales dans les cadres deepfake n'est pas optimisé pour les vues latérales, mais principalement en raison du manque de matériel source approprié dans l'un ou les deux nécessaires. ensembles de données. Source : https://www.youtube.com/watch?v=AQvCmQFScMA

Extrait d'une vidéo deepfake acclamée où Arnold Schwarzenegger est transformé en Sylvester Stallone – à moins que les angles ne soient trop délicats. Les profils restent un problème persistant avec les approches deepfake actuelles, en partie parce que le logiciel open source utilisé pour définir les poses faciales dans les cadres deepfake n'est pas optimisé pour les vues latérales, mais principalement en raison du manque de matériel source approprié dans l'un ou les deux nécessaires. ensembles de données. Source : https://www.youtube.com/watch?v=AQvCmQFScMA

Nouvelle recherche d'Israël propose une nouvelle méthode d'utilisation de données synthétiques, telles que les têtes CGI, pour introduire le deepfaking dans les années 2020, en séparant véritablement les identités faciales (c'est-à-dire les caractéristiques faciales essentielles de « Tom Cruise », sous tous les angles) de leur contexte (c'est-à-dire les caractéristiques faciales essentielles de « Tom Cruise », sous tous les angles). levant les yeux, regarder de côté, renfrogné, renfrogné dans le noir, les sourcils froncés, yeux fermés, Etc).

Le nouveau système sépare discrètement la pose et le contexte (c'est-à-dire un clin d'œil) de l'encodage de l'identité de l'individu, en utilisant des données faciales synthétiques non liées (photo de gauche). Dans la rangée du haut, nous voyons un « clin d'œil » transféré sur l'identité de Barack Obama, provoqué par le chemin non linéaire appris de l'espace latent d'un GAN, représenté par l'image CGI sur la gauche. Dans la rangée ci-dessous, nous voyons la facette du coin de la bouche étirée transférée sur l'ancien président. En bas à droite, on voit les deux caractéristiques appliquées simultanément. Source : https://arxiv.org/pdf/2111.08419.pdf

Le nouveau système sépare discrètement la pose et le contexte (c'est-à-dire un clin d'œil) de l'encodage de l'identité de l'individu, en utilisant des données faciales synthétiques non liées (photo de gauche). Dans la rangée du haut, nous voyons un « clin d'œil » transféré sur l'identité de Barack Obama, provoqué par le chemin non linéaire appris de l'espace latent d'un GAN, représenté par l'image CGI sur la gauche. Dans la rangée ci-dessous, on voit la facette du coin de la bouche étirée transférée sur l'ancien président. En bas à droite, on voit les deux caractéristiques appliquées simultanément. Source : https://arxiv.org/pdf/2111.08419.pdf

Ce n'est pas simple marionnette de tête deepfake, une technique plus adaptée aux avatars et à la synchronisation labiale partielle du visage, et qui a un potentiel limité pour les transformations vidéo deepfake à part entière.

Cela représente plutôt une voie vers une séparation fondamentale de l'instrumentalité (telle que 'changer l'angle de la tête', 'créer un froncement de sourcils') de l'identité, offrant un chemin vers un framework deepfake basé sur la synthèse d'images de haut niveau plutôt que "dérivé".

Le nouveau journal s'intitule Delta-GAN-Encoder : codage des modifications sémantiques pour l'édition d'images explicites, à l'aide de quelques échantillons synthétiques, et provient de chercheurs du Technion - Israel Institute of Technology.

Pour comprendre ce que signifie le travail, examinons comment les deepfakes sont actuellement produits partout, des sites pornographiques deepfake aux Lumière et magie industrielles (puisque le référentiel open source DeepFaceLab est actuellement dominant dans le deepfaking "amateur" et professionnel).

Qu'est-ce qui retient la technologie Deepfake actuelle ?

Les deepfakes sont actuellement créés en formant un encodeur/décodeur modèle d'apprentissage automatique sur deux dossiers d'images de visage : la personne que vous souhaitez « peindre » (dans l'exemple précédent, il s'agit d'Arnie) et la personne que vous souhaitez superposer dans la séquence (Sly).

Exemples de conditions de pose et d'éclairage variables sur deux ensembles de visages différents. Notez l'expression distinctive à la fin de la troisième ligne de la colonne A, qui est peu susceptible d'avoir un équivalent proche dans l'autre ensemble de données.

Exemples de conditions de pose et d'éclairage variables sur deux ensembles de visages différents. Notez l'expression distinctive à la fin de la troisième ligne de la colonne A, qui est peu susceptible d'avoir un équivalent proche dans l'autre ensemble de données.

Le système codeur/décodeur compare chaque image dans chaque dossier l'un à l'autre, entretenant, améliorant et répétant cette opération pendant des centaines de milliers d'itérations (souvent aussi longtemps qu'une semaine), jusqu'à ce qu'il comprenne suffisamment bien les caractéristiques essentielles des deux identités pour les échanger à volonté.

Pour chacune des deux personnes échangées au cours du processus, ce que l'architecture deepfake apprend sur l'identité est enchevêtré avec le contexte. Il ne peut pas apprendre et appliquer les principes d'une pose générique "pour le bien et pour tous", mais a besoin d'exemples abondants dans l'ensemble de données de formation, pour chaque identité qui sera impliquée dans l'échange de visage.

Par conséquent, si vous souhaitez échanger deux identités qui font quelque chose de plus inhabituel que simplement sourire ou regarder directement la caméra, vous aurez besoin de nombreuses instances de cette pose/identité particulière sur les deux ensembles de visages :

Étant donné que l'identification faciale et les caractéristiques de pose sont actuellement si étroitement liées, une parité étendue d'expression, de pose de tête et (dans une moindre mesure) d'éclairage est nécessaire sur deux ensembles de données faciales afin de former un modèle deepfake efficace sur des systèmes tels que DeepFaceLab. Moins une configuration particulière (telle que "vue latérale/souriant/éclairé par le soleil") est présentée dans les deux ensembles de visages, moins elle sera rendue avec précision dans une vidéo deepfake, si nécessaire.

Étant donné que l'identification faciale et les caractéristiques de pose sont actuellement si étroitement liées, une parité étendue d'expression, de pose de tête et (dans une moindre mesure) d'éclairage est nécessaire sur deux ensembles de données faciales afin de former un modèle deepfake efficace sur des systèmes tels que DeepFaceLab. Moins une configuration particulière (telle que "vue latérale/souriant/éclairé par le soleil") est présentée dans les deux ensembles de visages, moins elle sera rendue avec précision dans une vidéo deepfake, si nécessaire.

Si l'ensemble A contient la pose inhabituelle, mais que l'ensemble B n'en a pas, vous n'avez pas de chance ; quelle que soit la durée d'entraînement du modèle, il n'apprendra jamais à bien reproduire cette pose entre les identités, car il ne disposait que de la moitié des informations nécessaires lors de son entraînement.

Même si vous avez des images correspondantes, cela peut ne pas suffire : si l'ensemble A a la pose correspondante, mais avec un éclairage latéral sévère, par rapport à la pose équivalente éclairée à plat dans l'autre ensemble de visages, la qualité de l'échange a gagné ne sera pas aussi bon que si chacun partageait des caractéristiques d'éclairage communes.

Pourquoi les données sont rares

À moins que vous ne soyez arrêté régulièrement, vous n'avez probablement pas autant de photos de profil de vous-même. Tout ce qui est venu, vous l'avez probablement jeté. Comme les agences photo font de même, les photos de visage de profil sont difficiles à trouver.

Les deepfakers incluent souvent plusieurs copies des données de profil de vue latérale limitées dont ils disposent pour une identité dans un ensemble de visages, juste pour que la pose obtienne au moins un peu l'attention et le temps pendant la formation, au lieu d'être considéré comme un valeur aberrante.

Mais il y a beaucoup plus de types possibles d'images de visage en vue latérale que ceux qui sont susceptibles d'être disponibles pour être inclus dans un ensemble de données - souriant, renfrogné, crier, pleurs, sombrement éclairé, méprisant, ennuyé, joyeux, flash éclairé, levant les yeux, regarder en bas, les yeux ouverts, yeux fermés…et ainsi de suite. Chacune de ces poses, dans de multiples combinaisons, pourrait être nécessaire dans une vidéo cible deepfake cible.

Et ce ne sont que des profils. Combien de photos avez-vous de vous-même regardant tout droit? En avez-vous assez pour représenter largement le 10,000 XNUMX expressions possibles que vous portez peut-être en tenant cette pose exacte sous cet angle de caméra exact, couvrant au moins une partie de la un million d'ambiances lumineuses possibles?

Il y a de fortes chances que vous n'ayez même pas UN photo de vous regardant vers le haut. Et ce ne sont que deux angles sur cent ou plus nécessaires pour une couverture complète.

Même s'il était possible de générer une couverture complète d'un visage sous tous les angles dans une gamme de conditions d'éclairage, l'ensemble de données résultant serait beaucoup trop volumineux pour être formé, de l'ordre de centaines de milliers d'images ; et même s'il pourriez être formé, la nature du processus de formation pour les frameworks deepfake actuels rejetterait la grande majorité de ces données supplémentaires au profit d'un nombre limité de fonctionnalités dérivées, car les frameworks actuels sont réductionnistes et peu évolutifs.

Substitution synthétique

Depuis l'aube des deepfakes, les deepfakers ont expérimenté l'utilisation d'images de style CGI, des têtes réalisées dans des applications 3D telles que Cinema4D et Maya, pour générer ces "poses manquantes".

Aucune IA nécessaire ; une actrice est recréée dans un programme CGI traditionnel, Cinema 4D, en utilisant des maillages et des textures bitmap - une technologie qui remonte aux années 1960, bien qu'elle n'ait été largement utilisée qu'à partir des années 1990. En théorie, ce modèle de visage pourrait être utilisé pour générer des données source deepfake pour des poses, des styles d'éclairage et des expressions faciales inhabituels. En réalité, cela a été d'une utilité limitée ou inexistante dans le deepfake, car la "fausseté" des rendus a tendance à transparaître dans les vidéos échangées. Source : image de l'auteur de cet article sur https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Aucune IA nécessaire ; une actrice est recréée dans un programme CGI traditionnel, Cinema 4D, en utilisant des maillages et des textures bitmap - une technologie qui remonte aux années 1960, bien qu'elle n'ait été largement utilisée qu'à partir des années 1990. En théorie, ce modèle de visage pourrait être utilisé pour générer des données source deepfake pour des poses, des styles d'éclairage et des expressions faciales inhabituels. En réalité, cela a été d'une utilité limitée ou inexistante dans le deepfake, car la "fausseté" des rendus a tendance à transparaître dans les vidéos échangées. Source : image de l'auteur de cet article sur https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Cette méthode est généralement abandonnée tôt par les nouveaux praticiens du deepfake, car bien qu'elle puisse fournir des poses et des expressions autrement indisponibles, l'apparence synthétique des faces CGI saigne généralement jusqu'aux échanges en raison de l'enchevêtrement de l'ID et des informations contextuelles/sémantiques.

Cela peut conduire à l'apparition soudaine de visages dans une "vallée étrange" dans une vidéo deepfake par ailleurs convaincante, car l'algorithme commence à s'appuyer sur les seules données qu'il peut avoir pour une pose ou une expression inhabituelle - des visages manifestement faux.

Parmi les sujets les plus populaires pour les deepfakers, un algorithme de deepfake 3D pour l'actrice australienne Margot Robbie est inclus dans l'installation par défaut de DeepFaceLive, une version de DeepFaceLab qui peut effectuer des deepfakes dans un flux en direct, comme une session webcam. Une version CGI, comme illustrée ci-dessus, pourrait être utilisée pour obtenir des angles "manquants" inhabituels dans des ensembles de données deepfake. Source : https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

Parmi les sujets les plus populaires pour les deepfakers, un algorithme de deepfake 3D pour l'actrice australienne Margot Robbie est inclus dans l'installation par défaut de DeepFaceLive, une version de DeepFaceLab qui peut effectuer des deepfakes dans un flux en direct, comme une session webcam. Une version CGI, comme illustrée ci-dessus, pourrait être utilisée pour obtenir des angles "manquants" inhabituels dans des ensembles de données deepfake. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

Les visages de CGI en tant que lignes directrices conceptuelles détachées

Au lieu de cela, la nouvelle méthode Delta-GAN Encoder (DGE) des chercheurs israéliens est plus efficace, car la pose et les informations contextuelles des images CGI ont été complètement séparées des informations "d'identité" de la cible.

Nous pouvons voir ce principe en action dans l'image ci-dessous, où différentes orientations de la tête ont été obtenues en utilisant l'imagerie CGI comme ligne directrice. Étant donné que les caractéristiques d'identité ne sont pas liées aux caractéristiques contextuelles, il n'y a pas de saignement à travers l'apparence synthétique fausse du visage CGI, ni de l'identité qui y est représentée :

Avec la nouvelle méthode, vous n'avez pas besoin de trouver trois images sources réelles distinctes pour créer un deepfake sous plusieurs angles - vous pouvez simplement faire pivoter la tête CGI, dont les caractéristiques abstraites de haut niveau sont imposées à l'identité sans fuite d'identité. information.

Avec la nouvelle méthode, vous n'avez pas besoin de trouver trois images sources réelles distinctes pour créer un deepfake sous plusieurs angles - vous pouvez simplement faire pivoter la tête CGI, dont les caractéristiques abstraites de haut niveau sont imposées à l'identité sans fuite d'identité. information.

Encodeur Delta-GAN. Groupe en haut à gauche : l'angle d'une image source peut être modifié en une seconde pour rendre une nouvelle image source, qui est reflétée dans la sortie ; groupe en haut à droite : l'éclairage est également dissocié de l'identité, permettant la superposition de styles d'éclairage ; groupe en bas à gauche : plusieurs détails du visage sont modifiés pour créer une expression « triste » ; groupe en bas à droite : un seul détail d'expression faciale est modifié, de sorte que les yeux plissent.

Encodeur Delta-GAN. Groupe en haut à gauche : l'angle d'une image source peut être modifié en une seconde pour rendre une nouvelle image source, qui est reflétée dans la sortie ; groupe en haut à droite : l'éclairage est également dissocié de l'identité, permettant la superposition de styles d'éclairage ; groupe en bas à gauche : plusieurs détails du visage sont modifiés pour créer une expression « triste » ; groupe en bas à droite : un seul détail d'expression faciale est modifié, de sorte que les yeux plissent.

Cette séparation de l'identité et du contexte est réalisée dans la phase de formation. Le pipeline de la nouvelle architecture deepfake recherche le vecteur latent dans un réseau antagoniste génératif (GAN) pré-formé qui correspond à l'image à transformer - une méthodologie Sim2Real qui s'appuie sur un 2018 Projet de la section de recherche sur l'IA d'IBM.

Les chercheurs observent :

«Avec seulement quelques échantillons, qui diffèrent par un attribut spécifique, on peut apprendre le comportement démêlé d'un modèle génératif intriqué pré-entraîné. Il n'est pas nécessaire d'avoir des échantillons exacts du monde réel pour atteindre cet objectif, ce qui n'est pas nécessairement réalisable.

«En utilisant des échantillons de données non réalistes, le même objectif peut être atteint grâce à l'exploitation de la sémantique des vecteurs latents codés. L'application des modifications souhaitées sur des échantillons de données existants peut être effectuée sans exploration explicite du comportement de l'espace latent.

Les chercheurs prévoient que les principes fondamentaux de démêlage explorés dans le projet pourraient être transférés à d'autres domaines, tels que les simulations d'architecture d'intérieur, et que la méthode Sim2Real adoptée pour Delta-GAN-Encoder pourrait éventuellement permettre une instrumentalisation profonde basée sur de simples croquis, plutôt que Entrée de style CGI.

On pourrait faire valoir que la mesure dans laquelle le nouveau système israélien pourrait ou non être en mesure de synthétiser des vidéos deepfakes est bien moins importante que les progrès réalisés par la recherche pour démêler le contexte de l'identité, acquérant ainsi plus de contrôle sur l'espace latent. d'un GAN.

Le désenchevêtrement est un domaine de recherche actif en synthèse d'images ; en janvier 2021, une recherche dirigée par Amazon papier ont démontré un contrôle de pose et un démêlage similaires, et en 2018 un papier des instituts de technologie avancée de Shenzhen de l'Académie chinoise des sciences ont fait des progrès dans la génération de points de vue arbitraires dans un GAN.