Intelligence Artificielle
Une méthode Deepfake nouvelle et plus simple qui surpasse les approches précédentes

Une collaboration entre un groupe de recherche chinois sur l'IA et des chercheurs américains a permis de développer ce qui pourrait être la première véritable innovation dans le domaine de la technologie des deepfakes depuis l'apparition du phénomène il y a quatre ans.
La nouvelle méthode peut effectuer des échanges de visages qui surpassent tous les autres cadres existants sur des tests de perception standard, sans avoir besoin de rassembler et de conserver de manière exhaustive de grands ensembles de données dédiés et de les former jusqu'à une semaine pour une seule identité. Pour les exemples présentés dans le nouvel article, les modèles ont été entraînés sur le intégralité de deux ensembles de données de célébrités populaires, sur un GPU NVIDIA Tesla P40 pendant environ trois jours.

Vidéo complète disponible à la fin de cet article. Dans cet extrait vidéo, inclus dans les documents complémentaires fournis par l'un des auteurs du nouvel article, le visage de Scarlett Johansson est transféré sur la vidéo source. CihaNet élimine le problème de masquage des contours lors d'un échange, en créant et en mettant en œuvre des relations plus profondes entre les identités source et cible, mettant ainsi fin aux « frontières évidentes » et autres problèmes de superposition propres aux techniques traditionnelles de deepfake. Source : Source : https://mitchellx.github.io/#video
La nouvelle approche élimine la nécessité de « coller » grossièrement l'identité transplantée dans la vidéo cible, ce qui conduit souvent à des erreurs révélatrices. artefacts qui apparaissent là où le faux visage s'arrête et où le vrai visage sous-jacent commence. Les « cartes d'hallucinations » sont plutôt utilisées pour effectuer un mélange plus approfondi des facettes visuelles, car le système sépare l'identité du contexte bien plus efficacement que les méthodes actuelles, et peut donc fusionner l'identité cible à un niveau plus profond.

Du papier. Les transformations CihaNet sont facilitées par les cartes d'hallucination (rangée du bas). Le système utilise les informations de contexte (c'est-à-dire la direction du visage, les cheveux, les lunettes et autres occlusions, etc.) entièrement de l'image dans laquelle la nouvelle identité sera superposée, et les informations d'identité faciale entièrement de la personne qui doit être insérée dans l'image. Cette capacité à séparer le visage du contexte est essentielle au succès du système. Source : https://dl.acm.org/doi/pdf/10.1145/3474085.3475257
En effet, la nouvelle carte d'hallucination fournit un contexte plus complet pour l'échange, par opposition aux masques durs qui nécessitent souvent une conservation approfondie (et dans le cas de DeepFaceLab, formation séparée) tout en offrant une flexibilité limitée en termes d'intégration réelle des deux identités.

À partir d'échantillons fournis dans les documents supplémentaires, en utilisant à la fois les ensembles de données FFHQ et Celeb-A HQ, à travers VGGFace et Forensics++. Les deux premières colonnes montrent les images (réelles) sélectionnées au hasard à échanger. Les quatre colonnes suivantes montrent les résultats de l'échange en utilisant les quatre méthodes les plus efficaces actuellement disponibles, tandis que la dernière colonne montre le résultat de CihaNet. Le référentiel FaceSwap a été utilisé, plutôt que le plus populaire DeepFaceLab, puisque les deux projets sont des forks du code Deepfakes 2017 original sur GitHub. Bien que chaque projet ait depuis ajouté des modèles, des techniques, diverses interfaces utilisateur et des outils supplémentaires, le code sous-jacent qui rend possible les deepfakes n'a jamais changé et reste commun aux deux. Source : https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip
L'espace papier, Intitulé Réseau d'hallucination contextuelle et identitaire en une étape, a été rédigé par des chercheurs affiliés à JD AI Research et à l'Université du Massachusetts à Amherst, et a été soutenu par le National Key R&D Program of China sous le numéro de subvention 2020AAA0103800. Il a été présenté lors de la 29e conférence internationale ACM sur le multimédia, du 20 au 24 octobre, à Chengdu, en Chine.
Pas besoin de parité « face à face »
Le logiciel de deepfake le plus populaire actuellement, DeepFaceLab, et son concurrent FaceSwap, effectuent des flux de travail tortueux et souvent organisés à la main afin d'identifier dans quelle direction un visage est incliné, quels obstacles se trouvent sur le chemin et doivent être pris en compte (encore une fois, manuellement), et doivent faire face à de nombreux autres obstacles irritants (y compris l'éclairage) qui rendent leur utilisation loin de l'expérience « pointer-cliquer » inexactement décrite dans les médias depuis l'avènement des deepfakes.
En revanche, CihaNet n'exige pas que deux images soient directement face à la caméra pour extraire et exploiter des informations d'identité utiles à partir d'une seule image.

Dans ces exemples, une suite de logiciels de deepfakes concurrents doit intervertir des visages non seulement différents en identité, mais qui ne sont pas orientés dans le même sens. Les logiciels dérivés du référentiel deepfakes original (comme les très populaires DeepFaceLab et FaceSwap, illustrés ci-dessus) ne peuvent pas gérer la disparité d'angle entre les deux images à permuter (voir troisième colonne). De son côté, CihaNet peut extraire correctement l'identité, puisque la « pose » du visage ne fait pas intrinsèquement partie des informations d'identité.
Architecture
Le projet CihaNet, selon les auteurs, a été inspiré par la collaboration de 2019 entre Microsoft Research et l'Université de Pékin, appelée FaceShifter, bien qu'il apporte des modifications notables et critiques à l'architecture de base de l'ancienne méthode.
FaceShifter utilise deux normalisations d'instance adaptatives (AdaIN) réseaux pour gérer les informations d'identité, lesquelles données sont ensuite transposées dans l'image cible via un masque, d'une manière similaire au logiciel deepfake populaire actuel (et avec toutes ses limitations associées), en utilisant un outil supplémentaire HEAR-Net (qui comprend un sous-réseau formé séparément formé sur les obstacles d'occlusion - une couche supplémentaire de complexité).
Au lieu de cela, la nouvelle architecture utilise directement ces informations « contextuelles » pour le processus de transformation lui-même, via une opération de normalisation d'instance adaptative en cascade (C-AdaIN) en deux étapes, qui assure la cohérence du contexte (c'est-à-dire la peau du visage et les occlusions) des zones pertinentes pour l'ID.
Le deuxième sous-réseau crucial pour le système est appelé Swapping Block (SwapBlk), qui génère une fonctionnalité intégrée à partir du contexte de l'image de référence et des informations « d'identité » intégrées de l'image source, contournant les multiples étapes nécessaires pour y parvenir par les moyens actuels conventionnels.
Pour aider à distinguer le contexte de l'identité, un carte des hallucinations est généré pour chaque niveau, remplaçant un masque de segmentation douce et agissant sur un plus large éventail de fonctionnalités pour cette partie critique du processus de deepfake.

Au fur et à mesure que la valeur de la carte des hallucinations (photo ci-dessous à droite) augmente, un chemin plus clair entre les identités émerge.
De cette manière, l'ensemble du processus d'échange est accompli en une seule étape et sans post-traitement.
Données et tests
Pour tester le système, les chercheurs ont formé quatre modèles sur deux ensembles de données d'images ouvertes très populaires et variées - CelebA-QG et le jeu de données Flickr-Faces-HQ de NVIDIA (FFHQ), contenant respectivement 30,000 70,000 et XNUMX XNUMX images.
Aucun élagage ou filtrage n'a été effectué sur ces ensembles de données de base. Dans chaque cas, les chercheurs ont formé l'intégralité de chaque ensemble de données sur le seul GPU Tesla pendant trois jours, avec un taux d'apprentissage de 0.0002 sur l'optimisation Adam.
Ils ont ensuite effectué une série d'échanges aléatoires parmi les milliers de personnalités présentées dans les ensembles de données, sans tenir compte du fait que les visages étaient similaires ou même de même sexe, et ont comparé les résultats de CihaNet à ceux de quatre principaux frameworks deepfake : Échange de visage (qui remplace le plus populaire Laboratoire DeepFace, car il partage une base de code racine dans le référentiel d'origine 2017 qui a apporté des deepfakes au monde); le FaceShifter susmentionné ; FSGANEt SimSwap.
En comparant les résultats via VGG-Visage, FFHQ, CelebA-HQ et FaceForensics ++, les auteurs ont constaté que leur nouveau modèle surpassait tous les modèles précédents, comme indiqué dans le tableau ci-dessous.

Les trois mesures utilisées pour évaluer les résultats étaient la similarité structurelle (SSIM), pose erreur d'estimation et Précision de la récupération d'identité, qui est calculé en fonction du pourcentage de paires récupérées avec succès.
Les chercheurs affirment que CihaNet représente une approche supérieure en termes de résultats qualitatifs et une avancée notable par rapport à l'état actuel de l'art en matière de technologies deepfake, en supprimant le fardeau des architectures et des méthodologies de masquage étendues et à forte intensité de main-d'œuvre, et en obtenant un plus utile et une séparation exploitable de l'identité du contexte.
Jetez un œil ci-dessous pour voir d'autres exemples vidéo de la nouvelle technique. Vous pouvez trouver la vidéo complète ici.
À partir de matériaux supplémentaires pour le nouveau journal, CihaNet effectue des échanges de visages sur diverses identités. Source : https://mitchellx.github.io/#video














