Intelligence artificielle
Une nouvelle méthode de Deepfake plus simple et plus performante que les approches précédentes

Une collaboration entre un groupe de recherche en intelligence artificielle chinois et des chercheurs basés aux États-Unis a développé ce qui pourrait être la première véritable innovation dans la technologie des deepfakes depuis que le phénomène a émergé il y a quatre ans.
La nouvelle méthode peut effectuer des échanges de visages qui surpassent tous les autres cadres existants sur des tests de perception standard, sans avoir besoin de rassembler et de curer de grandes bases de données dédiées de manière exhaustive et de les former pendant jusqu’à une semaine pour une seule identité. Pour les exemples présentés dans le nouveau document, les modèles ont été formés sur la totalité de deux bases de données de célébrités populaires, sur un seul GPU NVIDIA Tesla P40 pendant environ trois jours.

Vidéo complète disponible à la fin de cet article. Dans cet exemple issu d’une vidéo dans les matériaux supplémentaires fournis par l’un des auteurs du nouveau document, le visage de Scarlett Johansson est transféré sur la vidéo source. CihaNet supprime le problème du masquage des bords lors de l’échange, en formant et en mettant en œuvre des relations plus profondes entre les identités source et cible, ce qui signifie la fin des « frontières évidentes » et d’autres erreurs de superposition qui se produisent dans les approches de deepfake traditionnelles. Source : Source : https://mitchellx.github.io/#video
La nouvelle approche supprime la nécessité de « coller » l’identité transplantée de manière grossière dans la vidéo cible, ce qui conduit souvent à des artefacts qui apparaissent là où le visage factice se termine et où le visage réel sous-jacent commence. Au lieu de cela, des « cartes d’hallucination » sont utilisées pour effectuer un mélange plus profond d’aspects visuels, car le système sépare l’identité du contexte de manière beaucoup plus efficace que les méthodes actuelles, et peut donc combiner l’identité cible à un niveau plus profond.

Issu du document. Les transformations CihaNet sont facilitées par des cartes d’hallucination (ligne du bas). Le système utilise des informations contextuelles (c’est-à-dire la direction du visage, les cheveux, les lunettes et d’autres obstacles, etc.) entièrement à partir de l’image dans laquelle la nouvelle identité sera superposée, et des informations d’identité faciale entièrement à partir de la personne qui sera insérée dans l’image. Cette capacité à séparer le visage du contexte est cruciale pour le succès du système. Source : https://dl.acm.org/doi/pdf/10.1145/3474085.3475257
En effet, la nouvelle carte d’hallucination fournit un contexte plus complet pour l’échange, par opposition aux masques rigides qui nécessitent souvent une curation extensive (et, dans le cas de DeepFaceLab, une formation distincte) tout en offrant une flexibilité limitée en termes d’intégration réelle des deux identités.

À partir d’échantillons fournis dans les matériaux supplémentaires, en utilisant à la fois les bases de données FFHQ et Celeb-A HQ, sur VGGFace et Forensics++. Les deux premières colonnes montrent les images réelles (aléatoires) à échanger. Les quatre colonnes suivantes montrent les résultats de l’échange en utilisant les quatre méthodes les plus efficaces actuellement disponibles, tandis que la dernière colonne montre le résultat de CihaNet. Le référentiel FaceSwap a été utilisé, plutôt que le plus populaire DeepFaceLab, puisque les deux projets sont des forks du code d’origine de 2017 Deepfakes sur GitHub. Bien que chaque projet ait ajouté des modèles, des techniques, des interfaces utilisateur diverses et des outils supplémentaires, le code sous-jacent qui rend les deepfakes possibles n’a jamais changé et reste commun aux deux. Source : https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip
Le document, intitulé Réseau d’hallucination d’identité et de contexte à une étape, est rédigé par des chercheurs affiliés à JD AI Research et à l’Université du Massachusetts à Amherst, et a été soutenu par le Programme national de R&D de Chine sous la subvention n° 2020AAA0103800. Il a été présenté à la 29e Conférence internationale ACM sur les multimédias, les 20-24 octobre, à Chengdu, en Chine.
Pas besoin de parité « face à face »
Les deux logiciels de deepfake les plus populaires actuellement, DeepFaceLab et le fork concurrent FaceSwap, effectuent des flux de travail tortueux et souvent curés à la main pour identifier la direction d’un visage, les obstacles qui se trouvent sur le chemin qui doivent être pris en compte (à nouveau, manuellement), et doivent faire face à de nombreux autres obstacles irritants (y compris l’éclairage) qui rendent leur utilisation loin de l’expérience « point-and-click » décrite de manière inexacte dans les médias depuis l’avènement des deepfakes.
En revanche, CihaNet n’a pas besoin que deux images soient directement face à l’appareil photo pour extraire et exploiter des informations d’identité utiles à partir d’une seule image.

Dans ces exemples, une série de logiciels de deepfake concurrents sont confrontés à la tâche d’échanger des visages qui ne sont pas seulement dissemblables en termes d’identité, mais qui ne sont pas non plus orientés de la même manière. Les logiciels dérivés du référentiel d’origine des deepfakes (tels que le très populaire DeepFaceLab et FaceSwap, illustrés ci-dessus) ne peuvent pas gérer la différence d’angles entre les deux images à échanger (voir troisième colonne). Pendant ce temps, Cihanet peut abstraire correctement l’identité, puisque la « pose » du visage ne fait pas intrinsèquement partie des informations d’identité.
Architecture
Le projet CihaNet, selon les auteurs, a été inspiré par la collaboration de 2019 entre Microsoft Research et l’Université de Pékin, appelée FaceShifter, bien qu’il apporte certaines modifications notables et critiques à l’architecture de base de la méthode plus ancienne.
FaceShifter utilise deux réseaux d’instanciation de normalisation adaptative (AdaIN) pour gérer les informations d’identité, qui sont ensuite transposées dans l’image cible via un masque, d’une manière similaire aux logiciels de deepfake populaires actuellement (et avec toutes les limitations connexes), en utilisant un HEAR-Net supplémentaire (qui comprend un sous-réseau formé séparément sur des obstacles d’occlusion – une couche supplémentaire de complexité).
Au lieu de cela, la nouvelle architecture utilise directement ces informations « contextuelles » pour le processus de transformation lui-même, via une opération à deux étapes de normalisation d’instanciation adaptative en cascade (C-AdaIN), qui fournit une cohérence de contexte (c’est-à-dire la peau du visage et les occlusions) des zones pertinentes pour l’identité.
Le deuxième sous-réseau crucial pour le système est appelé bloc d’échange (SwapBlk), qui génère une fonction intégrée à partir du contexte de l’image de référence et des informations d’identité intégrées à partir de l’image source, en contournant les multiples étapes nécessaires pour accomplir cela par des moyens conventionnels.
Pour aider à distinguer le contexte de l’identité, une carte d’hallucination est générée pour chaque niveau, remplaçant un masque de segmentation souple, et agissant sur une gamme plus large de fonctionnalités pour cette partie critique du processus de deepfake.

À mesure que la valeur de la carte d’hallucination (illustrée à droite) augmente, un chemin plus clair entre les identités émerge.
De cette manière, l’ensemble du processus d’échange est accompli en une seule étape et sans post-traitement.
Données et tests
Pour essayer le système, les chercheurs ont formé quatre modèles sur deux bases de données d’images ouvertes très populaires et variées – CelebA-HQ et la base de données Flickr-Faces-HQ de NVIDIA (FFHQ), chacune contenant respectivement 30 000 et 70 000 images.
Aucune élagage ou filtrage n’a été effectué sur ces bases de données de base. Dans chaque cas, les chercheurs ont formé l’ensemble de chaque base de données sur le seul GPU Tesla pendant trois jours, avec un taux d’apprentissage de 0,0002 sur l’optimisation Adam.
Ils ont ensuite rendu une série d’échanges aléatoires parmi les milliers de personnalités présentées dans les bases de données, sans tenir compte du fait que les visages soient similaires ou même correspondants en termes de genre, et ont comparé les résultats de CihaNet aux sorties des quatre principaux cadres de deepfake : FaceSwap (qui représente le plus populaire DeepFaceLab, puisque les deux partagent une base de code commune dans le référentiel d’origine de 2017 qui a apporté les deepfakes au monde) ; le susmentionné FaceShifter ; FSGAN ; et SimSwap.
En comparant les résultats via VGG-Face, FFHQ, CelebA-HQ et FaceForensics++, les auteurs ont constaté que leur nouveau modèle surpassait tous les modèles précédents, comme indiqué dans le tableau ci-dessous.

Les trois métriques utilisées pour évaluer les résultats étaient la similarité structurelle (SSIM), l’erreur d’estimation de pose et la précision de récupération d’identité, qui est calculée en fonction du pourcentage de paires récupérées avec succès.
Les chercheurs affirment que CihaNet représente une approche supérieure en termes de résultats qualitatifs, et une avancée notable sur l’état actuel de l’art dans les technologies de deepfake, en supprimant la charge de architectures et de méthodologies de masquage extensives et fastidieuses, et en réalisant une séparation plus utile et plus efficace de l’identité du contexte.
Regardez ci-dessous pour voir d’autres exemples de vidéo de la nouvelle technique. Vous pouvez trouver la vidéo complète ici.
À partir des matériaux supplémentaires pour le nouveau document, CihaNet effectue des échanges de visages sur différentes identités. Source : https://mitchellx.github.io/#video












