Suivez nous sur

La nouvelle méthode Deepfake résout le problème de "Face Host"

Intelligence Artificielle

La nouvelle méthode Deepfake résout le problème de "Face Host"

mm

Malgré plusieurs années d'hyperbole médiatique sur le potentiel des images deepfake à saper notre confiance de longue date dans l'authenticité des séquences vidéo, toutes les méthodes actuellement populaires reposent sur la recherche de « visages hôtes » dont la forme est globalement similaire à celle du visage cible.

Lorsque la séquence originale présente un visage large, mais que le sujet cible a un visage étroit, les résultats ont toujours été problématiques, car un tel transfert implique de couper une partie du visage d'origine et de reconstruire l'arrière-plan désormais exposé. Les packages actuels tels que DeepFaceLab et FaceSwap sont capables de produire des résultats limités lorsque la configuration est inversée (étroit> large), mais n'ont aucune possibilité de s'attaquer de manière convaincante à ce scénario.

Désormais, une collaboration entre Tencent et l'Université chinoise de Xiamen a permis de développer un nouvelle approche, intitulé HifiFace, destiné à combler ce manque à gagner.

Deux deepfakes HifiFace, le premier d'Anne Hathaway, où une bonne ressemblance est obtenue malgré une forme de visage d'hôte incompatible. HifiFace fonctionne également bien sur les cibles avec des lunettes, traditionnellement une pierre d'achoppement dans les deepfakes. Source : https://arxiv.org/pdf/2106.09965.pdf

Deux deepfakes HifiFace, le premier d'Anne Hathaway, où une bonne ressemblance est obtenue malgré la forme du visage de l'hôte incompatible. HifiFace fonctionne également bien sur les cibles portant des lunettes, traditionnellement une pierre d'achoppement dans les deepfakes. Source : https://arxiv.org/pdf/2106.09965.pdf

Remodeler un visage deepfake

Les approches précédentes, comme celle de 2019 Échange et reconstitution de visages indépendants du sujet (FSGAN), ont dépendu de Raccord 3DMM (Modèles 3D Morphables) ou d'autres méthodologies basées sur la reconnaissance ou la transformation des repères faciaux, où les linéaments du visage à « écraser » dictent à peu près les limites de l'échange :

Source : https://github.com/Yinghao-Li/3DMM-fitting

Détection de point de repère facial 3DMM. Source : https://github.com/Yinghao-Li/3DMM-fitting

Bien que les méthodes concurrentes s'appuient sur des caractéristiques dérivées des réseaux de reconnaissance faciale, celles-ci visent principalement à reconstituer la texture plutôt que la structure et produisent de la même manière un effet de « masque » dans les cas où le visage hôte n'est pas entièrement compatible (c'est-à-dire les limites et la forme de la racine des cheveux, de la mâchoire et des pommettes).

Pour répondre à ces problèmes, les chercheurs chinois, basés au Media Analytics and Computing Lab du Département d'intelligence artificielle de l'université, ont développé un réseau de bout en bout qui régresse les coefficients du visage cible et du visage source à l'aide d'un modèle de reconstruction 3D, qui est ensuite recombiné sous forme d'informations de forme et concaténé avec des informations vectorielles d'identité provenant d'un réseau de reconnaissance faciale.

Ces données géométriques sont ensuite introduites dans un modèle d'encodeur-décodeur sous forme d'informations structurelles, se mélangeant à l'expression et à la disposition du visage cible, qui sont exploitées comme sources auxiliaires pour un transfert précis.

Fusion faciale sémantique

De plus, HifiFace comprend un composant Semantic Facial Fusion (SFF), qui utilise une fonctionnalité de bas niveau dans l'encodeur pour préserver les informations spatiales et de texture, sans sacrifier l'identité de l'image cible. Les caractéristiques du codeur et du décodeur sont intégrées dans un masque adaptatif appris, et les informations d'arrière-plan sont mélangées dans la sortie au moyen du masque facial appris.

HifiFace en action. Source : https://johann.wang/HifiFace/

HifiFace en action. Source : https://johann.wang/HifiFace/

De cette manière, HifiFace s'écarte de l'utilisation des limites de visage du matériau d'origine comme limite stricte, en utilisant une segmentation sémantique de visage dilatée, dans laquelle le modèle peut effectuer une meilleure fusion adaptative sur les limites de bord du visage.

Deux approches précédentes (en haut et en bas à gauche) et la nouvelle architecture HifiFace, qui se compose d'un encodeur, d'un décodeur, d'un extracteur d'identité sensible à la forme 3D et d'un module SFF.

Deux approches précédentes (en haut et en bas à gauche) et la nouvelle architecture HifiFace, qui se compose d'un encodeur, d'un décodeur, d'un extracteur d'identité sensible à la forme 3D et d'un module SFF.

En comparaison avec les anciennes méthodes FSGAN, SimSwap que le béton ey FaceShifterHifiFace démontre une reconstruction supérieure de la forme du visage, car il ne se rapproche pas des éléments « fantômes » où les délimitations faciales confondent la cartographie identité>identité, mais les reconstruit définitivement.

Tests

Les chercheurs ont mis en œuvre le système en utilisant le VGGFace2 et les ensembles de données DeepGlint Asian-Celeb. Les visages ont été alignés via 5 repères extérieurs et recadrés à 256 × 256 pixels. Un réseau d'amélioration du portrait a également été utilisé pour générer une version 512 × 512 pixels, pour un modèle supplémentaire de plus haute résolution. Le modèle a été formé sous Adam.

Bien que FaceShifter préserve bien l'identité, il ne peut pas résoudre des problèmes tels que l'expression, la couleur et l'occlusion aussi efficacement que HifiFace, et possède une structure de réseau plus complexe. FSGAN a des problèmes pour transférer l'éclairage de la source à la cible.

Les chercheurs utilisent FaceForensics ++ pour des comparaisons quantitatives, échantillonner dix images chacune dans un lot de vidéos converties à travers les méthodes concurrentes, et constater que HifiFace a obtenu un score de récupération d'ID supérieur. En testant une série d'autres facteurs, tels que la qualité de l'image, les chercheurs ont également constaté que leur méthode surpassait les méthodologies concurrentes.

Les linéaments du visage de Benedict Cumberbatch sont fidèlement reproduits.

Les traits du visage de Benedict Cumberbatch sont reproduits fidèlement.

Ce travail représente une avancée supplémentaire vers l'abstraction du matériau source, qui n'est plus qu'un modèle approximatif dans lequel des identités précises peuvent être transférées. Certains logiciels libres actuels, dont DeepFaceLab, proposent une fonctionnalité naissante de remplacement de tête complète, mais, comme HifiFace, ils ne prennent pas en compte les cheveux et sont plus efficaces pour « construire » un visage que pour le sculpter afin de correspondre à une source cible.

 

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai