Intelligence artificielle

La nouvelle méthode Deepfake résout le problème de "Face Host"

Le kit de préparation mis à jour on 9 décembre 2022

Malgré plusieurs années d'hyperbole médiatique sur le potentiel des images deepfakes à saper notre confiance de longue date dans l'authenticité des séquences vidéo, toutes les méthodes actuellement populaires reposent sur la recherche d'« hôtes de visage » qui sont globalement de forme similaire au visage cible.

Lorsque la séquence originale présente un visage large, mais que le sujet cible a un visage étroit, les résultats ont toujours été problématiques, car un tel transfert implique de couper une partie du visage d'origine et de reconstruire l'arrière-plan désormais exposé. Les packages actuels tels que DeepFaceLab et FaceSwap sont capables de produire des résultats limités lorsque la configuration est inversée (étroit> large), mais n'ont aucune possibilité de s'attaquer de manière convaincante à ce scénario.

Maintenant, une collaboration entre Tencent et l'université chinoise de Xiamen a développé un nouvelle approche, intitulé HifiFace, destiné à combler ce manque à gagner.

Deux deepfakes HifiFace, le premier d'Anne Hathaway, où une bonne ressemblance est obtenue malgré une forme de visage d'hôte incompatible. HifiFace fonctionne également bien sur les cibles avec des lunettes, traditionnellement une pierre d'achoppement dans les deepfakes. Source : https://arxiv.org/pdf/2106.09965.pdf

Deux deepfakes HifiFace, le premier d'Anne Hathaway, où une bonne ressemblance est obtenue malgré la forme du visage de l'hôte incompatible. HifiFace fonctionne également bien sur les cibles portant des lunettes, traditionnellement une pierre d'achoppement dans les deepfakes. Source : https://arxiv.org/pdf/2106.09965.pdf

Remodeler un visage deepfake

Approches précédentes, telles que celles de 2019 Échange et reconstitution de visages indépendants du sujet (FSGAN), ont dépendu de Raccord 3DMM (3D Morphable Models) ou d'autres méthodologies basées sur la reconnaissance ou la transformation de repères faciaux, où les linéaments faciaux du visage à "écraser" dictent à peu près les limites de l'échange :

Détection de point de repère facial 3DMM. Source : https://github.com/Yinghao-Li/3DMM-fitting

Bien que des méthodes concurrentes se soient inspirées de caractéristiques dérivées de réseaux de reconnaissance faciale, celles-ci visent principalement à reconstituer la texture plutôt que la structure, et produisent de la même manière un effet de «masque» dans les cas où le visage hôte n'est pas entièrement compatible (c'est-à-dire les limites et la forme de la racine des cheveux, de la mâchoire et des pommettes).

Pour résoudre ces problèmes, les chercheurs chinois, basés au Media Analytics and Computing Lab du département d'intelligence artificielle de l'université, ont développé un réseau de bout en bout qui régresse les coefficients de la cible et de la face source à l'aide d'un modèle de reconstruction 3D, qui est ensuite recombinée sous forme d'informations de forme et concaténée avec des informations de vecteur d'identité provenant d'un réseau de reconnaissance faciale.

Ces données géométriques sont ensuite introduites dans un modèle d'encodeur-décodeur sous forme d'informations structurelles, se mélangeant à l'expression et à la disposition du visage cible, qui sont exploitées comme sources auxiliaires pour un transfert précis.

Fusion faciale sémantique

De plus, HifiFace comprend un composant Semantic Facial Fusion (SFF), qui utilise une fonctionnalité de bas niveau dans l'encodeur pour préserver les informations spatiales et de texture, sans sacrifier l'identité de l'image cible. Les caractéristiques du codeur et du décodeur sont intégrées dans un masque adaptatif appris, et les informations d'arrière-plan sont mélangées dans la sortie au moyen du masque facial appris.

HifiFace en action. Source : https://johann.wang/HifiFace/

De cette manière, HifiFace s'écarte de l'utilisation des limites de visage du matériau d'origine comme limite stricte, en utilisant une segmentation sémantique de visage dilatée, dans laquelle le modèle peut effectuer une meilleure fusion adaptative sur les limites de bord du visage.

Deux approches précédentes (en haut et en bas à gauche) et la nouvelle architecture HifiFace, qui se compose d'un encodeur, d'un décodeur, d'un extracteur d'identité sensible à la forme 3D et d'un module SFF.

En comparaison avec les anciennes méthodes FSGAN, SimSwap ainsi que FaceShifter, HifiFace démontre une reconstruction supérieure de la forme du visage, car il ne s'agit pas d'approcher les éléments «fantômes» où les délimitations faciales confondent la cartographie identité> identité, mais de les reconstruire définitivement.

Essais

Les chercheurs ont mis en œuvre le système en utilisant le VGGFace2 et le DeepGlint asiatique-célébrité ensembles de données. Les visages ont été alignés via 5 repères extérieurs et recadrés à 256 × 256 pixels. Un réseau d'amélioration des portraits a également été utilisé pour générer une version 512 × 512 pixels, pour un modèle supplémentaire de plus haute résolution. Le modèle a été formé sous Adam.

Bien que FaceShifter préserve bien l'identité, il ne peut pas résoudre des problèmes tels que l'expression, la couleur et l'occlusion aussi efficacement que HifiFace, et possède une structure de réseau plus complexe. FSGAN a des problèmes pour transférer l'éclairage de la source à la cible.

Les chercheurs utilisent FaceForensics ++ pour des comparaisons quantitatives, échantillonner dix images chacune dans un lot de vidéos converties à travers les méthodes concurrentes, et constater que HifiFace a obtenu un score de récupération d'ID supérieur. En testant une série d'autres facteurs, tels que la qualité de l'image, les chercheurs ont également constaté que leur méthode surpassait les méthodologies concurrentes.

Les linéaments du visage de Benedict Cumberbatch sont fidèlement reproduits.

Le travail représente un pas supplémentaire vers l'abstraction du matériel source afin qu'il ne soit qu'un modèle approximatif dans lequel des identités précises peuvent être transférées. Certains des packages FOSS actuels, y compris DeepFaceLab, disposent d'une fonctionnalité naissante pour le remplacement complet de la tête, mais, comme HifiFace, ceux-ci ne tiennent pas compte des cheveux, et ils sont plus efficaces pour "construire" un visage que pour le ciseler. une source cible souhaitée.

Rubriques connexes:deepfake DeepFakes synthèse d'images un article

Parties neuronales : décomposer les primitives pour une géométrie inférée significative

Ne manquez pas

Données synthétiques : Combler le fossé de l'occlusion avec Grand Theft Auto

Martin Anderson

Écrivain sur l'apprentissage automatique, l'intelligence artificielle et le big data.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai

Unite.AI

La nouvelle méthode Deepfake résout le problème de "Face Host"

Intelligence artificielle