Connect with us

Intelligence artificielle

Identifier les deepfakes de célébrités à partir de régions du visage externes

mm

Une nouvelle collaboration entre Microsoft et une université chinoise a proposé une nouvelle méthode pour identifier les deepfakes de célébrités, en exploitant les limites des techniques de deepfake actuelles pour reconnaître les identités qui ont été « projetées » sur d’autres personnes.

L’approche est appelée Identity Consistency Transformer (ICT), et fonctionne en comparant les parties les plus externes du visage (mâchoire, pommettes, ligne de cheveux, et autres caractéristiques externes) à l’intérieur du visage. Le système exploite les données d’images publiques disponibles de personnes célèbres, ce qui limite son efficacité aux célébrités populaires, dont les images sont disponibles en grand nombre dans les jeux de données de vision par ordinateur et sur Internet.

The forgery coverage of faked faces across seven techniques: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; and DF-VAE. Source: https://arxiv.org/pdf/2203.01318.pdf

The forgery coverage of faked faces across seven techniques: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; and DF-VAE. Popular packages such as DeepFaceLab and FaceSwap provide similarly constrained coverage. Source: https://arxiv.org/pdf/2203.01318.pdf

Comme l’illustre l’image ci-dessus, les méthodes de deepfaking actuellement populaires sont assez limitées en termes de ressources, et reposent sur des visages hôtes appropriés (l’image ou la vidéo d’une personne qui verra son identité remplacée par le deepfake) pour minimiser les preuves de substitution de visage.

Bien que les méthodes variées puissent englober le front entier et une grande partie des zones du menton et des pommettes, toutes sont plus ou moins limitées à l’intérieur du cadre du visage hôte.

A saliency map that emphasizes the 'inner' and 'outer' identities calculated by ICT. Where an inner facial match is established but an outer identity does not correspond, ICT evaluates the image as false.

A saliency map that emphasizes the ‘inner’ and ‘outer’ identities calculated by ICT. Where an inner facial match is established but an outer identity does not correspond, ICT evaluates the image as false.

Dans les tests, l’ICT a prouvé sa capacité à détecter le contenu deepfake dans des environnements favorables aux deepfakes, tels que les vidéos à basse résolution, où le contenu de la vidéo entière est dégradé par les artefacts de compression, ce qui aide à cacher les preuves résiduelles du processus de deepfake – une circonstance qui déroute de nombreuses méthodes de détection de deepfake concurrentes.

ICT outperforms contenders in recognizing deepfake content. See video embedded at end of article for more examples and better resolution. Source: https://www.youtube.com/watch?v=zgF50dcymj8

ICT outperforms contenders in recognizing deepfake content. See video embedded at end of article for more examples and better resolution. See embedded source video at end of article for further examples. Source: https://www.youtube.com/watch?v=zgF50dcymj8

L’article paper est intitulé Protecting Celebrities with Identity Consistency Transformer, et provient de neuf chercheurs affiliés à l’Université des sciences et de la technologie de Chine, à Microsoft Research Asia et à Microsoft Cloud + AI.

The Credibility Gap

Il y a au moins deux raisons pour lesquelles les algorithmes de face-swapping populaires tels que DeepFaceLab et FaceSwap négligent la zone la plus externe de l’identité faciale échangée.

Premièrement, la formation de modèles de deepfake est fastidieuse et critique en termes de ressources, et l’adoption de visages hôtes « compatibles » libère des cycles de GPU et des époques pour se concentrer sur les zones internes relativement immuables du visage que nous utilisons pour distinguer l’identité (puisqu’il est peu probable que des variables telles que les fluctuations de poids et le vieillissement changent ces traits faciaux de base à court terme).

Deuxièmement, la plupart des approches de deepfake (et c’est certainement le cas avec DeepFaceLab, le logiciel utilisé par les praticiens les plus populaires ou les plus notoires) ont une capacité limitée à reproduire les « marges de fin de visage » telles que les zones de joue et de mâchoire, et sont contraintes par le fait que leur code en amont (2017) n’a pas abordé de manière approfondie cette question.

Dans les cas où les identités ne correspondent pas bien, l’algorithme de deepfake doit « retoucher » les zones de fond autour du visage, ce qu’il fait de manière maladroite, même entre les mains des meilleurs deepfakers, tels que Ctrl Shift Face, dont la production a été utilisée dans les études du document.

The best of the best: stills from a deepfake video from acclaimed deepfaker Ctrl-Shift-Face, swapping Jim Carrey over Gary Oldman. This work arguably represents some of the best output currently available via DeepFaceLab and post-processing techniques. Nonetheless, the swaps remains limited to the relatively scant attention that DFL gives to the outer face, requiring a Herculean effort of data curation and training to address the outermost lineaments. Source: https://www.youtube.com/watch?v=x8igrh1eyLk

The best of the best: stills from a deepfake video from acclaimed deepfaker Ctrl-Shift-Face, swapping Jim Carrey over Gary Oldman. This work arguably represents some of the best output currently available via DeepFaceLab and post-processing techniques. Nonetheless, the swaps remain limited to the relatively scant attention that DFL gives to the outer face, requiring a Herculean effort of data curation and training to address the outermost lineaments. Source: https://www.youtube.com/watch?v=x8igrh1eyLk

Ce « tour de passe-passe », ou déviation de l’attention, échappe largement à l’attention du public dans la préoccupation actuelle sur la réalisme croissant des deepfakes, car nos facultés critiques autour des deepfakes sont encore en développement au-delà de l’étape de « choc et émerveillement ».

Split Identities

Le nouveau document note que la plupart des méthodes antérieures de détection de deepfake reposent sur des artefacts qui trahissent le processus d’échange, tels que inconsistent head poses et blinking, parmi nombreuses autres techniques. Il y a quelques jours, un autre nouveau document de détection de deepfake a proposé d’utiliser la « signature » des différents types de modèles dans le cadre FaceSwap pour aider à identifier les vidéos forgées créées avec celui-ci (voir image ci-dessous).

Identifying deepfakes by characterizing the signatures of different model types in the FaceSwap framework. Source: https://arxiv.org/pdf/2202.12951.pdf

Identifying deepfakes by characterizing the signatures of different model types in the FaceSwap framework. Source: https://arxiv.org/pdf/2202.12951.pdf

Contrairement à cela, l’architecture de l’ICT crée deux identités imbriquées distinctes pour une personne, dont chacune doit être vérifiée avant que l’identité entière ne soit conclue comme étant une « véritable » vidéo ou image.

Architecture for the training and testing phases of ICT.

Architecture for the training and testing phases of ICT.

La division des identités est facilitée par un vision Transformer, qui effectue une identification faciale avant de diviser les régions étudiées en jetons appartenant aux identités internes ou externes.

Distributing patches among the two parallel identity signifiers.

Distributing patches among the two parallel identity signifiers.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.