Intelligence Artificielle

Identifier les deepfakes de célébrités à partir des régions de la face externe

Publié 4 mars

Le kit de préparation mis à jour 9 décembre 2022

Martin Anderson

Une nouvelle collaboration entre Microsoft et une université chinoise a proposé une nouvelle façon d'identifier les deepfakes de célébrités, en exploitant les lacunes des techniques actuelles de deepfake pour reconnaître les identités qui ont été « projetées » sur d'autres personnes.

L'approche s'appelle Transformateur de cohérence d'identité (TIC) et fonctionne en comparant les parties les plus externes du visage (mâchoire, pommettes, racine des cheveux et autres linéaments marginaux externes) à l'intérieur du visage. Le système exploite les données d'images publiques couramment disponibles de personnes célèbres, ce qui limite son efficacité aux célébrités populaires, dont les images sont disponibles en grand nombre dans des ensembles de données de vision par ordinateur largement disponibles et sur Internet.

La couverture contrefaite de faux visages à travers sept techniques : DeepFake dans FF+ ; DeepFake dans la détection Google DeepFake ; DeepFace Lab ; Face2Face ; FSGAN ; et DF-VAE. Les packages populaires tels que DeepFaceLab et FaceSwap offrent une couverture également limitée. Source : https://arxiv.org/pdf/2203.01318.pdf

Comme l'illustre l'image ci-dessus, les méthodes actuellement populaires de deepfake sont assez limitées en ressources et reposent sur des visages d'hôte appropriés (l'image ou la vidéo d'une personne dont l'identité sera remplacée par le deepfake) pour minimiser les preuves de substitution de visage.

Bien que différentes méthodes puissent englober le front complet et une grande partie des zones du menton et des pommettes, toutes sont plus ou moins contraintes à l'intérieur du cadre du visage de l'hôte.

Une carte de saillance qui met l'accent sur les identités « intérieures » et « extérieures » calculées par les TIC. Lorsqu'une correspondance faciale interne est établie mais qu'une identité externe ne correspond pas, ICT évalue l'image comme fausse.

Une carte de saillance qui met en valeur les identités « interne » et « externe » calculées par ICT. Lorsqu'une correspondance faciale interne est établie, mais qu'une identité externe ne correspond pas, ICT considère l'image comme fausse.

Lors de tests, ICT s'est avéré capable de détecter le contenu deepfake dans des limites favorables aux faux, telles que la vidéo basse résolution, où le contenu de la vidéo entière est dégradé par des artefacts de compression, aidant à masquer les preuves résiduelles du processus deepfake - une circonstance qui confond de nombreux concurrents. méthodes de détection de deepfake.

Les TIC surpassent les concurrents dans la reconnaissance du contenu deepfake. Voir la vidéo intégrée à la fin de l'article pour plus d'exemples et une meilleure résolution. Voir la vidéo source intégrée à la fin de l'article pour d'autres exemples. Source : https://www.youtube.com/watch?v=zgF50dcymj8

L'espace papier est intitulé Protéger les célébrités avec le transformateur de cohérence d'identité, et provient de neuf chercheurs diversement affiliés à l'Université des sciences et technologies de Chine, Microsoft Research Asia et Microsoft Cloud + AI.

Le manque de crédibilité

Il y a au moins deux raisons pour lesquelles les algorithmes d'échange de visage populaires tels que Laboratoire DeepFace et Échange de visage négliger la zone la plus externe des identités faciales échangées.

Premièrement, la formation de modèles deepfake prend du temps et nécessite des ressources critiques, et l'adoption de visages/corps hôtes « compatibles » libère des cycles et des époques GPU pour se concentrer sur les zones intérieures relativement immuables du visage que nous utilisons pour distinguer l'identité (puisque des variables telles que la fluctuation du poids et le vieillissement sont les moins susceptibles de modifier ces traits faciaux fondamentaux à court terme).

Deuxièmement, la plupart des approches deepfake (et c'est certainement le cas de DeepFaceLab, le logiciel utilisé par les praticiens les plus populaires ou les plus notoires) ont une capacité limitée à reproduire les marges de « fin de visage » telles que les zones des joues et de la mâchoire, et sont limitées par le fait que leur amont (2017) le code n'a pas abordé ce problème de manière approfondie.

Dans les cas où les identités ne correspondent pas bien, l'algorithme deepfake doit « repeindre » les zones d'arrière-plan autour du visage, ce qu'il fait au mieux maladroitement, même entre les mains des meilleurs deepfakers, tels que Ctrl Maj face, dont les résultats ont été utilisés dans les études du journal.

Le meilleur des meilleurs: images fixes d'une vidéo deepfake du célèbre deepfaker Ctrl-Shift-Face, échangeant Jim Carrey contre Gary Oldman. Ce travail représente sans doute certains des meilleurs résultats actuellement disponibles via DeepFaceLab et les techniques de post-traitement. Néanmoins, les échanges restent limités à l'attention relativement limitée que DFL accorde à la face externe, nécessitant un effort herculéen de conservation des données et de formation pour traiter les linéaments les plus externes. Source : https://www.youtube.com/watch?v=x8igrh1eyLk

Ce « tour de passe-passe », ou détournement d’attention, échappe largement à l’attention du public dans le contexte actuel d’inquiétude concernant le réalisme croissant des deepfakes, car nos facultés critiques à l’égard des deepfakes sont encore en développement au-delà du stade du « choc et de la stupeur ».

Identités fractionnées

Le nouveau document note que la plupart des méthodes antérieures de détection de deepfake reposent sur des artefacts qui trahissent le processus d'échange, tels que poses de tête incohérentes et clignotant, Entre de nombreuses autres techniques. Cette semaine seulement, un autre nouvel article sur la détection de deepfake a proposé en utilisant la « signature » des différents types de modèles dans le framework FaceSwap pour aider à identifier les vidéos falsifiées créées avec lui (voir l'image ci-dessous).

Identifier les deepfakes en caractérisant les signatures des différents types de modèles dans le framework FaceSwap. Source : https://arxiv.org/pdf/2202.12951.pdf

En revanche, l'architecture des TIC crée deux identités imbriquées distinctes pour une personne, chacune devant être vérifiée avant que l'identité entière ne soit considérée comme une « véritable » séquence ou image.

Architecture pour les phases de formation et de test des TIC.

Le clivage des identités est facilité par une vision transformateur, qui effectue une identification faciale avant de diviser les régions étudiées en jetons appartenant aux identités internes ou externes.

Distribuer des patchs entre les deux signifiants identitaires parallèles.

Le papier déclare:

« Malheureusement, les méthodes de vérification faciale existantes ont tendance à caractériser la région la plus discriminante, à savoir le visage intérieur, et à ne pas capturer les informations d'identité du visage extérieur. Avec le Transformateur de cohérence d'identité, nous entraînons un modèle à apprendre deux vecteurs d'identité, l'un pour le visage intérieur et l'autre pour le visage extérieur, en concevant un Transformateur de telle sorte que les identités intérieure et extérieure puissent être apprises simultanément dans un modèle parfaitement unifié. »

Puisqu'il n'existe aucun modèle pour ce protocole d'identification, les auteurs ont conçu un nouveau type de perte de cohérence pouvant servir de mesure d'authenticité. Les « tokens internes » et « tokens externes » issus du modèle d'extraction d'identité s'ajoutent aux intégrations de patchs plus conventionnelles produites par les systèmes d'identification faciale.

Données et formation

Le réseau TIC a été formé sur la base des recherches de Microsoft MS-Celeb-1M ensemble de données, qui contient 10 millions d'images de visages de célébrités couvrant un million d'identités, y compris des acteurs, des politiciens et de nombreux autres types de personnalités. Selon la procédure de la méthode antérieure Radiographie du visage (une autre initiative de Microsoft Research), la propre routine de génération de faux visages d'ICT échange les régions intérieures et extérieures des visages tirés de cet ensemble de données afin de créer du matériel sur lequel tester l'algorithme.

Pour effectuer ces échanges internes, ICT identifie deux images dans l'ensemble de données qui présentent des poses de tête et des repères faciaux similaires, génère une région de masque des caractéristiques centrales (dans laquelle un échange peut être effectué) et effectue un échange profond avec correction des couleurs RVB.

La raison pour laquelle les TIC se limitent à l'identification des célébrités est qu'elles s'appuient (dans leur variante la plus efficace) sur un nouvel ensemble de référence qui intègre des vecteurs faciaux dérivés d'un corpus central (dans ce cas MS-Celeb-1M, bien que le référencement puisse être étendu à l'imagerie disponible sur le réseau, qui n'existerait probablement qu'en qualité et en quantité suffisantes pour des personnalités publiques bien connues).

Ces couplets d'ensembles de vecteurs dérivés agissent comme des jetons d'authenticité pour vérifier les régions des faces intérieure et extérieure en tandem.

Les auteurs notent que les jetons obtenus à partir de ces méthodes représentent des fonctionnalités de « haut niveau », ce qui donne lieu à un processus de détection de deepfakes plus susceptible de survivre à des environnements difficiles tels que des vidéos à basse résolution ou autrement dégradées.

Fondamentalement, les TIC sont pas à la recherche de preuves basées sur des artefacts, mais se concentre plutôt sur des méthodes de vérification d'identité plus en accord avec les techniques de reconnaissance faciale - une approche qui est difficile avec des données à faible volume, comme c'est le cas avec l'enquête sur les incidents de deepfake vengeance porno contre des cibles non célèbres.

Tests

Formé sur MS-Celeb-1M, l'ICT a ensuite été divisé en versions assistée par référence et « aveugle » de l'algorithme, puis testé sur une gamme d'ensembles de données et de méthodes concurrents. Parmi ceux-ci, on compte : FaceForensics ++ (FF++), un ensemble de données de 1000 XNUMX vidéos authentiques et deepfakes créées selon quatre méthodes, dont Face2Face et FaceSwap ; de Google Détection de faux faux (DFD), également composé de milliers de vidéos deepfake générées par Google ; Celeb-DeepFake v1 (CD1), qui contient 408 vidéos réelles et 795 vidéos synthétisées à faible artefact ; Celeb-DeepFake v2, une extension de V1 qui contient 590 vidéos réelles et 5,639 2020 fausses ; et le XNUMX de la Chine Analyse médico-légale plus approfondie (Plus profond).

Ce sont les ensembles de données ; les méthodes de détection dans les épreuves de test étaient Multitâche, MésoInc4, Capsules, Xception-c0, c2 (une méthode employée dans FF++), FWA/DSP-FW de l'Université d'Albany, Deux branches, PCL+I2G, et celui de Yuval Nirkin méthode de divergence de contexte.

Les méthodes de détection mentionnées ci-dessus visent à détecter des types particuliers de manipulations faciales. En outre, les auteurs de la nouvelle étude ont testé des solutions plus générales de détection des deepfakes. Radiographie du visage, Université d'État du Michigan FFD, Détection CNND et Patch-Forensique du MIT CSAIL.

Les résultats les plus évidents du test sont que les méthodes concurrentes perdent considérablement en efficacité à mesure que la résolution et la qualité vidéo diminuent. Étant donné que certains des potentiels les plus graves de pénétration profonde de nos pouvoirs discriminatifs résident (notamment à l'heure actuelle) dans des vidéos non HD ou de qualité médiocre, cela semble être un résultat significatif.

Dans le graphique des résultats ci-dessus, les lignes bleues et rouges indiquent la résilience des méthodes TIC à la dégradation de l'image dans tous les domaines, à l'exception du blocage du bruit gaussien (qui n'est pas probable dans les séquences de type Zoom et webcam), tandis que la fiabilité des méthodes concurrentes chute.

Dans le tableau des résultats ci-dessous, nous voyons l'efficacité des diverses méthodes de détection de deepfake sur les ensembles de données invisibles. Les résultats gris et astérisques indiquent une comparaison avec les résultats initialement publiés dans des projets à source fermée, qui ne peuvent pas être vérifiés en externe. Dans presque tous les cadres comparables, les TIC surpassent les approches rivales de détection de deepfake (indiquées en gras) sur les ensembles de données testés.

Comme test supplémentaire, les auteurs ont diffusé le contenu de la chaîne YouTube du célèbre deepfaker Ctrl Shift Face et ont découvert que des méthodes concurrentes obtenaient des scores d'identification particulièrement inférieurs :

Il est à noter ici que les méthodes FF++ (Xception-c23) et FFD, qui obtiennent quelques-uns des scores les plus élevés sur certaines des données de test dans les tests généraux du nouveau document, obtiennent ici un score bien inférieur à celui de l'ICT dans un contexte « réel » de contenu deepfake à haut effort.

Les auteurs concluent l'article avec l'espoir que ses résultats orientent la communauté de détection de deepfake vers des initiatives similaires qui se concentrent sur des fonctionnalités de haut niveau plus facilement généralisables, et loin de la « guerre froide » de la détection d'artefacts, dans laquelle les dernières méthodes sont systématiquement annulées par les développements des cadres deepfake, ou par d'autres facteurs qui rendent ces méthodes moins résilientes.

Regardez la vidéo supplémentaire ci-dessous pour plus d'exemples d'ICT identifiant le contenu deepfake qui surpasse souvent les méthodes alternatives.

Première publication le 4 mars 2022.

Martin Anderson

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai

Unite.AI

Identifier les deepfakes de célébrités à partir des régions de la face externe

Le manque de crédibilité

Identités fractionnées

Données et formation

Tests

Tu peux aimer