Suivez nous sur

Détection Deepfake basée sur des caractéristiques biométriques humaines originales

Intelligence Artificielle

Détection Deepfake basée sur des caractéristiques biométriques humaines originales

mm
Images produites par des deepfakers sur le canal DeepFaceLab Discord
Images produites par des deepfakers sur le canal DeepFaceLab Discord

Un nouvel article de chercheurs italiens et allemands propose une méthode pour détecter les vidéos deepfake basées sur le comportement biométrique du visage et de la voix, plutôt que sur des artefacts créés par des systèmes de synthèse faciale, des solutions de filigrane coûteuses ou d'autres approches plus lourdes.

Le cadre nécessite une entrée d'au moins 10 vidéos variées et non fausses du sujet. Cependant, il ne nécessite pas d'être spécifiquement formé, recyclé ou augmenté sur des vidéos par cas, car son modèle intégré a déjà abstrait les distances vectorielles probables entre les vidéos réelles et fausses d'une manière largement applicable.

L'apprentissage contrastif sous-tend l'approche de POI-Forensics. Les vecteurs dérivés du matériel source au cas par cas sont comparés aux mêmes vecteurs dans une fausse vidéo potentielle, avec des facettes et des traits tirés à la fois des composants vidéo et audio des séquences potentiellement truquées. Source : https://arxiv.org/pdf/2204.03083.pdf

L'apprentissage contrastif sous-tend l'approche de POI-Forensics. Les vecteurs dérivés du matériel source au cas par cas sont comparés aux mêmes vecteurs dans une fausse vidéo potentielle, avec des facettes et des traits tirés à la fois des composants vidéo et audio des séquences potentiellement truquées. Source : https://arxiv.org/pdf/2204.03083.pdf

Titré POI-Forensique, l'approche repose sur des mouvements et des signaux audio uniques à l'individu réel étant deepfake.

Bien qu'un tel système puisse permettre des cadres d'authentification entièrement automatisés et « pré-rendus » pour les célébrités, les politiciens, les influenceurs YouTube et d'autres personnes pour lesquelles une grande quantité de matériel vidéo est facilement disponible, il pourrait également être adapté dans un cadre où les victimes ordinaires des technologies deepfake pourraient potentiellement avoir une plate-forme pour prouver l'inauthenticité des attaques contre elles.

Visualisations de caractéristiques extraites de vidéos authentiques et truquées sur quatre sujets dans POI-Forensics, via le framework t-SNE.

Visualisations de fonctionnalités extraites de vidéos authentiques et truquées sur quatre sujets dans POI-Forensics, via le Cadre t-SNE.

Les auteurs affirment que POI-Forensics représente une avancée majeure en matière de détection des deepfakes. Sur divers ensembles de données courants dans ce domaine, le cadre permettrait d'améliorer les scores AUC de 3 %, 10 % et 7 % respectivement pour les vidéos de haute qualité, de basse qualité et « attaquées ». Les chercheurs promettent de publier le code prochainement.

Performances de POI-Forensics par rapport aux frameworks SOTA rivaux pDFDC, DeepFakeTIMIT, FakeAVCelebV2 et KoDF. La formation dans chaque cas a été effectuée sur FaceForensics++, ID-Reveal et la méthode des auteurs sur VoxCeleb2. Les résultats incluent des vidéos de haute et basse qualité.

Performances de POI-Forensics par rapport aux frameworks SOTA concurrents PDFDC, DeepFakeTIMIT, FauxAVCelebV2 et KoDFComment. La formation dans chaque cas a été effectuée sur FaceForensics ++ et les propres auteurs ID-Révéler sur VoxCeleb2. Les résultats incluent des vidéos de haute et basse qualité.

Les auteurs déclarent:

L'apprentissage est réalisé exclusivement sur de véritables vidéos de visages parlants ; le détecteur ne dépend donc d'aucune méthode de manipulation spécifique et offre une capacité de généralisation optimale. De plus, notre méthode peut détecter les attaques monomodales (audio uniquement, vidéo uniquement) et multimodales (audio-vidéo), et résiste aux vidéos de mauvaise qualité ou corrompues en s'appuyant uniquement sur des caractéristiques sémantiques de haut niveau.

Le nouveau système d’ papier, qui intègre des éléments de certaines visions des auteurs ID-Révéler projet de 2021, est intitulé Détection DeepFake de personnes d'intérêt audiovisuelles, et est un effort conjoint entre l'Université de Federico II à Naples et l'Université technique de Munich.

La course aux armements Deepfake

Pour vaincre un système de détection de cette nature, les systèmes de synthèse deepfake et humains nécessiteraient la capacité de simuler au moins des signaux biométriques visuels et audio à partir de la cible prévue de la synthèse - une technologie qui est éloignée de plusieurs années et susceptible de rester du ressort de des systèmes fermés coûteux et propriétaires développés par des sociétés VFX, qui auront l'avantage de la coopération et de la participation des cibles visées (ou de leurs successions, dans le cas de la simulation de personnes décédées).

L'approche précédente des auteurs, ID-Reveal, se concentrait entièrement sur les informations visuelles. Source : https://arxiv.org/pdf/2012.02512.pdf

L’approche précédente des auteurs, ID-Reveal, se concentrait entièrement sur les informations visuelles. Source : https://arxiv.org/pdf/2012.02512.pdf

Méthodes de deepfake réussies et populaires telles que Échange de visage et Laboratoire DeepFace/Live n'ont actuellement aucune capacité à créer de telles approximations biométriques granulaires, en s'appuyant au mieux sur des imitateurs à qui la fausse identité est imposée, et bien plus fréquemment à des images de personnes « similaires » filmées dans la nature. La structure du code de base de 2017, peu modulaire et qui demeure la source amont de DFL et FaceSwap, ne permet pas non plus d'ajouter ce type de fonctionnalité.

Ces deux packages deepfake dominants sont basés sur auto-encodeurs. Des méthodes alternatives de synthèse humaine peuvent utiliser un réseau antagoniste génératif (GAN) ou un champ de rayonnement neuronal (Nerf) approche de recréation de l'identité humaine; mais ces deux lignes de recherche ont des années de travail devant elles, même pour produire une vidéo humaine entièrement photoréaliste.

À l'exception de l'audio (voix simulées), la simulation biométrique se situe très loin dans la liste des défis auxquels est confrontée la synthèse d'images humaines. Quoi qu'il en soit, reproduire le timbre et les autres qualités de la voix humaine ne reproduit pas ses excentricités et ses « tells », ni la manière dont le sujet réel utilise la construction sémantique. Par conséquent, même la perfection de la simulation vocale générée par l'IA ne résout pas le problème potentiel de l'authenticité biométrique.

Rien qu'à Arxiv, plusieurs stratégies et innovations de détection de deepfake sont publié chaque semaine. Les approches récentes reposent sur Homogénéité voix-visage, Histogramme de modèle binaire local (FF-LBPH), perception humaine des deepfakes audio, analyse des contours des visages, prise en compte de la dégradation vidéo et « Balistique médico-légale » - parmi beaucoup d'autres.

L'analyse d'istogrammes fait partie des dernières techniques proposées pour améliorer la détection des deepfakes. Source : https://arxiv.org/pdf/2203.09928.pdf

L'analyse d'histogramme segmenté fait partie des dernières techniques proposées pour améliorer la détection des deepfakes. Source : https://arxiv.org/pdf/2203.09928.pdf

Approche, données et architecture

POI-Forensics adopte une approche multimodale de la vérification d'identité, en tirant parti de la biométrie douce basée sur des indices visuels et audio. Le cadre comporte des réseaux audio et vidéo séparés, qui dérivent finalement des données vectorielles caractéristiques qui peuvent être comparées aux mêmes caractéristiques extraites dans une vidéo deepfake potentielle à l'étude.

L'architecture de POI-Forensics.

L'architecture conceptuelle de POI-Forensics.

Une analyse séparée (audio ou vidéo) et une analyse de fusion peuvent être effectuées sur des clips cibles, aboutissant finalement à un indice de similarité POI. La fonction de perte contrastive utilisée est basée sur un 2021 collaboration académique entre Google Research, l'Université de Boston, Snap Inc. et le MIT.

L'ensemble de données de base a été divisé par identité. 4608 identités ont été utilisées pour la formation, avec 512 restantes pour validation. Les 500 identités utilisées dans FakeAVCelebV2 (un candidat test, voir ci-dessous) ont été exclues afin d'obtenir des résultats non polarisés.

Les deux réseaux ont été formés pendant 12 époques à une taille de lot inhabituellement importante de 2304 lots par époque, chaque lot étant composé de 8 × 8 segments vidéo - 8 segments pour 8 identités différentes. L'optimiseur Adam a été utilisé avec perte de poids découplée à un taux d'apprentissage de 10-4, et une décroissance de poids de 0.01.

Tests et résultats

Les ensembles de données deepfake testés pour le projet étaient les Aperçu de l'ensemble de données DeepFake Detection Challenge, qui propose des échanges de visages sur 68 sujets, parmi lesquels 44 identités ont été sélectionnées qui ont plus de neuf vidéos associées, totalisant 920 vraies vidéos et 2925 fausses vidéos ; DeepFake-TIMIT, un ensemble de données basé sur GAN comprenant 320 vidéos de 32 sujets, totalisant 290 vidéos réelles et 580 fausses vidéos d'une durée d'au moins quatre secondes ; FauxAVCelebV2, comprenant 500 vidéos réelles de Voxceleb2, et environ 20,000 XNUMX fausses vidéos provenant de divers ensembles de données, auxquelles de faux sons clonés ont été ajoutés avec SV2TTS pour la compatibilité ; et KoDF, un ensemble de données deepfake coréen avec 403 identités truquées via FaceSwap, DeepFaceLab et FSGAN, ainsi que trois modèles de mouvement du premier ordre (FOMME).

Ce dernier propose également une synthèse faciale basée sur l'audio ATFHP, et la sortie de Wav2Lip, les auteurs utilisant un ensemble de données dérivé comprenant 276 vidéos réelles et 544 fausses vidéos.

Les métriques utilisées comprenaient l'aire sous la courbe caractéristique de fonctionnement du récepteur (ASC), et un « taux de fausses alarmes » d'environ 10 %, ce qui serait problématique dans les cadres qui intègrent et s'entraînent sur de fausses données, mais ce problème est résolu par le fait que POI-Forensics ne prend que des séquences vidéo authentiques comme entrée.

Les méthodes ont été testées contre les Seferbekov détecteur deepfake, qui a obtenu la première place dans le Kaggle Deepfake Detection Challenge; FTCN (Fully Temporal Convolution Network), une collaboration entre l'Université de Xiamen en Chine et Microsoft Research Asia ; LèvreForensics, un travail conjoint de 2021 entre l'Imperial College de Londres et Facebook ; et ID-Révéler, un projet antérieur de plusieurs chercheurs du nouveau document, qui omet un aspect audio et qui utilise des modèles morphables 3D en combinaison avec un scénario de jeu contradictoire pour détecter les fausses sorties.

Dans les résultats (voir le tableau précédent ci-dessus), POI-Forensics a surpassé le leader de référence Seferbekov de 2.5 % en AUC et de 1.5 % en termes de précision. Les performances étaient plus compétitives par rapport aux autres ensembles de données au siège.

Cependant, la nouvelle approche a démontré une avance notable sur toutes les méthodes de référence concurrentes pour les vidéos de faible qualité, qui restent la scénario le plus probable dans lequel les deepfakes sont susceptibles de tromper les téléspectateurs occasionnels, en se basant sur des contextes du « monde réel ».

Les auteurs affirment :

« En effet, dans ce scénario difficile, seules les approches basées sur l’identité continuent de fournir de bonnes performances, car elles s’appuient sur des caractéristiques sémantiques de haut niveau, assez robustes aux altérations de l’image. »

Étant donné que PIO-Forensics utilise uniquement de vraies vidéos comme source, la réussite est sans doute amplifiée et suggère que l'utilisation des caractéristiques biométriques natives des victimes potentielles de deepfake est une voie intéressante pour échapper à la « guerre froide des artefacts » entre les logiciels deepfake et les solutions de détection de deepfake.

Dans un test final, les chercheurs ont ajouté du bruit contradictoire à l'entrée, une méthode qui peut tromper de manière fiable les classificateurs. Le désormais vénérable méthode de signe de gradient rapide s'avère encore particulièrement efficace, à cet égard.

Comme on pouvait s'y attendre, les stratégies d'attaque adverses ont réduit le taux de réussite pour toutes les méthodes et tous les ensembles de données, l'AUC diminuant par paliers de 10 % à 38 %. Cependant, seules POI-Forensics et la méthode antérieure des auteurs, ID-Reveal, ont pu maintenir des performances raisonnables dans ce scénario d'attaque, ce qui suggère que les fonctionnalités avancées associées à la biométrie douce sont extraordinairement résistantes à la détection des deepfakes.

Les auteurs concluent:

« Globalement, nous pensons que notre méthode constitue un premier pas ; en particulier, l'utilisation de caractéristiques sémantiques de haut niveau constitue une voie prometteuse pour la recherche future. De plus, l'analyse multimodale pourrait être enrichie par l'inclusion d'informations provenant d'autres domaines, comme les données textuelles. »

 

Première publication le 8 avril 2022.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai