Suivez nous sur

Révéler des modifications d'IA petites mais significatives dans une vidéo réelle

Angle d'Anderson

Révéler des modifications d'IA petites mais significatives dans une vidéo réelle

mm
Montage d'illustrations tirĂ©es de l'article « DĂ©tection de manipulations Deepfake localisĂ©es Ă  l'aide de reprĂ©sentations vidĂ©o guidĂ©es par unitĂ© d'action Â» (https://arxiv.org/pdf/2503.22121)

En 2019, la présidente de la Chambre des représentants des États-Unis, Nancy Pelosi, a fait l'objet d'une attaque ciblée et assez low-tech de type deepfake, lorsqu'une vraie vidéo d'elle a été éditée pour la faire paraître ivre - un incident irréel qui a été partagé plusieurs millions de fois avant que la vérité ne soit révélée (et, potentiellement, après que certains dommages tenaces à son capital politique aient été causés par ceux qui n’ont pas été au courant de l’histoire).

Bien que cette fausse représentation n’ait nécessité qu’un simple montage audiovisuel, plutôt qu’une quelconque IA, elle reste un exemple clé de la façon dont des changements subtils dans une production audiovisuelle réelle peuvent avoir un effet dévastateur.

À l’époque, la scène deepfake était dominée par le basé sur un autoencodeur Les systèmes de remplacement du visage, lancés fin 2017, n'avaient pas connu d'amélioration significative de leur qualité depuis. Ces premiers systèmes auraient eu du mal à réaliser des modifications aussi modestes, mais significatives, ou à poursuivre de manière réaliste des axes de recherche modernes tels que édition d'expression:

Le rĂ©cent framework « Neural Emotion Director Â» modifie l'humeur d'un visage cĂ©lèbre. Source : https://www.youtube.com/watch?v=Li6W8pRDMJQ

Le cadre « Neural Emotion Director » 2022 change l'humeur d'un visage célèbre. Source : https://www.youtube.com/watch?v=Li6W8pRDMJQ

Les choses ont bien changé. L'industrie du cinéma et de la télévision est sérieusement intéressé dans la modification post-production de performances réelles à l'aide d'approches d'apprentissage automatique et la facilitation de l'IA après coup le perfectionnisme a même faire l'objet de critiques récentes.

Anticipant (ou sans doute crĂ©ant) cette demande, la scène de recherche en synthèse d'images et de vidĂ©os a lancĂ© un large Ă©ventail de projets qui offrent des « montages locaux Â» de captures faciales, plutĂ´t que des remplacements purs et simples : les projets de ce type incluent Autoencodeurs vidĂ©o de diffusion; Cousez-le Ă  temps; ChatFace; Visage magiqueEt DISCO, entre autres.

Édition d'expressions avec le projet MagicFace (janvier 2025). Source : https://arxiv.org/pdf/2501.02260

Édition d'expression avec le projet MagicFace de janvier 2025. Source : https://arxiv.org/pdf/2501.02260

Nouveaux visages, nouvelles rides

Cependant, les technologies qui les permettent se développent bien plus rapidement que les méthodes de détection. Presque toutes les méthodes de détection des deepfakes qui apparaissent dans la littérature s'attaquent aux méthodes deepfakes d'hier avec ensembles de données d'hierJusqu’à cette semaine, aucun d’entre eux n’avait abordé le potentiel rampant des systèmes d’IA pour créer de petites modifications locales et ponctuelles dans la vidéo.

Aujourd'hui, une nouvelle étude indienne a corrigé ce problème, avec un système qui cherche à identifier les visages qui ont été édité (plutôt que remplacé) par des techniques basées sur l'IA :

DĂ©tection de modifications locales subtiles dans les deepfakes : une vidĂ©o rĂ©elle est modifiĂ©e pour produire des faux avec des changements subtils, tels que des haussements de sourcils, des modifications de caractĂ©ristiques sexuelles et des expressions exprimant le dĂ©goĂ»t (illustrĂ© ici par une seule image). Source : https://arxiv.org/pdf/2503.22121

Détection de modifications locales subtiles dans les deepfakes : une vraie vidéo est modifiée pour produire des faux avec des changements nuancés tels que des sourcils levés, des traits de genre modifiés et des changements d'expression vers le dégoût (illustrés ici avec une seule image). Source : https://arxiv.org/pdf/2503.22121

Le système des auteurs vise à identifier les deepfakes impliquant des manipulations faciales subtiles et localisées – une catégorie de falsifications par ailleurs négligée. Plutôt que de se concentrer sur les incohérences globales ou les incohérences d'identité, l'approche cible des modifications fines, telles que de légers changements d'expression ou de légères modifications de traits faciaux spécifiques.

La méthode utilise le délimiteur d'unités d'action (UA) dans le Système de codage des actions faciales (FACS), qui définit 64 zones individuelles mutables possibles dans le visage, qui forment ensemble des expressions.

Quelques-unes des 64 parties constitutives de l'expression FACS. Source : https://www.cs.cmu.edu/~face/facs.htm

Certaines des 64 parties d'expression constitutives du FACS. Source : https://www.cs.cmu.edu/~face/facs.htm

Les auteurs ont évalué leur approche par rapport à une variété de méthodes d'édition récentes et signalent des gains de performances constants, à la fois avec des ensembles de données plus anciens et avec des vecteurs d'attaque beaucoup plus récents :

« En utilisant des fonctionnalités basées sur l'AU pour guider les représentations vidéo apprises via les autoencodeurs masqués [(MAE)], notre méthode capture efficacement les changements localisés essentiels pour détecter les modifications faciales subtiles.

« Cette approche nous permet de construire une représentation latente unifiée qui encode à la fois les modifications localisées et les altérations plus larges dans les vidéos centrées sur le visage, offrant une solution complète et adaptable pour la détection des deepfakes. »

Quand vous vous déconnectez, votre profil nouveau papier est intitulé Détection de manipulations Deepfake localisées à l'aide de représentations vidéo guidées par unité d'action, et provient de trois auteurs de l'Institut indien de technologie de Madras.

Méthode

Conformément à l’approche adoptée par VidéoMAELa nouvelle méthode commence par l'application de la détection de visages à une vidéo et l'échantillonnage d'images régulièrement espacées, centrées sur les visages détectés. Ces images sont ensuite divisées en petites sections 3D (c'est-à-dire temporellement activées). patchs), chacun capturant les détails spatiaux et temporels locaux.

Schéma de la nouvelle méthode. La vidéo d'entrée est traitée par détection de visage afin d'extraire des images régulièrement espacées et centrées sur le visage. Ces images sont ensuite divisées en blocs tubulaires et transmises à un encodeur qui fusionne les représentations latentes de deux tâches de prétexte pré-entraînées. Le vecteur obtenu est ensuite utilisé par un classificateur pour déterminer si la vidéo est réelle ou truquée.

Schéma de la nouvelle méthode. La vidéo d'entrée est traitée par détection de visage afin d'extraire des images régulièrement espacées et centrées sur le visage. Ces images sont ensuite divisées en blocs « tubulaires » et transmises à un encodeur qui fusionne les représentations latentes de deux tâches de prétexte pré-entraînées. Le vecteur obtenu est ensuite utilisé par un classificateur pour déterminer si la vidéo est réelle ou truquée.

Chaque patch 3D contient une fenêtre de pixels de taille fixe (16×16) issue d'un petit nombre d'images successives (2). Cela permet au modèle d'apprendre les changements de mouvement et d'expression à court terme, non seulement l'apparence du visage, mais aussi comment ça bouge.

Les patchs sont intégrés et codé positionnellement avant d'être transmis à un encodeur conçu pour extraire des caractéristiques permettant de distinguer le vrai du faux.

Les auteurs reconnaissent que cela est particulièrement difficile lorsqu'il s'agit de manipulations subtiles et abordent ce problème en construisant un encodeur qui combine deux types distincts de représentations apprises, en utilisant un attention croisée mécanisme permettant de les fusionner. Ceci vise à produire une image plus sensible et généralisable. espace de fonctionnalité pour détecter les modifications localisées.

Tâches de prétexte

La première de ces représentations est un encodeur entraîné avec une tâche d'auto-encodage masqué. La vidéo étant divisée en zones 3D (dont la plupart sont masquées), l'encodeur apprend ensuite à reconstruire les parties manquantes, le forçant à capturer des schémas spatio-temporels importants, tels que les mouvements du visage ou la cohérence temporelle.

L'entraînement aux tâches de prétexte consiste à masquer des parties de l'entrée vidéo et à utiliser une configuration encodeur-décodeur pour reconstruire soit les images d'origine, soit les cartes d'unités d'action par image, selon la tâche.

L'entraînement aux tâches de prétexte consiste à masquer des parties de l'entrée vidéo et à utiliser une configuration encodeur-décodeur pour reconstruire soit les images d'origine, soit les cartes d'unités d'action par image, selon la tâche.

Cependant, l'article observe que cette méthode seule ne fournit pas une sensibilité suffisante pour détecter des modifications fines. Les auteurs introduisent donc un second encodeur entraîné à détecter les unités d'action faciale (UA). Pour cette tâche, le modèle apprend à reconstruire des cartes d'UA denses pour chaque image, toujours à partir d'entrées partiellement masquées. Cela l'incite à se concentrer sur l'activité musculaire localisée, là où se produisent de nombreuses modifications deepfake subtiles.

Autres exemples d'unitĂ©s d'action faciale (UA). Source : https://www.eiagroup.com/the-facial-action-coding-system/

Autres exemples d'unités d'action faciale (FAU ou AU). Source : https://www.eiagroup.com/the-facial-action-coding-system/

Une fois les deux encodeurs pré-entraînés, leurs sorties sont combinées par attention croisée. Au lieu de simplement fusionner les deux ensembles de caractéristiques, le modèle utilise les caractéristiques basées sur les UA comme requêtes qui guident l'attention sur les caractéristiques spatio-temporelles apprises par auto-encodage masqué. En effet, l'encodeur d'unité d'action indique au modèle où regarder.

Le rĂ©sultat est une reprĂ©sentation latente fusionnĂ©e, destinĂ©e Ă  capturer Ă  la fois le contexte gĂ©nĂ©ral du mouvement et les dĂ©tails localisĂ©s de l'expression. Cet espace de caractĂ©ristiques combinĂ©es est ensuite utilisĂ© pour la tâche de classification finale : prĂ©dire si une vidĂ©o est rĂ©elle ou manipulĂ©e.

Données et tests

Mise en œuvre

Les auteurs ont mis en œuvre le système en prétraitant les vidéos d'entrée avec le FaceXZoo Cadre de détection de visages basé sur PyTorch, obtenant 16 images centrées sur le visage pour chaque clip. Les tâches de prétexte décrites ci-dessus ont ensuite été entraînées sur le CelebV-HQ ensemble de données comprenant 35,000 XNUMX vidéos faciales de haute qualité.

Extrait de l'article source, exemples tirĂ©s de l'ensemble de donnĂ©es CelebV-HQ utilisĂ© dans le nouveau projet. Source : https://arxiv.org/pdf/2207.12393

À partir du document source, exemples de l'ensemble de données CelebV-HQ utilisé dans le nouveau projet. Source : https://arxiv.org/pdf/2207.12393

La moitié des exemples de données ont été masqués, obligeant le système à apprendre des principes généraux au lieu de surajustement aux données sources.

Pour la tâche de reconstruction d'images masquées, le modèle a été formé pour prédire les régions manquantes des images vidéo à l'aide d'un Perte L1, en minimisant la différence entre le contenu original et reconstruit.

Pour la deuxième tâche, le modèle a été formé pour générer des cartes pour 16 unités d'action faciale, chacune représentant des mouvements musculaires subtils dans des zones telles que les sourcils, les paupières, le nez et les lèvres, à nouveau supervisés par la perte de L1.

Après la préformation, les deux encodeurs ont été fusionnés et réglés avec précision pour la détection de deepfakes à l'aide du FaceForensics ++ ensemble de données, qui contient à la fois des vidéos réelles et manipulées.

Le jeu de donnĂ©es FaceForensics++ est la rĂ©fĂ©rence en matière de dĂ©tection des deepfakes depuis 2017, bien qu'il soit dĂ©sormais largement dĂ©passĂ© par rapport aux dernières techniques de synthèse faciale. Source : https://www.youtube.com/watch?v=x2g48Q2I2ZQ

L'ensemble de données FaceForensics++ est la pierre angulaire de la détection des deepfakes depuis 2017, bien qu'il soit désormais considérablement obsolète par rapport aux dernières techniques de synthèse faciale. Source : https://www.youtube.com/watch?v=x2g48Q2I2ZQ

Pour tenir compte de déséquilibre de classe, les auteurs ont utilisé Perte focale (une variante de perte d'entropie croisée), qui met l’accent sur des exemples plus difficiles pendant la formation.

Toute la formation a été réalisée sur un seul GPU RTX 4090 avec 24 Go de VRAM, avec un taille du lot de 8 pour 600 époques (examens complets des données), en utilisant pré-formé points de contrôle de VideoMAE pour initialiser les poids pour chacune des tâches de prétexte.

Tests

Des Ă©valuations quantitatives et qualitatives ont Ă©tĂ© rĂ©alisĂ©es sur une variĂ©tĂ© de mĂ©thodes de dĂ©tection de deepfakes : FTCN; RealForensics; Expertise mĂ©dico-lĂ©gale des lèvres; EfficientNet+ViT; Radiographie du visage; CongĂ©lation Alt;  CADMM; LAANet; et BlendFace SBIDans tous les cas, le code source Ă©tait disponible pour ces frameworks.

Les tests ont portĂ© sur des deepfakes Ă©ditĂ©s localement, oĂą seule une partie du clip source a Ă©tĂ© modifiĂ©e. Les architectures utilisĂ©es Ă©taient les suivantes : Diffusion Video Autoencoders (DVA), Stitch It In Time (STIT) ; Édition de visage dĂ©mĂŞlĂ©e (DFE); Flux de jetons; VidĂ©oP2P; Texte2LiveEt Fate ZeroCes mĂ©thodes utilisent une diversitĂ© d'approches (diffusion pour DVA et StyleGAN2 pour STIT et DFE, par exemple)

Les auteurs déclarent:

Pour garantir une couverture complète des différentes manipulations faciales, nous avons intégré une grande variété de traits et d'attributs faciaux. Pour l'édition des traits du visage, nous avons modifié la taille des yeux, la distance œil-sourcil, le rapport nez-bouche, le rapport lèvres-joues. Pour l'édition des attributs faciaux, nous avons varié les expressions telles que le sourire, la colère, le dégoût et la tristesse.

« Cette diversitĂ© est essentielle pour valider la robustesse de notre modèle sur un large Ă©ventail de montages localisĂ©s. Au total, nous avons gĂ©nĂ©rĂ© 50 vidĂ©os pour chacune des mĂ©thodes de montage mentionnĂ©es ci-dessus et validĂ© la forte gĂ©nĂ©ralisation de notre mĂ©thode pour la dĂ©tection des deepfakes. Â»

Des ensembles de données deepfake plus anciens ont également été inclus dans les cycles, à savoir Célébrité-DFv2 (CDF2); Détection DeepFake (DFD); Défi de détection DeepFake (DFDC); et WildDeepfake (DFW).

Les mesures d’évaluation ont été Aire sous la courbe (ASC); Précision moyenne; et moyenne Score F1.

D'après l'article : la comparaison des deepfakes localisés récents montre que la méthode proposée a surpassé toutes les autres, avec un gain de 15 à 20 % en termes d'AUC et de précision moyenne par rapport à la meilleure approche suivante.

D'après l'article : la comparaison des deepfakes localisés récents montre que la méthode proposée a surpassé toutes les autres, avec un gain de 15 à 20 % en termes d'AUC et de précision moyenne par rapport à la meilleure approche suivante.

Les auteurs fournissent en outre une comparaison de détection visuelle pour les vues manipulées localement (reproduite seulement en partie ci-dessous, en raison du manque d'espace) :

Une vidéo réelle a été modifiée à l'aide de trois manipulations localisées différentes afin de produire des falsifications visuellement similaires à l'original. Voici des images représentatives, accompagnées des scores moyens de détection des falsifications pour chaque méthode. Alors que les détecteurs existants peinaient à gérer ces modifications subtiles, le modèle proposé a systématiquement attribué des probabilités de falsification élevées, indiquant une plus grande sensibilité aux modifications localisées.

Une vidéo réelle a été modifiée à l'aide de trois manipulations localisées différentes afin de produire des falsifications visuellement similaires à l'original. Voici des images représentatives, accompagnées des scores moyens de détection des falsifications pour chaque méthode. Alors que les détecteurs existants peinaient à gérer ces modifications subtiles, le modèle proposé a systématiquement attribué des probabilités de falsification élevées, indiquant une plus grande sensibilité aux modifications localisées.

Les chercheurs commentent :

Les méthodes de détection SOTA existantes, [LAANet], [SBI], [AltFreezing] et [CADMM], connaissent une baisse significative de leurs performances face aux méthodes de dernière génération de deepfakes. Les méthodes SOTA actuelles affichent des AUC aussi faibles que 48-71 %, démontrant ainsi leur faible capacité de généralisation aux deepfakes récents.

« D'autre part, notre mĂ©thode dĂ©montre une gĂ©nĂ©ralisation robuste, atteignant une AUC comprise entre 87 et 93 %. Une tendance similaire est Ă©galement observĂ©e pour la prĂ©cision moyenne. Comme indiquĂ© ci-dessous, notre mĂ©thode atteint Ă©galement des performances Ă©levĂ©es sur des ensembles de donnĂ©es standard, dĂ©passant 90 % d'AUC, et est compĂ©titive par rapport aux rĂ©cents modèles de dĂ©tection de deepfakes. Â»

Les performances sur les ensembles de données deepfake traditionnels montrent que la méthode proposée est restée compétitive par rapport aux principales approches, indiquant une forte généralisation sur une gamme de types de manipulation.

Les performances sur les ensembles de données deepfake traditionnels montrent que la méthode proposée est restée compétitive par rapport aux principales approches, indiquant une forte généralisation sur une gamme de types de manipulation.

Les auteurs observent que ces derniers tests portent sur des modèles que l’on pourrait raisonnablement considérer comme dépassés, et qui ont été introduits avant 2020.

Afin de donner une représentation visuelle plus complète des performances du nouveau modèle, les auteurs fournissent un tableau détaillé à la fin, dont nous n'avons l'espace que pour reproduire une partie ici :

Dans ces exemples, une vidéo réelle a été modifiée à l'aide de trois montages localisés afin de produire des contrefaçons visuellement similaires à l'original. Les scores de confiance moyens obtenus pour ces manipulations montrent, selon les auteurs, que la méthode proposée a détecté les contrefaçons avec plus de fiabilité que les autres approches courantes. Veuillez consulter la dernière page du PDF source pour les résultats complets.

Dans ces exemples, une vidéo réelle a été modifiée à l'aide de trois montages localisés afin de produire des contrefaçons visuellement similaires à l'original. Les scores de confiance moyens obtenus pour ces manipulations montrent, selon les auteurs, que la méthode proposée a détecté les contrefaçons avec plus de fiabilité que les autres approches courantes. Veuillez consulter la dernière page du PDF source pour les résultats complets.

Les auteurs affirment que leur méthode atteint des scores de confiance supérieurs à 90 % pour la détection de modifications localisées, alors que les méthodes de détection existantes restent inférieures à 50 % pour la même tâche. Ils interprètent cet écart comme une preuve de la sensibilité et de la généralisabilité de leur approche, et comme une indication des difficultés rencontrées par les techniques actuelles pour traiter ce type de manipulations faciales subtiles.

Pour évaluer la fiabilité du modèle dans des conditions réelles, et selon la méthode établie par CADMM, les auteurs ont testé ses performances sur des vidéos modifiées avec des distorsions courantes, notamment des ajustements de saturation et de contraste, un flou gaussien, une pixellisation et des artefacts de compression basés sur des blocs, ainsi que du bruit additif.

Les résultats ont montré que la précision de détection est restée globalement stable malgré ces perturbations. La seule baisse notable s'est produite avec l'ajout de bruit gaussien, qui a entraîné une légère baisse des performances. Les autres altérations ont eu un effet minime.

Illustration de l'évolution de la précision de détection sous différentes distorsions vidéo. La nouvelle méthode est restée stable dans la plupart des cas, avec seulement une légère baisse de l'ASC. La baisse la plus significative s'est produite lors de l'introduction du bruit gaussien.

Illustration de l'évolution de la précision de détection sous différentes distorsions vidéo. La nouvelle méthode est restée stable dans la plupart des cas, avec seulement une légère baisse de l'ASC. La baisse la plus significative s'est produite lors de l'introduction du bruit gaussien.

Ces résultats, suggèrent les auteurs, suggèrent que la capacité de la méthode à détecter des manipulations localisées n'est pas facilement perturbée par les dégradations typiques de la qualité vidéo, ce qui confirme sa robustesse potentielle dans des contextes pratiques.

Conclusion

La manipulation de l'IA est présente dans la conscience collective principalement à travers la notion traditionnelle de deepfakes, où l'identité d'une personne est imposée au corps d'une autre personne, laquelle peut accomplir des actions contraires aux principes du détenteur de l'identité. Cette conception est progressivement actualisée pour prendre en compte les capacités plus insidieuses des systèmes vidéo génératifs (dans la nouvelle génération de deepfakes vidéo), et aux capacités des modèles de diffusion latente (LDM) en général.

Il est donc raisonnable de s’attendre à ce que le type de rédaction locale dont s’occupe le nouveau journal ne soit pas porté à l’attention du public avant qu’un événement crucial de type Pelosi ne se produise, puisque les gens sont distraits de cette possibilité par des sujets plus faciles à retenir, tels que fraude par deepfake vidéo.

Néanmoins, tout comme l'acteur Nic Cage l'a fait exprimé une préoccupation constante Concernant la possibilité que les processus de post-production « révisent » la performance d’un acteur, nous devrions peut-être nous aussi encourager une plus grande prise de conscience de ce type d’ajustement vidéo « subtil » – notamment parce que nous sommes par nature incroyablement sensibles aux très petites variations de l’expression faciale, et parce que le contexte peut modifier de manière significative l’impact de petits mouvements du visage (pensez à l’effet perturbateur d’un simple sourire narquois lors d’un enterrement, par exemple).

 

Première publication le mercredi 2 avril 2025

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai