Cybersécurité

Détecter les deepfakes de conférence vidéo avec la fonction « Vibrez » d’un smartphone

Published September 24, 2024

Updated April 3, 2026

Martin Anderson

An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, September 24, 2024 13:27:31

De nouvelles recherches menées à Singapour ont proposé une méthode novatrice pour détecter si quelqu’un à l’autre bout d’un outil de vidéoconférence sur smartphone utilise des méthodes telles que DeepFaceLive pour imiter quelqu’un d’autre.

Intitulé SFake, la nouvelle approche abandonne les méthodes passives employées par la plupart des systèmes et fait vibrer le téléphone de l’utilisateur (en utilisant les mêmes mécanismes de « vibration » communs aux smartphones), et floue subtilement son visage.

Bien que les systèmes de deepfaking en temps réel soient capables de répliquer le flou de mouvement, tant que des images floues ont été incluses dans les données de formation, ou au moins dans les données de pré-formation, ils ne peuvent pas répondre suffisamment rapidement à un flou inattendu de ce type, et continuent à afficher des sections non floues de visages, révélant l’existence d’un appel de conférence deepfake.

DeepFaceLive ne peut pas répondre suffisamment rapidement pour simuler le flou causé par les vibrations de l’appareil photo. Source : https://arxiv.org/pdf/2409.10889v1

Les résultats des tests sur le jeu de données auto-créé des chercheurs (puisqu’aucun jeu de données mettant en vedette un mouvement actif de l’appareil photo n’existe) ont montré que SFake a surpassé les méthodes de détection de deepfake basées sur la vidéo, même dans des circonstances difficiles, telles que le mouvement naturel de la main qui se produit lorsque l’autre personne dans une vidéoconférence tient l’appareil photo avec sa main, au lieu d’utiliser un support de téléphone statique.

Le besoin croissant de détection de deepfake basée sur la vidéo

La recherche sur la détection de deepfake basée sur la vidéo a augmenté récemment. À la suite de plusieurs années de réussites de deepfake de voix, plus tôt cette année, un employé de la finance a été trompé pour transférer 25 millions de dollars à un fraudeur qui imitait un CFO dans un appel de conférence vidéo deepfake.

Bien qu’un système de cette nature nécessite un accès matériel élevé, de nombreux utilisateurs de smartphones sont déjà habitués à des services de vérification financière et autres qui nous demandent d’enregistrer nos caractéristiques faciales pour une authentification basée sur le visage (en effet, c’est même une partie du processus de vérification de LinkedIn).

Il est donc probable que de telles méthodes seront de plus en plus mises en œuvre pour les systèmes de vidéoconférence, à mesure que ce type de crime continuera à faire les gros titres.

La plupart des solutions qui s’attaquent au deepfaking de vidéoconférence en temps réel supposent un scénario très statique, où le communicant utilise une webcam fixe, et aucun mouvement ou changement environnemental ou d’éclairage excessif n’est attendu. Un appel de smartphone n’offre pas de situation « fixe » de ce type.

Au lieu de cela, SFake utilise une série de méthodes de détection pour compenser le grand nombre de variantes visuelles dans une vidéoconférence sur smartphone tenue à la main, et semble être le premier projet de recherche à aborder le problème en utilisant l’équipement de vibration standard intégré aux smartphones.

Le document s’intitule Shaking the Fake : Detecting Deepfake Videos in Real Time via Active Probes, et provient de deux chercheurs de l’Université technologique de Nanyang à Singapour.

Méthode

SFake est conçu comme un service basé sur le cloud, où une application locale enverrait des données à un service API distant pour être traitées, et les résultats renvoyés.

Cependant, sa petite empreinte de 450 Mo et sa méthodologie optimisée permettent qu’il puisse traiter la détection de deepfake entièrement sur l’appareil lui-même, dans les cas où une connexion réseau pourrait causer des images envoyées à devenir excessivement compressées, affectant le processus diagnostique.

Exécuter « tout local » de cette manière signifie que le système aurait un accès direct à la flux de l’appareil photo de l’utilisateur, sans l’interférence du codec souvent associée à la vidéoconférence.

Le temps d’analyse moyen nécessite un échantillon vidéo de quatre secondes, pendant lequel l’utilisateur est invité à rester immobile, et pendant lequel SFake envoie des « sondes » pour causer des vibrations de l’appareil photo à des intervalles aléatoires sélectifs que des systèmes tels que DeepFaceLive ne peuvent pas répondre à temps.

(Il faut réitérer que tout attaquant qui n’a pas inclus de contenu flou dans le jeu de données de formation est peu probable pour être en mesure de produire un modèle qui peut générer un flou même dans des circonstances beaucoup plus favorables, et que DeepFaceLive ne peut pas simplement « ajouter » cette fonctionnalité à un modèle formé sur un jeu de données sous-curaté)

Le système choisit des zones sélectionnées du visage comme zones de contenu de deepfake potentiel, en excluant les yeux et les sourcils (puisqu’un clignement et d’autres motilités faciales dans cette zone sont en dehors de la portée de la détection de flou, et ne sont pas un indicateur idéal).

Schéma conceptuel pour SFake.

Comme on peut le voir dans le schéma conceptuel ci-dessus, après avoir choisi des modèles de vibration appropriés et imprévisibles, en décidant de la meilleure longueur focale, et en effectuant une reconnaissance faciale (y compris la détection de repères via un composant Dlib qui estime un total de 68 repères faciaux standard), SFake dérive des gradients à partir du visage d’entrée et se concentre sur des zones sélectionnées de ces gradients.

La séquence de variance est obtenue en analysant séquentiellement chaque trame de la courte séquence sous étude, jusqu’à ce que la séquence moyenne ou « idéale » soit atteinte, et le reste est rejeté.

Cela fournit des fonctions qui peuvent être utilisées comme quantificateur de la probabilité de contenu de deepfake, basé sur la base de données formée (dont plus tard).

Le système nécessite une résolution d’image de 1920×1080 pixels, ainsi qu’une exigence de zoom d’au moins 2x pour l’objectif. Le document note que de telles résolutions (et même des résolutions plus élevées) sont prises en charge dans Microsoft Teams, Skype, Zoom et Tencent Meeting.

La plupart des smartphones ont une caméra avant et une caméra auto, et souvent seulement l’une d’elles a les capacités de zoom requises par SFake ; l’application nécessiterait donc que le communicant utilise quelle que soit la caméra qui répond à ces exigences.

L’objectif est d’obtenir une proportion correcte du visage de l’utilisateur dans le flux vidéo que le système analysera. Le document observe que la distance moyenne à laquelle les femmes utilisent des appareils mobiles est de 34,7 cm, et pour les hommes, 38,2 cm (comme rapporté dans Journal of Optometry), et que SFake fonctionne très bien à ces distances.

Puisque la stabilisation est un problème avec la vidéo tenue à la main, et puisque le flou qui se produit du mouvement de la main est un obstacle au fonctionnement de SFake, les chercheurs ont essayé plusieurs méthodes pour compenser. La plus réussie de ces méthodes a été de calculer le point central des repères estimés et de l’utiliser comme « ancre » – effectivement une technique de stabilisation algorithmique. À cette méthode, une précision de 92 % a été obtenue.

Données et tests

Comme aucun jeu de données approprié n’existait à cette fin, les chercheurs ont créé le leur :

‘[Nous] utilisons 8 marques différentes de smartphones pour enregistrer 15 participants de genres et d’âges variés pour construire notre propre jeu de données. Nous plaçons le smartphone sur un support de téléphone à 20 cm de distance du participant et zoomons deux fois, en visant le visage du participant pour englober toutes ses caractéristiques faciales tout en faisant vibrer le smartphone dans différents modèles.

‘Pour les téléphones dont les caméras avant ne peuvent pas zoomer, nous utilisons les caméras arrière comme substitut. Nous enregistrons 150 vidéos longues, chacune de 20 secondes de durée. Par défaut, nous supposons que la période de détection dure 4 secondes. Nous coupons 10 clips de 4 secondes à partir d’une vidéo longue en randomisant l’heure de début. Par conséquent, nous obtenons un total de 1500 clips réels, chacun de 4 secondes de durée.’

Bien que DeepFaceLive (lien GitHub) ait été l’objectif central de l’étude, car c’est actuellement le système de deepfaking en temps réel open source le plus largement utilisé, les chercheurs ont inclus quatre autres méthodes pour former leur modèle de détection de base : Hififace ; FS-GANV2 ; RemakerAI ; et MobileFaceSwap – la dernière de ces méthodes étant un choix particulièrement approprié, étant donné l’environnement ciblé.

1500 vidéos truquées ont été utilisées pour la formation, ainsi que le même nombre de vidéos réelles et non modifiées.

SFake a été testé contre plusieurs classificateurs différents, notamment SBI ; FaceAF ; CnnDetect ; LRNet ; DefakeHop variants ; et le service de détection de deepfake en ligne gratuit Deepaware. Pour chacune de ces méthodes de deepfake, 1500 vidéos truquées et 1500 vidéos réelles ont été formées.

Pour le classificateur de test de base, un réseau neuronal simple à deux couches avec une fonction d’activation ReLU a été utilisé. 1000 vidéos réelles et 1000 vidéos truquées ont été choisies aléatoirement (bien que les vidéos truquées aient été exclusivement des exemples de DeepFaceLive).

La surface sous la courbe ROC (AUC/AUROC) et la précision (ACC) ont été utilisées comme métriques.

Pour la formation et l’inférence, un NVIDIA RTX 3060 a été utilisé, et les tests ont été exécutés sous Ubuntu. Les vidéos de test ont été enregistrées avec un Xiaomi Redmi 10x, un Xiaomi Redmi K50, un OPPO Find x6, un Huawei Nova9, un Xiaomi 14 Ultra, un Honor 20, un Google Pixel 6a et un Huawei P60.

Pour être conforme aux méthodes de détection existantes, les tests ont été mis en œuvre dans PyTorch. Les résultats des tests principaux sont illustrés dans le tableau ci-dessous :

Résultats pour SFake contre les méthodes concurrentes.

Ici, les auteurs commentent :

‘Dans tous les cas, la précision de détection de SFake a dépassé 95 %. Parmi les cinq algorithmes de deepfake, à l’exception de Hififace, SFake performe mieux contre les autres algorithmes de deepfake que les six autres méthodes de détection. Puisque notre classificateur est formé en utilisant des images truquées générées par DeepFaceLive, il atteint le taux de précision le plus élevé de 98,8 % lors de la détection de DeepFaceLive.

‘Lorsque nous sommes confrontés à des visages truqués générés par RemakerAI, les autres méthodes de détection performent mal. Nous supposons que cela peut être dû à la compression automatique des vidéos lors du téléchargement sur Internet, entraînant la perte de détails d’image et réduisant ainsi la précision de détection. Cependant, cela n’affecte pas la détection par SFake, qui atteint une précision de 96,8 % dans la détection contre RemakerAI.’

Les auteurs notent en outre que SFake est le système le plus performant dans le scénario d’un zoom 2x appliqué à l’objectif de capture, puisque cela exagère le mouvement, et constitue un prospect difficile. Même dans cette situation, SFake a pu atteindre une précision de reconnaissance de 84 % et 83 %, respectivement pour des facteurs de magnification de 2,5 et 3.

Conclusion

Un projet qui utilise les faiblesses d’un système de deepfaking en temps réel contre lui-même est une offre rafraîchissante dans une année où la détection de deepfake a été dominée par des documents qui n’ont fait que remuer des approches vénérables autour de l’analyse de fréquence (ce qui est loin d’être immunisé contre les innovations dans l’espace du deepfake).

À la fin de 2022, un autre système a utilisé la variance de luminosité du moniteur comme crochet de détection ; et la même année, ma propre démonstration de l’incapacité de DeepFaceLive à gérer les vues de profil difficiles a suscité un certain intérêt de la communauté.

DeepFaceLive est la cible appropriée pour un tel projet, car c’est probablement l’objet de l’intérêt criminel en ce qui concerne la fraude de vidéoconférence.

Cependant, j’ai récemment vu des preuves anecdotiques que le système LivePortrait, actuellement très populaire dans la communauté VFX, gère mieux les vues de profil que DeepFaceLive ; il aurait été intéressant si cela pouvait être inclus dans cette étude.

Publié pour la première fois mardi 24 septembre 2024

Unite.AI

Détecter les deepfakes de conférence vidéo avec la fonction « Vibrez » d’un smartphone

Le besoin croissant de détection de deepfake basée sur la vidéo

Méthode

Données et tests

Conclusion

You may like