Cybersécurité
Détecter les deepfakes de vidéoconférence grâce à la fonction « Vibreur » d'un smartphone

Une nouvelle étude menée à Singapour a proposé une nouvelle méthode permettant de détecter si une personne à l'autre bout d'un outil de visioconférence sur smartphone utilise des méthodes telles que DeepFaceLive se faire passer pour quelqu'un d'autre.
Titré SFake, la nouvelle approche abandonne les méthodes passives employées par la plupart des systèmes et provoque le téléphone de l'utilisateur vibrer (en utilisant les mêmes mécanismes de « vibration » commun (sur les smartphones) et flouter subtilement leur visage.
Bien que les systèmes de deepfaking en direct soient plus ou moins capables de reproduire le flou de mouvement, tant que des images floues ont été incluses dans les données d'entraînement, ou au moins dans les données de pré-entraînement, ils ne peuvent pas réagir assez rapidement à un flou inattendu de ce type et continuent à produire des sections non floues de visages, révélant l'existence d'une conférence téléphonique deepfake.

DeepFaceLive ne peut pas réagir suffisamment rapidement pour simuler le flou causé par les vibrations de la caméra. Source : https://arxiv.org/pdf/2409.10889v1
Les résultats des tests sur l'ensemble de données auto-organisé par les chercheurs (puisqu'il n'existe aucun ensemble de données présentant un tremblement de caméra actif) ont révélé que SFake surpassait les méthodes concurrentes de détection de deepfake basées sur la vidéo, même face à des circonstances difficiles, comme le mouvement naturel de la main qui se produit lorsque l'autre personne dans une vidéoconférence tient la caméra avec sa main, au lieu d'utiliser un support de téléphone statique.
Le besoin croissant de détection de deepfakes basée sur la vidéo
Les recherches sur la détection des deepfakes par vidéo ont récemment progressé. Après plusieurs années de succès dans la détection vocale, cambriolages deepfake, plus tôt cette année, un employé du secteur financier a été dupé pour transférer 25 millions de dollars à un fraudeur qui se faisait passer pour un directeur financier lors d'une vidéoconférence truquée.
Bien qu'un système de cette nature nécessite un niveau élevé d'accès matériel, de nombreux utilisateurs de smartphones sont déjà habitués aux services de vérification financière et autres types de services nous demandant d'enregistrer nos caractéristiques faciales pour une authentification basée sur le visage (en fait, cela fait même partie du processus de vérification de LinkedIn).
Il semble donc probable que de telles méthodes seront de plus en plus utilisées pour les systèmes de vidéoconférence, car ce type de criminalité continue de faire la une des journaux.
La plupart des solutions de deepfaking en visioconférence en temps réel reposent sur un scénario très statique, où l'interlocuteur utilise une webcam fixe, sans aucun mouvement ni changement excessif d'environnement ou de luminosité. Un appel sur smartphone n'offre pas une telle situation « fixe ».
Au lieu de cela, SFake utilise un certain nombre de méthodes de détection pour compenser le nombre élevé de variantes visuelles dans une vidéoconférence portable basée sur un smartphone, et semble être le premier projet de recherche à aborder le problème en utilisant un équipement de vibration standard intégré aux smartphones.
Construction papier est intitulé Secouer le faux : détecter les vidéos deepfake en temps réel via des sondes actives, et provient de deux chercheurs de l'Université technologique de Nanyang à Singapour.
Méthode
SFake est conçu comme un service basé sur le cloud, où une application locale enverrait des données à un service API distant pour être traitées et les résultats renvoyés.
Cependant, son empreinte de seulement 450 Mo et sa méthodologie optimisée lui permettent de traiter la détection de deepfake entièrement sur l'appareil lui-même, dans les cas où la connexion réseau pourrait provoquer une compression excessive des images envoyées, affectant le processus de diagnostic.
Exécuter « tout local » de cette manière signifie que le système aurait un accès direct au flux de la caméra de l'utilisateur, sans le codec interférences souvent associées à la vidéoconférence.
Le temps d'analyse moyen nécessite un échantillon vidéo de quatre secondes, pendant lequel l'utilisateur est invité à rester immobile, et pendant lequel SFake envoie des « sondes » pour provoquer des vibrations de la caméra, à des intervalles aléatoires sélectifs auxquels des systèmes tels que DeepFaceLive ne peuvent pas répondre à temps.
(Il convient de souligner à nouveau que tout attaquant n'ayant pas inclus de contenu flou dans l'ensemble de données d'entraînement est peu susceptible de pouvoir produire un modèle capable de générer du flou même dans des circonstances beaucoup plus favorables, et que DeepFaceLive ne peut pas simplement « ajouter » cette fonctionnalité à un modèle entraîné sur un ensemble de données sous-organisé)
Le système choisit des zones sélectionnées du visage comme zones de contenu deepfake potentiel, à l'exclusion des yeux et des sourcils (car le clignement des yeux et d'autres mouvements du visage dans cette zone sont hors de portée de la détection de flou et ne constituent pas un indicateur idéal).

Schéma conceptuel pour SFake.
Comme nous pouvons le voir dans le schéma conceptuel ci-dessus, après avoir choisi des modèles de vibration appropriés et non prévisibles, déterminé la meilleure distance focale et effectué une reconnaissance faciale (y compris la détection de points de repère via un Dlib (composant qui estime un ensemble standard de 68 repères faciaux), SFake dérive des gradients à partir du visage d'entrée et se concentre sur les zones sélectionnées de ces gradients.
La séquence de variance est obtenue en analysant séquentiellement chaque image du court clip étudié, jusqu'à ce que la séquence moyenne ou « idéale » soit atteinte, et le reste est ignoré.
Ceci fournit des extraits Caractéristiques qui peut être utilisé comme quantificateur de la probabilité d'un contenu falsifié, en fonction de la base de données formée (dont nous parlerons plus loin).
Le système nécessite une résolution d'image de 1920×1080 pixels, ainsi qu'un zoom d'au moins 2x pour l'objectif. Le document indique que de telles résolutions (et même des résolutions plus élevées) sont prises en charge dans Microsoft Teams, Skype, Zoom et Tencent Meeting.
La plupart des smartphones disposent d'une caméra frontale et d'une caméra frontale, et souvent, une seule d'entre elles possède les capacités de zoom requises par SFake ; l'application demanderait donc à l'interlocuteur d'utiliser celle des deux caméras qui répond à ces exigences.
L'objectif ici est d'obtenir un proportion correcte du visage de l'utilisateur dans le flux vidéo analysé par le système. L'étude observe que la distance moyenne à laquelle les femmes utilisent leurs appareils mobiles est de 34.7 cm, et de 38.2 cm pour les hommes (comme rapporté in Journal d'optométrie), et que SFake fonctionne très bien à ces distances.
La stabilisation étant problématique avec la vidéo prise à la main, et le flou dû aux mouvements de la main entravant le fonctionnement de SFake, les chercheurs ont essayé plusieurs méthodes pour compenser. La plus efficace a consisté à calculer le point central des points de repère estimés et à l'utiliser comme « ancrage » – une technique de stabilisation algorithmique. Cette méthode a permis d'obtenir une précision de 92 %.
Données et tests
Comme aucun ensemble de données approprié n'existait à cette fin, les chercheurs ont développé leur propre ensemble de données :
« Nous utilisons 8 marques différentes de smartphones pour enregistrer 15 participants de sexes et d'âges différents afin de constituer notre propre ensemble de données. Nous plaçons le smartphone sur le support de téléphone à 20 cm du participant et zoomons deux fois, en visant le visage du participant pour englober toutes ses caractéristiques faciales tout en faisant vibrer le smartphone selon différents schémas.
Pour les téléphones dont la caméra frontale ne permet pas de zoomer, nous utilisons la caméra arrière comme alternative. Nous enregistrons 150 longues vidéos de 20 secondes chacune. Par défaut, nous supposons que la période de détection dure 4 secondes. Nous découpons 10 clips de 4 secondes d'une longue vidéo en randomisant l'heure de début. Nous obtenons ainsi un total de 1500 4 clips réels de XNUMX secondes chacun.
Bien que DeepFaceLive (Lien GitHub) était la cible centrale de l'étude, car il s'agit actuellement du système de deepfaking en direct open source le plus utilisé. Les chercheurs ont inclus quatre autres méthodes pour former leur modèle de détection de base : Hififace; FS-GANV2; RemakerAIEt Échange de visages mobiles – ce dernier étant un choix particulièrement approprié, compte tenu de l’environnement cible.
1500 XNUMX vidéos truquées ont été utilisées pour la formation, ainsi qu'un nombre équivalent de vidéos réelles et non modifiées.
SFake a été testé sur plusieurs classificateurs différents, notamment SBI; FaceAF; CnnDétecter; Réseau LR; DéfakeHop variantes ; et le service gratuit de détection de deepfake en ligne Connaissance profondePour chacune de ces méthodes deepfake, 1500 1500 fausses vidéos et XNUMX XNUMX vraies vidéos ont été entraînées.
Pour le classificateur de test de base, un simple à deux couches Réseau neuronal avec Fonction d'activation ReLU ont été utilisés. 1000 vraies vidéos et 1000 fausses vidéos ont été choisies au hasard (bien que les fausses vidéos soient exclusivement des exemples de DeepFaceLive).
Surface sous la courbe caractéristique de fonctionnement du récepteur (AUC/AUROC) et la précision (ACC) ont été utilisées comme mesures.
Pour l'entraînement et l'inférence, une carte graphique NVIDIA RTX 3060 a été utilisée et les tests ont été exécutés sous Ubuntu. Les vidéos de test ont été enregistrées avec un Xiaomi Redmi 10x, un Xiaomi Redmi K50, un OPPO Find x6, un Huawei Nova9, un Xiaomi 14 Ultra, un Honor 20, un Google Pixel 6a et un Huawei P60.
Pour être en accord avec les méthodes de détection existantes, les tests ont été implémentés dans PyTorch. Les principaux résultats des tests sont illustrés dans le tableau ci-dessous :

Résultats de SFake par rapport aux méthodes concurrentes.
Voici le commentaire des auteurs :
« Dans tous les cas, la précision de détection de SFake a dépassé 95 %. Parmi les cinq algorithmes deepfake, à l'exception de Hififace, SFake est plus performant face aux autres algorithmes deepfake que les six autres méthodes de détection. Comme notre classificateur est formé à l'aide de fausses images générées par DeepFaceLive, il atteint le taux de précision le plus élevé de 98.8 % lors de la détection de DeepFaceLive.
Face aux faux visages générés par RemakerAI, les autres méthodes de détection sont moins performantes. Nous supposons que cela pourrait être dû à la compression automatique des vidéos lors du téléchargement depuis Internet, ce qui entraîne une perte de détails de l'image et réduit ainsi la précision de la détection. Cependant, cela n'affecte pas la détection par SFake, qui atteint une précision de 96.8 % par rapport à RemakerAI.
Les auteurs notent en outre que SFake est le système le plus performant dans le cas d'un zoom 2x appliqué à l'objectif de capture, car cela exagère le mouvement et constitue un défi incroyablement difficile. Même dans cette situation, SFake a pu atteindre une précision de reconnaissance de 84 % et 83 %, respectivement pour des facteurs de grossissement de 2.5 et 3.
Conclusion
Un projet qui utilise les faiblesses d'un système deepfake en direct contre lui-même est une offre rafraîchissante dans une année où la détection de deepfake a été dominée par des articles qui n'ont fait qu'attiser vénérable approches autour de l’analyse de fréquence (qui est loin d’être à l’abri des innovations dans l’espace deepfake).
Fin 2022, un autre système utilisé variation de luminosité du moniteur comme un crochet détecteur ; et la même année, ma propre démonstration de l'incapacité de DeepFaceLive à gérer les vues de profil à 90 degrés a gagné certains intérêt communautaire.
DeepFaceLive est la cible idéale pour un tel projet, car il est presque certainement au centre d’intérêts criminels en matière de fraude par vidéoconférence.
Cependant, j'ai récemment vu des preuves anecdotiques montrant que Portrait en direct système, actuellement très populaire dans la communauté VFX, gère les vues de profil bien mieux que DeepFaceLive ; il aurait été intéressant qu'il puisse être inclus dans cette étude.
Première publication le mardi 24 septembre 2024
