Connect with us

Détecter les appels vidéo Deepfake grâce à l’éclairage du moniteur

Intelligence artificielle

Détecter les appels vidéo Deepfake grâce à l’éclairage du moniteur

mm

Une nouvelle collaboration entre un chercheur de l’Agence de sécurité nationale (NSA) des États-Unis et l’Université de Californie à Berkeley offre une méthode novatrice pour détecter le contenu Deepfake dans un contexte de vidéo en direct – en observant l’effet de l’éclairage du moniteur sur l’apparence de la personne à l’autre extrémité de l’appel vidéo.

L'utilisateur populaire de DeepFaceLive, Druuzil Tech & Games, essaie son propre modèle Christian Bale DeepFaceLab dans une session en direct avec ses abonnés, tandis que les sources de lumière changent. Source : https://www.youtube.com/watch?v=XPQLDnogLKA

L’utilisateur populaire de DeepFaceLive, Druuzil Tech & Games, essaie son propre modèle Christian Bale DeepFaceLab dans une session en direct avec ses abonnés, tandis que les sources de lumière changent. Source : https://www.youtube.com/watch?v=XPQLDnogLKA

Le système fonctionne en plaçant un élément graphique sur l’écran de l’utilisateur qui change une plage étroite de sa couleur plus rapidement que ce que peut répondre un système Deepfake typique – même si, comme la mise en œuvre de diffusion de Deepfake en temps réel DeepFaceLive (représenté ci-dessus), il a une certaine capacité de maintenir le transfert de couleur en temps réel et de tenir compte de l’éclairage ambiant.

L’image de couleur uniforme affichée sur le moniteur de la personne à l’autre extrémité (c’est-à-dire le fraudeur Deepfake potentiel) passe par une variation limitée de changements de teinte conçus pour ne pas activer l’équilibrage automatique des blancs de la webcam et d’autres systèmes de compensation d’éclairage ad hoc, qui compromettraient la méthode.

À partir du document, une illustration du changement des conditions d'éclairage à partir du moniteur devant un utilisateur, qui fonctionne effectivement comme une lumière d'aire diffuse. Source : https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

À partir du document, une illustration du changement des conditions d’éclairage à partir du moniteur devant un utilisateur, qui fonctionne effectivement comme une lumière d’aire diffuse. Source : https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

La théorie derrière l’approche est que les systèmes Deepfake en temps réel ne peuvent pas répondre à temps aux changements représentés dans le graphique à l’écran, augmentant le « décalage » de l’effet Deepfake à certaines parties du spectre de couleur, révélant ainsi sa présence.

Pour pouvoir mesurer avec précision la lumière réfléchie du moniteur, le système doit tenir compte et ensuite neutraliser l’effet de l’éclairage environnemental général non lié à la lumière du moniteur. Il est alors en mesure de distinguer les insuffisances dans la mesure de la teinte d’illumination active et de la teinte faciale des utilisateurs, représentant un décalage temporel de 1 à 4 différences de trames entre chacune :

En limitant les variations de teinte dans le graphique de détection à l'écran, et en s'assurant que la webcam de l'utilisateur n'est pas incitée à ajuster automatiquement ses paramètres de capture en raison d'un changement excessif dans l'illumination du moniteur, les chercheurs ont pu discerner un décalage révélateur dans l'ajustement du système Deepfake aux changements d'éclairage.

En limitant les variations de teinte dans le graphique de détection à l’écran, et en s’assurant que la webcam de l’utilisateur n’est pas incitée à ajuster automatiquement ses paramètres de capture en raison de changements excessifs dans les niveaux d’illumination du moniteur, les chercheurs ont pu discerner un décalage révélateur dans l’ajustement du système Deepfake aux changements d’éclairage.

Le document conclut :

‘Étant donné la confiance raisonnable que nous plaçons dans les appels vidéo en direct, et la croissance de l’ubiquité des appels vidéo dans notre vie personnelle et professionnelle, nous proposons que les techniques d’authentification des appels vidéo (et audio) ne feront que gagner en importance.’

L’étude intitulée Détecter les vidéos Deepfake en temps réel à l’aide d’une illumination active, est menée par Candice R. Gerstner, mathématicienne de recherche appliquée au département de la Défense des États-Unis, et le professeur Hany Farid de Berkeley.

Erosion de la confiance

La scène de recherche anti-Deepfake a considérablement pivoté au cours des six derniers mois, passant de la détection générale de Deepfake (c’est-à-dire ciblant les vidéos enregistrées et le contenu pornographique) à la détection de « vivacité », en réponse à une vague croissante d’incidents d’utilisation de Deepfake dans les appels de conférence vidéo, et à l’avertissement récent du FBI concernant l’utilisation croissante de ces technologies dans les applications de travail à distance.

Même lorsque l’appel vidéo ne s’avère pas être un Deepfake, les opportunités accrues pour les imposteurs vidéo à base d’IA commencent à générer de la paranoïa.

Le nouveau document indique :

‘La création de Deepfakes en temps réel [présente] des menaces uniques en raison du sentiment général de confiance entourant un appel vidéo ou téléphonique en direct, et le défi de détecter les Deepfakes en temps réel, alors que l’appel se déroule.’

La communauté de recherche s’est fixé pour objectif de trouver des signes infalsifiables de contenu Deepfake qui ne peuvent pas être facilement compensés. Bien que les médias aient généralement caractérisé cela en termes de guerre technologique entre les chercheurs en sécurité et les développeurs de Deepfake, la plupart des négations des approches précédentes (telles que l’analyse des clignements des yeux, la distinction de la pose de la tête et l’analyse du comportement) sont simplement dues au fait que les développeurs et les utilisateurs essayaient de créer des Deepfakes plus réalistes en général, plutôt que de répondre spécifiquement au dernier « signe » identifié par la communauté de sécurité.

Éclairer les appels vidéo Deepfake en direct

La détection de Deepfakes dans les environnements de vidéo en direct comporte le fardeau de tenir compte des mauvaises connexions vidéo, qui sont très courantes dans les scénarios de vidéoconférence. Même sans une couche de Deepfake intermédiaire, le contenu vidéo peut être soumis à des retards de type NASA, des artefacts de rendu et d’autres types de dégradation dans l’audio et la vidéo. Ceux-ci peuvent servir à cacher les arêtes vives dans une architecture de Deepfake en direct, à la fois en termes de vidéo et d’audio Deepfake.

Le système des auteurs améliore les résultats et les méthodes qui figurent dans une publication de 2020 du Center for Networked Computing de l’Université Temple à Philadelphie.

À partir du document de 2020, on peut observer le changement dans l'illumination faciale « remplie » à mesure que le contenu de l'écran de l'utilisateur change. Source : https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

À partir du document de 2020, on peut observer le changement dans l’illumination faciale « remplie » à mesure que le contenu de l’écran de l’utilisateur change. Source : https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

La différence dans le nouveau travail est qu’il tient compte de la façon dont les webcams réagissent aux changements d’éclairage. Les auteurs expliquent :

‘Puisque toutes les webcams modernes effectuent une exposition automatique, le type d’illumination active à haute intensité [utilisé dans les travaux précédents] est susceptible de déclencher l’exposition automatique de l’appareil photo, qui à son tour confondra l’apparence faciale enregistrée. Pour éviter cela, nous employons une illumination active consistant en un changement isoluminant de teinte.

‘Bien que cela évite l’exposition automatique de l’appareil photo, cela pourrait déclencher l’équilibrage des blancs de l’appareil photo, qui confondrait à nouveau l’apparence faciale enregistrée. Pour éviter cela, nous opérons dans une plage de teintes que nous avons déterminée empiriquement pour ne pas déclencher l’équilibrage des blancs.’

Pour cette initiative, les auteurs ont également considéré des initiatives similaires antérieures, telles que LiveScreen, qui force un motif d’éclairage imperceptible sur l’écran de l’utilisateur final dans le but de révéler le contenu Deepfake.

Bien que ce système ait atteint un taux de précision de 94,8 %, les chercheurs concluent que la subtilité des motifs de lumière les rendrait difficile à mettre en œuvre dans des environnements fortement éclairés, et proposent que leur propre système, ou un système calqué sur des lignes similaires, pourrait être intégré publiquement et par défaut dans les logiciels de vidéoconférence populaires :

‘Notre intervention proposée pourrait être réalisée soit par un participant à l’appel qui partage simplement son écran et affiche le motif variant dans le temps, soit, idéalement, elle pourrait être directement intégrée dans le client d’appel vidéo.’

Tests

Les auteurs ont utilisé un mélange de sujets synthétiques et du monde réel pour tester leur détecteur de Deepfake Dlib-driven. Pour le scénario synthétique, ils ont utilisé Mitsuba, un rendu et un rendu inverse de l’Institut fédéral suisse de technologie à Lausanne.

Échantillons de l'ensemble de données simulées, présentant des variations de teinte de peau, de taille de source lumineuse, d'intensité de lumière ambiante et de proximité de la caméra.

Échantillons de l’ensemble de données simulées, présentant des variations de teinte de peau, de taille de source lumineuse, d’intensité de lumière ambiante et de proximité de la caméra.

La scène représentée comprend une tête CGI paramétrique capturée à partir d’une caméra virtuelle avec un champ de vision de 90°. Les têtes présentent une réflexion lambertienne et des teintes de peau neutres, et sont situées à 2 pieds devant la caméra virtuelle.

Pour tester le cadre sur une gamme de peaux et de configurations possibles, les chercheurs ont effectué une série de tests, en faisant varier divers aspects de manière séquentielle. Les aspects modifiés comprenaient la teinte de peau, la proximité et la taille de la lumière d’illumination.

Les auteurs commentent :

‘Dans la simulation, avec nos hypothèses satisfaites, notre technique proposée est très robuste à une large gamme de configurations d’imagerie.’

Pour le scénario du monde réel, les chercheurs ont utilisé 15 volontaires présentant une gamme de teintes de peau, dans des environnements divers. Chacun a été soumis à deux cycles de variation de teinte restreinte, dans des conditions où une fréquence de rafraîchissement d’écran de 30 Hz était synchronisée avec la webcam, ce qui signifie que l’illumination active ne durerait qu’une seconde à la fois. Les résultats étaient globalement comparables aux tests synthétiques, bien que les corrélations aient augmenté de manière notable avec des valeurs d’illumination plus élevées.

Directions futures

Le système, reconnaissent les chercheurs, ne tient pas compte des occlusions faciales typiques, telles que les bangs, les lunettes ou les poils faciaux. Cependant, ils notent que le masquage de ce type peut être ajouté à des systèmes ultérieurs (via l’étiquetage et la segmentation sémantique ultérieure), qui pourraient être formés pour prendre des valeurs exclusivement à partir des zones de peau perçues dans le sujet cible.

Les auteurs suggèrent également qu’un paradigme similaire pourrait être employé pour détecter les appels audio Deepfake, et que le son nécessaire à la détection pourrait être joué dans une fréquence en dehors de la plage auditive normale humaine.

Peut-être plus intéressant encore, les chercheurs suggèrent également qu’étendre la zone d’évaluation au-delà du visage dans un cadre de capture plus riche pourrait améliorer de manière notable la possibilité de détection de Deepfake* :

‘Une estimation 3D plus sophistiquée de l’éclairage serait susceptible de fournir un modèle d’apparence plus riche qui serait encore plus difficile pour un faussaire à contourner. Bien que nous nous soyons concentrés uniquement sur le visage, l’écran d’ordinateur éclaire également le cou, le haut du corps et l’arrière-plan environnant, à partir desquels des mesures similaires pourraient être prises.

‘Ces mesures supplémentaires obligeraient le faussaire à considérer la scène 3D entière, et non seulement le visage.’

 

* Ma conversion des citations intégrales des auteurs en hyperliens.

Publié pour la première fois le 6 juillet 2022.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.