talon Les informations de profondeur peuvent révéler des deepfakes en temps réel - Unite.AI
Suivez nous sur

Intelligence artificielle

Les informations de profondeur peuvent révéler des deepfakes en temps réel

mm
Le kit de préparation mis à jour on

De nouvelles recherches italiennes ont révélé que les informations de profondeur obtenues à partir d’images peuvent être un outil utile pour détecter les deepfakes, même en temps réel.

Alors que la majorité des recherches sur la détection des deepfakes au cours des cinq dernières années se sont concentrées sur identification d'artefact (qui peut être atténué par des techniques améliorées, ou confondu avec une mauvaise compression du codec vidéo), éclairage ambiant, traits biométriques, perturbation temporelle, Et même instinct humain, la nouvelle étude est la première à suggérer que les informations de profondeur pourraient être un chiffrement précieux pour le contenu deepfake.

Exemples de cartes de profondeur dérivées et différence d'informations de profondeur perceptive entre les images réelles et fausses. Source : https://arxiv.org/pdf/2208.11074.pdf

Exemples de cartes de profondeur dérivées et différence d'informations de profondeur perceptive entre les images réelles et fausses. Source : https://arxiv.org/pdf/2208.11074.pdf

De manière critique, les cadres de détection développés pour la nouvelle étude fonctionnent très bien sur un réseau léger tel que Xception, et acceptablement bien sur Réseau mobile, et le nouvel article reconnaît que la faible latence d'inférence offerte par ces réseaux peut permettre une détection en temps réel des deepfakes contre la nouvelle tendance à la fraude profonde en direct, illustrée par le récent attaque contre Binance.

Une plus grande économie de temps d'inférence peut être obtenue car le système n'a pas besoin d'images en couleur pour déterminer la différence entre les cartes de profondeur fausses et réelles, mais peut fonctionner étonnamment efficacement uniquement sur des images en niveaux de gris des informations de profondeur.

Les auteurs déclarent: "Ce résultat suggère que la profondeur dans ce cas ajoute une contribution plus pertinente à la classification que les artefacts de couleur."

Les résultats font partie d'une nouvelle vague de recherche sur la détection de deepfake dirigée contre les systèmes de synthèse faciale en temps réel tels que DeepFaceLive - un lieu d'efforts qui s'est considérablement accéléré au cours des 3-4 derniers mois, à la suite des enquêtes du FBI avertissement en mars sur le risque de deepfakes vidéo et audio en temps réel.

Les papier est intitulé DepthFake : une stratégie basée sur la profondeur pour détecter les vidéos Deepfake, et vient de cinq chercheurs de l'Université La Sapienza de Rome.

Cas de bord

Pendant la formation, les modèles deepfake basés sur l'auto-encodeur donnent la priorité aux régions internes du visage, telles que les yeux, le nez et la bouche. Dans la plupart des cas, à travers les distributions open source telles que Laboratoire DeepFace ainsi que le Échange de visage (tous deux fourchus de l'original 2017 Code Reddit avant sa suppression), les linéaments extérieurs du visage ne deviennent bien définis qu'à un stade très tardif de l'entraînement et il est peu probable qu'ils correspondent à la qualité de synthèse dans la zone intérieure du visage.

D'une étude précédente, nous voyons une visualisation des «cartes de saillance» du visage. Source : https://arxiv.org/pdf/2203.01318.pdf

D'une étude précédente, nous voyons une visualisation des «cartes de saillance» du visage. Source : https://arxiv.org/pdf/2203.01318.pdf

Normalement, cela n'a pas d'importance, puisque notre tendance à nous concentrer d'abord sur les yeux et à donner la priorité à «l'extérieur» à des niveaux d'attention décroissants signifie que nous ne serons probablement pas perturbés par ces baisses de qualité périphérique - surtout si nous parlons en direct au personne qui simule une autre identité, ce qui déclenche des conventions sociales et limites de traitement pas présent lorsque nous évaluons les images deepfake "rendues".

Cependant, le manque de détails ou de précision dans les régions marginales affectées d'un visage deepfake peut être détecté de manière algorithmique. En mars, un système qui touche la zone frontale périphérique a été annoncé. Cependant, comme il nécessite une quantité de données d'entraînement supérieure à la moyenne, il est uniquement destiné aux célébrités susceptibles de figurer dans des ensembles de données faciales populaires (tels que ImageNet) provenant des techniques actuelles de vision par ordinateur et de détection des deepfakes.

Au lieu de cela, le nouveau système, intitulé Faux de profondeur, peut fonctionner de manière générique même sur des identités obscures ou inconnues, en distinguant la qualité des informations de carte de profondeur estimée dans le contenu vidéo réel et faux.

Aller en profondeur

Les informations cartographiques de profondeur sont de plus en plus intégrées dans les smartphones, y compris Implémentations stéréo assistées par IA qui sont particulièrement utiles pour les études de vision par ordinateur. Dans la nouvelle étude, les auteurs ont utilisé le modèle FaceDepth de l'Université nationale d'Irlande, un réseau de codeur/décodeur convolutif qui peut estimer efficacement les cartes de profondeur à partir d'images à source unique.

Le modèle FaceDepth en action. Source : https://tinyurl.com/3ctcazma

Le modèle FaceDepth en action. Source : https://tinyurl.com/3ctcazma

Ensuite, le pipeline du nouveau cadre des chercheurs italiens extrait un patch de 224 × 224 pixels du visage du sujet à la fois de l'image RVB d'origine et de la carte de profondeur dérivée. De manière critique, cela permet au processus de copier le contenu principal sans le redimensionner ; ceci est important, car les algorithmes de redimensionnement standard de taille affecteront négativement la qualité des zones ciblées.

En utilisant ces informations, provenant à la fois de sources réelles et de sources truquées, les chercheurs ont ensuite formé un réseau neuronal convolutif (CNN) capable de distinguer les instances réelles des instances truquées, sur la base des différences entre la qualité perceptuelle des cartes de profondeur respectives.

Pipeline conceptuel pour DepthFake.

Pipeline conceptuel pour DepthFake.

Le modèle FaceDepth est formé sur des données réalistes et synthétiques à l'aide d'une fonction hybride qui offre plus de détails sur les marges extérieures du visage, ce qui le rend bien adapté au DepthFake. Il utilise une instance MobileNet comme extracteur de fonctionnalités et a été formé avec des images d'entrée de 480 × 640 produisant des cartes de profondeur de 240 × 320. Chaque carte de profondeur représente un quart des quatre canaux d'entrée utilisés dans le discriminateur du nouveau projet.

La carte de profondeur est automatiquement intégrée à l'image RVB d'origine pour fournir le type d'image RVB, remplie d'informations de profondeur, que les caméras de smartphone modernes peuvent produire.

Formation

Le modèle a été formé sur un réseau Xception déjà préformé sur ImageNet, bien que l'architecture ait nécessité une certaine adaptation afin de prendre en compte les informations de profondeur supplémentaires tout en maintenant l'initialisation correcte des poids.

De plus, une inadéquation des plages de valeurs entre les informations de profondeur et ce que le réseau attend a nécessité que les chercheurs normalisent les valeurs à 0-255.

Pendant l'entraînement, seuls le retournement et la rotation ont été appliqués. Dans de nombreux cas, diverses autres perturbations visuelles seraient présentées au modèle afin de développer une inférence robuste, mais la nécessité de préserver les informations limitées et très fragiles de la carte de profondeur des contours dans les photos sources a obligé les chercheurs à adopter un régime de réduction.

Le système a en outre été formé sur une simple échelle de gris à 2 canaux, afin de déterminer la complexité des images source nécessaires pour obtenir un algorithme exploitable.

La formation a eu lieu via l'API TensorFlow sur une NVIDIA GTX 1080 avec 8 Go de VRAM, à l'aide de l'optimiseur ADAMAX, pour 25 époques, à une taille de lot de 32. La résolution d'entrée a été fixée à 224 × 224 pendant le recadrage, et la détection et l'extraction des visages ont été accompli avec le dlib Bibliothèque C++.

Résultats

La précision des résultats a été testée contre Deepfake, Face2Face, Échange de visage, Texture neuronale, et l'ensemble de données complet avec les entrées RGB et RGBD, en utilisant le FaceForensic++ cadre.

Résultats sur la précision sur quatre méthodes deepfake et sur l'ensemble de données non divisé. Les résultats sont répartis entre l'analyse des images RVB source et les mêmes images avec une carte de profondeur inférée intégrée. Les meilleurs résultats sont en gras, avec des pourcentages en dessous démontrant dans quelle mesure les informations de la carte de profondeur améliorent le résultat.

Résultats sur la précision sur quatre méthodes deepfake et sur l'ensemble de données non divisé. Les résultats sont répartis entre l'analyse des images RVB source et les mêmes images avec une carte de profondeur inférée intégrée. Les meilleurs résultats sont en gras, avec des pourcentages en dessous démontrant dans quelle mesure les informations de la carte de profondeur améliorent le résultat.

Dans tous les cas, le canal de profondeur améliore les performances du modèle dans toutes les configurations. Xception obtient les meilleurs résultats, talonné par l'agile MobileNet. A ce sujet, les auteurs commentent :

« [Il] est intéressant de noter que le MobileNet est légèrement inférieur au Xception et surpasse le ResNet50 plus profond. Il s'agit d'un résultat notable lorsque l'on considère l'objectif de réduction des temps d'inférence pour les applications en temps réel. Bien que ce ne soit pas la principale contribution de ce travail, nous le considérons toujours comme un résultat encourageant pour les développements futurs.

Les chercheurs notent également un avantage constant de l'entrée en niveaux de gris RVB et 2 canaux par rapport à l'entrée en niveaux de gris RVB et droite, observant que les conversions en niveaux de gris des inférences de profondeur, qui sont très bon marché en termes de calcul, permettent au modèle d'obtenir des résultats améliorés avec des ressources locales très limitées. faciliter le développement futur de la détection de deepfake en temps réel basée sur des informations de profondeur.

 

Première publication le 24 août 2022.