Künstliche Intelligenz
Tiefeninformationen können Deepfakes in Echtzeit aufdecken

Neue Forschungsergebnisse aus Italien haben gezeigt, dass Tiefeninformationen, die aus Bildern gewonnen werden, ein nützliches Werkzeug zur Erkennung von Deepfakes sein können – sogar in Echtzeit.
Während die Mehrheit der Forschung zur Erkennung von Deepfakes in den letzten fünf Jahren sich auf Artefaktidentifizierung (die durch verbesserte Techniken gemildert oder mit schlechter Video-Codec-Komprimierung verwechselt werden kann) konzentriert hat, Umgebungsbeleuchtung, biometrische Merkmale, zeitliche Störung und sogar menschliche Intuition, legt die neue Studie nahe, dass Tiefeninformationen ein wertvoller Schlüssel für Deepfake-Inhalte sein könnten.

Beispiele für abgeleitete Tiefenkarten und den Unterschied im wahrnehmbaren Tiefeninformationen zwischen echten und gefälschten Bildern. Quelle: https://arxiv.org/pdf/2208.11074.pdf
Kritisch ist, dass die für die neue Studie entwickelten Erkennungsframeworks sehr gut auf einem leichten Netzwerk wie Xception funktionieren und akzeptabel gut auf MobileNet, und die neue Veröffentlichung anerkennt, dass die geringe Latenz der Inferenz, die durch solche Netzwerke angeboten wird, eine Echtzeit-Erkennung von Deepfakes gegen den neuen Trend hin zu Live-Deepfake-Betrug ermöglichen kann, wie er durch den jüngsten Angriff auf Binance exemplifiziert wird.
Eine größere Ökonomie bei der Inferenzzeit kann erreicht werden, da das System keine vollfarbigen Bilder benötigt, um den Unterschied zwischen gefälschten und echten Tiefenkarten zu bestimmen, sondern allein auf Graustufenbildern der Tiefeninformationen effizient arbeiten kann.
Die Autoren stellen fest: ‘Dieses Ergebnis legt nahe, dass die Tiefe in diesem Fall einen relevanten Beitrag zur Klassifizierung leistet als Farbartefakte.’
Die Ergebnisse repräsentieren einen Teil einer neuen Welle von Deepfake-Erkennungsforschung, die gegen Echtzeit-Gesichtssynthese-Systeme wie DeepFaceLive gerichtet ist – ein Schwerpunkt, der in den letzten 3-4 Monaten deutlich beschleunigt wurde, nachdem das FBI im März vor dem Risiko von Echtzeit-Video- und Audio-Deepfakes gewarnt hat.
Die Veröffentlichung trägt den Titel DepthFake: eine tiefenbasierte Strategie zur Erkennung von Deepfake-Videos und stammt von fünf Forschern der Sapienza-Universität in Rom.
Randfälle
Während der Trainingsphase priorisieren autoencoder-basierte Deepfake-Modelle die inneren Regionen des Gesichts, wie Augen, Nase und Mund. In den meisten Fällen, über offene Quellcode-Verteilungen wie DeepFaceLab und FaceSwap (beide von dem ursprünglichen Reddit-Code vor dessen Löschung abgeleitet), werden die äußeren Linien des Gesichts nicht gut definiert, bis zu einem sehr späten Stadium im Training, und sind unwahrscheinlich mit der Qualität der Synthese in der inneren Gesichtsregion zu vergleichen.

Aus einer vorherigen Studie sehen wir eine Visualisierung von ‘Saliency-Maps’ des Gesichts. Quelle: https://arxiv.org/pdf/2203.01318.pdf
Normalerweise ist dies nicht wichtig, da unsere Tendenz, zuerst auf die Augen zu achten und dann nach außen mit abnehmender Aufmerksamkeit, bedeutet, dass wir durch diese Abnahmen in der peripheren Qualität nicht gestört werden – insbesondere, wenn wir live mit der Person sprechen, die eine andere Identität fälscht, was soziale Konventionen und Verarbeitungsbeschränkungen auslöst, die nicht vorhanden sind, wenn wir ‘gerenderte’ Deepfake-Footage auswerten.
Jedoch kann der Mangel an Detail oder Genauigkeit in den betroffenen Randregionen eines deepgefälschten Gesichts algorithmisch erkannt werden. Im März wurde ein System, das auf die periphere Gesichtsregion abzielt, angekündigt. Allerdings erfordert es aufgrund der notwendigen überdurchschnittlichen Menge an Trainingsdaten, dass es nur für Berühmtheiten gedacht ist, die wahrscheinlich in populären Gesichtsdatensätzen (wie ImageNet) vorkommen, die in aktuellen Computer-Vision- und Deepfake-Erkennungstechniken eine Beweisführung haben.
Stattdessen kann das neue System, DepthFake genannt, generisch funktionieren, sogar auf unbedeutende oder unbekannte Identitäten, indem es die Qualität der geschätzten Tiefeninformationen in echten und gefälschten Videoinhalten unterscheidet.
Tiefe
Tiefeninformationen werden zunehmend in Smartphones integriert, einschließlich AI-gestützter Stereo-Implementierungen, die besonders nützlich für Computer-Vision-Studien sind. In der neuen Studie haben die Autoren das FaceDepth-Modell der National University of Ireland verwendet, ein konvolutionales Encoder/Decoder-Netzwerk, das effizient Tiefenkarten aus einzelnen Bildquellen schätzen kann.
Als Nächstes extrahiert die Pipeline für das neue Framework der italienischen Forscher ein 224×224-Pixel-Patch des Gesichts des Subjekts aus dem ursprünglichen RGB-Bild und der abgeleiteten Tiefenkarte. Kritisch ist, dass dies den Prozess ermöglicht, Kerninhalte ohne Neugrößenanpassung zu übertragen; dies ist wichtig, da Größenanpassungs-Algorithmen die Qualität der Zielbereiche negativ beeinflussen würden.
Mit diesen Informationen, sowohl aus echten als auch aus Deepfake-Quellen, trainierten die Forscher ein konvolutionales neuronales Netzwerk (CNN), das in der Lage ist, echte von gefälschten Instanzen zu unterscheiden, basierend auf den Unterschieden in der wahrnehmbaren Qualität der jeweiligen Tiefenkarten.
Das FaceDepth-Modell wird auf realistischen und synthetischen Daten mit einer Hybridfunktion trainiert, die mehr Detail an den äußeren Rändern des Gesichts bietet, was es für DepthFake gut geeignet macht. Es verwendet eine MobileNet-Instanz als Feature-Extractor und wurde mit 480×640-Eingabe-Bildern trainiert, die 240×320-Tiefenkarten ausgeben. Jede Tiefenkarte repräsentiert ein Viertel der vier Eingabekanäle, die im neuen Projekts-Diskriminator verwendet werden.
Die Tiefenkarte wird automatisch in das ursprüngliche RGB-Bild eingebettet, um die Art von RGBD-Bild zu liefern, die moderne Smartphone-Kameras ausgeben können.
Trainingsphase
Das Modell wurde auf einem Xception-Netzwerk trainiert, das bereits auf ImageNet vortrainiert war, obwohl die Architektur einige Anpassungen erforderte, um die zusätzliche Tiefeninformation zu berücksichtigen und gleichzeitig die korrekte Initialisierung der Gewichte aufrechtzuerhalten.
Zusätzlich erforderte eine Fehlanpassung der Wertebereiche zwischen der Tiefeninformation und dem, was das Netzwerk erwartet, dass die Forscher die Werte auf 0-255 normalisierten.
Während der Trainingsphase wurden nur Flip- und Rotationsoperationen angewendet. In vielen Fällen würden verschiedene andere visuelle Störungen dem Modell präsentiert, um robuste Inferenz zu entwickeln, aber die Notwendigkeit, die begrenzte und sehr fragile Kanten-Tiefeninformation in den Quellbildern zu erhalten, zwang die Forscher, ein reduziertes Regime zu adoptieren.
Das System wurde zusätzlich auf einfache 2-Kanal-Graustufen trainiert, um zu bestimmen, wie komplex die Quellbilder sein müssen, um einen funktionierenden Algorithmus zu erhalten.
Die Trainingsphase fand über die TensorFlow-API auf einem NVIDIA GTX 1080 mit 8 GB VRAM statt, unter Verwendung des ADAMAX-Optimierers, für 25 Epochen, bei einer Batch-Größe von 32. Die Eingabegröße wurde während des Croppings auf 224×224 festgelegt, und Gesichtserkennung und -extraktion wurden mit der dlib-C++-Bibliothek durchgeführt.
Ergebnisse
Die Genauigkeit der Ergebnisse wurde gegen Deepfake, Face2Face, FaceSwap, Neural Texture und das vollständige Dataset mit RGB- und RGBD-Eingaben getestet, unter Verwendung des FaceForensic++-Frameworks.

Ergebnisse auf Genauigkeit über vier Deepfake-Methoden und gegen das gesamte ungeteilte Dataset. Die Ergebnisse sind zwischen der Analyse von Quell-RGB-Bildern und denselben Bildern mit einer eingebetteten abgeleiteten Tiefenkarte geteilt. Die besten Ergebnisse sind in Fett gedruckt, mit Prozentsatz-Zahlen darunter, die den Umfang zeigen, in dem die Tiefeninformation die Ergebnisse verbessert.
In allen Fällen verbessert der Tiefenkanal die Leistung des Modells über alle Konfigurationen. Xception erzielt die besten Ergebnisse, mit dem agilen MobileNet dicht dahinter. Dazu kommentieren die Autoren:
‘[Es] ist interessant zu beachten, dass MobileNet leicht unterlegen ist gegenüber Xception und ResNet50 übertrifft. Dies ist ein bemerkenswertes Ergebnis, wenn man das Ziel der Reduzierung der Inferenzzeiten für Echtzeit-Anwendungen berücksichtigt. Obwohl dies nicht die Hauptbeiträge dieser Arbeit sind, betrachten wir es dennoch als ermutigendes Ergebnis für zukünftige Entwicklungen.’
Die Forscher stellen auch einen konstanten Vorteil von RGBD- und 2-Kanal-Graustufen-Eingabe gegenüber RGB- und einfachen Graustufen-Eingabe fest, mit der Beobachtung, dass die Graustufen-Konvertierungen von Tiefeninferenzen, die computationally sehr günstig sind, es dem Modell ermöglichen, verbesserte Ergebnisse mit sehr begrenzten lokalen Ressourcen zu erzielen, was die zukünftige Entwicklung von Echtzeit-Deepfake-Erkennung basierend auf Tiefeninformationen erleichtert.
Erstveröffentlichung 24. August 2022.












