Vernetzen Sie sich mit uns

Künstliche Intelligenz

Deepfake-Erkennung basierend auf ursprünglichen menschlichen biometrischen Merkmalen

mm
Von Deepfakern produzierte Bilder auf dem DeepFaceLab Discord Channel
Von Deepfakern produzierte Bilder auf dem DeepFaceLab Discord Channel

Ein neues Papier von Forschern aus Italien und Deutschland schlägt eine Methode zur Erkennung von Deepfake-Videos vor, die auf biometrischem Gesichts- und Stimmverhalten basiert und nicht auf Artefakten, die durch Gesichtssynthesesysteme, teure Wasserzeichenlösungen oder andere umständlichere Ansätze entstehen.

Das Framework erfordert die Eingabe von 10 oder mehr abwechslungsreichen, nicht gefälschten Videos zum Thema. Es ist jedoch keine spezielle Schulung, Umschulung oder Erweiterung für Einzelfallvideos erforderlich, da das integrierte Modell die wahrscheinlichen Vektorabstände zwischen echten und gefälschten Videos bereits auf allgemein anwendbare Weise abstrahiert hat.

Kontrastives Lernen untermauert den Ansatz der POI-Forensik. Von Fall zu Fall aus dem Quellmaterial abgeleitete Vektoren werden mit denselben Vektoren in einem potenziell gefälschten Video verglichen, wobei Facetten und Merkmale sowohl aus Video- als auch aus Audiokomponenten des potenziell gefälschten Filmmaterials stammen. Quelle: https://arxiv.org/pdf/2204.03083.pdf

Kontrastives Lernen untermauert den Ansatz der POI-Forensik. Von Fall zu Fall aus dem Quellmaterial abgeleitete Vektoren werden mit denselben Vektoren in einem potenziell gefälschten Video verglichen, wobei Facetten und Merkmale sowohl aus Video- als auch aus Audiokomponenten des potenziell gefälschten Filmmaterials stammen. Quelle: https://arxiv.org/pdf/2204.03083.pdf

Betitelt POI-ForensikDer Ansatz basiert auf Bewegungs- und Audiosignalen, die für die reale Person, die gefälscht wird, einzigartig sind.

Obwohl ein solches System vollständig automatisierte, „vorgerenderte“ Authentifizierungsrahmen für Prominente, Politiker, YouTube-Influencer und andere Personen ermöglichen könnte, für die eine große Menge an Videomaterial leicht verfügbar ist, könnte es auch in einen Rahmen integriert werden, in dem gewöhnliche Opfer von Deepfake-Technologien möglicherweise eine Plattform hätten, um die Unechtheit der Angriffe gegen sie zu beweisen.

Visualisierungen extrahierter Merkmale aus echten und gefälschten Videos zu vier Themen in der POI-Forensik über das t-SNE-Framework.

Visualisierungen von extrahierten Merkmalen aus echten und gefälschten Videos zu vier Themen in POI-Forensik, über die t-SNE-Framework.

Die Autoren behaupten, dass POI-Forensics einen neuen Stand der Technik in der Deepfake-Erkennung erreicht. Über eine Vielzahl gängiger Datensätze in diesem Bereich hinweg soll das Framework eine Verbesserung der AUC-Werte um 3 %, 10 % und 7 % für qualitativ hochwertige, qualitativ minderwertige und „angegriffene“ Videos erzielen. Die Forscher versprechen die Veröffentlichung der Code kurz.

Leistung von POI-Forensics im Vergleich zu konkurrierenden SOTA-Frameworks pDFDC, DeepFakeTIMIT, FakeAVCelebV2 und KoDF. Die Schulung erfolgte jeweils zu FaceForensics++, ID-Reveal und der Autorenmethode auf VoxCeleb2. Die Ergebnisse umfassen Videos hoher und niedriger Qualität.

Leistung von POI-Forensics im Vergleich zu konkurrierenden SOTA-Frameworks PDFDC, DeepFakeTIMIT, FakeAVCelebV2und KoDF. Die Schulung wurde jeweils durchgeführt FaceForensics ++ und die eigenen Autoren ID-Enthüllung auf VoxCeleb2. Die Ergebnisse umfassen Videos hoher und niedriger Qualität.

Die Autoren geben an:

„Das Training erfolgt ausschließlich anhand von Videos mit echten sprechenden Gesichtern. Daher ist der Detektor nicht auf eine bestimmte Manipulationsmethode angewiesen und weist die höchste Generalisierungsfähigkeit auf. Darüber hinaus kann unsere Methode sowohl Angriffe mit einer einzigen Modalität (nur Audio, nur Video) als auch mit mehreren Modalitäten (Audio-Video) erkennen und ist robust gegenüber minderwertigen oder beschädigten Videos, da sie ausschließlich auf semantischen Merkmalen auf hoher Ebene aufbaut.“

The new Krepppapier, das Elemente einiger visionsbasierter Ansätze der Autoren enthält ID-Enthüllung Projekt von 2021 trägt den Titel Audiovisuelle DeepFake-Erkennung von Personen von Interesseund ist eine gemeinsame Anstrengung der Universität Federico II in Neapel und der Technischen Universität München.

Das Deepfake-Wettrüsten

Um ein Erkennungssystem dieser Art zu besiegen, müssten Deepfake- und menschliche Synthesesysteme in der Lage sein, zumindest visuelle und akustische biometrische Hinweise vom beabsichtigten Ziel der Synthese zu simulieren – eine Technologie, die noch viele Jahre entfernt ist und wahrscheinlich im Wirkungsbereich bleiben wird kostspielige und proprietäre geschlossene Systeme, die von VFX-Unternehmen entwickelt wurden und den Vorteil der Zusammenarbeit und Beteiligung der beabsichtigten Ziele (oder ihrer Nachlässe, im Fall der Simulation verstorbener Menschen) haben.

Der bisherige Ansatz der Autoren, ID-Reveal, konzentrierte sich ausschließlich auf visuelle Informationen. Quelle: https://arxiv.org/pdf/2012.02512.pdf

Der bisherige Ansatz der Autoren, ID-Reveal, konzentrierte sich ausschließlich auf visuelle Informationen. Quelle: https://arxiv.org/pdf/2012.02512.pdf

Erfolgreiche und beliebte Deepfake-Methoden wie Gesicht tauschen und DeepFaceLab/Live verfügen derzeit über keine Kapazitäten, solche granularen biometrischen Annäherungen zu erstellen, und verlassen sich bestenfalls auf Talente Imitatoren wem die gefälschte Identität aufgezwungen wird, und noch häufiger auf passendes Filmmaterial aus der freien Wildbahn von „ähnlichen“ Personen. Auch die Struktur des Kerncodes von 2017, der wenig modular ist und die Upstream-Quelle für DFL und FaceSwap bleibt, macht das Hinzufügen dieser Art von Funktionalität nicht möglich.

Diese beiden dominanten Deepfake-Pakete basieren auf Autoencoder. Alternative menschliche Synthesemethoden können ein Generative Adversarial Network (GAN) oder ein Neural Radiance Field (Nerf) Ansatz zur Wiederherstellung der menschlichen Identität; Aber beide Forschungsrichtungen haben noch Jahre Arbeit vor sich, um vollständig fotorealistische menschliche Videos zu produzieren.

Mit Ausnahme von Audio (gefälschten Stimmen) steht die biometrische Simulation auf der Liste der Herausforderungen der menschlichen Bildsynthese weit unten. Die Reproduktion des Timbres und anderer Qualitäten der menschlichen Stimme reproduziert ohnehin nicht ihre Eigenheiten und „Verräter“ oder die Art und Weise, wie das reale Subjekt semantische Konstruktionen verwendet. Daher löst selbst die Perfektion der KI-generierten Stimmsimulation nicht die potenzielle Firewall der biometrischen Authentizität.

Allein bei Arxiv gibt es mehrere Deepfake-Erkennungsstrategien und Innovationen jede Woche veröffentlicht. Jüngste Ansätze sind davon abhängig Stimm-Gesichts-Homogenität, Lokales Binärmuster-Histogramm (FF-LBPH), menschliche Wahrnehmung von Audio-Deepfakes, Analyse der Gesichtsränder, Berücksichtigung der Videoverschlechterungund „Forensische Ballistik“ - unter vielen anderen.

Die Istogrammanalyse gehört zu den neuesten Techniken zur Verbesserung der Deepfake-Erkennung. Quelle: https://arxiv.org/pdf/2203.09928.pdf

Die segmentierte Histogrammanalyse gehört zu den neuesten Techniken zur Verbesserung der Deepfake-Erkennung. Quelle: https://arxiv.org/pdf/2203.09928.pdf

Ansatz, Daten und Architektur

POI-Forensics verfolgt einen multimodalen Ansatz zur Identitätsüberprüfung und nutzt weiche Biometrie basierend auf visuellen und akustischen Hinweisen. Das Framework verfügt über separate Audio- und Videonetzwerke, die letztendlich charakteristische Vektordaten ableiten, die mit denselben extrahierten Merkmalen in einem potenziellen Deepfake-Video, das untersucht wird, verglichen werden können.

Die Architektur von POI-Forensics.

Die konzeptionelle Architektur der POI-Forensik.

An Zielclips kann sowohl eine separate (Audio oder Video) als auch eine Fusionsanalyse durchgeführt werden, um schließlich einen POI-Ähnlichkeitsindex zu erhalten. Die verwendete Kontrastverlustfunktion basiert auf einem 2021 akademische Zusammenarbeit zwischen Google Research, Boston University, Snap Inc. und MIT.

Der Basisdatensatz wurde nach Identität aufgeteilt. 4608 Identitäten wurden für das Training verwendet, 512 verblieben für die Validierung. Die 500 in FakeAVCelebV2 (einem Testkandidaten, siehe unten) verwendeten Identitäten wurden ausgeschlossen, um nicht polarisierte Ergebnisse zu erhalten.

Die beiden Netzwerke wurden für 12 Epochen mit einer ungewöhnlich großen Stapelgröße von 2304 Stapeln pro Epoche trainiert, wobei jeder Stapel aus 8×8 Videosegmenten bestand – 8 Segmente für 8 verschiedene Identitäten. Der Adam-Optimierer wurde mit verwendet entkoppelter Gewichtsverlust bei einer Lernrate von 10-4und eine Gewichtsabnahme von 0.01.

Tests und Ergebnisse

Die für das Projekt getesteten Deepfake-Datensätze waren die Vorschau des DeepFake Detection Challenge-Datensatzes, das Face-Swaps über 68 Themen hinweg beinhaltet, aus denen 44 Identitäten ausgewählt wurden, die mehr als neun verwandte Videos haben, also insgesamt 920 echte Videos und 2925 gefälschte Videos; DeepFake-TIMIT, ein GAN-basierter Datensatz mit 320 Videos von 32 Personen, insgesamt 290 echte Videos und 580 gefälschte Videos mit einer Dauer von mindestens vier Sekunden; FakeAVCelebV2, bestehend aus 500 echten Videos von Voxceleb2und etwa 20,000 gefälschte Videos aus verschiedenen Datensätzen, zu denen gefälschte geklonte Audiodaten hinzugefügt wurden SV2TTS aus Kompatibilitätsgründen; und KoDF, ein koreanischer Deepfake-Datensatz mit 403 Identitäten, die über FaceSwap, DeepFaceLab und gefälscht wurden FSGANsowie drei Bewegungsmodelle erster Ordnung (FOMM).

Letzteres verfügt auch über eine audiogesteuerte Gesichtssynthese ATFHP, und Ausgabe von Wav2Lip, wobei die Autoren einen abgeleiteten Datensatz mit 276 echten Videos und 544 gefälschten Videos verwendeten.

Zu den verwendeten Metriken gehörte die Fläche unter der Betriebskennlinie des Empfängers (AUC) und eine „Fehlalarmrate“ von ungefähr 10 %, was bei Frameworks, die gefälschte Daten einbeziehen und darauf trainieren, problematisch wäre, aber dadurch ausgeräumt wird, dass POI-Forensics nur echtes Videomaterial als Eingabe verwendet.

Die Methoden wurden gegen die getestet Seferbekow Deepfake-Detektor, der den ersten Platz bei der Kaggle Deepfake Detection erreichte Herausforderung; FTCN (Fully Temporal Convolution Network), eine Zusammenarbeit zwischen der chinesischen Xiamen-Universität und Microsoft Research Asia; LipForensics, eine gemeinsame Arbeit des Imperial College London und Facebook aus dem Jahr 2021; Und ID-Enthüllung, ein früheres Projekt mehrerer Forscher des neuen Artikels, bei dem ein Audioaspekt weggelassen wird und das 3D-Morphable-Modelle in Kombination mit einem gegnerischen Spielszenario verwendet, um gefälschte Ausgaben zu erkennen.

Bei den Ergebnissen (siehe vorherige Tabelle oben) übertraf POI-Forensics den Referenzführer Seferbekov um 2.5 % bei der AUC und 1.5 % bei der Genauigkeit. Die Leistung war im Vergleich zu anderen Datensätzen in der Zentrale konkurrenzfähiger.

Der neue Ansatz zeigte jedoch einen deutlichen Vorsprung gegenüber allen konkurrierenden Referenzmethoden für Videos mit geringer Qualität, die nach wie vor bestehen wahrscheinlichstes Szenario bei denen Deepfakes dazu neigen, Gelegenheitszuschauer auf der Grundlage von „realen“ Kontexten zu täuschen.

Die Autoren behaupten:

„Tatsächlich liefern in diesem anspruchsvollen Szenario nur identitätsbasierte Ansätze weiterhin eine gute Leistung, da sie auf semantischen Merkmalen auf hoher Ebene beruhen und recht robust gegenüber Bildbeeinträchtigungen sind.“

Wenn man bedenkt, dass PIO-Forensics ausschließlich echte Videos als Ausgangsmaterial verwendet, ist dieser Erfolg wohl noch größer und legt nahe, dass die Verwendung der nativen biometrischen Merkmale potenzieller Deepfake-Opfer ein lohnender Weg ist, um dem „Artefakt-Kalten Krieg“ zwischen Deepfake-Software und Deepfake-Erkennungslösungen zu entkommen.

In einem abschließenden Test fügten die Forscher der Eingabe gegnerisches Rauschen hinzu, eine Methode, die Klassifikatoren zuverlässig täuschen kann. Der jetzt Ehrwürdige schnelle Gradientenzeichenmethode erweist sich in dieser Hinsicht nach wie vor als besonders wirksam.

Wie vorherzusehen war, führten feindliche Angriffsstrategien zu einem Rückgang der Erfolgsquote über alle Methoden und Datensätze hinweg, wobei die AUC in Schritten zwischen 10 % und 38 % sank. Allerdings konnten nur POI-Forensics und die frühere Methode ID-Reveal der Autoren in diesem Angriffsszenario eine angemessene Leistung aufrechterhalten. Dies deutet darauf hin, dass die mit der Soft-Biometrie verbundenen High-Level-Funktionen außerordentlich resistent gegen die Umgehung der Deepfake-Erkennung sind.

Die Autoren folgern:

„Insgesamt glauben wir, dass unsere Methode ein erster Schritt ist; insbesondere die Verwendung semantischer Merkmale höherer Ebene ist ein vielversprechender Ansatz für zukünftige Forschung. Darüber hinaus könnte die multimodale Analyse durch die Einbeziehung weiterer Informationen aus anderen Bereichen, wie beispielsweise Textdaten, weiter bereichert werden.“

 

Erstveröffentlichung am 8. April 2022.

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai