Künstliche Intelligenz
Identifizierung von Celebrity-Deepfakes aus äußeren Gesichtsregionen

Eine neue Zusammenarbeit zwischen Microsoft und einer chinesischen Universität hat einen neuen Ansatz zur Identifizierung von Celebrity-Deepfakes vorgeschlagen, indem die Schwächen der aktuellen Deepfake-Techniken ausgenutzt werden, um Identitäten zu erkennen, die auf andere Personen “projiziert” wurden.
Der Ansatz wird als Identity Consistency Transformer (ICT) bezeichnet und funktioniert, indem die äußersten Teile des Gesichts (Kiefer, Wangenknochen, Haaransatz und andere äußere Merkmale) mit dem Inneren des Gesichts verglichen werden. Das System nutzt öffentlich verfügbare Bildaten von berühmten Personen, was seine Wirksamkeit auf populäre Celebrities beschränkt, deren Bilder in großen Mengen in Computer-Vision-Datensätzen und im Internet verfügbar sind.

Die Fälschungsbereiche von gefälschten Gesichtern bei sieben Techniken: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; und DF-VAE. Beliebte Pakete wie DeepFaceLab und FaceSwap bieten ähnlich begrenzte Abdeckung. Quelle: https://arxiv.org/pdf/2203.01318.pdf
Wie das obige Bild zeigt, sind die derzeit populären Methoden für Deepfakes ziemlich ressourcenkritisch und verlassen sich auf geeignete Host-Gesichter/Körper, um Beweise für Gesichtsaustausch zu minimieren.
Obwohl verschiedene Methoden den gesamten Stirnbereich und einen großen Teil der Kinn- und Wangenbereiche umfassen können, sind sie alle mehr oder weniger innerhalb des Rahmens des Host-Gesichts begrenzt.

Eine Saliency-Karte, die die ‘inneren’ und ‘äußeren’ Identitäten hervorhebt, die von ICT berechnet werden. Wenn eine innere Gesichtsübereinstimmung hergestellt wird, aber die äußere Identität nicht übereinstimmt, bewertet ICT das Bild als falsch.
In Tests hat sich ICT als in der Lage erwiesen, Deepfake-Inhalte in umgebungsfreundlichen Umgebungen wie niedriger Auflösungsvideos zu erkennen, in denen der Inhalt des gesamten Videos durch Komprimierungsartefakte verschlechtert wird, was hilft, residuale Beweise des Deepfake-Prozesses zu verbergen – eine Umstände, die viele konkurrierende Deepfake-Erkennungsmethoden verwirren.

ICT übertrifft Konkurrenten bei der Erkennung von Deepfake-Inhalten. Siehe Video am Ende des Artikels für weitere Beispiele und bessere Auflösung. Siehe eingebettetes Quellvideo am Ende des Artikels für weitere Beispiele. Quelle: https://www.youtube.com/watch?v=zgF50dcymj8
Die Studie trägt den Titel Schutz von Celebrities mit Identity Consistency Transformer und stammt von neun Forschern, die verschiedenen Universitäten und Forschungseinrichtungen zugeordnet sind, darunter die University of Science and Technology of China, Microsoft Research Asia und Microsoft Cloud + AI.
Die Glaubwürdigkeitslücke
Es gibt mindestens zwei Gründe, warum populäre Gesichtsüberlagerungsalgorithmen wie DeepFaceLab und FaceSwap die äußerste Region der ausgetauschten Gesichtsidentitäten vernachlässigen.
Erstens ist das Training von Deepfake-Modellen zeitaufwändig und ressourcenkritisch, und die Verwendung von “kompatiblen” Host-Gesichtern/Körpern ermöglicht es, GPU-Zyklen und Epochen zu sparen, um sich auf die relativ unveränderlichen inneren Bereiche des Gesichts zu konzentrieren, die wir verwenden, um die Identität zu unterscheiden (da Variablen wie Gewichtsschwankungen und Alterungsprozesse am wenigsten wahrscheinlich diese Kerngesichtsmerkmale im Kurzzeitbereich verändern).
Zweitens haben die meisten Deepfake-Ansätze (und dies ist sicherlich der Fall bei DeepFaceLab, der Software, die von den meisten oder berüchtigten Praktikern verwendet wird) eine begrenzte Fähigkeit, “Ende-des-Gesichts”-Ränder wie Wangen- und Kieferbereiche zu replizieren, und sind durch die Tatsache eingeschränkt, dass ihre Upstream-Code (2017) dieses Problem nicht umfassend angegangen ist.
In Fällen, in denen die Identitäten nicht gut übereinstimmen, muss der Deepfake-Algorithmus die Hintergrundbereiche um das Gesicht “inpainten”, was er aufgrund seiner begrenzten Fähigkeiten nur unzureichend tut, selbst in den Händen der besten Deepfakers, wie Ctrl Shift Face, dessen Ausgabe in den Studien der Studie verwendet wurde.

Die besten der besten: Stills aus einem Deepfake-Video von dem renommierten Deepfaker Ctrl-Shift-Face, der Jim Carrey über Gary Oldman austauscht. Diese Arbeit stellt wahrscheinlich einige der besten Ergebnisse dar, die derzeit mit DeepFaceLab und Post-Processing-Techniken verfügbar sind. Dennoch bleiben die Austausche auf die relativ geringe Aufmerksamkeit beschränkt, die DFL dem äußeren Gesicht widmet, was eine herkulische Anstrengung bei der Datenkuratierung und -ausbildung erfordert, um die äußersten Merkmale anzusprechen. Quelle: https://www.youtube.com/watch?v=x8igrh1eyLk
Dieses “Sleight of Hand” oder die Ablenkung der Aufmerksamkeit entgeht größtenteils der öffentlichen Aufmerksamkeit in der aktuellen Sorge um die wachsende Realistik von Deepfakes, weil unsere kritischen Fähigkeiten um Deepfakes herum noch in der Entwicklung sind, um die “Schock-und-Ehrfurcht”-Phase zu überwinden.
Getrennte Identitäten
Die neue Studie weist darauf hin, dass die meisten vorherigen Methoden der Deepfake-Erkennung auf Artefakten basieren, die den Austauschprozess verraten, wie z.B. inkonsistente Kopfhaltungen und Blinken, unter zahlreichen anderen Techniken. Erst diese Woche hat eine weitere neue Deepfake-Erkennungsstudie vorgeschlagen, die “Signatur” der verschiedenen Modeltypen im FaceSwap-Framework zu verwenden, um gefälschte Videos zu identifizieren, die mit diesem Framework erstellt wurden (siehe Bild unten).

Identifizierung von Deepfakes durch Charakterisierung der Signaturen von verschiedenen Modeltypen im FaceSwap-Framework. Quelle: https://arxiv.org/pdf/2202.12951.pdf
Im Gegensatz dazu erstellt die Architektur von ICT zwei separate, verschachtelte Identitäten für eine Person, die beide verifiziert werden müssen, bevor die gesamte Identität als “wahr” oder “falsch” bewertet wird.

Architektur für die Trainings- und Testphasen von ICT.
Die Aufteilung der Identitäten wird durch einen Vision-Transformer ermöglicht, der die Gesichtserkennung durchführt, bevor die untersuchten Regionen in Token unterteilt werden, die den inneren oder äußeren Identitäten zugeordnet sind.

Verteilung von Patches unter den zwei parallelen Identitätszeichen.
Die Studie besagt:
‘Leider neigen bestehende Gesichtsverifizierungsmethoden dazu, die diskriminativste Region, d.h. das innere Gesicht, für die Verifizierung zu charakterisieren und versäumen es, die Identitätsinformationen im äußeren Gesicht zu erfassen. Mit Identity Consistency Transformer trainieren wir ein Modell, um ein Paar von Identitätsvektoren zu lernen, eines für das innere Gesicht und das andere für das äußere Gesicht, indem wir einen Transformer entwerfen, der es ermöglicht, die inneren und äußeren Identitäten gleichzeitig in einem einheitlichen Modell zu lernen.’
Da es kein bestehendes Modell für dieses Identifizierungsprotokoll gibt, haben die Autoren einen neuen Konsistenzverlust entwickelt, der als Maß für die Authentizität dienen kann. Die “inneren Token” und “äußeren Token”, die aus dem Identitätsextraktionsmodell resultieren, werden den herkömmlichen Patch-Embeddings hinzugefügt, die von Gesichtserkennungsframeworks produziert werden.
Daten und Training
Das ICT-Netzwerk wurde auf dem MS-Celeb-1M-Datensatz von Microsoft Research trainiert, der 10 Millionen Celebrity-Gesichtsbilder mit 1 Million Identitäten enthält, darunter Schauspieler, Politiker und viele andere Arten von prominenten Persönlichkeiten. Laut dem Verfahren der vorherigen Methode Face X-ray (eine weitere Microsoft-Research-Initiative) generiert ICTs eigener Fake-Erstellungsprozess innere und äußere Gesichtsregionen von Gesichtern aus diesem Datensatz, um Material zu erstellen, auf dem der Algorithmus getestet werden kann.
Um diese internen Austausche durchzuführen, identifiziert ICT zwei Bilder im Datensatz, die ähnliche Kopfhaltungen und Gesichtsmerkmale aufweisen, generiert eine Maskenregion der zentralen Merkmale (in die ein Austausch durchgeführt werden kann) und führt einen Deepfake-Austausch mit RGB-Farbkorrektur durch.
Der Grund, warum ICT auf die Identifizierung von Celebrities beschränkt ist, liegt darin, dass es (in seiner effektivsten Variante) auf einem neuen Referenzset basiert, das aus abgeleiteten Gesichtsvektoren aus einem zentralen Korpus (in diesem Fall MS-Celeb-1M, obwohl die Referenzierung auf Netzwerk-basierte Bilder erweitert werden könnte, die nur in ausreichender Qualität und Menge für bekannte öffentliche Persönlichkeiten verfügbar wären) besteht.
Diese abgeleiteten Vektor-Paare dienen als Authentifizierungstoken, um die inneren und äußeren Gesichtsregionen gleichzeitig zu verifizieren.
Die Autoren weisen darauf hin, dass die aus diesen Methoden abgeleiteten Token “hochrangige” Merkmale darstellen, was zu einem Deepfake-Erkennungsprozess führt, der wahrscheinlicher in anspruchsvollen Umgebungen wie niedriger Auflösung oder anderweitig verschlechtertem Video überlebt.
Wichtig ist, dass ICT nicht nach artefaktbasierten Beweisen sucht, sondern sich auf Identitätsverifizierungsmethoden konzentriert, die eher mit Gesichtserkennungstechniken übereinstimmen – ein Ansatz, der bei geringen Datenmengen schwierig ist, wie bei der Untersuchung von Vorfällen von Deepfake-Rache-Pornos gegen nicht-berühmte Ziele.
Tests
Trainiert auf MS-Celeb-1M, wurde ICT dann in referenzgestützte und “blinde” Versionen des Algorithmus unterteilt und auf eine Reihe von konkurrierenden Datensätzen und Methoden getestet. Dazu gehörten FaceForensics++ (FF++), ein Datensatz von 1000 authentischen und Deepfake-Videos, die mit vier Methoden erstellt wurden, darunter Face2Face und FaceSwap; Google’s Deepfake-Erkennung (DFD), die ebenfalls aus Tausenden von Google-generierten Deepfake-Videos besteht; Celeb-DeepFake v1 (CD1), das 408 reale und 795 synthetisierte, niedrige Artefakte-Videos enthält; Celeb-DeepFake v2, eine Erweiterung von V1, die 590 reale und 5.639 gefälschte Videos enthält; und China’s 2020 Deeper-Forensics (Deeper).
Die Erkennungsmethoden in den Testherausforderungen waren Multi-Task, MesoInc4, Capsule, Xception-c0, c2 (eine Methode, die in FF++ verwendet wird), FWA/DSP-FW von der University at Albany, Two-Branch, PCL+I2G und Yuval Nirkins Kontext-Discrepanz-Methode.
Die erwähnten Erkennungsmethoden zielen darauf ab, bestimmte Arten von Gesichtsmanipulationen zu erkennen. Zusätzlich zu diesen testeten die Autoren der neuen Studie auch allgemeine Deepfake-Erkennungsmethoden Face X-ray, Michigan State University’s FFD, CNNDetection und Patch-Forensics von MIT CSAIL.
Das offensichtlichste Ergebnis der Tests ist, dass die konkurrierenden Methoden drastisch an Effektivität verlieren, wenn die Videoauflösung und -qualität sinken. Da einige der schwerwiegendsten potenziellen Deepfake-Angriffe (zumindest derzeit) in nicht-HD- oder anderweitig qualitativ minderwertigen Videos liegen, scheint dies ein signifikantes Ergebnis zu sein.

In der Ergebnisgrafik oben zeigen die blauen und roten Linien die Widerstandsfähigkeit der ICT-Methoden gegenüber Bildverschlechterung in allen Bereichen außer dem von Gaussian-Rauschen (was in Zoom- und Webcam-Footage unwahrscheinlich ist), während die Zuverlässigkeit der konkurrierenden Methoden abnimmt.
In der Ergebnistabelle unten sehen wir die Wirksamkeit der verschiedenen Deepfake-Erkennungsmethoden auf den nicht gesehenen Datensätzen. Graue und mit Sternchen versehene Ergebnisse zeigen einen Vergleich mit ursprünglich veröffentlichten Ergebnissen in geschlossenen Projekten, die nicht extern verifiziert werden können. Über fast alle vergleichbaren Frameworks hinweg übertrifft ICT die konkurrierenden Deepfake-Erkennungsansätze (in fetten Buchstaben dargestellt) in den getesteten Datensätzen.

Als zusätzlichen Test lieferten die Autoren Inhalte von dem YouTube-Kanal des renommierten Deepfakers Ctrl Shift Face und fanden, dass konkurrierende Methoden deutlich schlechtere Erkennungsergebnisse erzielten:

Bemerkenswert ist, dass FF++-Methoden (Xception-c23) und FFD, die einige der höchsten Punktzahlen in einigen der Testdaten der neuen Studie erreichen, hier eine wesentlich niedrigere Punktzahl als ICT in einem “realen” Kontext von hochwertigen Deepfake-Inhalten erreichen.
Die Autoren schließen die Studie mit der Hoffnung, dass ihre Ergebnisse die Deepfake-Erkennungsgemeinschaft dazu anregen, sich auf ähnliche Initiativen zu konzentrieren, die sich auf leichter generalisierbare Hochmerkmale konzentrieren, und sich von dem “Kalten Krieg” der Artefakterkennung abwenden, in dem die neuesten Methoden routinemäßig durch Entwicklungen in Deepfake-Frameworks oder durch andere Faktoren, die solche Methoden weniger widerstandsfähig machen, obsolet werden.
Überprüfen Sie das begleitende Video unten für weitere Beispiele von ICT, das Deepfake-Inhalte identifiziert, die alternative Methoden oft überlisten.
Erstveröffentlicht am 4. März 2022.












