Künstliche Intelligenz

Identifizierung von Promi-Deepfakes aus äußeren Gesichtsregionen

Veröffentlicht 4. März 2022

Aktualisiert December 9, 2022

Martin Anderson

Eine neue Zusammenarbeit zwischen Microsoft und einer chinesischen Universität hat eine neuartige Methode zur Identifizierung von Deepfakes von Prominenten vorgeschlagen. Dabei werden die Mängel aktueller Deepfake-Techniken ausgenutzt, um Identitäten zu erkennen, die auf andere Personen „projiziert“ wurden.

Der Ansatz heißt Identitätskonsistenztransformer (IKT) und vergleicht die äußersten Teile des Gesichts (Kiefer, Wangenknochen, Haaransatz und andere äußere Randlinien) mit dem Inneren des Gesichts. Das System nutzt allgemein verfügbare öffentliche Bilddaten berühmter Personen, wodurch seine Wirksamkeit auf beliebte Prominente beschränkt ist, deren Bilder in weit verbreiteten Computer-Vision-Datensätzen und im Internet in großer Zahl verfügbar sind.

Die Fälschungsberichterstattung über gefälschte Gesichter in sieben Techniken: DeepFake in FF+; DeepFake in der Google DeepFake-Erkennung; DeepFaceLab; Gesicht2Gesicht; FSGAN; und DF-VAE. Beliebte Pakete wie DeepFaceLab und FaceSwap bieten eine ähnlich eingeschränkte Abdeckung. Quelle: https://arxiv.org/pdf/2203.01318.pdf

Wie das Bild oben zeigt, sind die derzeit gängigen Deepfaking-Methoden ziemlich ressourcenbeschränkt und basieren auf passenden Host-Gesichtern (dem Bild oder Video einer Person, deren Identität durch das Deepfake ersetzt wird), um Beweise für eine Gesichtsersetzung zu minimieren.

Obwohl verschiedene Methoden die gesamte Stirn und einen großen Teil des Kinn- und Wangenknochenbereichs umfassen können, sind alle mehr oder weniger auf den Rahmen des Gesichts des Trägers beschränkt.

Eine herausragende Karte, die die von IKT berechneten „inneren“ und „äußeren“ Identitäten hervorhebt. Wenn eine innere Gesichtsidentität festgestellt wird, die äußere Identität jedoch nicht übereinstimmt, bewertet ICT das Bild als falsch.

Eine Salienzkarte, die die von der IKT berechneten „inneren“ und „äußeren“ Identitäten hervorhebt. Wenn eine innere Gesichtsübereinstimmung festgestellt wird, die äußere Identität jedoch nicht übereinstimmt, wertet die IKT das Bild als falsch.

In Tests hat ICT bewiesen, dass es in der Lage ist, Deepfake-Inhalte in fälschungsfreundlichen Bereichen zu erkennen, beispielsweise bei Videos mit niedriger Auflösung, bei denen der Inhalt des gesamten Videos durch Komprimierungsartefakte beeinträchtigt wird, was dazu beiträgt, verbleibende Beweise für den Deepfake-Prozess zu verbergen – ein Umstand, der viele Konkurrenten verwirrt Deepfake-Erkennungsmethoden.

IKT übertrifft die Konkurrenz bei der Erkennung von Deepfake-Inhalten. Weitere Beispiele und eine bessere Auflösung finden Sie im am Ende des Artikels eingebetteten Video. Weitere Beispiele finden Sie im eingebetteten Quellvideo am Ende des Artikels. Quelle: https://www.youtube.com/watch?v=zgF50dcymj8

Die Krepppapier ist betitelt Schutz von Prominenten mit Identity Consistency Transformer, und stammt von neun Forschern, die unterschiedlich mit der University of Science and Technology of China, Microsoft Research Asia und Microsoft Cloud + AI verbunden sind.

Die Glaubwürdigkeitslücke

Es gibt mindestens eine Reihe von Gründen, warum beliebte Face-Swapping-Algorithmen wie z DeepFaceLab und Gesicht tauschen Vernachlässigen Sie den äußersten Bereich der vertauschten Gesichtsidentitäten.

Erstens ist das Trainieren von Deepfake-Modellen zeitaufwändig und ressourcenkritisch. Durch die Übernahme „kompatibler“ Host-Gesichter/-Körper werden GPU-Zyklen und Epochen frei, sodass wir uns auf die relativ unveränderlichen inneren Bereiche des Gesichts konzentrieren können, die wir zur Unterscheidung der Identität verwenden (da Variablen wie Gewichtsschwankungen und Alterung diese zentralen Gesichtsmerkmale kurzfristig am wenigsten verändern).

Zweitens sind die meisten Deepfake-Ansätze (und dies gilt sicherlich für DeepFaceLab, die Software, die von den beliebtesten oder berüchtigtsten Anwendern verwendet wird) nur begrenzt in der Lage, „End-of-Gesichts“-Ränder wie Wangen- und Kieferbereiche zu replizieren, und sind durch die Tatsache eingeschränkt, dass ihre Upstream-(2017)-Code hat dieses Problem nicht ausführlich behandelt.

In Fällen, in denen die Identitäten nicht gut übereinstimmen, muss der Deepfake-Algorithmus Hintergrundbereiche um das Gesicht herum „übermalen“, was er bestenfalls ungeschickt tut, selbst in den Händen der besten Deepfaker, wie zum Beispiel Strg-Umschaltfläche, dessen Ergebnisse in den Studien des Papiers verwendet wurden.

Das Beste vom Besten: Standbilder aus einem Deepfake-Video des gefeierten Deepfakes Strg-Umschalt-Gesicht, in dem Jim Carrey gegen Gary Oldman getauscht wird. Diese Arbeit stellt wohl einige der besten Ergebnisse dar, die derzeit über DeepFaceLab und Nachbearbeitungstechniken verfügbar sind. Dennoch beschränken sich die Tauschvorgänge auf die relativ geringe Aufmerksamkeit, die die DFL der Außenfläche schenkt, was eine Herkulesanstrengung bei der Datenpflege und Schulung erfordert, um die äußersten Linien zu berücksichtigen. Quelle: https://www.youtube.com/watch?v=x8igrh1eyLk

Dieser „Taschenspielertrick“ bzw. diese Ablenkung der Aufmerksamkeit entgeht der öffentlichen Aufmerksamkeit angesichts der aktuellen Besorgnis über die zunehmende Realitätsnähe von Deepfakes weitgehend, da sich unsere kritischen Fähigkeiten gegenüber Deepfakes noch immer über das Stadium des „Schocks und der Ehrfurcht“ hinaus entwickeln.

Gespaltene Identitäten

Das neue Papier stellt fest, dass die meisten früheren Methoden zur Deepfake-Erkennung auf Artefakten beruhen, die den Austauschprozess verraten, wie z inkonsistente Kopfhaltungen und blinkendUnter zahlreiche weitere Techniken. Erst diese Woche erschien ein weiteres neues Deepfake-Erkennungspapier vorgeschlage Verwenden Sie die „Signatur“ der verschiedenen Modelltypen im FaceSwap-Framework, um damit erstellte gefälschte Videos zu identifizieren (siehe Abbildung unten).

Identifizierung von Deepfakes durch Charakterisierung der Signaturen verschiedener Modelltypen im FaceSwap-Framework. Quelle: https://arxiv.org/pdf/2202.12951.pdf

Im Gegensatz dazu erstellt die IKT-Architektur zwei separate, verschachtelte Identitäten für eine Person, von denen jede verifiziert werden muss, bevor festgestellt werden kann, dass es sich bei der gesamten Identität um „echtes“ Filmmaterial oder Bildmaterial handelt.

Architektur für die Trainings- und Testphasen der IKT.

Die Spaltung der Identitäten wird durch eine Vision erleichtert Transformator, das eine Gesichtserkennung durchführt, bevor die untersuchten Regionen in Token aufgeteilt werden, die zur inneren oder äußeren Identität gehören.

Verteilen von Patches auf die beiden parallelen Identitätssignifikanten.

Das Papier sagt:

„Leider neigen bestehende Methoden zur Gesichtsüberprüfung dazu, den diskriminierendsten Bereich, d. h. das innere Gesicht, für die Überprüfung zu charakterisieren und die Identitätsinformationen im äußeren Gesicht nicht zu erfassen. Mit dem Identity Consistency Transformer trainieren wir ein Modell, ein Paar Identitätsvektoren zu lernen, einen für das innere Gesicht und den anderen für das äußere Gesicht. Dazu entwickeln wir einen Transformer, mit dem die innere und die äußere Identität gleichzeitig in einem nahtlos vereinheitlichten Modell gelernt werden können.“

Da es für dieses Identifizierungsprotokoll kein bestehendes Modell gibt, haben die Autoren eine neue Art von Konsistenzverlust entwickelt, der als Maß für die Authentizität dienen kann. Die aus dem Identitätsextraktionsmodell resultierenden „inneren Token“ und „äußeren Token“ werden zu den konventionelleren Patch-Einbettungen hinzugefügt, die von Gesichtsidentifizierungs-Frameworks erstellt werden.

Daten und Schulung

Das IKT-Netzwerk wurde auf Microsoft Researchs MS-Celeb-1M Datensatz, der 10 Millionen Promi-Gesichtsbilder enthält, die eine Million Identitäten abdecken, darunter Schauspieler, Politiker und viele andere Arten prominenter Persönlichkeiten. Nach dem Verfahren der vorherigen Methode Gesichtsröntgen (eine weitere Initiative von Microsoft Research) vertauscht die eigene Routine zur Generierung von Fälschungen von ICT innere und äußere Bereiche von Gesichtern aus diesem Datensatz, um Material zu erstellen, an dem der Algorithmus getestet werden kann.

Um diesen internen Austausch durchzuführen, identifiziert ICT zwei Bilder im Datensatz, die ähnliche Kopfhaltungen und Gesichtsmerkmale aufweisen, generiert einen Maskenbereich der zentralen Merkmale (in den ein Austausch durchgeführt werden kann) und führt einen Deepfake-Austausch mit RGB-Farbkorrektur durch.

Der Grund dafür, dass IKT auf die Identifizierung von Prominenten beschränkt ist, besteht darin, dass sie (in ihrer effektivsten Variante) auf einem neuartigen Referenzsatz basiert, der abgeleitete Gesichtsvektoren aus einem zentralen Korpus (in diesem Fall MS-Celeb-1M, obwohl die Referenzierung erweitert werden könnte) enthält auf im Netzwerk verfügbares Bildmaterial, das wahrscheinlich nur für bekannte Persönlichkeiten des öffentlichen Lebens in ausreichender Qualität und Quantität vorhanden wäre).

Diese abgeleiteten Vektorsatz-Couplets fungieren als Authentizitätstoken, um die inneren und äußeren Gesichtsbereiche gleichzeitig zu überprüfen.

Die Autoren weisen darauf hin, dass die mit diesen Methoden gewonnenen Token „hochrangige“ Merkmale darstellen, was zu einem Deepfake-Erkennungsprozess führt, der anspruchsvolle Umgebungen wie Videos mit niedriger Auflösung oder anderweitig beeinträchtigter Qualität mit größerer Wahrscheinlichkeit übersteht.

Entscheidend ist die IKT kein Frontalunterricht. Sie sucht nach artefaktbasierten Beweisen, sondern konzentriert sich eher auf Methoden zur Identitätsüberprüfung, die eher mit Gesichtserkennungstechniken übereinstimmen – ein Ansatz, der bei geringen Datenmengen schwierig ist, wie es bei der Untersuchung von Vorfällen der Fall ist Deepfake-Rache-Porno gegen nicht berühmte Ziele.

Tests

ICT wurde mit MS-Celeb-1M trainiert und anschließend in referenzgestützte und „blinde“ Versionen des Algorithmus unterteilt und mit einer Reihe konkurrierender Datensätze und Methoden getestet. Dazu gehörten FaceForensics ++ (FF++), ein Datensatz von 1000 authentischen und gefälschten Videos, die mit vier Methoden erstellt wurden, darunter Face2Face und FaceSwap; Googles Deepfake-Erkennung (DFD), ebenfalls bestehend aus Tausenden von Google generierten Deepfake-Videos; Celeb-DeepFake v1 (CD1), das 408 echte und 795 synthetisierte, artefaktarme Videos enthält; Celeb-DeepFake v2, eine Erweiterung von V1, die 590 echte und 5,639 gefälschte Videos enthält; und Chinas 2020 Deeper-Forensik (Tiefer).

Das sind die Datensätze; Die Erkennungsmethoden in den Testherausforderungen waren Multitasking, MesoInc4, Kapseln, Xception-c0, c2 (eine in FF++ verwendete Methode), FWA/DSP-FW von der Universität in Albany, Zweizweigig, PCL+I2Gund Yuval Nirkins Kontextdiskrepanzmethode.

Die oben genannten Erkennungsmethoden zielen darauf ab, bestimmte Arten der Gesichtsmanipulation zu erkennen. Darüber hinaus testeten die Autoren des neuen Papiers allgemeinere Deepfake-Erkennungsmethoden. Gesichtsröntgen, Michigan State University FFD, CNNDetection und Patch-Forensik von MIT CSAIL.

Die offensichtlichsten Ergebnisse des Tests sind, dass die Wirksamkeit der konkurrierenden Methoden mit abnehmender Videoauflösung und -qualität drastisch abnimmt. Da das größte Potenzial für Deepfake-Eingriffe in unsere Unterscheidungskraft (nicht zuletzt derzeit) bei Nicht-HD-Videos oder anderen qualitativ beeinträchtigten Videos besteht, scheint dies ein bedeutsames Ergebnis zu sein.

Im Ergebnisdiagramm oben zeigen die blauen und roten Linien die Widerstandsfähigkeit der IKT-Methoden gegenüber Bildverschlechterungen in allen Bereichen mit Ausnahme des Gaußschen Rauschens (bei Zoom- und Webcam-Aufnahmen unwahrscheinlich), während die Zuverlässigkeit der konkurrierenden Methoden stark abnimmt.

In der folgenden Ergebnistabelle sehen wir die Wirksamkeit der verschiedenen Deepfake-Erkennungsmethoden bei den unsichtbaren Datensätzen. Graue und mit einem Sternchen versehene Ergebnisse weisen auf einen Vergleich mit ursprünglich veröffentlichten Ergebnissen in Closed-Source-Projekten hin, die nicht extern überprüft werden können. In fast allen vergleichbaren Frameworks übertrifft ICT die konkurrierenden Deepfake-Erkennungsansätze (fett dargestellt) im Vergleich zu den getesteten Datensätzen.

Als zusätzlichen Test ließen die Autoren Inhalte vom YouTube-Kanal des gefeierten Deepfakers Ctrl Shift Face laufen und stellten fest, dass konkurrierende Methoden deutlich schlechtere Identifizierungswerte erzielten:

Bemerkenswert ist hierbei, dass FF++-Methoden (Xception-c23) und FFD, die in den allgemeinen Tests des neuen Papiers bei einigen Testdaten zu den höchsten Werten zählen, hier in einem „realen“ Kontext mit aufwändigen Deepfake-Inhalten eine weitaus niedrigere Punktzahl erzielen als ICT.

Die Autoren schließen das Papier mit der Hoffnung, dass seine Ergebnisse die Deepfake-Erkennungs-Community zu ähnlichen Initiativen führen, die sich auf leichter verallgemeinerbare High-Level-Funktionen konzentrieren, und weg vom „Kalten Krieg“ der Artefakterkennung, in dem die neuesten Methoden routinemäßig durch Entwicklungen in Deepfake-Frameworks oder durch andere Faktoren, die solche Methoden weniger widerstandsfähig machen, überflüssig werden.

Schauen Sie sich das begleitende Zusatzvideo unten an, um weitere Beispiele dafür zu finden, wie IKT Deepfake-Inhalte identifizieren, die oft alternative Methoden überlisten.

Erstveröffentlichung am 4. März 2022.

Verwandte Themen:Deepfake Deepfake-Erkennung DeepFakes Bildsynthese Forschungsprojekte

Martin Anderson

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai

Unite.AI

Identifizierung von Promi-Deepfakes aus äußeren Gesichtsregionen

Die Glaubwürdigkeitslücke

Gespaltene Identitäten

Daten und Schulung

Tests

Vielleicht gefällt dir