Vernetzen Sie sich mit uns

KĂŒnstliche Intelligenz

Identifizierung von Promi-Deepfakes aus Ă€ußeren Gesichtsregionen

mm

Eine neue Zusammenarbeit zwischen Microsoft und einer chinesischen UniversitĂ€t hat eine neuartige Methode zur Identifizierung von Deepfakes von Prominenten vorgeschlagen. Dabei werden die MĂ€ngel aktueller Deepfake-Techniken ausgenutzt, um IdentitĂ€ten zu erkennen, die auf andere Personen „projiziert“ wurden.

Der Ansatz heißt IdentitĂ€tskonsistenztransformer (IKT) und vergleicht die Ă€ußersten Teile des Gesichts (Kiefer, Wangenknochen, Haaransatz und andere Ă€ußere Randlinien) mit dem Inneren des Gesichts. Das System nutzt allgemein verfĂŒgbare öffentliche Bilddaten berĂŒhmter Personen, wodurch seine Wirksamkeit auf beliebte Prominente beschrĂ€nkt ist, deren Bilder in weit verbreiteten Computer-Vision-DatensĂ€tzen und im Internet in großer Zahl verfĂŒgbar sind.

Die FĂ€lschungsberichterstattung ĂŒber gefĂ€lschte Gesichter in sieben Techniken: DeepFake in FF+; DeepFake in der Google DeepFake-Erkennung; DeepFaceLab; Gesicht2Gesicht; FSGAN; und DF-VAE. Quelle: https://arxiv.org/pdf/2203.01318.pdf

Die FĂ€lschungsberichterstattung ĂŒber gefĂ€lschte Gesichter in sieben Techniken: DeepFake in FF+; DeepFake in der Google DeepFake-Erkennung; DeepFaceLab; Gesicht2Gesicht; FSGAN; und DF-VAE. Beliebte Pakete wie DeepFaceLab und FaceSwap bieten eine Ă€hnlich eingeschrĂ€nkte Abdeckung. Quelle: https://arxiv.org/pdf/2203.01318.pdf

Wie das Bild oben zeigt, sind die derzeit gĂ€ngigen Deepfaking-Methoden ziemlich ressourcenbeschrĂ€nkt und basieren auf passenden Host-Gesichtern (dem Bild oder Video einer Person, deren IdentitĂ€t durch das Deepfake ersetzt wird), um Beweise fĂŒr eine Gesichtsersetzung zu minimieren.

Obwohl verschiedene Methoden die gesamte Stirn und einen großen Teil des Kinn- und Wangenknochenbereichs umfassen können, sind alle mehr oder weniger auf den Rahmen des Gesichts des TrĂ€gers beschrĂ€nkt.

Eine herausragende Karte, die die von IKT berechneten „inneren“ und „Àußeren“ IdentitĂ€ten hervorhebt. Wenn eine innere GesichtsidentitĂ€t festgestellt wird, die Ă€ußere IdentitĂ€t jedoch nicht ĂŒbereinstimmt, bewertet ICT das Bild als falsch.

Eine Salienzkarte, die die von der IKT berechneten „inneren“ und „Àußeren“ IdentitĂ€ten hervorhebt. Wenn eine innere GesichtsĂŒbereinstimmung festgestellt wird, die Ă€ußere IdentitĂ€t jedoch nicht ĂŒbereinstimmt, wertet die IKT das Bild als falsch.

In Tests hat ICT bewiesen, dass es in der Lage ist, Deepfake-Inhalte in fĂ€lschungsfreundlichen Bereichen zu erkennen, beispielsweise bei Videos mit niedriger Auflösung, bei denen der Inhalt des gesamten Videos durch Komprimierungsartefakte beeintrĂ€chtigt wird, was dazu beitrĂ€gt, verbleibende Beweise fĂŒr den Deepfake-Prozess zu verbergen – ein Umstand, der viele Konkurrenten verwirrt Deepfake-Erkennungsmethoden.

IKT ĂŒbertrifft die Konkurrenz bei der Erkennung von Deepfake-Inhalten. Weitere Beispiele und eine bessere Auflösung finden Sie im am Ende des Artikels eingebetteten Video. Quelle: https://www.youtube.com/watch?v=zgF50dcymj8

IKT ĂŒbertrifft die Konkurrenz bei der Erkennung von Deepfake-Inhalten. Weitere Beispiele und eine bessere Auflösung finden Sie im am Ende des Artikels eingebetteten Video. Weitere Beispiele finden Sie im eingebetteten Quellvideo am Ende des Artikels. Quelle: https://www.youtube.com/watch?v=zgF50dcymj8

Die Krepppapier ist betitelt Schutz von Prominenten mit Identity Consistency Transformer, und stammt von neun Forschern, die unterschiedlich mit der University of Science and Technology of China, Microsoft Research Asia und Microsoft Cloud + AI verbunden sind.

Die GlaubwĂŒrdigkeitslĂŒcke

Es gibt mindestens eine Reihe von GrĂŒnden, warum beliebte Face-Swapping-Algorithmen wie z DeepFaceLab und Gesicht tauschen VernachlĂ€ssigen Sie den Ă€ußersten Bereich der vertauschten GesichtsidentitĂ€ten.

Erstens ist das Trainieren von Deepfake-Modellen zeitaufwĂ€ndig und ressourcenkritisch. Durch die Übernahme „kompatibler“ Host-Gesichter/-Körper werden GPU-Zyklen und Epochen frei, sodass wir uns auf die relativ unverĂ€nderlichen inneren Bereiche des Gesichts konzentrieren können, die wir zur Unterscheidung der IdentitĂ€t verwenden (da Variablen wie Gewichtsschwankungen und Alterung diese zentralen Gesichtsmerkmale kurzfristig am wenigsten verĂ€ndern).

Zweitens sind die meisten Deepfake-AnsĂ€tze (und dies gilt sicherlich fĂŒr DeepFaceLab, die Software, die von den beliebtesten oder berĂŒchtigtsten Anwendern verwendet wird) nur begrenzt in der Lage, „End-of-Gesichts“-RĂ€nder wie Wangen- und Kieferbereiche zu replizieren, und sind durch die Tatsache eingeschrĂ€nkt, dass ihre Upstream-(2017)-Code hat dieses Problem nicht ausfĂŒhrlich behandelt.

In FĂ€llen, in denen die IdentitĂ€ten nicht gut ĂŒbereinstimmen, muss der Deepfake-Algorithmus Hintergrundbereiche um das Gesicht herum â€žĂŒbermalen“, was er bestenfalls ungeschickt tut, selbst in den HĂ€nden der besten Deepfaker, wie zum Beispiel Strg-UmschaltflĂ€che, dessen Ergebnisse in den Studien des Papiers verwendet wurden.

Das Beste vom Besten: Standbilder aus einem Deepfake-Video des gefeierten Deepfakes Strg-Umschalt-Gesicht, in dem Jim Carrey gegen Gary Oldman getauscht wird. Diese Arbeit stellt wohl einige der besten Ergebnisse dar, die derzeit ĂŒber DeepFaceLab und Nachbearbeitungstechniken verfĂŒgbar sind. Dennoch bleibt der Austausch auf die relativ geringe Aufmerksamkeit beschrĂ€nkt, die die DFL der Außenseite widmet, was einen Herkulesaufwand bei der Datenpflege und Schulung erfordert, um die Ă€ußersten Linien zu berĂŒcksichtigen. Quelle: https://www.youtube.com/watch?v=x8igrh1eyLk

Das Beste vom Besten: Standbilder aus einem Deepfake-Video des gefeierten Deepfakes Strg-Umschalt-Gesicht, in dem Jim Carrey gegen Gary Oldman getauscht wird. Diese Arbeit stellt wohl einige der besten Ergebnisse dar, die derzeit ĂŒber DeepFaceLab und Nachbearbeitungstechniken verfĂŒgbar sind. Dennoch beschrĂ€nken sich die TauschvorgĂ€nge auf die relativ geringe Aufmerksamkeit, die die DFL der AußenflĂ€che schenkt, was eine Herkulesanstrengung bei der Datenpflege und Schulung erfordert, um die Ă€ußersten Linien zu berĂŒcksichtigen. Quelle: https://www.youtube.com/watch?v=x8igrh1eyLk

Dieser „Taschenspielertrick“ bzw. diese Ablenkung der Aufmerksamkeit entgeht der öffentlichen Aufmerksamkeit angesichts der aktuellen Besorgnis ĂŒber die zunehmende RealitĂ€tsnĂ€he von Deepfakes weitgehend, da sich unsere kritischen FĂ€higkeiten gegenĂŒber Deepfakes noch immer ĂŒber das Stadium des „Schocks und der Ehrfurcht“ hinaus entwickeln.

Gespaltene IdentitÀten

Das neue Papier stellt fest, dass die meisten frĂŒheren Methoden zur Deepfake-Erkennung auf Artefakten beruhen, die den Austauschprozess verraten, wie z inkonsistente Kopfhaltungen und blinkendUnter zahlreiche weitere Techniken. Erst diese Woche erschien ein weiteres neues Deepfake-Erkennungspapier vorgeschlage Verwenden Sie die „Signatur“ der verschiedenen Modelltypen im FaceSwap-Framework, um damit erstellte gefĂ€lschte Videos zu identifizieren (siehe Abbildung unten).

Identifizierung von Deepfakes durch Charakterisierung der Signaturen verschiedener Modelltypen im FaceSwap-Framework. Quelle: https://arxiv.org/pdf/2202.12951.pdf

Identifizierung von Deepfakes durch Charakterisierung der Signaturen verschiedener Modelltypen im FaceSwap-Framework. Quelle: https://arxiv.org/pdf/2202.12951.pdf

Im Gegensatz dazu erstellt die IKT-Architektur zwei separate, verschachtelte IdentitĂ€ten fĂŒr eine Person, von denen jede verifiziert werden muss, bevor festgestellt werden kann, dass es sich bei der gesamten IdentitĂ€t um „echtes“ Filmmaterial oder Bildmaterial handelt.

Architektur fĂŒr die Trainings- und Testphasen der IKT.

Architektur fĂŒr die Trainings- und Testphasen der IKT.

Die Spaltung der IdentitĂ€ten wird durch eine Vision erleichtert Transformator, das eine Gesichtserkennung durchfĂŒhrt, bevor die untersuchten Regionen in Token aufgeteilt werden, die zur inneren oder Ă€ußeren IdentitĂ€t gehören.

Verteilen von Patches auf die beiden parallelen IdentitÀtssignifikanten.

Verteilen von Patches auf die beiden parallelen IdentitÀtssignifikanten.

Das Papier sagt:

„Leider neigen bestehende Methoden zur GesichtsĂŒberprĂŒfung dazu, den diskriminierendsten Bereich, d. h. das innere Gesicht, fĂŒr die ÜberprĂŒfung zu charakterisieren und die IdentitĂ€tsinformationen im Ă€ußeren Gesicht nicht zu erfassen. Mit dem Identity Consistency Transformer trainieren wir ein Modell, ein Paar IdentitĂ€tsvektoren zu lernen, einen fĂŒr das innere Gesicht und den anderen fĂŒr das Ă€ußere Gesicht. Dazu entwickeln wir einen Transformer, mit dem die innere und die Ă€ußere IdentitĂ€t gleichzeitig in einem nahtlos vereinheitlichten Modell gelernt werden können.“

Da es fĂŒr dieses Identifizierungsprotokoll kein bestehendes Modell gibt, haben die Autoren eine neue Art von Konsistenzverlust entwickelt, der als Maß fĂŒr die AuthentizitĂ€t dienen kann. Die aus dem IdentitĂ€tsextraktionsmodell resultierenden „inneren Token“ und „Àußeren Token“ werden zu den konventionelleren Patch-Einbettungen hinzugefĂŒgt, die von Gesichtsidentifizierungs-Frameworks erstellt werden.

Daten und Schulung

Das IKT-Netzwerk wurde auf Microsoft Researchs MS-Celeb-1M Datensatz, der 10 Millionen Promi-Gesichtsbilder enthĂ€lt, die eine Million IdentitĂ€ten abdecken, darunter Schauspieler, Politiker und viele andere Arten prominenter Persönlichkeiten. Nach dem Verfahren der vorherigen Methode Gesichtsröntgen (eine weitere Initiative von Microsoft Research) vertauscht die eigene Routine zur Generierung von FĂ€lschungen von ICT innere und Ă€ußere Bereiche von Gesichtern aus diesem Datensatz, um Material zu erstellen, an dem der Algorithmus getestet werden kann.

Um diesen internen Austausch durchzufĂŒhren, identifiziert ICT zwei Bilder im Datensatz, die Ă€hnliche Kopfhaltungen und Gesichtsmerkmale aufweisen, generiert einen Maskenbereich der zentralen Merkmale (in den ein Austausch durchgefĂŒhrt werden kann) und fĂŒhrt einen Deepfake-Austausch mit RGB-Farbkorrektur durch.

Der Grund dafĂŒr, dass IKT auf die Identifizierung von Prominenten beschrĂ€nkt ist, besteht darin, dass sie (in ihrer effektivsten Variante) auf einem neuartigen Referenzsatz basiert, der abgeleitete Gesichtsvektoren aus einem zentralen Korpus (in diesem Fall MS-Celeb-1M, obwohl die Referenzierung erweitert werden könnte) enthĂ€lt auf im Netzwerk verfĂŒgbares Bildmaterial, das wahrscheinlich nur fĂŒr bekannte Persönlichkeiten des öffentlichen Lebens in ausreichender QualitĂ€t und QuantitĂ€t vorhanden wĂ€re).

Diese abgeleiteten Vektorsatz-Couplets fungieren als AuthentizitĂ€tstoken, um die inneren und Ă€ußeren Gesichtsbereiche gleichzeitig zu ĂŒberprĂŒfen.

Die Autoren weisen darauf hin, dass die mit diesen Methoden gewonnenen Token „hochrangige“ Merkmale darstellen, was zu einem Deepfake-Erkennungsprozess fĂŒhrt, der anspruchsvolle Umgebungen wie Videos mit niedriger Auflösung oder anderweitig beeintrĂ€chtigter QualitĂ€t mit grĂ¶ĂŸerer Wahrscheinlichkeit ĂŒbersteht.

Entscheidend ist die IKT kein Frontalunterricht. Sie sucht nach artefaktbasierten Beweisen, sondern konzentriert sich eher auf Methoden zur IdentitĂ€tsĂŒberprĂŒfung, die eher mit Gesichtserkennungstechniken ĂŒbereinstimmen – ein Ansatz, der bei geringen Datenmengen schwierig ist, wie es bei der Untersuchung von VorfĂ€llen der Fall ist Deepfake-Rache-Porno gegen nicht berĂŒhmte Ziele.

Tests

ICT wurde mit MS-Celeb-1M trainiert und anschließend in referenzgestĂŒtzte und „blinde“ Versionen des Algorithmus unterteilt und mit einer Reihe konkurrierender DatensĂ€tze und Methoden getestet. Dazu gehörten FaceForensics ++ (FF++), ein Datensatz von 1000 authentischen und gefĂ€lschten Videos, die mit vier Methoden erstellt wurden, darunter Face2Face und FaceSwap; Googles Deepfake-Erkennung (DFD), ebenfalls bestehend aus Tausenden von Google generierten Deepfake-Videos; Celeb-DeepFake v1 (CD1), das 408 echte und 795 synthetisierte, artefaktarme Videos enthĂ€lt; Celeb-DeepFake v2, eine Erweiterung von V1, die 590 echte und 5,639 gefĂ€lschte Videos enthĂ€lt; und Chinas 2020 Deeper-Forensik (Tiefer).

Das sind die DatensÀtze; Die Erkennungsmethoden in den Testherausforderungen waren Multitasking, MesoInc4, Kapseln, Xception-c0, c2 (eine in FF++ verwendete Methode), FWA/DSP-FW von der UniversitÀt in Albany, Zweizweigig, PCL+I2Gund Yuval Nirkins Kontextdiskrepanzmethode.

Die oben genannten Erkennungsmethoden zielen darauf ab, bestimmte Arten der Gesichtsmanipulation zu erkennen. DarĂŒber hinaus testeten die Autoren des neuen Papiers allgemeinere Deepfake-Erkennungsmethoden. Gesichtsröntgen, Michigan State University FFD, CNNDetection und Patch-Forensik von MIT CSAIL.

Die offensichtlichsten Ergebnisse des Tests sind, dass die Wirksamkeit der konkurrierenden Methoden mit abnehmender Videoauflösung und -qualitĂ€t drastisch abnimmt. Da das grĂ¶ĂŸte Potenzial fĂŒr Deepfake-Eingriffe in unsere Unterscheidungskraft (nicht zuletzt derzeit) bei Nicht-HD-Videos oder anderen qualitativ beeintrĂ€chtigten Videos besteht, scheint dies ein bedeutsames Ergebnis zu sein.

Im Ergebnisdiagramm oben zeigen die blauen und roten Linien die WiderstandsfĂ€higkeit der IKT-Methoden gegenĂŒber Bildverschlechterungen in allen Bereichen mit Ausnahme des Gaußschen Rauschens (bei Zoom- und Webcam-Aufnahmen unwahrscheinlich), wĂ€hrend die ZuverlĂ€ssigkeit der konkurrierenden Methoden stark abnimmt.

In der folgenden Ergebnistabelle sehen wir die Wirksamkeit der verschiedenen Deepfake-Erkennungsmethoden bei den unsichtbaren DatensĂ€tzen. Graue und mit einem Sternchen versehene Ergebnisse weisen auf einen Vergleich mit ursprĂŒnglich veröffentlichten Ergebnissen in Closed-Source-Projekten hin, die nicht extern ĂŒberprĂŒft werden können. In fast allen vergleichbaren Frameworks ĂŒbertrifft ICT die konkurrierenden Deepfake-ErkennungsansĂ€tze (fett dargestellt) im Vergleich zu den getesteten DatensĂ€tzen.

Als zusĂ€tzlichen Test ließen die Autoren Inhalte vom YouTube-Kanal des gefeierten Deepfakers Ctrl Shift Face laufen und stellten fest, dass konkurrierende Methoden deutlich schlechtere Identifizierungswerte erzielten:

Bemerkenswert ist hierbei, dass FF++-Methoden (Xception-c23) und FFD, die in den allgemeinen Tests des neuen Papiers bei einigen Testdaten zu den höchsten Werten zĂ€hlen, hier in einem „realen“ Kontext mit aufwĂ€ndigen Deepfake-Inhalten eine weitaus niedrigere Punktzahl erzielen als ICT.

Die Autoren schließen das Papier mit der Hoffnung, dass seine Ergebnisse die Deepfake-Erkennungs-Community zu Ă€hnlichen Initiativen fĂŒhren, die sich auf leichter verallgemeinerbare High-Level-Funktionen konzentrieren, und weg vom „Kalten Krieg“ der Artefakterkennung, in dem die neuesten Methoden routinemĂ€ĂŸig durch Entwicklungen in Deepfake-Frameworks oder durch andere Faktoren, die solche Methoden weniger widerstandsfĂ€hig machen, ĂŒberflĂŒssig werden.

Schauen Sie sich das begleitende Zusatzvideo unten an, um weitere Beispiele dafĂŒr zu finden, wie IKT Deepfake-Inhalte identifizieren, die oft alternative Methoden ĂŒberlisten.

 

 

Erstveröffentlichung am 4. MÀrz 2022.

Autor zum Thema maschinelles Lernen, Fachspezialist fĂŒr die Synthese menschlicher Bilder. Ehemaliger Leiter fĂŒr Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschĂŒtzt]
Twitter: @manders_ai