Künstliche Intelligenz
Identifizierung von Celebrity Deepfakes aus äußeren Gesichtsregionen

Eine neue Zusammenarbeit zwischen Microsoft und einer chinesischen Universität hat einen neuen Ansatz zur Identifizierung von Celebrity Deepfakes vorgeschlagen, indem die Schwächen der aktuellen Deepfake-Techniken genutzt werden, um Identitäten zu erkennen, die auf andere Menschen “projiziert” wurden.
Der Ansatz wird Identity Consistency Transformer (ICT) genannt und funktioniert, indem die äußersten Teile des Gesichts (Kiefer, Wangenknochen, Haaransatz und andere äußere Merkmale) mit dem Inneren des Gesichts verglichen werden. Das System nutzt öffentlich verfügbare Bildaten von berühmten Personen, was seine Wirksamkeit auf populäre Celebrities beschränkt, deren Bilder in großen Mengen in weit verbreiteten Computer-Vision-Datensätzen und im Internet verfügbar sind.

Die Fälschungsbereiche von gefälschten Gesichtern bei sieben Techniken: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; und DF-VAE. Beliebte Pakete wie DeepFaceLab und FaceSwap bieten ähnlich eingeschränkte Abdeckung. Source: https://arxiv.org/pdf/2203.01318.pdf
Wie das obige Bild zeigt, sind die derzeit populären Methoden für Deepfakes ziemlich ressourcenbeschränkt und verlassen sich auf geeignete Wirtsgesichter (das Bild oder Video einer Person, deren Identität durch den Deepfake ersetzt wird), um Beweise für die Gesichtsersetzung zu minimieren.
Obwohl verschiedene Methoden den vollen Stirnbereich und einen großen Teil der Kinn- und Wangenbereiche umfassen können, sind sie alle mehr oder weniger innerhalb des Rahmens des Wirtsgesichts beschränkt.

<emEine Saliency-Karte, die die 'inneren' und 'äußeren' Identitäten hervorhebt, die von ICT berechnet werden. Wenn eine innere Gesichtsübereinstimmung hergestellt wird, aber eine äußere Identität nicht übereinstimmt, bewertet ICT das Bild als falsch.
In Tests hat sich ICT als in der Lage erwiesen, Deepfake-Inhalte in umgebungen mit niedriger Auflösung zu erkennen, in denen der Inhalt des gesamten Videos durch Komprimierungsartefakte verschlechtert wird, was die verbleibenden Beweise des Deepfake-Prozesses verdeckt – eine Umstände, die viele konkurrierende Deepfake-Erkennungsmethoden verwirren.

ICT übertrifft Konkurrenten bei der Erkennung von Deepfake-Inhalten. Siehe Video am Ende des Artikels für weitere Beispiele und bessere Auflösung. Siehe eingebettetes Quellvideo am Ende des Artikels für weitere Beispiele. Source: https://www.youtube.com/watch?v=zgF50dcymj8
Das Papier trägt den Titel Schutz von Celebrities mit Identity Consistency Transformer und stammt von neun Forschern, die verschiedenen Universitäten und Forschungseinrichtungen angehören, darunter die University of Science and Technology of China, Microsoft Research Asia und Microsoft Cloud + AI.
Die Glaubwürdigkeitslücke
Es gibt mindestens zwei Gründe, warum beliebte Gesichts-Austausch-Algorithmen wie DeepFaceLab und FaceSwap den äußersten Bereich der ausgetauschten Gesichts-Identitäten vernachlässigen.
Zum einen ist das Training von Deepfake-Modellen zeitaufwändig und ressourcenkritisch, und die Verwendung von “kompatiblen” Wirtsgesichtern/Bodies spart GPU-Zyklen und Epochen, um sich auf die relativ unveränderlichen inneren Bereiche des Gesichts zu konzentrieren, die wir verwenden, um die Identität zu unterscheiden (da Variablen wie Gewichtsschwankungen und Alterungsprozesse diese Kerngesichtsmerkmale auf kurze Sicht am wenigsten verändern).
Zum anderen haben die meisten Deepfake-Ansätze (und das ist sicherlich der Fall bei DeepFaceLab, der Software, die von den meisten oder berüchtigten Praktikern verwendet wird) eine begrenzte Fähigkeit, “Ende des Gesichts”-Ränder wie Wangen- und Kieferbereiche zu replizieren, und sind durch die Tatsache eingeschränkt, dass ihr Upstream-Code (2017) dieses Problem nicht umfassend angegangen ist.
In Fällen, in denen die Identitäten nicht gut übereinstimmen, muss der Deepfake-Algorithmus die Hintergrundbereiche um das Gesicht “inpainten”, was er auf höchstens ungeschickt tut, selbst in den Händen der besten Deepfakers, wie Ctrl Shift Face, deren Ausgabe in den Studien des Papiers verwendet wurde.

Das Beste vom Besten: Stills aus einem Deepfake-Video von dem renommierten Deepfaker Ctrl-Shift-Face, der Jim Carrey über Gary Oldman austauscht. Diese Arbeit stellt wahrscheinlich das beste verfügbare Ergebnis via DeepFaceLab und Nachbearbeitungstechniken dar. Dennoch bleiben die Austausche auf die relativ geringe Aufmerksamkeit beschränkt, die DFL dem äußeren Gesicht widmet, was eine herkulische Anstrengung bei der Datenkuratierung und -ausbildung erfordert, um die äußersten Merkmale anzusprechen. Source: https://www.youtube.com/watch?v=x8igrh1eyLk
Dieses “Sleight of Hand” oder die Ablenkung der Aufmerksamkeit entgeht größtenteils der öffentlichen Aufmerksamkeit in der aktuellen Sorge über die wachsende Realistik von Deepfakes, weil unsere kritischen Fähigkeiten um Deepfakes herum noch in der Entwicklung sind und noch über die “Schock- und Erstaunens”-Phase hinausgehen.
Getrennte Identitäten
Das neue Papier weist darauf hin, dass die meisten vorherigen Methoden der Deepfake-Erkennung auf Artefakten beruhen, die den Austauschprozess verraten, wie z.B. inkonsistente Kopfhaltungen und Blinken, unter zahlreichen anderen Techniken. Nur in dieser Woche hat ein weiteres neues Papier zur Deepfake-Erkennung vorgeschlagen, die “Signatur” der verschiedenen Modelltypen im FaceSwap-Framework zu verwenden, um gefälschte Videos zu identifizieren, die mit ihm erstellt wurden (siehe Bild unten).

Identifizierung von Deepfakes durch Charakterisierung der Signaturen verschiedener Modelltypen im FaceSwap-Framework. Source: https://arxiv.org/pdf/2202.12951.pdf
Im Gegensatz dazu erstellt die Architektur von ICT zwei separate, verschachtelte Identitäten für eine Person, von denen jede vor der gesamten Identität als “wahr” oder “falsch” bewertet werden muss.

Architektur für die Trainings- und Testphasen von ICT.
Die Trennung der Identitäten wird durch einen Vision Transformer ermöglicht, der die Gesichtserkennung durchführt, bevor die untersuchten Regionen in Token unterteilt werden, die den inneren oder äußeren Identitäten angehören.

Verteilung von Patches unter den beiden parallelen Identitätszeichnern.










