Künstliche Intelligenz
Entflechtung ist die nächste Deepfake-Revolution

In einem neuen Projekt wird CGI-Datenerweiterung eingesetzt, um Deepfake-Bilder besser zu kontrollieren. Zwar lassen sich Lücken in Deepfake-Gesichtsdatensätzen noch nicht effektiv mit CGI-Köpfen schließen, doch eine neue Forschungswelle zur Trennung von Identität und Kontext könnte dies bald überflüssig machen.
Die Macher einiger der erfolgreichsten viralen Deepfake-Videos der letzten Jahre wählen ihre Quellvideos sehr sorgfältig aus und vermeiden lange Profilaufnahmen (z. B. seitliche Fahndungsfotos, die bei polizeilichen Festnahmen populär sind), spitze Winkel und ungewöhnliche oder übertriebene Ausdrücke. Immer häufiger handelt es sich bei den von viralen Deepfakern produzierten Demonstrationsvideos um bearbeitete Kompilationen, bei denen die „einfachsten“ Winkel und Ausdrücke für das Deepfake ausgewählt werden.
Tatsächlich ist das geeignetste Zielvideo, in das ein Deepfake eingefügt werden kann, ein Promi, bei dem die ursprüngliche Person (deren Identität durch das Deepfake gelöscht wird) direkt in die Kamera schaut, mit minimalem Gesichtsausdruck.

Die meisten populären Deepfakes der letzten Jahre zeigten Motive, die direkt in die Kamera blickten und entweder nur populäre Ausdrücke (z. B. Lächeln) trugen, die leicht aus Paparazzi-Ausgaben auf dem roten Teppich entnommen werden können, oder (wie bei der Fälschung von Sylvester Stallone aus dem Jahr 2019). (z. B. der Terminator, links abgebildet), idealerweise ohne jeglichen Ausdruck, da neutrale Ausdrücke sehr verbreitet sind und sich daher leicht in Deepfake-Modelle integrieren lassen.
Denn Deepfake-Technologien wie z.B DeepFaceLab und Gesicht tauschen Wenn wir diese einfacheren Tauschvorgänge sehr gut durchführen, sind wir von dem, was sie erreichen, so geblendet, dass wir nicht bemerken, wozu sie nicht in der Lage sind und es – oft – nicht einmal versuchen:

Schnappschüsse aus einem gefeierten Deepfake-Video, in dem Arnold Schwarzenegger in Sylvester Stallone verwandelt wird – es sei denn, die Blickwinkel sind zu knifflig. Profile bleiben bei aktuellen Deepfake-Ansätzen ein anhaltendes Problem, teilweise weil die Open-Source-Software, die zum Definieren von Gesichtsposen in Deepfake-Frameworks verwendet wird, nicht für Seitenansichten optimiert ist, sondern hauptsächlich aufgrund des Mangels an geeignetem Quellmaterial für einen oder beide der erforderlichen Bereiche Datensätze. Quelle: https://www.youtube.com/watch?v=AQvCmQFScMA
Neue Forschung aus Israel schlägt eine neuartige Methode vor, bei der synthetische Daten, wie z. B. CGI-Köpfe, verwendet werden, um Deepfaking in die 2020er Jahre zu bringen, indem Gesichtsidentitäten (d. h. die wesentlichen Gesichtsmerkmale von „Tom Cruise“ aus allen Blickwinkeln) wirklich von ihrem Kontext (d. h. hoch schauen, seitwärts schauen, finster, finster im Dunkeln blickend, Brauen gerunzelt, Augen geschlossen, Etc.).

Das neue System trennt Pose und Kontext (z. B. ein Augenzwinkern) diskret von der Identitätskodierung des Individuums und verwendet dazu unabhängige synthetische Gesichtsdaten (siehe Abbildung links). In der oberen Reihe sehen wir ein „Zwinkern“, das auf die Identität von Barack Obama übertragen wurde. Auslöser ist der erlernte nichtlineare Pfad des latenten Raums eines GAN, dargestellt durch das CGI-Bild links. In der Reihe darunter sehen wir die gestreckte Mundwinkelfacette, die auf den ehemaligen Präsidenten übertragen wurde. Unten rechts sehen wir beide Merkmale gleichzeitig angewendet. Quelle: https://arxiv.org/pdf/2111.08419.pdf
Das ist nicht bloß Deepfake-Kopfpuppenspiel, eine Technik, die sich besser für Avatare und teilweise Gesichtslippensynchronisierung eignet und nur begrenztes Potenzial für vollständige Deepfake-Videotransformationen bietet.
Vielmehr stellt dies einen Weg nach vorn für eine grundlegende Trennung der Instrumentalität dar (z. B „Ändern Sie den Winkel des Kopfes“, „ein Stirnrunzeln erzeugen“) von der Identität und bietet einen Weg zu einem hochrangigen, statt „abgeleiteten“ Deepfake-Framework auf Basis der Bildsynthese.
Das neue Papier trägt den Titel Delta-GAN-Encoder: Codierung semantischer Änderungen für die explizite Bildbearbeitung unter Verwendung weniger synthetischer Samples, und stammt von Forschern am Technion – Israel Institute of Technology.
Um zu verstehen, was diese Arbeit bedeutet, schauen wir uns an, wie Deepfakes derzeit überall produziert werden, von Deepfake-Pornoseiten bis hin zu Industrielicht und Magie (da das Open-Source-Repository DeepFaceLab derzeit sowohl im Amateur- als auch im professionellen Deepfaking dominiert).
Was hält die aktuelle Deepfake-Technologie zurück?
Deepfakes werden derzeit durch Schulungen erstellt Encoder/Decoder Modell für maschinelles Lernen auf zwei Ordnern mit Gesichtsbildern – der Person, die Sie „übermalen“ möchten (im vorherigen Beispiel ist das Arnie) und der Person, die Sie in das Filmmaterial einfügen möchten (Sly).

Beispiele für unterschiedliche Posen und Lichtverhältnisse bei zwei verschiedenen Gesichtssätzen. Beachten Sie den charakteristischen Ausdruck am Ende der dritten Zeile in Spalte A, der im anderen Datensatz wahrscheinlich keine ähnliche Entsprechung hat.
Dann das Encoder-/Decodersystem vergleicht jedes einzelne Bild in jedem Ordner zueinander, wobei dieser Vorgang über Hunderttausende von Iterationen (oft bis zu einer Woche) aufrechterhalten, verbessert und wiederholt wird, bis die wesentlichen Merkmale beider Identitäten gut genug verstanden sind, um sie nach Belieben auszutauschen.
Für jede der beiden Personen, die dabei ausgetauscht werden, erfährt die Deepfake-Architektur Folgendes über die Identität mit dem Kontext verstrickt. Es kann nicht „für immer und ewig“ Prinzipien einer allgemeinen Pose lernen und anwenden, sondern benötigt zahlreiche Beispiele im Trainingsdatensatz für jede einzelne Identität, die am Gesichtstausch beteiligt sein wird.
Wenn Sie also zwei Identitäten austauschen möchten, die etwas Ungewöhnlicheres tun, als nur zu lächeln oder direkt in die Kamera zu schauen, benötigen Sie viele Instanzen dieser bestimmten Pose/Identität über die beiden Gesichtssätze hinweg:

Da Gesichtserkennung und Pose-Merkmale derzeit stark miteinander verknüpft sind, ist eine weitgehende Übereinstimmung von Ausdruck, Kopfhaltung und (in geringerem Maße) Beleuchtung über zwei Gesichtsdatensätze hinweg erforderlich, um ein effektives Deepfake-Modell auf Systemen wie DeepFaceLab zu trainieren. Je weniger eine bestimmte Konfiguration (wie „Seitenansicht/lächelnd/sonnenbeschienen“) in beiden Gesichtssätzen vorkommt, desto ungenauer wird sie gegebenenfalls in einem Deepfake-Video wiedergegeben.
Wenn Satz A die ungewöhnliche Pose enthält, Satz B sie jedoch nicht aufweist, haben Sie ziemliches Pech gehabt. Egal, wie lange Sie das Modell trainieren, es wird nie lernen, diese Pose zwischen den Identitäten gut zu reproduzieren, da es beim Training nur über die Hälfte der erforderlichen Informationen verfügte.
Selbst wenn Sie über übereinstimmende Bilder verfügen, reicht dies möglicherweise nicht aus: Wenn Satz A die übereinstimmende Pose aufweist, jedoch mit grellem Seitenlicht, ist die Qualität des Austauschs im Vergleich zur gleichwertigen Pose mit flachem Licht im anderen Gesichtssatz nicht so gut, als wenn beide über gemeinsame Beleuchtungseigenschaften verfügen würden.
Warum die Daten knapp sind
Sofern Sie nicht regelmäßig verhaftet werden, verfügen Sie wahrscheinlich nicht über allzu viele Profilfotos von sich. Alle, die sich ergaben, haben Sie wahrscheinlich weggeworfen. Da Bildagenturen das Gleiche tun, sind Profilfotos von Gesichtern schwer zu bekommen.
Deepfaker fügen häufig mehrere Kopien der begrenzten Seitenansichtsprofildaten, die sie für eine Identität haben, in einen Gesichtssatz ein, nur damit diese Pose mindestens eine erhält wenig Aufmerksamkeit und Zeit während des Trainings, anstatt als abgezinst zu werden Ausreißer.

Aber es gibt viel mehr mögliche Arten von Seitenansichts-Gesichtsbildern, als wahrscheinlich für die Aufnahme in einen Datensatz zur Verfügung stehen – lächelnd, stirnrunzelnd, schreiend, Weinen, dunkel beleuchtet, verächtlich, gelangweilt, fröhlich, blitzbeleuchtet, hoch schauen, herunterschauen, geöffnete Augen, geschlossene Augen…usw. Jede dieser Posen könnte in mehreren Kombinationen in einem Deepfake-Zielvideo erforderlich sein.
Und das sind nur Profile. Wie viele Bilder hast du von dir selbst? geradeaus? Haben Sie genug, um das umfassend darzustellen? 10,000 mögliche Ausdrücke Sie tragen möglicherweise genau diese Pose aus genau diesem Kamerawinkel und verdecken dabei zumindest einen Teil davon eine Million mögliche Beleuchtungsumgebungen?
Wahrscheinlich haben Sie nicht einmal dank One Bild von sich selbst, auf dem Sie nach oben schauen. Und das sind nur zwei von über hundert Winkeln, die für eine vollständige Abdeckung erforderlich sind.
Selbst wenn es möglich wäre, ein Gesicht aus allen Winkeln und unter verschiedenen Lichtverhältnissen vollständig abzudecken, wäre der resultierende Datensatz viel zu groß zum Trainieren und würde in der Größenordnung von Hunderttausenden Bildern liegen; und selbst wenn es könnte trainiert werden, würde die Art des Trainingsprozesses für aktuelle Deepfake-Frameworks den Großteil dieser zusätzlichen Daten zugunsten einer begrenzten Anzahl abgeleiteter Funktionen verschwenden, da die aktuellen Frameworks reduktionistisch und nicht sehr skalierbar sind.
Synthetische Substitution
Seit den Anfängen von Deepfakes experimentieren Deepfaker mit der Verwendung von Bildern im CGI-Stil und mit in 3D-Anwendungen wie Cinema4D und Maya erstellten Köpfen, um diese „fehlenden Posen“ zu erzeugen.

Keine KI erforderlich; eine Schauspielerin wird in einem traditionellen CGI-Programm, Cinema 4D, mithilfe von Meshes und Bitmap-Texturen nachgebildet – eine Technologie, die bis in die 1960er Jahre zurückreicht, sich aber erst ab den 1990er Jahren weite Verbreitung fand. Theoretisch könnte dieses Gesichtsmodell verwendet werden, um Deepfake-Quelldaten für ungewöhnliche Posen, Beleuchtungsstile und Gesichtsausdrücke zu generieren. In der Praxis war es für Deepfaking jedoch nur bedingt oder gar nicht nützlich, da die „Fälschung“ der Renderings in ausgetauschten Videos durchscheint. Quelle: Bild des Autors dieses Artikels unter https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/
Diese Methode wird von neuen Deepfake-Anwendern im Allgemeinen frühzeitig aufgegeben, da sie zwar Posen und Ausdrücke liefern kann, die sonst nicht verfügbar wären, das synthetische Erscheinungsbild der CGI-Gesichter jedoch aufgrund der Verflechtung von ID und kontextuellen/semantischen Informationen normalerweise in die Swaps eindringt.
Dies kann dazu führen, dass in einem ansonsten überzeugenden Deepfake-Video plötzlich „unheimliche“ Gesichter aufblitzen, da der Algorithmus beginnt, auf die einzigen Daten zurückzugreifen, die er möglicherweise für eine ungewöhnliche Pose oder einen ungewöhnlichen Gesichtsausdruck hat – offensichtlich falsche Gesichter.

Zu den beliebtesten Motiven für Deepfaker zählt ein 3D-Deepfake-Algorithmus der australischen Schauspielerin Margot Robbie inklusive In der Standardinstallation von DeepFaceLive, einer Version von DeepFaceLab, die Deepfakes in einem Live-Stream, beispielsweise einer Webcam-Sitzung, durchführen kann. Eine CGI-Version, wie oben abgebildet, könnte verwendet werden, um ungewöhnliche „fehlende“ Winkel in Deepfake-Datensätzen zu erhalten. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace
CGI-Gesichter als freistehende, konzeptionelle Leitlinien
Stattdessen ist die neue Delta-GAN Encoder (DGE)-Methode der israelischen Forscher effektiver, da die Pose und Kontextinformationen aus den CGI-Bildern vollständig von den „Identitäts“-Informationen des Ziels getrennt wurden.
Wir können dieses Prinzip im Bild unten in Aktion sehen, wo anhand der CGI-Bilder als Richtlinie verschiedene Kopfausrichtungen ermittelt wurden. Da die Identitätsmerkmale nichts mit den kontextuellen Merkmalen zu tun haben, gibt es weder ein Durchscheinen der künstlich wirkenden synthetischen Erscheinung des CGI-Gesichts noch der darin dargestellten Identität:

Mit der neuen Methode müssen Sie nicht drei separate Originalbilder aus dem echten Leben suchen, um einen Deepfake aus mehreren Winkeln zu erstellen – Sie können einfach den CGI-Kopf drehen, dessen abstrakte Merkmale auf hoher Ebene der Identität übergestülpt werden, ohne dass ID-Informationen preisgegeben werden.

Delta-GAN-Encoder. Gruppe oben links: Der Winkel eines Quellbildes kann in einer Sekunde geändert werden, um ein neues Quellbild zu rendern, das sich in der Ausgabe widerspiegelt; Gruppe oben rechts: Die Beleuchtung wird ebenfalls von der Identität getrennt, was die Überlagerung von Beleuchtungsstilen ermöglicht; Gruppe unten links: Mehrere Gesichtsdetails werden geändert, um einen „traurigen“ Ausdruck zu erzeugen; Gruppe unten rechts: Ein einzelnes Detail des Gesichtsausdrucks wird geändert, sodass die Augen blinzeln.
Diese Trennung von Identität und Kontext wird in der Trainingsphase erreicht. Die Pipeline für die neue Deepfake-Architektur sucht den latenten Vektor in einem vorab trainierten Generative Adversarial Network (GAN), der dem zu transformierenden Bild entspricht – eine Sim2Real-Methodik, die auf einer 2018er-Methode aufbaut Projekt aus der KI-Forschungsabteilung von IBM.
Die Forscher beobachten:
„Mit nur wenigen Stichproben, die sich durch ein bestimmtes Attribut unterscheiden, kann man das entwirrte Verhalten eines vorab trainierten verschränkten generativen Modells lernen.“ Um dieses Ziel zu erreichen, sind keine exakten Proben aus der realen Welt erforderlich, was nicht unbedingt realisierbar ist.
„Durch die Verwendung nicht-realistischer Datenproben kann dasselbe Ziel erreicht werden, indem die Semantik der kodierten latenten Vektoren genutzt wird. Die Anwendung gewünschter Änderungen an vorhandenen Datenproben kann ohne explizite Untersuchung des Verhaltens im latenten Raum erfolgen.“
Die Forscher gehen davon aus, dass die im Projekt untersuchten Kernprinzipien der Entflechtung auf andere Bereiche übertragen werden könnten, beispielsweise auf Innenarchitektursimulationen, und dass die für den Delta-GAN-Encoder übernommene Sim2Real-Methode letztendlich eine Deepfake-Instrumentalität ermöglichen könnte, die auf bloßen Skizzen basiert Eingabe im CGI-Stil.
Man könnte argumentieren, dass das Ausmaß, in dem das neue israelische System in der Lage sein könnte, Deepfake-Videos zu synthetisieren oder nicht, weitaus weniger bedeutsam ist als der Fortschritt, den die Forschung bei der Entflechtung von Kontext und Identität gemacht hat und dabei mehr Kontrolle über den latenten Raum erlangt eines GAN.
Entwirrung ist ein aktives Forschungsgebiet in der Bildsynthese; im Januar 2021, eine von Amazon durchgeführte Studie Krepppapier demonstrierte eine ähnliche Posenkontrolle und Entwirrung, und im Jahr 2018 a Krepppapier von den Shenzhen Institutes of Advanced Technology an der Chinesischen Akademie der Wissenschaften machten Fortschritte bei der Generierung willkürlicher Standpunkte in einem GAN.













