Künstliche Intelligenz
Entflechtung ist die nächste Deepfake-Revolution
CGI-Datenerweiterung wird in einem neuen Projekt eingesetzt, um eine bessere Kontrolle über Deepfake-Bilder zu erlangen. Obwohl Sie CGI-Köpfe immer noch nicht effektiv nutzen können, um die fehlenden Lücken in Deepfake-Gesichtsdatensätzen zu schließen, bedeutet eine neue Welle von Forschungen zur Trennung von Identität und Kontext, dass Sie dies möglicherweise bald nicht mehr tun müssen.
Die Ersteller einiger der erfolgreichsten viralen Deepfake-Videos der letzten Jahre wählen ihre Quellvideos sehr sorgfältig aus und vermeiden dauerhafte Profilaufnahmen (d. h. die Art von seitlichen Fahndungsfotos, die bei polizeilichen Festnahmeverfahren populär werden), spitze Winkel und ungewöhnliche oder übertriebene Ausdrücke . In zunehmendem Maße handelt es sich bei den von viralen Deepfakern produzierten Demonstrationsvideos um bearbeitete Zusammenstellungen, die die „einfachsten“ Blickwinkel und Ausdrücke zum Deepfaken auswählen.
Tatsächlich ist das geeignetste Zielvideo, in das ein Deepfake eingefügt werden kann, ein Promi, bei dem die ursprüngliche Person (deren Identität durch das Deepfake gelöscht wird) direkt in die Kamera schaut, mit minimalem Gesichtsausdruck.
Denn Deepfake-Technologien wie z.B DeepFaceLab machen Gesicht tauschen Wenn wir diese einfacheren Tauschvorgänge sehr gut durchführen, sind wir so beeindruckt von dem, was sie erreichen, dass wir gar nicht merken, wozu sie nicht in der Lage sind, und – oft – versuchen wir es gar nicht erst:
Neue Forschung aus Israel schlägt eine neuartige Methode zur Verwendung synthetischer Daten wie CGI-Köpfe vor, um Deepfaking in die 2020er Jahre zu bringen, indem Gesichtsidentitäten (d. h. die wesentlichen Gesichtsmerkmale von „Tom Cruise“ aus allen Blickwinkeln) wirklich von ihrem Kontext (d. h hoch schauen, seitwärts schauen, finster, finster im Dunkeln blickend, Brauen gerunzelt, Augen geschlossen, Etc.).
Das ist nicht bloß Deepfake-Kopfpuppenspiel, eine Technik, die sich besser für Avatare und teilweise Gesichtslippensynchronisierung eignet und nur begrenztes Potenzial für vollständige Deepfake-Videotransformationen bietet.
Vielmehr stellt dies einen Weg nach vorn für eine grundlegende Trennung der Instrumentalität dar (z. B „den Winkel des Kopfes ändern“, „ein Stirnrunzeln erzeugen“) von der Identität und bietet einen Weg zu einem hochrangigen und nicht „abgeleiteten“, auf Bildsynthese basierenden Deepfake-Framework.
Das neue Papier trägt den Titel Delta-GAN-Encoder: Codierung semantischer Änderungen für die explizite Bildbearbeitung unter Verwendung weniger synthetischer Samples, und stammt von Forschern am Technion – Israel Institute of Technology.
Um zu verstehen, was die Arbeit bedeutet, werfen wir einen Blick darauf, wie Deepfakes derzeit überall produziert werden, von Deepfake-Pornoseiten bis hin zu Industrielicht und Magie (da das Open-Source-Repository DeepFaceLab derzeit sowohl beim „Amateur“- als auch beim professionellen Deepfaking dominiert).
Was hält die aktuelle Deepfake-Technologie zurück?
Deepfakes werden derzeit durch Schulungen erstellt Encoder/Decoder Modell für maschinelles Lernen auf zwei Ordnern mit Gesichtsbildern – der Person, die Sie „übermalen“ möchten (im vorherigen Beispiel ist das Arnie) und der Person, die Sie in das Filmmaterial einblenden möchten (Sly).
Dann das Encoder-/Decodersystem vergleicht jedes einzelne Bild in jedem Ordner zueinander, wobei dieser Vorgang über Hunderttausende von Iterationen (oft bis zu einer Woche) aufrechterhalten, verbessert und wiederholt wird, bis die wesentlichen Merkmale beider Identitäten gut genug verstanden sind, um sie nach Belieben auszutauschen.
Für jede der beiden Personen, die dabei ausgetauscht werden, erfährt die Deepfake-Architektur Folgendes über die Identität mit dem Kontext verstrickt. Es kann keine Prinzipien über eine generische Pose „für immer und ewig“ erlernen und anwenden, sondern benötigt reichlich Beispiele im Trainingsdatensatz für jede einzelne Identität, die am Gesichtstausch beteiligt sein wird.
Wenn Sie also zwei Identitäten tauschen möchten, die etwas Ungewöhnlicheres tun, als nur zu lächeln oder direkt in die Kamera zu schauen, benötigen Sie Folgendes viele Instanzen dieser bestimmten Pose/Identität über die beiden Gesichtssätze hinweg:
Wenn Set A die ungewöhnliche Pose enthält, Set B jedoch nicht, haben Sie ziemlich viel Pech. Unabhängig davon, wie lange Sie das Modell trainieren, wird es nie lernen, diese Pose zwischen den Identitäten gut zu reproduzieren, da es beim Training nur über die Hälfte der erforderlichen Informationen verfügte.
Selbst wenn Sie übereinstimmende Bilder haben, reicht dies möglicherweise nicht aus: Wenn Set A die passende Pose hat, aber mit grellem Seitenlicht im Vergleich zur flach beleuchteten äquivalenten Pose im anderen Gesichtsset, gewinnt die Qualität des Austauschs Das wäre nicht so gut, als ob alle dieselben Beleuchtungseigenschaften hätten.
Warum die Daten knapp sind
Sofern Sie nicht regelmäßig verhaftet werden, haben Sie wahrscheinlich nicht viele Seitenprofilaufnahmen von sich. Alles, was dabei herauskam, haben Sie wahrscheinlich weggeworfen. Da Bildagenturen dies ebenfalls tun, sind Profilfotos von Gesichtern schwer zu bekommen.
Deepfaker fügen häufig mehrere Kopien der begrenzten Seitenansichtsprofildaten, die sie für eine Identität haben, in einen Gesichtssatz ein, nur damit diese Pose mindestens eine erhält wenig Aufmerksamkeit und Zeit während des Trainings, anstatt als abgezinst zu werden Ausreißer.
Aber es gibt viel mehr mögliche Arten von Seitenansichts-Gesichtsbildern, als wahrscheinlich für die Aufnahme in einen Datensatz zur Verfügung stehen – lächelnd, stirnrunzelnd, schreiend, Weinen, dunkel beleuchtet, verächtlich, gelangweilt, fröhlich, blitzbeleuchtet, hoch schauen, herunterschauen, geöffnete Augen, geschlossene Augen…usw. Jede dieser Posen könnte in mehreren Kombinationen in einem Deepfake-Zielvideo erforderlich sein.
Und das sind nur Profile. Wie viele Bilder hast du von dir selbst? geradeaus? Haben Sie genug, um das umfassend darzustellen? 10,000 mögliche Ausdrücke Sie tragen möglicherweise genau diese Pose aus genau diesem Kamerawinkel und verdecken dabei zumindest einen Teil davon eine Million mögliche Beleuchtungsumgebungen?
Die Chancen stehen gut, dass Sie das nicht einmal getan haben dank One Bild von dir, wie du nach oben schaust. Und das sind nur zwei Winkel von hundert oder mehr, die für eine vollständige Abdeckung erforderlich sind.
Selbst wenn es möglich wäre, ein Gesicht aus allen Winkeln und unter verschiedenen Lichtverhältnissen vollständig abzudecken, wäre der resultierende Datensatz viel zu groß zum Trainieren und würde in der Größenordnung von Hunderttausenden Bildern liegen; und selbst wenn es könnte trainiert werden, würde die Art des Trainingsprozesses für aktuelle Deepfake-Frameworks den Großteil dieser zusätzlichen Daten zugunsten einer begrenzten Anzahl abgeleiteter Funktionen verschwenden, da die aktuellen Frameworks reduktionistisch und nicht sehr skalierbar sind.
Synthetische Substitution
Seit den Anfängen von Deepfakes experimentieren Deepfaker mit CGI-ähnlichen Bildern, Köpfen, die in 3D-Anwendungen wie Cinema4D und Maya erstellt wurden, um diese „fehlenden Posen“ zu erzeugen.
Diese Methode wird von neuen Deepfake-Anwendern im Allgemeinen frühzeitig aufgegeben, da sie zwar Posen und Ausdrücke liefern kann, die sonst nicht verfügbar wären, das synthetische Erscheinungsbild der CGI-Gesichter jedoch aufgrund der Verflechtung von ID und kontextuellen/semantischen Informationen normalerweise in die Swaps eindringt.
Dies kann zum plötzlichen Aufblitzen von „Uncanny Valley“-Gesichtern in einem ansonsten überzeugenden Deepfake-Video führen, da der Algorithmus beginnt, auf die einzigen Daten zurückzugreifen, die ihm möglicherweise für eine ungewöhnliche Pose oder einen ungewöhnlichen Ausdruck vorliegen – offensichtlich gefälschte Gesichter.
CGI-Gesichter als freistehende, konzeptionelle Leitlinien
Stattdessen ist die neue Delta-GAN Encoder (DGE)-Methode der israelischen Forscher effektiver, da die Posen- und Kontextinformationen aus den CGI-Bildern vollständig von den „Identitäts“-Informationen des Ziels getrennt wurden.
Wir können dieses Prinzip im Bild unten in Aktion sehen, wo anhand der CGI-Bilder als Richtlinie verschiedene Kopfausrichtungen ermittelt wurden. Da die Identitätsmerkmale nichts mit den kontextuellen Merkmalen zu tun haben, gibt es weder ein Durchscheinen der künstlich wirkenden synthetischen Erscheinung des CGI-Gesichts noch der darin dargestellten Identität:
Diese Trennung von Identität und Kontext wird in der Trainingsphase erreicht. Die Pipeline für die neue Deepfake-Architektur sucht den latenten Vektor in einem vorab trainierten Generative Adversarial Network (GAN), der dem zu transformierenden Bild entspricht – eine Sim2Real-Methodik, die auf einer 2018er-Methode aufbaut Projekt aus der KI-Forschungsabteilung von IBM.
Die Forscher beobachten:
„Mit nur wenigen Stichproben, die sich durch ein bestimmtes Attribut unterscheiden, kann man das entwirrte Verhalten eines vorab trainierten verschränkten generativen Modells lernen.“ Um dieses Ziel zu erreichen, sind keine exakten Proben aus der realen Welt erforderlich, was nicht unbedingt realisierbar ist.
„Durch die Verwendung unrealistischer Datenproben kann das gleiche Ziel erreicht werden, indem die Semantik der codierten latenten Vektoren genutzt wird.“ „Das Anwenden gewünschter Änderungen auf vorhandene Datenproben kann ohne explizite Untersuchung des latenten Raumverhaltens erfolgen.“
Die Forscher gehen davon aus, dass die im Projekt untersuchten Kernprinzipien der Entflechtung auf andere Bereiche übertragen werden könnten, beispielsweise auf Innenarchitektursimulationen, und dass die für den Delta-GAN-Encoder übernommene Sim2Real-Methode letztendlich eine Deepfake-Instrumentalität ermöglichen könnte, die auf bloßen Skizzen basiert Eingabe im CGI-Stil.
Man könnte argumentieren, dass das Ausmaß, in dem das neue israelische System in der Lage sein könnte, Deepfake-Videos zu synthetisieren oder nicht, weitaus weniger bedeutsam ist als der Fortschritt, den die Forschung bei der Entflechtung von Kontext und Identität gemacht hat und dabei mehr Kontrolle über den latenten Raum erlangt eines GAN.
Entwirrung ist ein aktives Forschungsgebiet in der Bildsynthese; im Januar 2021, eine von Amazon durchgeführte Studie Krepppapier demonstrierte eine ähnliche Posenkontrolle und Entwirrung, und im Jahr 2018 a Krepppapier von den Shenzhen Institutes of Advanced Technology an der Chinesischen Akademie der Wissenschaften machten Fortschritte bei der Generierung willkürlicher Standpunkte in einem GAN.