Stummel RigNeRF: Eine neue Deepfakes-Methode, die neuronale Strahlungsfelder nutzt – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

RigNeRF: Eine neue Deepfakes-Methode, die neuronale Strahlungsfelder nutzt

mm
Aktualisiert on

Neue bei Adobe entwickelte Forschungsergebnisse bieten die erste praktikable und effektive Deepfakes-Methode, die darauf basiert Neuronale Strahlungsfelder (NeRF) – vielleicht die erste echte Innovation in der Architektur oder im Ansatz in den fünf Jahren seit dem Aufkommen von Deepfakes im Jahr 2017.

Die Methode mit dem Titel RigNeRF, Verwendet 3D-morphbare Gesichtsmodelle (3DMMs) als interstitielle Instrumentalitätsebene zwischen der gewünschten Eingabe (d. h. der Identität, die in das NeRF-Rendering eingefügt werden soll) und dem neuronalen Raum, eine Methode, die es gab in den letzten Jahren weit verbreitet von Generative Adversarial Network (GAN) Ansätze zur Gesichtssynthese, von denen noch keiner funktionale und nützliche Gesichtsersatz-Frameworks für Videos hervorgebracht hat.

Aus ergänzendem Material für die neue Arbeit sehen wir, dass das 3D-Morphable-Face-Modell (3DMM) als Schnittstelle zwischen 70 Sekunden realem Filmmaterial von einem Smartphone, das den Trainingsdatensatz darstellt, und den normalerweise stoischen Parametern eines Neural Radiance Field fungiert Visualisierung. Eine hochauflösende Version dieses Clips und vieler anderer finden Sie auf der Projektseite oder in den eingebetteten Videos am Ende dieses Artikels. Quelle: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

Im Gegensatz zu herkömmlichen Deepfake-Videos ist absolut keiner der hier abgebildeten bewegten Inhalte „echt“, sondern ein erforschbarer neuronaler Raum, der anhand kurzer Filmaufnahmen trainiert wurde. Auf der rechten Seite sehen wir das 3D-Morphable-Gesichtsmodell (3DMM), das als Schnittstelle zwischen den gewünschten Manipulationen („Lächeln“, „nach links schauen“, „nach oben schauen“ usw.) und den normalerweise unlösbaren Parametern eines neuronalen Strahlungsfelds fungiert Visualisierung. Eine hochauflösende Version dieses Clips sowie weitere Beispiele finden Sie unter Projekt-Seite, oder die eingebetteten Videos am Ende dieses Artikels. Quelle: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

3DMMs sind im Grunde CGI-Modelle von Gesichtern, deren Parameter an abstraktere Bildsynthesesysteme wie NeRF und GAN angepasst werden können, die ansonsten schwer zu steuern sind.

Was Sie im Bild oben (mittleres Bild, Mann im blauen Hemd) sowie im Bild direkt darunter (linkes Bild, Mann im blauen Hemd) sehen, ist kein „echtes“ Video, in dem ein kleiner Ausschnitt von „ „Fake“-Gesicht wurde überlagert, sondern eine vollständig synthetisierte Szene, die ausschließlich als volumetrisches neuronales Rendering existiert – einschließlich des Körpers und des Hintergrunds:

Im Beispiel direkt oben wird das reale Video auf der rechten Seite (Frau im roten Kleid) verwendet, um die erfasste Identität (Mann im blauen Hemd) auf der linken Seite über RigNeRF zu „marionieren“, was (wie die Autoren behaupten) das erste ist NeRF-basiertes System zur Trennung von Pose und Ausdruck und gleichzeitig zur Durchführung neuartiger Ansichtssynthesen.

Die männliche Figur links im Bild oben wurde aus einem 70-sekündigen Smartphone-Video „aufgenommen“ und die Eingabedaten (einschließlich der gesamten Szeneninformationen) wurden anschließend auf vier V4-GPUs trainiert, um die Szene zu erhalten.

Da parametrische Rigs im 3DMM-Stil auch als verfügbar sind Ganzkörperparametrische CGI-Proxys (statt nur Gesichts-Rigs) eröffnet RigNeRF möglicherweise die Möglichkeit von Ganzkörper-Deepfakes, bei denen echte menschliche Bewegungen, Texturen und Ausdrucksformen an die CGI-basierte parametrische Ebene übergeben werden, die dann Aktion und Ausdruckskraft in gerenderte NeRF-Umgebungen und -Videos übersetzen würde .

Was RigNeRF betrifft – gilt es als Deepfake-Methode im aktuellen Sinne, in dem die Schlagzeilen den Begriff verstehen? Oder ist es nur ein weiterer halb behinderter Mitläufer von DeepFaceLab und anderen arbeitsintensiven Autoencoder-Deepfake-Systemen aus dem Jahr 2017?

Die Forscher des neuen Papiers sind in diesem Punkt eindeutig:

„Da es sich bei RigNeRF um eine Methode handelt, mit der Gesichter wiederbelebt werden können, besteht die Gefahr, dass sie von böswilligen Akteuren zur Generierung von Deepfakes missbraucht wird.“

The new Krepppapier ist betitelt RigNeRF: Vollständig steuerbare neuronale 3D-Porträtsund stammt von Shah Rukh Atha von der Stonybrook University, einem Praktikanten bei Adobe während der Entwicklung von RigNeRF, und vier weiteren Autoren von Adobe Research.

Jenseits von Autoencoder-basierten Deepfakes

Die meisten viralen Deepfakes, die in den letzten Jahren für Schlagzeilen gesorgt haben, werden von produziert Autoencoder-basierte Systeme, abgeleitet von dem Code, der 2017 im prompt verbotenen Subreddit r/deepfakes veröffentlicht wurde – allerdings nicht vorher kopiert auf GitHub, wo es derzeit geforkt wurde über tausend Mal, nicht zuletzt in die populäre (if umstritten) DeepFaceLab Verteilung, und auch die Gesicht tauschen Projekt.

Neben GAN und NeRF haben Autoencoder-Frameworks auch mit 3DMMs als „Richtlinien“ für verbesserte Gesichtssynthese-Frameworks experimentiert. Ein Beispiel hierfür ist die HifiFace-Projekt ab Juli 2021. Allerdings scheinen sich aus diesem Ansatz bisher keine brauchbaren oder populären Initiativen entwickelt zu haben.

Daten für RigNeRF-Szenen werden durch die Aufnahme kurzer Smartphone-Videos gewonnen. Für das Projekt verwendeten die Forscher von RigNeRF für alle Experimente ein iPhone XR oder ein iPhone 12. In der ersten Hälfte der Aufnahme wird das Motiv gebeten, eine breite Palette an Gesichtsausdrücken und Sprache auszuführen und dabei den Kopf ruhig zu halten, während die Kamera um es herum bewegt wird.

In der zweiten Hälfte der Aufnahme behält die Kamera eine feste Position bei, während das Motiv seinen Kopf bewegen und dabei eine Vielzahl von Gesichtsausdrücken zeigen muss. Die resultierenden 40–70 Sekunden Filmmaterial (ca. 1200–2100 Bilder) stellen den gesamten Datensatz dar, der zum Trainieren des Modells verwendet wird.

Reduzierung der Datenerfassung

Im Gegensatz dazu erfordern Autoencoder-Systeme wie DeepFaceLab das relativ mühsame Sammeln und Kuratieren Tausender unterschiedlicher Fotos, die oft aus YouTube-Videos und anderen Social-Media-Kanälen sowie aus Filmen (im Fall von Promi-Deepfakes) stammen.

Die daraus resultierenden trainierten Autoencoder-Modelle sollen häufig in verschiedenen Situationen verwendet werden. Allerdings trainieren die anspruchsvollsten „prominenten“ Deepfaker möglicherweise ganze Modelle von Grund auf für ein einziges Video, obwohl das Training eine Woche oder länger dauern kann.

Trotz des Warnhinweises der Forscher des neuen Papiers scheint es unwahrscheinlich, dass das „Patchwork“ und die breit zusammengestellten Datensätze, die KI-Pornos sowie beliebte YouTube/TikTok-„Deepfake-Recastings“ antreiben, in einem Deepfake-System wie RigNeRF zu akzeptablen und konsistenten Ergebnissen führen werden. das über eine szenenspezifische Methodik verfügt. Angesichts der in der neuen Arbeit dargelegten Einschränkungen bei der Datenerfassung könnte sich dies in gewissem Maße als zusätzlicher Schutz gegen die zufällige Veruntreuung der Identität durch böswillige Deepfaker erweisen.

Anpassung von NeRF an Deepfake-Video

NeRF ist eine auf Photogrammetrie basierende Methode, bei der eine kleine Anzahl von Quellbildern, die aus verschiedenen Blickwinkeln aufgenommen wurden, zu einem erforschbaren 3D-Neuronalraum zusammengesetzt werden. Dieser Ansatz wurde Anfang des Jahres bekannt, als NVIDIA seine vorstellte Sofortiges NeRF System, das in der Lage ist, die exorbitanten Trainingszeiten für NeRF auf Minuten oder sogar Sekunden zu reduzieren:

Sofortiges NeRF. Quelle: https://www.youtube.com/watch?v=DJ2hcC1orc4

Die resultierende Neural Radiance Field-Szene ist im Wesentlichen eine statische Umgebung, die erkundet werden kann, dies aber auch ist schwierig zu bearbeiten. Die Forscher stellen fest, dass zwei frühere NeRF-basierte Initiativen – HyperNeRF + E/P machen NerFACE – haben einen Versuch mit der Gesichtsvideosynthese unternommen und (anscheinend der Vollständigkeit und Sorgfalt halber) RigNeRF in einer Testrunde mit diesen beiden Frameworks verglichen:

Sofortiges NeRF. Quelle: https://www.youtube.com/watch?v=DJ2hcC1orc4

Ein qualitativer Vergleich zwischen RigNeRF, HyperNeRF und NerFACE. Versionen in höherer Qualität finden Sie in den verlinkten Quellvideos und im PDF. Statische Bildquelle: https://arxiv.org/pdf/2012.03065.pdf

Ein qualitativer Vergleich zwischen RigNeRF, HyperNeRF und NerFACE. Versionen in höherer Qualität finden Sie in den verlinkten Quellvideos und im PDF. Statische Bildquelle: https://arxiv.org/pdf/2012.03065.pdf

In diesem Fall sind die Ergebnisse, die für RigNeRF sprechen, jedoch aus zwei Gründen ziemlich ungewöhnlich: Erstens stellen die Autoren fest, dass „es keine Arbeit für einen Apfel-zu-Apfel-Vergleich gibt“; Zweitens hat dies eine Einschränkung der Fähigkeiten von RigNeRF erforderlich gemacht, um zumindest teilweise der eingeschränkteren Funktionalität früherer Systeme zu entsprechen.

Da die Ergebnisse keine inkrementelle Verbesserung gegenüber früheren Arbeiten darstellen, sondern vielmehr einen „Durchbruch“ in der Bearbeitbarkeit und Nützlichkeit von NeRF darstellen, lassen wir die Testrunde beiseite und schauen uns stattdessen an, was RigNeRF anders macht als seine Vorgänger.

Kombinierte Stärken

Die Haupteinschränkung von NerFACE, das Posen-/Ausdruckskontrolle in einer NeRF-Umgebung ermöglichen kann, besteht darin, dass davon ausgegangen wird, dass das Quellmaterial mit einer statischen Kamera aufgenommen wird. Dies bedeutet im Endeffekt, dass keine neuartigen Ansichten erzeugt werden können, die über die Erfassungsgrenzen hinausgehen. Dadurch entsteht ein System, das „bewegte Porträts“ erstellen kann, das jedoch für Videos im Deepfake-Stil ungeeignet ist.

HyperNeRF hingegen ist zwar in der Lage, neuartige und hyperreale Ansichten zu generieren, verfügt jedoch über keine Instrumente, die es ermöglichen, Kopfhaltungen oder Gesichtsausdrücke zu ändern, was wiederum keinerlei Konkurrenz für Autoencoder-basierte Deepfakes darstellt.

RigNeRF ist in der Lage, diese beiden isolierten Funktionalitäten zu kombinieren, indem es einen „kanonischen Raum“ erstellt, eine Standardbasislinie, von der aus Abweichungen und Verformungen über Eingaben aus dem 3DMM-Modul umgesetzt werden können.

Schaffung eines „kanonischen Raums“ (keine Pose, kein Ausdruck), auf den die über das 3DMM erzeugten Verformungen (dh Posen und Ausdrücke) einwirken können.

Schaffung eines „kanonischen Raums“ (keine Pose, kein Ausdruck), auf den die über das 3DMM erzeugten Verformungen (dh Posen und Ausdrücke) einwirken können.

Da das 3DMM-System nicht exakt auf das aufgenommene Motiv abgestimmt ist, ist es wichtig, dies dabei zu kompensieren. RigNeRF erreicht dies mit einem Deformationsfeld, das aus a berechnet wird Mehrschichtiges Perzeptron (MLP), abgeleitet aus dem Quellmaterial.

Die zur Berechnung der Verformungen notwendigen Kameraparameter werden über gewonnen COLMAP, während die Ausdrucks- und Formparameter für jeden Rahmen aus erhalten werden DER, DASS.

Die Positionierung wird dadurch weiter optimiert Wahrzeichen passend und COLMAPs Kameraparameter, und aufgrund von Rechenressourcenbeschränkungen wird die Videoausgabe für das Training auf eine Auflösung von 256×256 heruntergesampelt (ein hardwarebeschränkter Schrumpfungsprozess, der auch die Autoencoder-Deepfaking-Szene plagt).

Danach wird das Deformationsnetzwerk auf den vier V100 trainiert – beeindruckende Hardware, die für Gelegenheitsenthusiasten wahrscheinlich nicht erreichbar ist (wenn es jedoch um maschinelles Lerntraining geht, ist es oft möglich, Gewicht gegen Zeit einzutauschen und dieses Modell einfach zu akzeptieren). (das Training wird eine Frage von Tagen oder sogar Wochen sein).

Abschließend stellen die Forscher fest:

„Im Gegensatz zu anderen Methoden ist RigNeRF dank der Verwendung eines 3DMM-gesteuerten Verformungsmoduls in der Lage, Kopfhaltung, Gesichtsausdrücke und die gesamte 3D-Porträtszene mit hoher Wiedergabetreue zu modellieren und so bessere Rekonstruktionen mit scharfen Details zu liefern.“

Weitere Details und Ergebnismaterial finden Sie in den unten eingebetteten Videos.

RigNeRF: Vollständig steuerbare neuronale 3D-Porträts

RigNeRF-Ergebnisse

 

 

Erstveröffentlichung am 15. Juni 2022.