Andersons Blickwinkel

RigNeRF: Eine neue Deepfakes-Methode, die neuronale Radiance-Felder verwendet

mm

Neue Forschung, die bei Adobe entwickelt wurde, bietet die erste praktikable und effektive Deepfakes-Methode auf der Grundlage von Neuralen Radiance-Feldern (NeRF) – vielleicht die erste echte Innovation in Architektur oder Ansatz seit dem Auftauchen von Deepfakes im Jahr 2017.

Die Methode, die RigNeRF genannt wird, verwendet 3D-morphable Gesichtsmodelle (3DMMs) als Zwischenlayer zwischen dem gewünschten Eingabe (d. h. der Identität, die in die NeRF-Darstellung aufgenommen werden soll) und dem neuronalen Raum, eine Methode, die in den letzten Jahren weit verbreitet wurde, indem sie von Generative Adversarial Network (GAN)-Gesichtssynthese-Ansätzen verwendet wurde, von denen jedoch keine funktionalen und nützlichen Gesichtsersatzrahmen für Videos produziert haben.

Aus dem Zusatzmaterial für das neue Papier sehen wir das 3D-morphable Gesichtsmodell (3DMM) als Schnittstelle zwischen 70 Sekunden echter Aufnahmen, die von einem Smartphone aufgenommen wurden und die Trainingsdaten bilden, und den üblicherweise stoischen Parametern einer Neuralen Radiance-Feld-Darstellung. Für eine hochauflösende Version dieses Clips sowie viele andere sehen Sie die Projektseite oder die eingebetteten Videos am Ende dieses Artikels. Quelle: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

Im Gegensatz zu herkömmlichen Deepfake-Videos ist absolut kein bewegter Inhalt, der hier abgebildet ist, “echt”, sondern vielmehr ein erforschbarer neuronaler Raum, der auf kurzen Aufnahmen trainiert wurde. Auf der rechten Seite sehen wir das 3D-morphable Gesichtsmodell (3DMM) als Schnittstelle zwischen den gewünschten Manipulationen (“Lächeln”, “nach links schauen”, “nach oben schauen” usw.) und den üblicherweise unzugänglichen Parametern einer Neuralen Radiance-Feld-Darstellung. Für eine hochauflösende Version dieses Clips sowie andere Beispiele sehen Sie die Projektseite oder die eingebetteten Videos am Ende dieses Artikels. Quelle: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

3DMMs sind im Wesentlichen CGI-Modelle von Gesichtern, deren Parameter an abstraktere Bildsynthesesysteme wie NeRF und GAN angepasst werden können, die ansonsten schwer zu kontrollieren sind.

Was Sie in dem Bild oben (Mittleres Bild, Mann im blauen Hemd) sowie in dem Bild direkt darunter (linkes Bild, Mann im blauen Hemd) sehen, ist kein “echtes” Video, in das ein kleiner Teil eines “falschen” Gesichts eingefügt wurde, sondern eine vollständig synthetisierte Szene, die allein als volumetrische neuronale Darstellung existiert – einschließlich Körper und Hintergrund:

Im Beispiel direkt oben wird das reale Video auf der rechten Seite (Frau im roten Kleid) verwendet, um die erfasste Identität (Mann im blauen Hemd) auf der linken Seite über RigNeRF zu “puppen”, was (wie die Autoren behaupten) das erste NeRF-basierte System ist, das eine Trennung von Pose und Ausdruck erreicht und in der Lage ist, neue Ansichten zu synthetisieren.

Die männliche Figur auf der linken Seite im Bild oben wurde aus einem 70-Sekunden-Video eines Smartphones “erfasst” und die Eingabedaten (einschließlich der gesamten Szeneinformation) anschließend über 4 V100-GPUs trainiert, um die Szene zu erhalten.

Da 3DMM-Style-Parameterrigging auch als vollständige Körper-Parametric-CGI-Proxy (und nicht nur als Gesichtsrigging) verfügbar sind, bietet RigNeRF möglicherweise die Möglichkeit, vollständige Deepfakes zu erstellen, bei denen reale menschliche Bewegungen, Texturen und Ausdrücke an die CGI-basierte parametrische Schicht übergeben werden, die dann Aktionen und Ausdrücke in gerenderte NeRF-Umgebungen und Videos übersetzen würde.

Was RigNeRF betrifft – erfüllt es die Voraussetzungen für eine Deepfake-Methode im aktuellen Sinne, wie sie in den Headlines verstanden wird? Oder ist es nur ein weiterer halbherziger Nachzügler zu DeepFaceLab und anderen arbeitsintensiven Autoencoder-Deepfake-Systemen von 2017?

Die Forscher des neuen Papiers sind in diesem Punkt unmissverständlich:

‘Als Methode, die in der Lage ist, Gesichter zu reanimieren, ist RigNeRF anfällig für Missbrauch durch böswillige Akteure, um Deepfakes zu erstellen.’

Das neue Papier trägt den Titel RigNeRF: Vollständig steuerbare neuronale 3D-Porträts und stammt von ShahRukh Atha von der Stonybrook University, einem Praktikanten bei Adobe während der Entwicklung von RigNeRF, und vier weiteren Autoren von Adobe Research.

Jenseits von Autoencoder-basierten Deepfakes

Die Mehrheit der viralen Deepfakes, die in den letzten Jahren Schlagzeilen gemacht haben, werden von Autoencoder-basierten Systemen produziert, die von dem Code abgeleitet sind, der 2017 im prompt-gelöschten r/deepfakes-Subreddit veröffentlicht wurde – bevor er jedoch nach GitHub kopiert wurde, wo er derzeit über tausend Mal forked wurde, nicht zuletzt in die beliebte (wenn auch umstrittene) DeepFaceLab-Distribution und auch das FaceSwap-Projekt.

Abgesehen von GAN und NeRF haben Autoencoder-Frameworks auch mit 3DMMs als “Leitfäden” für verbesserte Gesichtssynthese-Frameworks experimentiert. Ein Beispiel dafür ist das HifiFace-Projekt von Juli 2021. Allerdings scheinen keine verwendbaren oder beliebten Initiativen aus diesem Ansatz entwickelt worden zu sein.

Die Daten für RigNeRF-Szenen werden durch das Aufnehmen kurzer Smartphone-Videos ermittelt. Für das Projekt verwendeten RigNeRFs Forscher ein iPhone XR oder ein iPhone 12 für alle Experimente. Für die erste Hälfte der Aufnahme wird das Subjekt aufgefordert, eine breite Palette von Gesichtsausdrücken und Sprache zu zeigen, während es den Kopf still hält, während die Kamera um es herum bewegt wird.

Für die zweite Hälfte der Aufnahme hält die Kamera eine feste Position ein, während das Subjekt den Kopf umherbewegen muss, während es eine breite Palette von Ausdrücken zeigt. Die resultierenden 40-70 Sekunden Footage (rund 1200-2100 Frames) stellen die gesamten Daten dar, die zum Trainieren des Modells verwendet werden.

Reduzierung der Datenbeschaffung

Im Gegensatz dazu erfordern Autoencoder-Systeme wie DeepFaceLab das relativ arbeitsintensive Sammeln und Kuratieren von Tausenden von diversen Fotos, oft von YouTube-Videos und anderen sozialen Medienkanälen sowie von Filmen (im Falle von Celebrity-Deepfakes).

Die resultierenden trainierten Autoencoder-Modelle sind oft für eine Vielzahl von Situationen vorgesehen. Allerdings trainieren die meisten “Celebrity”-Deepfakers ganze Modelle von Grund auf für ein einzelnes Video, obwohl das Training eine Woche oder mehr dauern kann.

Trotz der Warnung der Forscher des neuen Papiers scheinen die “Flickwerk”- und weit verbreiteten Daten, die AI-Pornos sowie beliebte YouTube-/TikTok-“Deepfake-Neuverfilmungen” antreiben, unwahrscheinlich, akzeptable und konsistente Ergebnisse in einem Deepfake-System wie RigNeRF zu produzieren, das eine szene-spezifische Methodik hat. Angesichts der Einschränkungen bei der Datenerfassung, die in der neuen Arbeit dargelegt sind, könnte dies bis zu einem gewissen Grad ein zusätzliches Sicherheitsmerkmal gegen den missbräuchlichen Einsatz von Identitäten durch böswillige Deepfakes sein.

Anpassung von NeRF an Deepfake-Videos

NeRF ist eine photogrammetrische Methode, bei der eine kleine Anzahl von Quellbildern aus verschiedenen Perspektiven in einen erforschbaren 3D-neuronalen Raum zusammengefügt werden. Dieser Ansatz wurde zu Beginn des Jahres bekannt, als NVIDIA sein Instant-NeRF-System vorstellte, das in der Lage ist, die exorbitanten Trainingszeiten für NeRF auf Minuten oder sogar Sekunden zu reduzieren:

Instant NeRF. Quelle: https://www.youtube.com/watch?v=DJ2hcC1orc4

Die resultierende NeRF-Szene ist im Wesentlichen eine statische Umgebung, die erforscht werden kann, aber die schwierig zu bearbeiten ist. Die Forscher bemerken, dass zwei vorherige NeRF-basierte Initiativen – HyperNeRF + E/P und NerFACE – einen Versuch unternommen haben, Gesichtsvideos zu synthetisieren, und (offensichtlich zur Vollständigkeit und Sorgfalt) haben RigNeRF gegen diese beiden Frameworks in einer Testrunde ausgetragen:

Instant NeRF. Quelle: https://www.youtube.com/watch?v=DJ2hcC1orc4

Ein qualitativer Vergleich zwischen RigNeRF, HyperNeRF und NerFACE. Für höher auflösende Versionen sehen Sie die verlinkten Quellvideos und PDF. Statische Bildquelle: https://arxiv.org/pdf/2012.03065.pdf

Ein qualitativer Vergleich zwischen RigNeRF, HyperNeRF und NerFACE. Für höher auflösende Versionen sehen Sie die verlinkten Quellvideos und PDF. Statische Bildquelle: https://arxiv.org/pdf/2012.03065.pdf

Die Ergebnisse, die RigNeRF begünstigen, sind jedoch ziemlich anomisch, aus zwei Gründen: Erstens bemerken die Autoren, dass “es keine existingen Arbeiten für einen direkten Vergleich gibt”; zweitens hat dies die Einschränkung der Fähigkeiten von RigNeRF erfordert, um sie zumindest teilweise mit der eingeschränkteren Funktionalität der vorherigen Systeme zu vergleichen.

Da die Ergebnisse keine inkrementelle Verbesserung gegenüber vorherigen Arbeiten darstellen, sondern vielmehr einen “Durchbruch” in Bezug auf die Bearbeitbarkeit und Nützlichkeit von NeRF darstellen, werden wir die Testrunde beiseite lassen und stattdessen sehen, was RigNeRF anders macht als seine Vorgänger.

Kombination von Stärken

Die primäre Einschränkung von NerFACE, das Pose-/Ausdruckssteuerung in einer NeRF-Umgebung erstellen kann, besteht darin, dass es davon ausgeht, dass die Quellbilder mit einer statischen Kamera aufgenommen werden. Dies bedeutet im Wesentlichen, dass es keine neuen Ansichten produzieren kann, die über die Aufnahmebeschränkungen hinausgehen. Dies produziert ein System, das “bewegliche Porträts” erstellen kann, aber für Deepfake-Style-Videos nicht geeignet ist.

HyperNeRF kann auf der anderen Seite zwar neue und hyper-realistische Ansichten generieren, hat jedoch keine Instrumentalität, die es ermöglicht, Kopfposen oder Gesichtsausdrücke zu ändern, was wiederum nicht zu einem Konkurrenten für Autoencoder-basierte Deepfakes führt.

RigNeRF kann diese beiden isolierten Funktionalitäten kombinieren, indem es einen “kanonischen Raum” erstellt, eine Standardbasis, von der aus Abweichungen und Deformationen durch Eingaben aus dem 3DMM-Modul vorgenommen werden können.

Erstellung eines

Erstellung eines “kanonischen Raums” (keine Pose, kein Ausdruck), auf dem die Deformationen (d. h. Posen und Ausdrücke), die durch das 3DMM erzeugt werden, wirken können.

Da das 3DMM-System nicht genau mit dem erfassten Subjekt übereinstimmen wird, ist es wichtig, dies im Prozess zu kompensieren. RigNeRF erreicht dies mit einem Deformationsfeld-Prior, das aus einem Multilayer-Perceptron (MLP) abgeleitet wird, das aus den Quelldaten stammt.

Die notwendigen Kameraparameter zur Berechnung von Deformationen werden über COLMAP ermittelt, während die Ausdrucks- und Formparameter für jeden Frame aus DECA stammen.

Die Positionierung wird weiter durch Landmark-Fitting und COLMAPs Kameraparameter optimiert, und aufgrund von Einschränkungen bei den Rechenressourcen wird die Videoausgabe auf eine Auflösung von 256×256 Pixeln für das Training heruntergesampelt (ein hardware-begrenzter Schrumpfprozess, der auch die Autoencoder-Deepfake-Szene plagt).

Nachdem dies geschehen ist, wird das Deformationsnetz auf den vier V100s trainiert – leistungsstarke Hardware, die wahrscheinlich nicht im Bereich von Casual-Enthusiasten liegt (allerdings ist es bei der maschinellen Lernausbildung oft möglich, Heft für Zeit zu tauschen und einfach anzunehmen, dass das Modelltraining eine Frage von Tagen oder sogar Wochen sein wird).

Insgesamt sagen die Forscher:

‘Im Gegensatz zu anderen Methoden ist RigNeRF, dank der Verwendung eines 3DMM-gesteuerten Deformationsmoduls, in der Lage, Kopf-Pose, Gesichtsausdrücke und die vollständige 3D-Porträtszene mit hoher Treue zu modellieren, was zu besseren Rekonstruktionen mit scharfen Details führt.’

Siehe die eingebetteten Videos unten für weitere Details und Ergebnisfootage.

 

 

Erstveröffentlicht am 15. Juni 2022.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.