Vernetzen Sie sich mit uns

Künstliche Intelligenz

Erstellen von Ganzkörper-Deepfakes durch Kombination mehrerer NeRFs

mm

Der Bereich der Bildsyntheseforschung ist voll von neuen Vorschlägen für Systeme, die in der Lage sind, Ganzkörpervideos und Bilder von jungen Menschen – hauptsächlich jungen Frauen – in verschiedenen Arten von Kleidung zu erstellen. Hauptsächlich die generierten Bilder sind statisch; Gelegentlich bewegen sich die Darstellungen sogar, wenn auch meist nicht sehr gut.

Das Tempo dieses speziellen Forschungszweigs ist im Vergleich zu den derzeit schwindelerregenden Fortschritten in verwandten Bereichen wie z. B. eisig latente Diffusionsmodelle; Dennoch beschäftigen sich die Forschungsgruppen, die meisten davon in Asien, weiterhin unermüdlich mit dem Problem.

Eines von Dutzenden, wenn nicht Hunderten vorgeschlagenen oder teilweise eingeführten „virtuellen Anprobe“-Systemen der letzten 10–15 Jahre, bei denen Körper durch maschinelles Lernen basierende Objekterkennung bewertet und an die vorgeschlagenen Kleidungsstücke angepasst werden. Quelle: https://www.youtube.com/watch?v=0ZXrgGyhbak

Eines von Dutzenden, wenn nicht Hunderten vorgeschlagenen oder teilweise eingeführten „virtuellen Anprobe“-Systemen der letzten 10–15 Jahre, bei denen Körper durch maschinelles Lernen basierende Objekterkennung bewertet und an die vorgeschlagenen Kleidungsstücke angepasst werden. Quelle: https://www.youtube.com/watch?v=2ZXrgGyhbak

Das Ziel besteht darin, neue Systeme zu schaffen, die „virtuelle Anproben“ für den Mode- und Bekleidungsmarkt ermöglichen – Systeme, die sich sowohl an den Kunden als auch an das spezifische Produkt anpassen können, das derzeit verfügbar ist oder kurz vor der Veröffentlichung steht, ohne die Umständlichkeit echter -Zeit Überlagerung of Kleidungoder die Notwendigkeit, Kunden darum zu bitten Senden Sie leichte NSFW-Bilder für ML-basierte Rendering-Pipelines.

Keine der gängigen Synthesearchitekturen scheint sich leicht an diese Aufgabe anpassen zu lassen: die latenter Raum von Generative Adversarial Networks (GANs) ist nicht geeignet, überzeugende zeitliche Bewegungen zu erzeugen (oder sogar). zum Bearbeiten Im Algemeinen); obwohl gut fähig realistische menschliche Bewegungen zu erzeugen, Neuronale Strahlungsfelder (NeRF) sind in der Regel natürlich resistent auf die Art der Bearbeitung, die notwendig wäre, um Personen oder Kleidung nach Belieben „auszutauschen“; Autoencoder würden eine aufwändige personen-/kleidungsspezifische Schulung erfordern; und latente Diffusionsmodelle wie GANs verfügen über keine nativen zeitlichen Mechanismen für die Videoerzeugung.

EVA3D

Dennoch gibt es weiterhin Papiere und Vorschläge. Das Neueste ist von ungewöhnlichem Interesse in einer ansonsten undifferenzierten und ausschließlich wirtschaftsorientierten Forschungsrichtung.

EVA3D, von der Nanyang Technological University in Singapur, ist der erste Hinweis auf einen Ansatz, der schon lange auf sich warten lässt – den Einsatz von mehrere Neuronale Strahlungsfeldnetzwerke, von denen jedes einem separaten Körperteil gewidmet ist und die dann zu einer zusammengesetzten und zusammenhängenden Visualisierung zusammengesetzt werden.

Eine mobile junge Frau, zusammengesetzt aus mehreren NeRF-Netzwerken, für EVA3D. Quelle: https://hongfz16.github.io/projects/EVA3D.html

Eine mobile junge Frau, zusammengesetzt aus mehreren NeRF-Netzwerken, für EVA3D. Quelle: https://hongfz16.github.io/projects/EVA3D.html

Die Ergebnisse in Bezug auf die Bewegung sind … okay. Obwohl die Visualisierung von EVA3D nicht aus dem Uncanny Valley stammt, können sie zumindest die Ausfahrt von ihrem Standort aus sehen.

Das Besondere an EVA3D ist, dass die Forscher dahinter, fast einzigartig auf dem Gebiet der Ganzkörperbildsynthese, erkannt haben, dass ein einzelnes Netzwerk (GAN, NeRF oder anders) nicht in der Lage sein wird, bearbeitbare und flexible menschliche Ganzkörperbilder zu verarbeiten. Einige Jahre lang haben wir uns auf die Generierung von Körperkörpern konzentriert – teils aufgrund des Tempos der Forschung, teils aufgrund von Hardware- und anderen logistischen Einschränkungen.

Daher hat das Nanyang-Team die Aufgabe auf 16 Netzwerke und mehrere Technologien unterteilt – ein Ansatz, der bereits für die neuronale Darstellung städtischer Umgebungen in übernommen wurde Block-NeRF und StadtNeRF, und das dürfte in den nächsten fünf Jahren eine zunehmend interessante und potenziell fruchtbare Zwischenmaßnahme zur Erreichung von Deepfakes im gesamten Körper werden, bis neue konzeptionelle oder Hardware-Entwicklungen vorliegen.

Nicht alle Herausforderungen bei der Erstellung dieser Art von „virtueller Anprobe“ sind technischer oder logistischer Natur, und in dem Dokument werden einige der Datenprobleme dargelegt, insbesondere im Hinblick auf unbeaufsichtigtes Lernen:

„[Mode-]Datensätze weisen meist sehr begrenzte menschliche Posen auf (die meisten sind ähnliche Stehposen) und stark unausgewogene Betrachtungswinkel (die meisten sind Vorderansichten). Diese unausgewogene 2D-Datenverteilung könnte das unbeaufsichtigte Lernen von 3D-GANs behindern und zu Schwierigkeiten bei der Synthese neuartiger Ansichten/Posen führen. Daher ist eine geeignete Schulungsstrategie erforderlich, um das Problem zu lösen.“

Der EVA3D-Workflow segmentiert den menschlichen Körper in 16 verschiedene Teile, die jeweils über ein eigenes NeRF-Netzwerk generiert werden. Offensichtlich entstehen dadurch genügend „nicht eingefrorene“ Abschnitte, um die Figur durch Bewegungserfassung oder andere Arten von Bewegungsdaten in Schwung zu bringen. Neben diesem Vorteil ermöglicht es dem System aber auch, den Körperteilen, die den Gesamteindruck „verkaufen“, maximale Ressourcen zuzuweisen.

Beispielsweise verfügen menschliche Füße nur über einen sehr begrenzten Bewegungsspielraum, während die Authentizität von Gesicht und Kopf neben der Qualität der gesamten Körperbewegung im Allgemeinen wahrscheinlich das wichtigste Merkmal der Authentizität für die Wiedergabe ist.

Ein qualitativer Vergleich zwischen EVA3D und früheren Methoden. Die Autoren behaupten, dass SOTA in dieser Hinsicht Ergebnisse liefert.

Ein qualitativer Vergleich zwischen EVA3D und früheren Methoden. Die Autoren behaupten, dass SOTA in dieser Hinsicht Ergebnisse liefert.

Der Ansatz unterscheidet sich grundlegend von dem NeRF-zentrierten Projekt, mit dem er konzeptionell verwandt ist – 2021 A-NeRF, von der University of British Columbia und Reality Labs Research, deren Ziel es war, ein internes Kontrollskelett zu einer ansonsten konventionell „einteiligen“ NeRF-Darstellung hinzuzufügen, wodurch es schwieriger wird, Verarbeitungsressourcen je nach Bedarf verschiedenen Teilen des Körpers zuzuordnen .

Frühere Anträge – A-NeRF stattet einen „gebackenen“ NeRF mit der gleichen Art von duktiler und beweglicher zentraler Ausrüstung aus, die die VFX-Branche so lange verwendet hat, um CGI-Charaktere zu animieren. Quelle: https://lemonatsu.github.io/anerf/

Frühere Anträge – A-NeRF stattet einen „gebackenen“ NeRF mit der gleichen Art von duktiler und beweglicher zentraler Ausrüstung aus, die die VFX-Branche seit langem zur Animation von CGI-Charakteren verwendet. Quelle: https://lemonatsu.github.io/anerf/

Wie die meisten ähnlichen menschenzentrierten Projekte, die versuchen, den latenten Raum der verschiedenen populären Ansätze zu nutzen, verwendet EVA3D ein Skinned Multi-Person Linear Model (SMPL), eine „traditionelle“ CGI-basierte Methode, um der allgemeinen Abstraktion aktueller Synthesemethoden Instrumentalität hinzuzufügen. Anfang dieses Jahres nutzte ein anderer Artikel, diesmal von der Zhejiang-Universität in Hangzhou und der School of Creative Media der City University of Hong Kong, solche Methoden zur Durchführung Umformung des Nervenkörpers.

Die qualitativen Ergebnisse von EVA3D auf DeepFashion.

Die qualitativen Ergebnisse von EVA3D auf DeepFashion.

Methodik

Das dabei verwendete SMPL-Modell ist auf das menschliche „Prior“ abgestimmt – die Person, die im Wesentlichen freiwillig von EVA3D gefälscht wird, und seine Skinning-Gewichte verhandeln die Unterschiede zwischen dem kanonischen Raum (d. h. dem „in Ruhe“ oder „ „Neutrale“ Pose eines SMPL-Modells) und die Art und Weise, wie das endgültige Erscheinungsbild gerendert wird.

Der konzeptionelle Workflow für EVA3D. Quelle: https://arxiv.org/pdf/2210.04888.pdf

Der konzeptionelle Workflow für EVA3D. Quelle: https://arxiv.org/pdf/2210.04888.pdf

Wie in der Abbildung oben zu sehen ist, werden die Begrenzungsrahmen von SMPL als Grenzdefinitionen für die 16 Netzwerke verwendet, aus denen sich letztendlich der Körper zusammensetzt. Invers Lineares Blend-Skinning (LBS)-Algorithmus von SMPL wird dann verwendet, um sichtbare abgetastete Strahlen in den kanonischen Raum (passive Pose) zu übertragen. Anschließend werden die 16 Subnetzwerke basierend auf diesen Konfigurationen abgefragt und schließlich in ein endgültiges Rendering umgewandelt.

Der gesamte NeRF-Verbund wird dann verwendet, um ein menschliches 3D-GAN-Framework zu konstruieren.

Die Renderings des GAN-Frameworks der zweiten Stufe werden letztendlich anhand echter 2D-Bildsammlungen von Menschen/Mode trainiert.

Die Renderings des GAN-Frameworks der zweiten Stufe werden letztendlich anhand echter 2D-Bildsammlungen von Menschen/Mode trainiert.

Jedes Subnetzwerk, das einen Teil des menschlichen Körpers darstellt, besteht aus gestapelten Multi-Layer-Perceptrons (MLPs) mit SIREN (Sinusoidal Representation Networks) Aktivierung. Obwohl SIREN in einem Workflow wie diesem und in ähnlichen Projekten viele Probleme löst, tendiert es eher zur Überanpassung als zur Verallgemeinerung, und die Forscher schlagen vor, dass in Zukunft alternative Bibliotheken verwendet werden könnten (siehe Ende des Artikels).

Daten, Schulungen und Tests

EVA3D ist mit ungewöhnlichen Datenproblemen konfrontiert, die auf die Einschränkungen und den Vorlagenstil der Posen zurückzuführen sind, die in modebasierten Datensätzen verfügbar sind, denen es tendenziell an alternativen oder neuartigen Ansichten mangelt und die sich möglicherweise absichtlich wiederholen, um die Aufmerksamkeit auf sie zu lenken die Kleidung und nicht der Mensch, der sie trägt.

Aufgrund dieser unausgeglichenen Posenverteilung verwendet EVA3D menschliche Priors (siehe oben) basierend auf der SMPL-Vorlagengeometrie und sagt dann ein vorzeichenbehaftetes Distanzfeld (SDF) Offset dieser Pose und nicht einer einfachen Zielpose.

Für die unterstützenden Experimente verwendeten die Forscher vier Datensätze: DeepFashion; SHHQ; UBCFashion; und das AIST-Tanzvideodatenbank (AIST Dance DB).

Die beiden letztgenannten enthalten vielfältigere Posen als die ersten beiden, stellen jedoch wiederholt dieselben Personen dar, was diese ansonsten nützliche Vielfalt zunichte macht; Kurz gesagt, die Daten sind angesichts der Aufgabe mehr als herausfordernd.

Beispiele aus SSHQ. Quelle: https://arxiv.org/pdf/2204.11823.pdf

Beispiele aus SSHQ. Quelle: https://arxiv.org/pdf/2204.11823.pdf

Die verwendeten Basislinien waren ENARF-GAN, das erste Projekt, das NeRF-Visualisierungen aus 2D-Bilddatensätzen rendert; Stanford und NVIDIA EG3Deschriebenen Art und Weise; und StyleSDF, eine Zusammenarbeit zwischen der University of Washington, Adobe Research und der Stanford University – alles Methoden, die hochauflösende Bibliotheken erfordern, um von der nativen auf die hohe Auflösung zu skalieren.

Angenommene Metriken waren die umstritten Frechet-Anfangsentfernung (FID) und Kernel-Anfangsentfernung (KIND), zusammen mit dem Prozentsatz korrekter Schlüsselpunkte ([E-Mail geschützt] ).

Bei quantitativen Auswertungen lag EVA3D bei allen Metriken in vier Datensätzen an der Spitze:

Quantitative Ergebnisse.

Quantitative Ergebnisse.

Die Forscher stellen fest, dass EVA3D die niedrigste Fehlerrate bei der Geometriewiedergabe erreicht, was bei einem Projekt dieser Art ein entscheidender Faktor ist. Sie beobachten auch, dass ihr System die erzeugte Pose steuern und höhere Ergebnisse erzielen kann [E-Mail geschützt] punktet im Gegensatz zu EG3D, der einzigen konkurrierenden Methode, die in einer Kategorie besser abschneidet.

EVA3D arbeitet nativ mit der inzwischen standardmäßigen Auflösung von 512 x 512 Pixeln, kann jedoch einfach und effektiv durch Anhäufen hochwertiger Ebenen auf HD-Auflösung hochskaliert werden, wie Google es kürzlich mit seinem Text-zu-Video-Angebot mit einer Auflösung von 1024 getan hat Bildvideo.

Die Methode ist nicht grenzenlos. Das Papier stellt fest, dass die SIREN-Aktivierung kreisförmige Artefakte verursachen kann, die in zukünftigen Versionen durch die Verwendung einer alternativen Basisdarstellung wie EG3D in Kombination mit einem 2D-Decoder behoben werden könnten. Darüber hinaus ist es schwierig, SMPL genau an die Modedatenquellen anzupassen.

Schließlich kann das System größere und fließendere Kleidungsstücke, wie beispielsweise weite Kleider, nicht problemlos aufnehmen; Kleidungsstücke dieser Art weisen die gleiche Art von Fluiddynamik auf, die die Entstehung neuronal gerenderter Haare ermöglicht so eine Herausforderung. Vermutlich könnte eine passende Lösung helfen, beide Probleme anzugehen.

Demovideo für EVA3D: Kompositorische 3D-Menschengenerierung aus 2D-Bildsammlungen

 

Erstveröffentlichung am 12. Oktober 2022.

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai