Stummel GAN als Gesichtsrenderer für „traditionelles“ CGI – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

GAN als Gesichtsrenderer für „traditionelles“ CGI

mm
Aktualisiert on

Meinung Als Generative Adversarial Networks (GANs) erstmals ihre Fähigkeit zur erstaunlichen Reproduktion unter Beweis stellten realistisch Das Aufkommen von 3D-Gesichtern löste einen Goldrausch für das ungenutzte Potenzial von GANs aus, zeitlich konsistente Videos mit menschlichen Gesichtern zu erstellen.

Irgendwo im latenten Raum des GAN schien es dort zu sein sollen verborgene Ordnung und Rationalität sein – ein Schema entstehender semantischer Logik, vergraben in den latenten Codes, das es einem GAN ermöglichen würde, konsistente Mehrfachansichten und Mehrfachinterpretationen (z. B. Ausdrucksänderungen) des zu generieren gleich Gesicht – und anschließend eine zeitlich überzeugende Deepfake-Video-Methode anbieten, die umwerfend wäre Autoencoder kein Wasser mehr.

Eine hochauflösende Ausgabe wäre trivial im Vergleich zu slumähnlichen Umgebungen mit niedriger Auflösung, in denen GPU-Einschränkungen den Betrieb von DeepFaceLab und FaceSwap erzwingen, während die „Austauschzone“ eines Gesichts (in Autoencoder-Workflows) zur „Erstellungszone“ werden würde. eines GAN, informiert durch eine Handvoll Eingabebilder oder sogar nur ein einzelnes Bild.

Es würde keine Diskrepanz mehr zwischen den „Swap“- und „Host“-Seiten geben, weil die Gesamtheit Teile des Bildes würden von Grund auf neu generiert, einschließlich Haare, Kieferpartie und die äußersten Enden der Gesichtszüge, was für „traditionelle“ Autoencoder-Deepfakes häufig eine Herausforderung darstellt.

Das GAN-Gesichtsvideo Winter

Wie sich herausstellte, würde es nicht annähernd so einfach werden. Letzten Endes, Entwirrung erwies sich als zentrales Problem und bleibt die größte Herausforderung. Wie können Sie eine eindeutige Gesichtsidentität beibehalten und ihre Pose oder ihren Ausdruck ändern, ohne einen Korpus aus Tausenden von Referenzbildern zusammenzustellen, die einem neuronalen Netzwerk beibringen, was passiert, wenn diese Änderungen vorgenommen werden, wie es Autoencoder-Systeme so mühsam tun?

Die spätere Überlegung in der Forschung zur GAN-Gesichtsinszenierung und -Synthese war vielmehr, dass eine Eingabeidentität möglicherweise teleologischen, generischen, Vorlage Transformationen, die nicht identitätsspezifisch sind. Ein Beispiel hierfür wäre die Anwendung eines Ausdrucks auf ein GAN-Gesicht, der in keinem der dem GAN bekannten Bilder dieser Person vorhanden war.

Aus dem Artikel „Tensor-based Emotion Editing in the StyleGAN Latent Space“ aus dem Jahr 2022 geht hervor, dass Vorlagenausdrücke aus dem FFHQ-Datensatz auf ein Eingabegesicht angewendet werden. Quelle: https://arxiv.org/pdf/2205.06102.pdf

Aus dem Artikel „Tensor-based Emotion Editing in the StyleGAN Latent Space“ aus dem Jahr 2022 geht hervor, dass Vorlagenausdrücke aus dem FFHQ-Datensatz auf ein Eingabegesicht angewendet werden. Quelle: https://arxiv.org/pdf/2205.06102.pdf

Es ist offensichtlich, dass ein einheitlicher Ansatz nicht die Vielfalt der Gesichtsausdrücke einer Person abdecken kann. Wir müssen uns fragen, ob ein so einzigartiges Lächeln wie das von Jack Nicholson oder Willem Dafoe unter dem Einfluss solcher latenten Codes des „gemeinen durchschnittlichen Ausdrucks“ jemals eine getreue Interpretation erhalten könnte.

Wer ist dieser charmante lateinamerikanische Fremde? Obwohl die GAN-Methode ein realistischeres und höher aufgelöstes Gesicht erzeugt, basiert die Transformation nicht auf mehreren realen Bildern des Schauspielers, wie es bei DeepFaceLab der Fall ist, das umfassend und oft mit einem gewissen Aufwand auf einer Datenbank mit Tausenden von Bildern trainiert solche Bilder. Hier (Hintergrund) wird ein DeepFaceLab-Modell in DeepFaceLive importiert, eine Streaming-Implementierung der beliebten und umstrittenen Software. Beispiele stammen von https://www.youtube.com/watch?v=9tr35y-yQRY (2022) und https://arxiv.org/pdf/2205.06102.pdf.

Wer ist dieser charmante lateinamerikanische Fremde? Obwohl die GAN-Methode ein „realistischeres“ Gesicht mit höherer Auflösung erzeugt, basiert die Transformation nicht auf mehreren realen Bildern des Schauspielers, wie es bei DeepFaceLab der Fall ist, das umfassend auf einer Datenbank mit Tausenden solcher Bilder trainiert. und folglich ist die Ähnlichkeit beeinträchtigt. Hier (Hintergrund) wird ein DeepFaceLab-Modell importiert DeepFaceLive, eine Streaming-Implementierung der beliebten und umstrittenen Software. Beispiele stammen von https://www.youtube.com/watch?v=9tr35y-yQRY (2022) und https://arxiv.org/pdf/2205.06102.pdf.

In den letzten Jahren wurden eine Reihe von GAN-Gesichtsausdruck-Editoren vorgeschlagen, die meisten davon Umgang mit unbekannten Identitäten, wo die Treue der Transformationen für den Gelegenheitsleser unmöglich zu erkennen ist, da es sich nicht um bekannte Gesichter handelt.

Obskure Identitäten werden im 2020 angebotenen Cascade-EF-GAN transformiert. Quelle: https://arxiv.org/pdf/2003.05905.pdf

Obskure Identitäten werden im 2020 angebotenen Cascade-EF-GAN transformiert. Quelle: https://arxiv.org/pdf/2003.05905.pdf

Vielleicht ist es der GAN-Gesichtseditor, der in den letzten drei Jahren das meiste Interesse (und die meisten Zitate) erhalten hat InterFaceGAN, das latente Raumdurchquerungen in latenten Codes durchführen kann, die sich auf Pose (Winkel der Kamera/Gesicht), Ausdruck, Alter, Rasse, Geschlecht und andere wesentliche Eigenschaften beziehen.

InterFaceGAN-Demo (CVPR 2020)

Die „Morphing“-Funktionen von InterFaceGAN und ähnlichen Frameworks im Stil der 1980er Jahre dienen hauptsächlich dazu, den Weg zur Transformation zu veranschaulichen, wenn ein Bild durch einen passenden latenten Code (z. B. „Alter“) zurückprojiziert wird. Im Hinblick auf die Produktion von Videomaterial mit zeitlicher Kontinuität galten solche Vorhaben bislang als „beeindruckende Katastrophen“.

Wenn man dazu noch die hinzufügt Schwierigkeit, zeitlich konsistentes Haar zu erzeugen, und die Tatsache, dass die Technik der Erkundung/Manipulation latenten Codes keine angeborenen zeitlichen Richtlinien hat, mit denen man arbeiten kann (und es schwierig ist zu wissen, wie man solche Richtlinien in ein Framework einbauen kann, das für die Aufnahme und Generierung von Standbildern konzipiert ist und über keine nativen Funktionen verfügt). für die Videoausgabe) könnte es logisch sein, zu dem Schluss zu kommen, dass GAN nicht All You Need™ für die Gesichtsvideosynthese ist.

Daher waren die nachfolgenden Bemühungen erfolglos inkrementelle Verbesserungen bei der Entflechtung, während andere auf andere Konventionen in der Computer Vision als „Leitschicht“ zurückgegriffen haben, wie beispielsweise die Verwendung der semantischen Segmentierung als Kontrollmechanismus Ende 2021 Krepppapier SemanticStyleGAN: Erlernen kompositorischer generativer Prioritäten für kontrollierbare Bildsynthese und -bearbeitung.

Semantische Segmentierung als Methode der latenten Rauminstrumentalität in SemanticStyleGAN. Quelle: https://semanticstylegan.github.io/

Semantische Segmentierung als Methode der latenten Rauminstrumentalität in SemanticStyleGAN. Quelle: https://semanticstylegan.github.io/

Parametrische Führung

Die Forschungsgemeinschaft zur GAN-Gesichtssynthese tendiert zunehmend dazu, „traditionelle“ parametrische CGI-Gesichter als Methode zu verwenden, um die beeindruckenden, aber widerspenstigen latenten Codes im latenten Raum eines GAN zu leiten und in Ordnung zu bringen.

Obwohl parametrische Gesichtsprimitive ein fester Bestandteil der Computer-Vision-Forschung sind über zwanzig JahreDas Interesse an diesem Ansatz hat in letzter Zeit mit der zunehmenden Verwendung des Skinned Multi-Person Linear Model zugenommen (SMPL) CGI-Primitive, ein Ansatz, der vom Max-Planck-Institut und dem ILM entwickelt und seitdem mit dem Sparse Trained Articulated Human Body Regressor verbessert wurde (STAR) Rahmen.

SMPL (in diesem Fall eine Variante namens SMPL-X) kann ein parametrisches CGI-Netz auferlegen, das mit der geschätzten Pose (einschließlich der Ausdrücke, falls erforderlich) des gesamten menschlichen Körpers in einem Bild übereinstimmt, wodurch neue Operationen durchgeführt werden können das Bild unter Verwendung des parametrischen Netzes als volumetrische oder wahrnehmungsbezogene Richtlinie. Quelle: https://arxiv.org/pdf/1904.05866.pdf

SMPL (in diesem Fall eine Variante namens SMPL-X) kann ein parametrisches CGI-Netz auferlegen, das mit der geschätzten Pose (einschließlich der Ausdrücke, falls erforderlich) des gesamten menschlichen Körpers in einem Bild übereinstimmt, wodurch neue Operationen am Bild durchgeführt werden können, wobei das parametrische Netz als volumetrisches oder wahrnehmungsbezogenes Netz verwendet wird Richtlinie. Quelle: https://arxiv.org/pdf/1904.05866.pdf

Die am meisten gefeierte Entwicklung in dieser Reihe war Disneys 2019 Rendern mit Stil Initiative, die die Verwendung traditioneller Texturkarten mit GAN-generierten Bildern verschmolz, um eine verbesserte animierte Ausgabe im „Deepfake-Stil“ zu erstellen.

Bei Disneys hybridem Ansatz für GAN-generierte Deepfakes trifft Alt auf Neu. Quelle: https://www.youtube.com/watch?v=TwpLqTmvqVk

Bei Disneys hybridem Ansatz für GAN-generierte Deepfakes trifft Alt auf Neu. Quelle: https://www.youtube.com/watch?v=TwpLqTmvqVk

Der Disney-Ansatz überlagert traditionell gerenderte CGI-Facetten in ein StyleGAN2-Netzwerk, um menschliche Gesichtsmotive in „Problembereichen“ zu „einmalen“, wo zeitliche Konsistenz ein Problem für die Videogenerierung ist – Bereiche wie die Hauttextur.

Der Workflow „Rendern mit Stil“.

Der Workflow „Rendern mit Stil“.

Da der parametrische CGI-Kopf, der diesen Prozess steuert, an den Benutzer angepasst und geändert werden kann, ist das GAN-generierte Gesicht in der Lage, diese Änderungen, einschließlich Änderungen der Kopfhaltung und des Ausdrucks, widerzuspiegeln.

Obwohl sie darauf ausgelegt sind, die Instrumentalität von CGI mit dem natürlichen Realismus von GAN-Gesichtern zu vereinen, zeigen die Ergebnisse am Ende das Schlimmste aus beiden Welten und versäumen es dennoch, die Haarstruktur und sogar die Positionierung grundlegender Merkmale konsistent zu halten:

Mit Rendering with Style entsteht eine neue Art von unheimlichem Tal, auch wenn das Prinzip noch Potenzial birgt.

Mit Rendering with Style entsteht eine neue Art von unheimlichem Tal, auch wenn das Prinzip noch Potenzial birgt.

Die 2020 Krepppapier StyleRig: Rigging von StyleGAN für die 3D-Steuerung von Porträtbildern verfolgt einen immer beliebter werdenden Ansatz mit der Verwendung von dreidimensionale morphbare Gesichtsmodelle (3DMMs) als Proxys zum Ändern von Eigenschaften in einer StyleGAN-Umgebung, in diesem Fall über ein neuartiges Rigging-Netzwerk namens RigNet:

3DMMs fungieren als Stellvertreter für die Interpretation latenter Räume in StyleRig. Quelle: https://arxiv.org/pdf/2004.00121.pdf

3DMMs fungieren als Stellvertreter für die Interpretation latenter Räume in StyleRig. Quelle: https://arxiv.org/pdf/2004.00121.pdf

Allerdings scheinen sich die bisherigen Ergebnisse, wie bei diesen Initiativen üblich, auf minimale Posenmanipulationen und „uninformierte“ Ausdrucks-/Affektänderungen zu beschränken.

StyleRig verbessert die Kontrolle, auch wenn die zeitliche Gleichmäßigkeit der Haare eine ungelöste Herausforderung bleibt. Quelle:

StyleRig verbessert die Kontrolle, auch wenn die zeitliche Gleichmäßigkeit der Haare eine ungelöste Herausforderung bleibt. Quelle: https://www.youtube.com/watch?v=eaW_P85wQ9k

Ähnliche Ergebnisse finden sich bei Mitsubishi Research MEIST-GAN, Ein 2021 Krepppapier das nichtlineare 3DMMs als Entflechtungsarchitektur verwendet, aber auch Schwierigkeiten um eine dynamische und gleichmäßige Bewegung zu erreichen.

Die neueste Forschung zum Versuch der Instrumentalität und Entflechtung ist One-Shot-Gesichtsnachstellung auf Megapixeln, das wiederum parametrische 3DMM-Köpfe als benutzerfreundliche Schnittstelle für StyleGAN verwendet.

Im MegaFR-Workflow von One-Shot Face Reenactment führt das Netzwerk eine Gesichtssynthese durch, indem es ein invertiertes Bild aus der realen Welt mit Parametern kombiniert, die aus einem gerenderten 3DMM-Modell stammen. Quelle: https://arxiv.org/pdf/2205.13368.pdf

Im MegaFR-Workflow von One-Shot Face Reenactment führt das Netzwerk eine Gesichtssynthese durch, indem es ein invertiertes Bild aus der realen Welt mit Parametern kombiniert, die aus einem gerenderten 3DMM-Modell stammen. Quelle: https://arxiv.org/pdf/2205.13368.pdf

OSFR gehört zu einer wachsenden Klasse von GAN-Gesichtseditoren, die lineare Bearbeitungsworkflows im Photoshop/After Effects-Stil entwickeln möchten, bei denen der Benutzer ein gewünschtes Bild eingeben kann, auf das Transformationen angewendet werden können, anstatt den latenten Raum nach latenten Codes zu durchsuchen eine Identität.

Auch hier stellen parametrische Ausdrücke eine übergreifende und nicht personalisierte Methode der Ausdrucksinjektion dar, die zu Manipulationen führt, die auf ihre eigene, nicht immer positive Art „unheimlich“ wirken.

Eingefügte Ausdrücke in OSFR.

Eingefügte Ausdrücke in OSFR.

Wie frühere Arbeiten kann OSFR nahezu originalgetreue Posen aus einem einzelnen Bild ableiten und auch eine „Frontalisierung“ durchführen, bei der ein außermittig gestelltes Bild in ein Fahndungsfoto übersetzt wird:

Originale (oben) und abgeleitete Fahndungsfotos von einer der im neuen Papier beschriebenen Implementierungen von OSFR.

Originale (oben) und abgeleitete Fahndungsfotos von einer der im neuen Papier beschriebenen Implementierungen von OSFR.

In der Praxis ähnelt diese Art der Schlussfolgerung einigen der zugrunde liegenden Prinzipien der Photogrammetrie Neuronale Strahlungsfelder (NeRF), außer dass die Geometrie hier durch ein einzelnes Foto definiert werden muss und nicht durch die 3-4 Blickwinkel, die es NeRF ermöglichen, die fehlenden interstitiellen Posen zu interpretieren und erforschbare neuronale 3D-Szenen mit Menschen zu erstellen.

(Allerdings ist NeRF auch nicht All You Need™, da es ein fast trägt völlig andere Hindernisse zu GANs in Bezug auf die Produktion von Gesichtsvideosynthese)

Hat GAN einen Platz in der Gesichtsvideosynthese?

Das Erzielen dynamischer Ausdrücke und nicht verteilter Posen aus einem einzigen Quellbild scheint derzeit eine alchemistische Obsession in der GAN-Gesichtssyntheseforschung zu sein, vor allem weil GANs derzeit die einzige Methode sind, die in der Lage ist, relativ hohe Auflösungen und relativ hohe Auflösungen auszugeben. Treue neuronaler Gesichter: Obwohl Autoencoder-Deepfake-Frameworks eine Vielzahl realer Posen und Ausdrücke trainieren können, müssen sie mit VRAM-beschränkten Eingabe-/Ausgabeauflösungen arbeiten und erfordern einen „Host“; während NeRF ähnlich eingeschränkt ist und – im Gegensatz zu den anderen beiden Ansätzen – derzeit keine etablierten Methoden zur Änderung von Gesichtsausdrücken hat und im Allgemeinen unter einer eingeschränkten Bearbeitbarkeit leidet.

Es scheint, dass der einzige Weg für ein genaues CGI/GAN-Gesichtssynthesesystem darin besteht, dass eine neue Initiative einen Weg findet, eine Identitätseinheit mit mehreren Fotos innerhalb des latenten Raums zusammenzustellen, wo kein latenter Code für die Identität einer Person erforderlich ist Es reist den ganzen Weg durch den latenten Raum, um unabhängige Posenparameter auszunutzen, kann aber auf seine eigenen zugehörigen (realen) Bilder als Referenz für Transformationen zurückgreifen.

Selbst in einem solchen Fall oder selbst wenn ein gesamtes StyleGAN-Netzwerk auf einem Face-Set mit einer Identität trainiert würde (ähnlich den Trainingssätzen, die Autoencoder verwenden), müsste die fehlende semantische Logik wahrscheinlich immer noch durch Zusatztechnologien bereitgestellt werden, z semantische Segmentierung oder parametrische 3DMM-Gesichter, die in einem solchen Szenario zumindest mehr Material zum Arbeiten hätten.