Artificial Intelligence
GAN als Gesichtsrenderer für „traditionelles“ CGI
Meinung Als Generative Adversarial Networks (GANs) erstmals ihre Fähigkeit zur erstaunlichen Reproduktion unter Beweis stellten realistisch Das Aufkommen von 3D-Gesichtern löste einen Goldrausch für das ungenutzte Potenzial von GANs aus, zeitlich konsistente Videos mit menschlichen Gesichtern zu erstellen.
Irgendwo im latenten Raum des GAN schien es dort zu sein sollen verborgene Ordnung und Rationalität sein – ein Schema entstehender semantischer Logik, vergraben in den latenten Codes, das es einem GAN ermöglichen würde, konsistente Mehrfachansichten und Mehrfachinterpretationen (z. B. Ausdrucksänderungen) des zu generieren gleich Gesicht – und anschließend eine zeitlich überzeugende Deepfake-Video-Methode anbieten, die umwerfend wäre Autoencoder kein Wasser mehr.
Eine hochauflösende Ausgabe wäre trivial im Vergleich zu slumähnlichen Umgebungen mit niedriger Auflösung, in denen GPU-Einschränkungen den Betrieb von DeepFaceLab und FaceSwap erzwingen, während die „Austauschzone“ eines Gesichts (in Autoencoder-Workflows) zur „Erstellungszone“ werden würde. eines GAN, informiert durch eine Handvoll Eingabebilder oder sogar nur ein einzelnes Bild.
Es würde keine Diskrepanz mehr zwischen den „Swap“- und „Host“-Seiten geben, weil die Gesamtheit Teile des Bildes würden von Grund auf neu generiert, einschließlich Haare, Kieferpartie und die äußersten Enden der Gesichtszüge, was für „traditionelle“ Autoencoder-Deepfakes häufig eine Herausforderung darstellt.
Das GAN-Gesichtsvideo Winter
Wie sich herausstellte, würde es nicht annähernd so einfach werden. Letzten Endes, Entwirrung erwies sich als zentrales Problem und bleibt die größte Herausforderung. Wie können Sie eine eindeutige Gesichtsidentität beibehalten und ihre Pose oder ihren Ausdruck ändern, ohne einen Korpus aus Tausenden von Referenzbildern zusammenzustellen, die einem neuronalen Netzwerk beibringen, was passiert, wenn diese Änderungen vorgenommen werden, wie es Autoencoder-Systeme so mühsam tun?
Die spätere Überlegung in der Forschung zur GAN-Gesichtsinszenierung und -Synthese war vielmehr, dass eine Eingabeidentität möglicherweise teleologischen, generischen, Vorlage Transformationen, die nicht identitätsspezifisch sind. Ein Beispiel hierfür wäre die Anwendung eines Ausdrucks auf ein GAN-Gesicht, der in keinem der dem GAN bekannten Bilder dieser Person vorhanden war.
Es ist offensichtlich, dass ein einheitlicher Ansatz nicht die Vielfalt der Gesichtsausdrücke einer Person abdecken kann. Wir müssen uns fragen, ob ein so einzigartiges Lächeln wie das von Jack Nicholson oder Willem Dafoe unter dem Einfluss solcher latenten Codes des „gemeinen durchschnittlichen Ausdrucks“ jemals eine getreue Interpretation erhalten könnte.
In den letzten Jahren wurden eine Reihe von GAN-Gesichtsausdruck-Editoren vorgeschlagen, die meisten davon Umgang mit unbekannten Identitäten, wo die Treue der Transformationen für den Gelegenheitsleser unmöglich zu erkennen ist, da es sich nicht um bekannte Gesichter handelt.
Vielleicht ist es der GAN-Gesichtseditor, der in den letzten drei Jahren das meiste Interesse (und die meisten Zitate) erhalten hat InterFaceGAN, das latente Raumdurchquerungen in latenten Codes durchführen kann, die sich auf Pose (Winkel der Kamera/Gesicht), Ausdruck, Alter, Rasse, Geschlecht und andere wesentliche Eigenschaften beziehen.
Die „Morphing“-Funktionen von InterFaceGAN und ähnlichen Frameworks im Stil der 1980er Jahre dienen hauptsächlich dazu, den Weg zur Transformation zu veranschaulichen, wenn ein Bild durch einen passenden latenten Code (z. B. „Alter“) zurückprojiziert wird. Im Hinblick auf die Produktion von Videomaterial mit zeitlicher Kontinuität galten solche Vorhaben bislang als „beeindruckende Katastrophen“.
Wenn man dazu noch die hinzufügt Schwierigkeit, zeitlich konsistentes Haar zu erzeugen, und die Tatsache, dass die Technik der Erkundung/Manipulation latenten Codes keine angeborenen zeitlichen Richtlinien hat, mit denen man arbeiten kann (und es schwierig ist zu wissen, wie man solche Richtlinien in ein Framework einbauen kann, das für die Aufnahme und Generierung von Standbildern konzipiert ist und über keine nativen Funktionen verfügt). für die Videoausgabe) könnte es logisch sein, zu dem Schluss zu kommen, dass GAN nicht All You Need™ für die Gesichtsvideosynthese ist.
Daher waren die nachfolgenden Bemühungen erfolglos inkrementelle Verbesserungen bei der Entflechtung, während andere auf andere Konventionen in der Computer Vision als „Leitschicht“ zurückgegriffen haben, wie beispielsweise die Verwendung der semantischen Segmentierung als Kontrollmechanismus Ende 2021 Krepppapier SemanticStyleGAN: Erlernen kompositorischer generativer Prioritäten für kontrollierbare Bildsynthese und -bearbeitung.
Parametrische Führung
Die Forschungsgemeinschaft zur GAN-Gesichtssynthese tendiert zunehmend dazu, „traditionelle“ parametrische CGI-Gesichter als Methode zu verwenden, um die beeindruckenden, aber widerspenstigen latenten Codes im latenten Raum eines GAN zu leiten und in Ordnung zu bringen.
Obwohl parametrische Gesichtsprimitive ein fester Bestandteil der Computer-Vision-Forschung sind über zwanzig JahreDas Interesse an diesem Ansatz hat in letzter Zeit mit der zunehmenden Verwendung des Skinned Multi-Person Linear Model zugenommen (SMPL) CGI-Primitive, ein Ansatz, der vom Max-Planck-Institut und dem ILM entwickelt und seitdem mit dem Sparse Trained Articulated Human Body Regressor verbessert wurde (STAR) Rahmen.
Die am meisten gefeierte Entwicklung in dieser Reihe war Disneys 2019 Rendern mit Stil Initiative, die die Verwendung traditioneller Texturkarten mit GAN-generierten Bildern verschmolz, um eine verbesserte animierte Ausgabe im „Deepfake-Stil“ zu erstellen.
Der Disney-Ansatz überlagert traditionell gerenderte CGI-Facetten in ein StyleGAN2-Netzwerk, um menschliche Gesichtsmotive in „Problembereichen“ zu „einmalen“, wo zeitliche Konsistenz ein Problem für die Videogenerierung ist – Bereiche wie die Hauttextur.
Da der parametrische CGI-Kopf, der diesen Prozess steuert, an den Benutzer angepasst und geändert werden kann, ist das GAN-generierte Gesicht in der Lage, diese Änderungen, einschließlich Änderungen der Kopfhaltung und des Ausdrucks, widerzuspiegeln.
Obwohl sie darauf ausgelegt sind, die Instrumentalität von CGI mit dem natürlichen Realismus von GAN-Gesichtern zu vereinen, zeigen die Ergebnisse am Ende das Schlimmste aus beiden Welten und versäumen es dennoch, die Haarstruktur und sogar die Positionierung grundlegender Merkmale konsistent zu halten:
Die 2020 Krepppapier StyleRig: Rigging von StyleGAN für die 3D-Steuerung von Porträtbildern verfolgt einen immer beliebter werdenden Ansatz mit der Verwendung von dreidimensionale morphbare Gesichtsmodelle (3DMMs) als Proxys zum Ändern von Eigenschaften in einer StyleGAN-Umgebung, in diesem Fall über ein neuartiges Rigging-Netzwerk namens RigNet:
Allerdings scheinen sich die bisherigen Ergebnisse, wie bei diesen Initiativen üblich, auf minimale Posenmanipulationen und „uninformierte“ Ausdrucks-/Affektänderungen zu beschränken.
Ähnliche Ergebnisse finden sich bei Mitsubishi Research MEIST-GAN, Ein 2021 Krepppapier das nichtlineare 3DMMs als Entflechtungsarchitektur verwendet, aber auch Schwierigkeiten um eine dynamische und gleichmäßige Bewegung zu erreichen.
Die neueste Forschung zum Versuch der Instrumentalität und Entflechtung ist One-Shot-Gesichtsnachstellung auf Megapixeln, das wiederum parametrische 3DMM-Köpfe als benutzerfreundliche Schnittstelle für StyleGAN verwendet.
OSFR gehört zu einer wachsenden Klasse von GAN-Gesichtseditoren, die lineare Bearbeitungsworkflows im Photoshop/After Effects-Stil entwickeln möchten, bei denen der Benutzer ein gewünschtes Bild eingeben kann, auf das Transformationen angewendet werden können, anstatt den latenten Raum nach latenten Codes zu durchsuchen eine Identität.
Auch hier stellen parametrische Ausdrücke eine übergreifende und nicht personalisierte Methode der Ausdrucksinjektion dar, die zu Manipulationen führt, die auf ihre eigene, nicht immer positive Art „unheimlich“ wirken.
Wie frühere Arbeiten kann OSFR nahezu originalgetreue Posen aus einem einzelnen Bild ableiten und auch eine „Frontalisierung“ durchführen, bei der ein außermittig gestelltes Bild in ein Fahndungsfoto übersetzt wird:
In der Praxis ähnelt diese Art der Schlussfolgerung einigen der zugrunde liegenden Prinzipien der Photogrammetrie Neuronale Strahlungsfelder (NeRF), außer dass die Geometrie hier durch ein einzelnes Foto definiert werden muss und nicht durch die 3-4 Blickwinkel, die es NeRF ermöglichen, die fehlenden interstitiellen Posen zu interpretieren und erforschbare neuronale 3D-Szenen mit Menschen zu erstellen.
(Allerdings ist NeRF auch nicht All You Need™, da es ein fast trägt völlig andere Hindernisse zu GANs in Bezug auf die Produktion von Gesichtsvideosynthese)
Hat GAN einen Platz in der Gesichtsvideosynthese?
Das Erzielen dynamischer Ausdrücke und nicht verteilter Posen aus einem einzigen Quellbild scheint derzeit eine alchemistische Obsession in der GAN-Gesichtssyntheseforschung zu sein, vor allem weil GANs derzeit die einzige Methode sind, die in der Lage ist, relativ hohe Auflösungen und relativ hohe Auflösungen auszugeben. Treue neuronaler Gesichter: Obwohl Autoencoder-Deepfake-Frameworks eine Vielzahl realer Posen und Ausdrücke trainieren können, müssen sie mit VRAM-beschränkten Eingabe-/Ausgabeauflösungen arbeiten und erfordern einen „Host“; während NeRF ähnlich eingeschränkt ist und – im Gegensatz zu den anderen beiden Ansätzen – derzeit keine etablierten Methoden zur Änderung von Gesichtsausdrücken hat und im Allgemeinen unter einer eingeschränkten Bearbeitbarkeit leidet.
Es scheint, dass der einzige Weg für ein genaues CGI/GAN-Gesichtssynthesesystem darin besteht, dass eine neue Initiative einen Weg findet, eine Identitätseinheit mit mehreren Fotos innerhalb des latenten Raums zusammenzustellen, wo kein latenter Code für die Identität einer Person erforderlich ist Es reist den ganzen Weg durch den latenten Raum, um unabhängige Posenparameter auszunutzen, kann aber auf seine eigenen zugehörigen (realen) Bilder als Referenz für Transformationen zurückgreifen.
Selbst in einem solchen Fall oder selbst wenn ein gesamtes StyleGAN-Netzwerk auf einem Face-Set mit einer Identität trainiert würde (ähnlich den Trainingssätzen, die Autoencoder verwenden), müsste die fehlende semantische Logik wahrscheinlich immer noch durch Zusatztechnologien bereitgestellt werden, z semantische Segmentierung oder parametrische 3DMM-Gesichter, die in einem solchen Szenario zumindest mehr Material zum Arbeiten hätten.