Künstliche Intelligenz
Disney kombiniert CGI mit Neural Rendering, um das ‘Uncanny Valley’-Problem anzugehen

Die AI-Forschungsabteilung von Disney hat eine Hybridmethode für filmqualitätsnahe Gesichtssimulationen entwickelt, die die Stärken von Gesichts-Neural-Rendering mit der Konsistenz eines CGI-basierten Ansatzes kombiniert.
Der noch ausstehende Artikel ist betitelt Rendering with Style: Combining Traditional and Neural Approaches for High Quality Face Rendering und wird in einem neuen 10-minütigen Video auf dem Disney Research YouTube-Kanal (eingebettet am Ende dieses Artikels*) vorgestellt.

Meshes kombiniert mit neuralen Gesichtsrendern. Siehe Video-Einbettung am Ende des Artikels für bessere Details und Qualität. Quelle: https://www.youtube.com/watch?v=k-RKSGbWLng (seitdem durch https://www.youtube.com/watch?v=TwpLqTmvqVk ersetzt)
Wie das Video feststellt, kann neurales Rendering von Gesichtern (einschließlich Deepfakes) realistischere Augen und Mundinnenräume produzieren als CGI, während CGI-getriebene Gesichtstexturen konsistenter und geeigneter für Cinema-Level-VFX-Ausgaben sind.
Daher experimentiert Disney damit, NVIDIAs StyleGan2-Neuralgenerator die umgebenden Merkmale eines Gesichts und die ‘lebenswichtigen’ Elemente wie Augen zu verarbeiten, während konsistente CGI-Gesichtshaut und verwandte Elemente in die Ausgabe überlagert werden.

Aus dem Video (siehe Ende des Artikels), das architektonische Konzept hinter Disneys Hybridansatz, bei dem ein altmodischer CGI-Mesh, wie er verwendet wurde, um ‘junges’ Carrie Fisher und den verstorbenen Peter Cushing für Rogue One (2016) nachzubilden, in neurale Gesichtsumgebungen integriert wird.
Das Video bezieht sich implizit auf häufige Kritik an der Unauthentizität und dem ‘Uncanny Valley’-Effekt der CGI-Nachbildung des verstorbenen britischen Star Wars-Schauspielers Peter Cushing in Rogue One (2016) und räumt ein:
‘[Es gibt] immer noch eine enorme Lücke zwischen dem, was Menschen leicht erfassen und rendern können, und den endgültigen photorealistischen digitalen Doppelgängern, komplett mit Haar, Augen und innerem Mund. Um diese Lücke zu schließen, ist normalerweise viel manuelle Arbeit von qualifizierten Künstlern erforderlich.’
In Wirklichkeit versuchen sogar die modernsten Gesichtserfassungssysteme nicht einmal, Augen, Mundinnenräume oder Haare nachzubilden, die entweder Probleme der Authentizität in solchen Techniken (Augen) oder der zeitlichen Konsistenz (Haar) aufweisen.

Das Video zeigt, was VFX-Künstler nach einer typischen modernen Gesichtserfassungssitzung erhalten. Augen, Haar, Gesichtsbehaarung und Mundinnenräume müssen alle von separaten Teams im Produktionsprozess bearbeitet werden, zusätzlich zu Textur und Beleuchtung.
Beleuchtungskontrolle
Der Hybridansatz ist auch bei der Relighting vorteilhaft – eine bemerkenswerte Herausforderung für das neurale Rendering von Gesichtern, da CGI-Hautüberlagerungen leichter neu beleuchtet werden können.

Eine animierte Version des CGI/Neural-Ansatzes.
In anspruchsvolleren Umgebungen, wie z.B. Außenaufnahmen, haben die Forscher eine Methode entwickelt, um um eine Art Demilitarisierte Zone herumzumalen, die die Person umgibt, die ‘erschaffen’ wird.

Eine schwarze Randzone wird erzeugt, um eine ‘Leinwand’ für das Ausmalen der äußeren Teile der Identität und die Integration der CGI-Haut in die kombinierte CGI/Neural-Ausgabe zu ermöglichen.
Das Video bemerkt:
‘[Das] neurale Rendern entspricht der Hintergrundbeschränkung nicht perfekt. – es dient nur als Richtlinie, da die Optimierung für realistische menschliche Komponenten wie Haar, Augen und Zähne das Hauptziel ist. Schwieriger ist es, eine konsistente Identität beizubehalten, während die Umgebungsbeleuchtung geändert wird.’
Erstellung von CGI-Meshes aus Neural-Rendern
Das Forschungsteam hat auch einen variationalen Autoencoder entwickelt, der auf einer (nicht spezifizierten) großen Datenbank von 3D-Gesichtsbildern trainiert wurde, und behauptet, dass er ‘zufällige, aber plausible’ 3D-Gesichtsmeshes aus Ground-Truth-Daten erzeugen kann.
Es gibt Einschränkungen, die diese Forschung überwinden muss, einschließlich der Schwierigkeit, das Haar in den neuronalen Rendern zeitlich konsistent zu halten, und das Video (siehe unten) zeigt mehrere Beispiele für schnell mutierendes Haar in einer ansonsten konsistenten Panorama-Aufnahme eines CGI/Neural-Gesichts.
Die zeitliche Konsistenz im neuronalen Video-Rendering ist ein viel größeres Problem als nur Disneys, und es scheint wahrscheinlich, dass spätere Iterationen dieses Systems möglicherweise auf das Hinzufügen von Haar ‘in post’ oder verschiedene andere mögliche Ansätze zur Haargenerierung zurückgreifen, anstatt zu hoffen, dass ein neuer neuronaler Ansatz es eventually lösen wird.
Verwendung für Datengenerierung
Die Methode wird auch als potenzielle Methode zur Generierung synthetischer Daten und zur Anreicherung des Gesichtsbild-Landschafts vorgeschlagen, das in den letzten Jahren gefährlich monoton geworden ist.

Disney stellt sich vor, dass die neue Technik Gesichtsbild-Datensätze bevölkert.
‘[Jedes] photorealistische Ergebnis, das wir erzeugen, hat eine zugrunde liegende entsprechende Geometrie und Erscheinungsbilder, die aus unbekannten Kameraperspektiven mit bekannter Beleuchtung gerendert werden. Diese ‘Ground-Truth’-Informationen können für die Schulung von Downstream-Anwendungen wie monokularer 3D-Gesichtsrekonstruktion, Gesichtserkennung oder Szenenverständnis von entscheidender Bedeutung sein. Und so kann jedes Ergebnis-Render als Datenstichprobe betrachtet werden, und wir können viele Variationen von vielen verschiedenen Individuen erzeugen.
‘Darüber hinaus können wir, selbst für eine einzelne Person, die in einem einzigen Ausdruck mit einem einzigen Blickwinkel und einer einzigen Beleuchtung gerendert wird, zufällige Variationen des photo-realistischen Renders erzeugen, indem wir den Zufallsseed während der Optimierung variieren.’
Die Forscher bemerken, dass diese Vielfalt an konfigurierbarer Ausgabe nützlich für die Schulung von Gesichtserkennungsanwendungen sein könnte und schlussfolgern:
‘[Unsere] Methode kann die aktuelle Technologie für Gesichtshaut-Erfassung, -Modellierung und -Rendering nutzen und automatisch vollständige photorealistische Gesichts-Renderings erzeugen, die der gewünschten Identität, dem Ausdruck und der Szenenkonfiguration entsprechen. Dieser Ansatz hat Anwendungen und Gesichtsrendering für Film und Unterhaltung, um manuelle Künstlerarbeit zu sparen, und auch für Datengenerierung in verschiedenen Bereichen des Deep Learning.’
Für einen tieferen Einblick in den neuen Ansatz können Sie das 10-minütige Video ansehen, das heute veröffentlicht wurde:
* Der ursprüngliche Video-Link wurde 8 Stunden nach Veröffentlichung dieses Artikels durch einen anderen offensichtlich identischen ersetzt. Ich habe alle relevanten Links geändert, da keine Spur des ursprünglichen Videos vorhanden ist.
8:24 GMT+2 – Ersetzt durch ein neues Video, da es vom Disney Research YouTube-Kanal ausgetauscht wurde.












