Refresh

This website www.unite.ai/de/Disney-kombiniert-CGI-mit-neuronalem-Rendering%2C-um-das-Uncanny-Valley-in-Angriff-zu-nehmen/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Vernetzen Sie sich mit uns

Künstliche Intelligenz

Disney kombiniert CGI mit neuronalem Rendering, um das „Uncanny Valley“ in Angriff zu nehmen

mm
Aktualisiert on

Die KI-Forschungsabteilung von Disney hat eine Hybridmethode für die Gesichtssimulation in Filmqualität entwickelt, die die Stärken der neuronalen Gesichtsdarstellung mit der Konsistenz eines CGI-basierten Ansatzes kombiniert.

Die ausstehende Arbeit trägt den Titel Rendern mit Stil: Kombination traditioneller und neuronaler Ansätze für hochwertiges Gesichts-Rendering, und wird in einer Vorschau angezeigt neues 10-Minuten-Video auf dem YouTube-Kanal von Disney Research (eingebettet am Ende dieses Artikels*).

Netze kombiniert mit neuronalen Gesichtsdarstellungen. Quelle: https://www.youtube.com/watch?v=k-RKSGbWLng

Netze kombiniert mit neuronalen Gesichtsdarstellungen. Weitere Details und Qualität finden Sie im eingebetteten Video am Ende des Artikels. Quelle: https://www.youtube.com/watch?v=k-RKSGbWLng (inzwischen ersetzt durch https://www.youtube.com/watch?v=TwpLqTmvqVk)

Wie das Video feststellt, Neuronale Darstellung von Gesichtern (einschließlich Deepfakes) können weitaus realistischere Augen- und Mundinnenräume erzeugen, als CGI dazu in der Lage ist, während CGI-gesteuerte Gesichtstexturen konsistenter und für die VFX-Ausgabe auf Kinoniveau geeignet sind.

Deshalb experimentiert Disney damit, NVIDIAs zu vermieten StyleGan2 Der neuronale Generator verarbeitet die umgebenden Merkmale eines Gesichts und die „lebenskritischen“ Elemente wie Augen und überlagert gleichzeitig konsistente CGI-Gesichtshaut und verwandte Elemente in die Ausgabe.

Aus dem Video (siehe Ende des Artikels) ist das architektonische Konzept hinter Disneys Hybrid-Ansatz ersichtlich, bei dem ein CGI-Netz der alten Schule verwendet wird, wie es zur Nachbildung der „jungen“ Carrie Fisher und des verstorbenen Peter Cushing für Rogue One (2016) verwendet wurde integriert in neuronal gerenderte Gesichtsumgebungen.

Aus dem Video (siehe Ende des Artikels) ist das architektonische Konzept hinter Disneys Hybrid-Ansatz ersichtlich, bei dem ein CGI-Netz der alten Schule verwendet wird, wie es zur Nachbildung der „jungen“ Carrie Fisher und des verstorbenen Peter Cushing für Rogue One (2016) verwendet wurde integriert in neuronal gerenderte Gesichtsumgebungen.

Das Video nimmt stillschweigend Bezug auf die häufige Kritik an der Unechtheit und dem „Uncanny Valley“-Effekt der CGI-Nachbildung der späten Briten star Wars Schauspieler Peter Cushing Rogue One (2016), zugebend:

„[Es besteht] immer noch eine große Lücke zwischen dem, was Menschen leicht erfassen und rendern können, und den endgültigen fotorealistischen digitalen Doubles, komplett mit Haaren, Augen und innerem Mund.“ Um diese Lücke zu schließen, bedarf es in der Regel viel Handarbeit von erfahrenen Künstlern.“

Tatsächlich versuchen selbst die modernsten Gesichtserfassungssysteme nicht einmal, Augen, Mundinnenräume oder Haare nachzubilden, was bei solchen Techniken entweder Probleme mit der Authentizität (Augen) oder mit der zeitlichen Konsistenz (Haare) aufweist.

Das Video zeigt, was VFX-Künstler nach einer typischen modernen Gesichtserfassungssitzung erhalten. Augen, Haare, Gesichtsbehaarung und Mundinnenräume müssen alle von separaten Teams in der Produktionspipeline bearbeitet werden.

Das Video zeigt, was VFX-Künstler nach einer typischen modernen Gesichtserfassungssitzung erhalten. Augen, Haare, Gesichtsbehaarung und Mundinnenraum müssen zusätzlich zur Texturierung und Beleuchtung von separaten Teams in der Produktionspipeline bearbeitet werden.

Beleuchtungssteuerung

Der hybride Ansatz ist auch bei der Neubeleuchtung von Vorteil – eine besondere Herausforderung für die neuronale Darstellung von Gesichtern, da CGI-Hautüberlagerungen einfacher neu beleuchtet werden können.

Eine animierte Version des CGI/Neural-Ansatzes.

Eine animierte Version des CGI/Neural-Ansatzes.

In anspruchsvolleren Umgebungen, etwa bei Außenaufnahmen, haben die Forscher eine Methode entwickelt, um eine Art entmilitarisierte Zone um die zu „erschaffende“ Person herum zu malen.

Es wird ein schwarzer Rand erzeugt, um eine „Leinwand“ zum Einmalen der äußeren Teile der Identität und zum Integrieren der CGI-Haut in die kombinierte CGI-/Neuronalausgabe zu ermöglichen.

Es wird ein schwarzer Rand erzeugt, um eine „Leinwand“ zum Einmalen der äußeren Teile der Identität und zum Integrieren der CGI-Haut in die kombinierte CGI-/Neuronalausgabe zu ermöglichen.

Die Videonotizen:

„[Das] neuronale Rendering passt nicht perfekt zur Hintergrundbeschränkung.“ – Es dient nur als Leitfaden, da die Optimierung realistischer menschlicher Komponenten wie Haare, Augen und Zähne das Hauptziel ist. Eine größere Herausforderung besteht darin, eine einheitliche Identität aufrechtzuerhalten und gleichzeitig die Umgebungsbeleuchtung zu ändern.“

Erstellen von CGI-Netzen aus neuronalen Renderings

Das Forschungsteam hat außerdem einen Variations-Autoencoder entwickelt, der auf einer (nicht näher spezifizierten) großen Datenbank von 3D-Gesichtsbildern trainiert wurde, und behauptet, dass er „zufällige, aber plausible“ 3D-Gesichtsnetze aus Bodenwahrheitsdaten erzeugen kann.

Es gibt Einschränkungen, die diese Forschung überwinden muss, einschließlich der Schwierigkeit, Haare in den neuronalen Renderings zeitlich konsistent zu halten, und das Video (siehe unten) zeigt mehrere Beispiele schnell mutierender Haare in einem ansonsten konsistenten Bereich um ein CGI/neuronales Gesicht.

Die zeitliche Konsistenz bei der neuronalen Videowiedergabe ist ein weitaus größeres Problem als nur das von Disney, und es scheint wahrscheinlich, dass spätere Iterationen dieses Systems auf das Hinzufügen von Haaren „nachträglich“ oder verschiedene andere mögliche Ansätze zur Haarerzeugung zurückgreifen, als man hofft, dass ein neuartiger neuronaler Ansatz dies tun wird irgendwann lösen.

Wird für die Datensatzgenerierung verwendet

Die Methode wird auch als potenzielle Methode zur Generierung synthetischer Daten und zur Bereicherung der Gesichtsbild-Set-Landschaft vorgeschlagen, die in den letzten Jahren gewachsen ist gefährlich eintönig.

Disney plant, Gesichtsbilddatensätze mit der neuen Technik zu füllen.

Disney plant, Gesichtsbilddatensätze mit der neuen Technik zu füllen.

„[Jedem] fotorealistischen Ergebnis, das wir generieren, liegen eine entsprechende Geometrie und Erscheinungskarten zugrunde, die aus unbekannten Kameraperspektiven mit bekannter Beleuchtung gerendert werden.“ Diese „Grundwahrheits“-Informationen können für das Training nachgelagerter Anwendungen wie Monokular, 3D-Gesichtsrekonstruktion, Gesichtserkennung oder Szenenverständnis von entscheidender Bedeutung sein. Daher könnte jedes gerenderte Ergebnis als Datenstichprobe betrachtet werden, und wir können viele Variationen vieler verschiedener Personen generieren.

„Darüber hinaus können wir sogar für eine einzelne Person, die in einem einzigen Ausdruck mit einem einzigen Blickwinkel und einer einzigen Beleuchtung gerendert wird, zufällige Variationen des fotorealistischen Renderings erzeugen, indem wir den Randomisierungs-Seed während der Optimierung variieren.“

Die Forscher stellen fest, dass diese Vielfalt an konfigurierbaren Ausgaben beim Training von Gesichtserkennungsanwendungen nützlich sein könnte, und kommen zu dem Schluss:

„[Unsere] Methode ist in der Lage, aktuelle Technologien zur Erfassung, Modellierung und Darstellung der Gesichtshaut zu nutzen und automatisch vollständige fotorealistische Gesichtsdarstellungen zu erstellen, die der gewünschten Identität, dem gewünschten Ausdruck und der gewünschten Szenenkonfiguration entsprechen.“ „Dieser Ansatz bietet Anwendungen und Gesichts-Rendering für Film und Unterhaltung, wodurch manuelle Arbeit von Künstlern eingespart wird, und auch für die Datengenerierung in verschiedenen Bereichen des Deep Learning.“

Um einen tieferen Einblick in den neuen Ansatz zu erhalten, sehen Sie sich das heute veröffentlichte 10-minütige Video an:

Rendering mit Stil, das traditionelle und neuronale Ansätze für eine hochwertige Gesichtsdarstellung kombiniert

 * Der ursprüngliche Videolink wurde 8 Stunden nach Veröffentlichung dieses Artikels durch einen anderen, scheinbar identischen Link ersetzt. Ich habe alle relevanten Links geändert, da vom Originalvideo keine Spur mehr vorhanden ist.

 

8:24 GMT+2 – Video ersetzt, da es aus irgendeinem Grund vom YouTube-Kanal von Disney Research ausgetauscht wurde.

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai