Künstliche Intelligenz
Neuronales Rendering: Wie tief können Sie in Bezug auf die Eingabe gehen?

Gestern erregten einige außergewöhnliche neue Arbeiten zur neuronalen Bildsynthese die Aufmerksamkeit und Fantasie des Internets, wie Intel-Forscher enthüllten Neue Methode zur Verbesserung des Realismus synthetischer Bilder.
Das System, wie in a demonstriert Video von Intel, greift direkt in die Bildpipeline für das Videospiel Grand Theft Auto V ein und verbessert die Bilder automatisch durch einen Bildsynthesealgorithmus, der auf einem Faltungs-Neuronalen Netzwerk (CNN) trainiert wurde, und verwendet dabei reale Bilder aus dem Mapillar Datensatz und Austausch der weniger realistischen Beleuchtung und Textur der GTA-Spiel-Engine.

In den unterschiedlichsten Reaktionen von Communities wie Reddit und Hacker News wird nicht nur behauptet, dass neuronales Rendering dieser Art die weniger fotorealistische Ausgabe herkömmlicher Spiele-Engines und CGI auf VFX-Ebene effektiv ersetzen könnte, sondern dass dieser Prozess auch mit weitaus mehr Basiseingaben erreicht werden könnte, als in der Intel GTA5-Demo gezeigt wurde – wodurch effektiv „Puppen“-Proxy-Eingaben mit äußerst realistischen Ausgaben erstellt würden.
Gepaarte Datensätze
Das Prinzip wurde in den letzten drei Jahren durch eine neue Generation von GAN- und Encoder-/Decodersystemen veranschaulicht, wie etwa NVIDIAs GauGAN, das aus groben Klecksen fotorealistische Landschaftsbilder erzeugt.
Tatsächlich stellt dieses Prinzip die herkömmliche Verwendung der semantischen Segmentierung um Computer Vision von einer passiven Methode, die es Maschinensystemen ermöglicht, beobachtete Objekte zu identifizieren und zu isolieren, bis hin zu einem kreativen Input, bei dem der Benutzer eine künstliche semantische Segmentierungskarte „malt“ und das System Bilder generiert, die mit den Beziehungen übereinstimmen, die es aufgrund der bereits erfolgten Klassifizierung und Segmentierung eines bestimmten Bereichs, beispielsweise einer Landschaft, versteht.

Ein Framework für maschinelles Lernen wendet die semantische Segmentierung auf verschiedene Außenszenen an und liefert das Architekturparadigma, das die Entwicklung interaktiver Systeme ermöglicht, bei denen der Benutzer einen semantischen Segmentierungsblock malt und das System den Block mit passenden Bildern aus einem domänenspezifischen Datensatz füllt, wie beispielsweise dem deutschen Mapillary-Street-View-Set, das in Intels GTA5-Demo für neuronales Rendering verwendet wird. Quelle: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf
Systeme zur Bildsynthese gepaarter Datensätze funktionieren durch die Korrelation semantischer Bezeichnungen auf zwei Datensätzen: einem umfangreichen und vollwertigen Bildsatz, der entweder aus Bildern aus der realen Welt generiert wird (wie beim Mapillary-Satz, der zur Verbesserung von GTA5 in der gestrigen Intel-Demo verwendet wurde) oder aus synthetischen Bildern, wie etwa CGI-Bildern.

Beispiele gepaarter Datensätze für ein Bildsynthesesystem, das neuronal gerenderte Charaktere aus ungeschickten Skizzen erstellt. Links: Beispiele aus dem CGI-Datensatz. Mitte: entsprechende Beispiele aus dem „Skizzen“-Datensatz. Rechts: neuronale Renderings, die Skizzen wieder in hochwertige Bilder übersetzt haben.. Quelle: https://www.youtube.com/watch?v=miLIwQ7yPkA
Die Erstellung gepaarter Datensatztransformationen dieser Art in der Außenumgebung ist relativ unkompliziert, da die Vorsprünge in der Regel recht begrenzt sind, die Topografie nur einen begrenzten Varianzbereich aufweist, der umfassend in einem Datensatz erfasst werden kann, und wir uns (noch) nicht mit der Erstellung künstlicher Menschen oder der Bewältigung des Uncanny Valley befassen müssen.
Segmentierungskarten umkehren
Google hat eine animierte Version des GauGAN-Schemas namens entwickelt Unendliche Natur, das in der Lage ist, kontinuierliche und nie endende fiktive Landschaften absichtlich zu „halluzinieren“, indem es gefälschte semantische Karten mithilfe von NVIDIAs in fotorealistische Bilder übersetzt SPATEN Füllsystem:

Quelle: https://www.youtube.com/watch?v=oXUf6anNAtc
Allerdings verwendet Infinite Nature ein einzelnes Bild als Ausgangspunkt und verwendet SPADE lediglich zum Einmalen der fehlenden Abschnitte in aufeinanderfolgenden Frames, während SPADE selbst Bildtransformationen direkt aus Segmentierungskarten erstellt.
Es ist diese Fähigkeit, die offenbar Bewunderer des Intel Image Enhancement-Systems begeistert hat – die Möglichkeit, aus extrem groben Eingaben fotorealistische Bilder von sehr hoher Qualität abzuleiten, sogar (irgendwann) in Echtzeit.
Ersetzen von Texturen und Beleuchtung durch neuronales Rendering
Im Fall der GTA5-Eingabe haben sich einige gefragt, ob die rechenintensive prozedurale und Bitmap-Texturierung und Beleuchtung der Ausgabe der Spiel-Engine in zukünftigen neuronalen Rendering-Systemen wirklich notwendig sein wird oder ob es möglich sein könnte, Eingaben mit niedriger Auflösung und Drahtgitter-Ebene in fotorealistische Videos umzuwandeln, die die Schattierungs-, Texturierungs- und Beleuchtungsfunktionen von Spiel-Engines übertreffen und so hyperrealistische Szenen aus „Platzhalter“-Proxy-Eingaben erstellen.
Es mag offensichtlich erscheinen, dass spielgenerierte Facetten wie Reflexionen, Texturen und andere Arten von Umgebungsdetails wesentliche Informationsquellen für ein neuronales Rendering-System sind, wie es Intel vorstellt. Doch es ist schon einige Jahre her, seit NVIDIAs EINHEIT (UNsupervised Image-to-image Translation Networks) hat gezeigt, dass nur die Domäne wichtig ist und dass selbst umfassende Aspekte wie „Tag oder Nacht“ im Wesentlichen Probleme sind, die durch Stilübertragung behandelt werden müssen:
Was die erforderliche Eingabe betrifft, muss die Spiel-Engine möglicherweise nur grundlegende Geometrie- und Physiksimulationen generieren, da die neuronale Rendering-Engine alle anderen Aspekte übermalen kann, indem sie die gewünschten Bilder aus dem erfassten Datensatz synthetisiert und dabei semantische Karten als Interpretation verwendet Schicht.

Das System von Intel verbessert ein vollständig fertiges und gerendertes Bild aus GTA5 und fügt Segmentierung und ausgewertete Tiefenkarten hinzu – zwei Facetten, die möglicherweise direkt von einer abgespeckten Spiel-Engine bereitgestellt werden könnten. Quelle: https://www.youtube.com/watch?v=P1IcaBn3ej0
Intels neuronaler Rendering-Ansatz umfasst die Analyse vollständig gerenderter Frames aus den GTA5-Puffern. Das neuronale System trägt zusätzlich die Aufgabe, sowohl die Tiefenkarten als auch die Segmentierungskarten zu erstellen. Da Tiefenkarten in herkömmlichen 3D-Pipelines implizit verfügbar sind (und ihre Generierung weniger aufwändig ist als Texturierung, Raytracing oder globale Beleuchtung), ist es möglicherweise eine bessere Ressourcennutzung, sie der Spiel-Engine zu überlassen.
Reduzierte Eingabe für eine neuronale Rendering-Engine
Die aktuelle Implementierung des Intel-Bildverbesserungsnetzwerks kann daher viele redundante Rechenzyklen erfordern, da die Spiel-Engine rechenintensive Texturen und Beleuchtung erzeugt, die die neuronale Rendering-Engine nicht wirklich benötigt. Das System scheint auf diese Weise entworfen worden zu sein, nicht weil dies unbedingt ein optimaler Ansatz ist, sondern weil es einfacher ist, eine neuronale Rendering-Engine an eine bestehende Pipeline anzupassen, als eine neue Spiel-Engine zu erstellen, die für einen neuronalen Rendering-Ansatz optimiert ist.
Die sparsamste Ressourcennutzung in einem Spielesystem dieser Art könnte die vollständige Übernahme der GPU durch das neuronale Rendering-System sein, wobei die abgespeckte Proxy-Eingabe von der CPU verarbeitet wird.
Darüber hinaus könnte die Spiel-Engine problemlos selbst repräsentative Segmentierungskarten erstellen, indem sie sämtliche Schattierungen und Beleuchtung in ihrer Ausgabe ausschaltet. Darüber hinaus könnte es Videos mit einer weitaus geringeren Auflösung liefern, als normalerweise erforderlich ist, da das Video den Inhalt nur weitgehend repräsentieren muss, wobei hochauflösende Details von der neuronalen Engine verarbeitet werden, was lokale Rechenressourcen weiter freisetzt.
Frühere Arbeit von Intel ISL mit Segmentierung>Bild
Die direkte Umsetzung der Segmentierung in fotorealistische Videos ist alles andere als hypothetisch. Im Jahr 2017 veröffentlichte Intel ISL, der Urheber des gestrigen Furors, erste Forschungsprojekte ist in der Lage, eine urbane Videosynthese direkt aus der semantischen Segmentierung durchzuführen.

Die Segmentierung von Intel ISL in Bildarbeit ab 2017. Quelle: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
Tatsächlich wurde die ursprüngliche Pipeline von 2017 lediglich erweitert, um der vollständig gerenderten Ausgabe von GTA5 zu entsprechen.
Neuronales Rendering in VFX
Auch das neuronale Rendering aus künstlichen Segmentierungskarten scheint eine vielversprechende Technologie für VFX zu sein, mit der Möglichkeit, sehr einfache Videogramme direkt in fertiges Filmmaterial mit visuellen Effekten zu übersetzen, indem domänenspezifische Datensätze generiert werden, die entweder aus Modellen oder synthetischen (CGI) Bildern stammen.


Ein hypothetisches neuronales Rendering-System, bei dem eine umfassende Abdeckung jedes Zielobjekts in einen beitragenden Datensatz abstrahiert wird und bei dem künstlich generierte Segmentierungskarten als Grundlage für eine fotorealistische Ausgabe in voller Auflösung verwendet werden. Quelle: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/
Die Entwicklung und Einführung solcher Systeme würde den Ort künstlerischer Bemühungen von einem interpretierenden zu einem repräsentativen Arbeitsablauf verlagern und die domänengesteuerte Datenerfassung von einer unterstützenden zu einer zentralen Rolle in der bildenden Kunst erheben.
Der Artikel wurde um 4:55 Uhr aktualisiert, um Material zur Intel ISL 2017-Forschung hinzuzufügen.












