Künstliche Intelligenz

Neuronale Rendering: Wie niedrig kann man in Bezug auf die Eingabe gehen?

Published May 13, 2021

Updated April 28, 2026

Martin Anderson

Gestern hat eine außergewöhnliche neue Arbeit in der neuralen Bildsynthese die Aufmerksamkeit und die Vorstellungskraft des Internets auf sich gezogen, als Intel-Forscher eine neue Methode zur Verbesserung der Realistik synthetischer Bilder enthüllten.

Das System, wie in einem Video von Intel demonstriert, greift direkt in die Bildpipeline des Videospiels Grand Theft Auto V ein und verbessert die Bilder automatisch durch einen Bildsynthese-Algorithmus, der auf einem konvolutionellen neuronalen Netzwerk (CNN) trainiert wurde, unter Verwendung von realen Bildern aus dem Mapillary-Dataset, und ersetzt die weniger realistische Beleuchtung und Texturierung des GTA-Spiel-Engines.

Kommentatoren in einer breiten Palette von Reaktionen in Communities wie Reddit und Hacker News sind der Meinung, dass neuronale Rendering dieser Art nicht nur die weniger photorealistischen Ausgaben traditioneller Spiel-Engines und VFX-Levels CGI ersetzen könnte, sondern dass dieser Prozess auch mit wesentlich grundlegenderer Eingabe als im Intel-GTA5-Demo demonstriert wurde, durchgeführt werden könnte – effektiv “Puppen”-Proxy-Eingaben mit massiv realistischen Ausgaben erstellen.

Paarierte Datensätze

Das Prinzip wurde von einer neuen Generation von GAN- und Encoder/Decoder-Systemen über die letzten drei Jahre hinweg exemplifiziert, wie z.B. NVIDIAs GauGAN, das photorealistische Landschaftsbilder aus groben Skizzen generiert.

Effektiv dreht dieses Prinzip die konventionelle Verwendung von semantischer Segmentierung in Computer-Vision von einer passiven Methode, die es maschinellen Systemen ermöglicht, beobachtete Objekte zu identifizieren und zu isolieren, in eine kreative Eingabe, bei der der Benutzer eine falsche semantische Segmentierungskarte “malt” und das System Bilder generiert, die konsistent mit den Beziehungen sind, die es aus der Klassifizierung und Segmentierung eines bestimmten Bereichs, wie z.B. einer Landschaft, versteht.

Ein maschinelles Lern-Framework wendet semantische Segmentierung auf verschiedene Außenbereiche an, um das architektonische Paradigma bereitzustellen, das die Entwicklung interaktiver Systeme ermöglicht, bei denen der Benutzer eine semantische Segmentierungskarte “malt” und das System den Block mit geeigneten Bildern aus einem domänen-spezifischen Dataset, wie z.B. dem Mapillary-Street-View-Set, das in Intels GTA5-Neural-Rendering-Demo verwendet wird, füllt. Quelle: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Paarierte Datensatz-Bildsynthese-Systeme funktionieren, indem sie semantische Labels auf zwei Datensätzen korrelieren: einem reichen und umfassenden Bild-Set, das entweder aus realen Bildern (wie dem Mapillary-Set, das zur Verbesserung von GTA5 in Intels Demo verwendet wurde) oder aus synthetischen Bildern (wie CGI-Bildern) generiert wird.

Beispiele für paarierte Datensätze für ein Bildsynthese-System, das neuronale gerenderte Charaktere aus groben Skizzen erstellt. Links, Beispiele aus dem CGI-Datensatz. Mitte, entsprechende Beispiele aus dem “Skizze”-Datensatz. Rechts, neuronale Rendern, die Skizzen in hochwertige Bilder übersetzt haben. Quelle: https://www.youtube.com/watch?v=miLIwQ7yPkA

Außenbereiche sind relativ unkompliziert, wenn man paarierte Datensatz-Transformationen dieser Art erstellt, da Vorsprünge normalerweise ziemlich begrenzt sind, die Topographie einen begrenzten Varianzbereich hat, der umfassend in einem Datensatz erfasst werden kann, und man nicht mit der Erstellung künstlicher Menschen oder der Bewältigung des Uncanny Valley (noch) zu tun hat.

Umkehrung von Segmentierungskarten

Google hat eine animierte Version des GauGAN-Schemas entwickelt, genannt Infinite Nature, die in der Lage ist, kontinuierliche und nie endende fiktive Landschaften zu “halluzinieren”, indem sie falsche semantische Karten in photorealistische Bilder übersetzt, unter Verwendung von NVIDIAs SPADE-Infill-System:

Quelle: https://www.youtube.com/watch?v=oXUf6anNAtc

Allerdings verwendet Infinite Nature ein einzelnes Bild als Ausgangspunkt und verwendet SPADE nur, um die fehlenden Abschnitte in aufeinanderfolgenden Bildern zu füllen, während SPADE selbst Bild-Transformationen direkt aus Segmentierungskarten erstellt.

Quelle: https://nvlabs.github.io/SPADE/

Es ist diese Fähigkeit, die anscheinend die Bewunderer des Intel-Bildverbesserungssystems begeistert hat – die Möglichkeit, sehr hochwertige photorealistische Bilder, sogar in Echtzeit (eventuell), aus extrem groben Eingaben zu erhalten.

Ersetzen von Texturen und Beleuchtung durch neuronale Rendering

Im Falle der GTA5-Eingabe haben sich einige gefragt, ob die komputational aufwändigen prozeduralen und Bitmap-Texturen und Beleuchtungen des Spiel-Engines-Ausgangs wirklich notwendig sind in zukünftigen neuronalen Rendering-Systemen oder ob es möglich sein könnte, Niedrigauflösungs-, Drahtgitter-Eingaben in photorealistische Videos umzuwandeln, die die Schattier-, Textur- und Beleuchtungsfähigkeiten von Spiel-Engines übertreffen, und hyper-realistische Szenen aus “Platzhalter”-Proxy-Eingaben zu erstellen.

Es mag offensichtlich erscheinen, dass spielgenerierte Aspekte wie Reflexionen, Texturen und andere Arten von Umgebungsdetails wesentliche Informationsquellen für ein neuronales Rendering-System der Art sind, die von Intel demonstriert wurde. Doch es ist bereits einige Jahre her, seit NVIDIAs UNIT (UNsupervised Image-to-image Translation Networks) gezeigt hat, dass nur die Domäne wichtig ist und dass sogar umfassende Aspekte wie “Nacht oder Tag” im Wesentlichen Fragen sind, die von Style-Transfer gehandhabt werden:

In Bezug auf die erforderliche Eingabe könnte dies potenziell bedeuten, dass der Spiel-Engine nur die Basis-Geometrie und Physik-Simulationen generieren muss, da das neuronale Rendering-System alle anderen Aspekte durch die Synthese der gewünschten Bilder aus dem erfassten Datensatz, unter Verwendung von semantischen Karten als Interpretationsschicht, übermalen kann.

Intels System verbessert ein vollständig gerendertes Bild von GTA5, fügt Segmentierung und ausgewertete Tiefen-Karten hinzu – zwei Aspekte, die potenziell direkt von einer heruntergestuften Spiel-Engine bereitgestellt werden könnten. Quelle: https://www.youtube.com/watch?v=P1IcaBn3ej0

Intels neuronaler Rendering-Ansatz umfasst die Analyse vollständig gerendeter Bilder aus den GTA5-Puffern, und das neuronale System hat die zusätzliche Last, sowohl die Tiefen-Karten als auch die Segmentierungskarten zu erstellen. Da Tiefen-Karten implizit in traditionellen 3D-Pipelines verfügbar sind (und weniger anspruchsvoll zu generieren sind als Textur, Ray-Tracing oder globale Beleuchtung), könnte es eine bessere Verwendung von Ressourcen sein, die Spiel-Engine diese Aufgabe übernehmen zu lassen.

Heruntergestuften Eingabe für ein neuronales Rendering-System

Die aktuelle Implementierung des Intel-Bildverbesserungsnetzwerks könnte daher eine große Menge redundanter Rechenzyklen beinhalten, da die Spiel-Engine komputational aufwändige Texturen und Beleuchtungen generiert, die das neuronale Rendering-System nicht wirklich benötigt. Das System scheint auf diese Weise entworfen worden zu sein, nicht weil dies unbedingt ein optimaler Ansatz ist, sondern weil es einfacher ist, ein neuronales Rendering-System an eine bestehende Pipeline anzupassen, als ein neues Spiel-Engine zu erstellen, das auf einen neuronalen Rendering-Ansatz optimiert ist.

Die wirtschaftlichste Verwendung von Ressourcen in einem Spiel-System dieser Art könnte die vollständige Übernahme der GPU durch das neuronale Rendering-System sein, wobei die heruntergestuften Proxy-Eingaben von der CPU gehandhabt werden.

Darüber hinaus könnte die Spiel-Engine leicht repräsentative Segmentierungskarten selbst erstellen, indem sie alle Schattier- und Beleuchtungseffekte in ihrer Ausgabe deaktiviert. Zusätzlich könnte sie Videos in einer wesentlich niedrigeren Auflösung als normalerweise erforderlich liefern, da das Video nur repräsentativ für den Inhalt sein müsste, wobei die hochauflösenden Details vom neuronalen Motor gehandhabt werden, was lokale Rechenressourcen weiter freigibt.

Intel ISLs vorherige Arbeit mit Segmentierung > Bild

Die direkte Übersetzung von Segmentierung in photorealistische Video ist weit von hypothetisch entfernt. Im Jahr 2017 veröffentlichte Intel ISL, der Schöpfer von gestern, erste Forschung, die in der Lage war, urbane Video-Synthese direkt aus semantischer Segmentierung durchzuführen.

Intel ISLs Arbeit zur Segmentierung in Bildern aus dem Jahr 2017. Quelle: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

In der Tat wurde diese ursprüngliche Pipeline von 2017 lediglich erweitert, um auf die vollständig gerenderte Ausgabe von GTA5 zu passen.

Neuronales Rendering in VFX

Neuronales Rendering aus künstlichen Segmentierungskarten scheint auch eine vielversprechende Technologie für VFX zu sein, mit der Möglichkeit, sehr grundlegende Videogramme direkt in fertige visuelle Effekte-Footage umzuwandeln, indem man domänen-spezifische Datensätze erstellt, die entweder aus Modellen oder synthetischen (CGI-) Bildern stammen.

Ein hypothetisches neuronales Rendering-System, bei dem umfassende Abdeckung jedes Ziel-Objekts in einen Beitragenden-Datensatz abstrahiert wird und bei dem künstlich generierte Segmentierungskarten als Grundlage für hochauflösende photorealistische Ausgaben verwendet werden. Quelle: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Die Entwicklung und Adoption solcher Systeme würde den Schwerpunkt der künstlerischen Anstrengung von einer interpretativen zu einer repräsentativen Arbeitsweise verlagern und die domänen-getriebene Datensammlung von einer unterstützenden zu einer zentralen Rolle in den visuellen Künsten erhöhen.