Künstliche Intelligenz
Verbesserung der Photorealität von Fahrsimulatoren mit Generativen Adversarialen Netzen

Eine neue Forschungsinitiative zwischen den USA und China hat den Einsatz von Generativen Adversarialen Netzen (GANs) zur Erhöhung der Realität von Fahrsimulatoren vorgeschlagen.
In einer neuen Herangehensweise an die Herausforderung, photorealistische POV-Fahrszenarien zu erstellen, haben die Forscher eine hybride Methode entwickelt, die die Stärken verschiedener Ansätze kombiniert, indem sie die photorealistischeren Ausgaben von CycleGAN-basierten Systemen mit konventionell generierten Elementen mischt, die einen höheren Detaillierungsgrad und eine größere Konsistenz erfordern, wie z.B. Straßenmarkierungen und die tatsächlichen Fahrzeuge aus der Sicht des Fahrers.

Hybrid Generative Neural Graphics (HGNG) bieten eine neue Richtung für Fahrsimulatoren, die die Genauigkeit von 3D-Modellen für wesentliche Elemente (wie Straßenmarkierungen und Fahrzeuge) beibehält, während sie die Stärken von GANs bei der Erstellung interessanter und nicht wiederholbarer Hintergrund- und Umgebungsdetails nutzt. Quelle
Das System, genannt Hybrid Generative Neural Graphics (HGNG), injiziert hochlimitierte Ausgaben aus einem konventionellen, CGI-basierten Fahrsimulator in eine GAN-Pipeline, wo das NVIDIA SPADE-Framework die Arbeit der Umgebungsgenerierung übernimmt.
Der Vorteil, so die Autoren, besteht darin, dass Fahrumgebungen potenziell vielfältiger werden, was zu einer immersiveren Erfahrung führt. Wie es derzeit steht, kann sogar die Umwandlung von CGI-Ausgaben in photorealistische neuronale Renderings den Problem der Wiederholung nicht lösen, da die ursprünglichen Aufnahmen, die in die neuronale Pipeline eingegeben werden, durch die Grenzen der Modelumgebungen und ihre Neigung, Texturen und Meshes zu wiederholen, eingeschränkt sind.

Umgeänderte Aufnahmen aus dem 2021 Paper ‘Verbesserung der Photorealität’, die weiterhin von CGI-gerenderten Aufnahmen abhängig sind, einschließlich Hintergrund und allgemeiner Umgebungsdetails, was die Vielfalt der Umgebung in der simulierten Erfahrung einschränkt. Quelle: https://www.youtube.com/watch?v=P1IcaBn3ej0
Das Paper besagt*:
‘Die Fidelity eines konventionellen Fahrsimulators hängt von der Qualität seiner Computer-Grafik-Pipeline ab, die aus 3D-Modellen, Texturen und einem Rendering-Engine besteht. Hochwertige 3D-Modelle und Texturen erfordern Handwerkskunst, während der Rendering-Engine komplizierte Physikberechnungen für die realistische Darstellung von Licht und Schatten durchführen muss.’
Das neue Paper trägt den Titel Photorealität in Fahrsimulatoren: Kombination von Generativen Adversarialen Bildsynthese mit Rendering und stammt von Forschern der Abteilung für Elektrotechnik und Informatik an der Ohio State University und Chongqing Changan Automobile Co Ltd in Chongqing, China.
Hintergrundmaterial
HGNG transformiert die semantische Layout eines CGI-erzeugten Szenarios, indem es teilweise gerenderte Vordergrundmaterialien mit GAN-erzeugten Umgebungen mischt. Obwohl die Forscher mit verschiedenen Datensätzen experimentierten, um die Modelle zu trainieren, erwies sich der KITTI-Vision-Benchmark-Suite als der effektivste, der hauptsächlich Aufnahmen von Fahrer-POV-Material aus der deutschen Stadt Karlsruhe enthält.

HGNG erzeugt eine semantische Segmentierungslayout aus CGI-gerenderten Ausgaben und interponiert dann SPADE mit verschiedenen Stilencodierungen, um zufällige und vielfältige photorealistische Hintergrundbilder, einschließlich nahe gelegener Objekte in städtischen Szenen, zu erstellen. Das neue Paper besagt, dass repetitive Muster, die in ressourcenbeschränkten CGI-Pipelines häufig vorkommen, die ‘Immersion’ für menschliche Fahrer, die einen Simulator verwenden, ‘brechen’ und dass die vielfältigeren Hintergründe, die ein GAN bereitstellen kann, dieses Problem lösen können.
Die Forscher experimentierten mit Conditional GAN (cGAN) und CycleGAN (CyGAN) als generativen Netzen und fanden letztendlich, dass jeder Ansatz Stärken und Schwächen hat: cGAN erfordert gepaarte Datensätze, und CyGAN nicht. Allerdings kann CyGAN derzeit nicht die Leistung von konventionellen Simulatoren übertreffen, da weitere Verbesserungen in Domänenanpassung und Zykluskonsistenz erforderlich sind. Daher erzielt cGAN, mit seinen zusätzlichen Anforderungen an gepaarte Daten, derzeit die besten Ergebnisse.

Die konzeptionelle Architektur von HGNG.
In der HGNG-Neural-Grafik-Pipeline werden 2D-Darstellungen aus CGI-synthetisierten Szenen gebildet. Die Objekte, die an die GAN-Pipeline weitergeleitet werden, sind auf ‘wesentliche’ Elemente wie Straßenmarkierungen und Fahrzeuge beschränkt, die ein GAN derzeit nicht mit ausreichender zeitlicher Konsistenz und Integrität für einen Fahrsimulator rendern kann. Das cGAN-synthetisierte Bild wird dann mit dem teilweise physikbasierten Render kombiniert.
Tests
Um das System zu testen, verwendeten die Forscher SPADE, trainiert auf Cityscapes, um die semantische Layout der Szene in photorealistische Ausgaben umzuwandeln. Die CGI-Quelle stammte aus dem Open-Source-Fahrsimulator CARLA, der die Unreal Engine 4 (UE4) nutzt.

Ausgabe aus dem Open-Source-Fahrsimulator CARLA. Quelle: https://arxiv.org/pdf/1711.03938.pdf
Die Schattierungs- und Beleuchtungs-Engine von UE4 lieferte die semantische Layout und die teilweise gerenderten Bilder, mit nur Fahrzeugen und Straßenmarkierungen als Ausgabe. Die Kombination wurde mit einer GP-GAN-Instanz durchgeführt, die auf der Transient Attributes Database trainiert wurde, und alle Experimente wurden auf einem NVIDIA RTX 2080 mit 8 GB GDDR6-VRAM durchgeführt.
Die Forscher testeten auf semantische Beibehaltung – die Fähigkeit des Ausgabebildes, der ursprünglichen semantischen Segmentierungsmaske zu entsprechen, die als Vorlage für die Szene gedacht war.
In den Testbildern oben sehen wir, dass in der ‘nur Render’-Bild (unten links) der vollständige Render keine plausiblen Schatten erhält. Die Forscher bemerken, dass hier (gelber Kreis) Schatten von Bäumen, die auf den Bürgersteig fallen, fälschlicherweise von DeepLabV3 (der semantischen Segmentierungsframework, der für diese Experimente verwendet wurde) als ‘Straßen’-Inhalt klassifiziert wurden.
In der mittleren Spalte sehen wir, dass cGAN-erzeugte Fahrzeuge nicht genug konsistente Definition aufweisen, um in einem Fahrsimulator verwendet zu werden (roter Kreis). In der rechten Spalte sehen wir, dass das kombinierte Bild der ursprünglichen semantischen Definition entspricht, während es die wesentlichen CGI-basierten Elemente beibehält.
Um die Realität zu bewerten, verwendeten die Forscher Frechet Inception Distance (FID) als Leistungsmetrik, da es auf gepaarten oder unpaaren Daten operieren kann.
Drei Datensätze wurden als Referenz verwendet: Cityscapes, KITTI und ADE20K.
Die Ausgabebilder wurden miteinander verglichen, indem FID-Scores verwendet wurden, und gegen die physikbasierte (d.h. CGI-) Pipeline, während auch die semantische Beibehaltung bewertet wurde.

In den Ergebnissen oben, die sich auf die semantische Beibehaltung beziehen, sind höhere Werte besser, wobei der cGAN-Pyramidenansatz (einer von mehreren Pipelines, die von den Forschern getestet wurden) den höchsten Wert erreicht.

Die Ergebnisse oben beziehen sich auf FID-Scores, wobei HGNG den höchsten Wert durch die Verwendung des KITTI-Datensatzes erreicht.
Die ‘Nur Render’-Methode (bezeichnet als [23]) bezieht sich auf die Ausgabe von CARLA, einem CGI-Fluss, der nicht photorealistisch sein soll.
Qualitative Ergebnisse auf dem konventionellen Rendering-Engine (‘c’ im Bild oben) zeigen unrealistische Hintergrundinformationen, wie z.B. Bäume und Vegetation, und erfordern detaillierte Modelle und just-in-time-Mesh-Loading sowie andere prozessorintensive Verfahren. In der Mitte (b) sehen wir, dass cGAN nicht genug konsistente Definition für die wesentlichen Elemente erhält. Im vorgeschlagenen kombinierten Ausgabe (a) ist die Definition von Fahrzeugen und Straßenmarkierungen gut, während die Umgebung vielfältig und photorealistisch ist.
Das Paper schließt mit der Aussage, dass die zeitliche Konsistenz des GAN-erzeugten Teils der Rendering-Pipeline durch die Verwendung größerer städtischer Datensätze erhöht werden könnte, und dass zukünftige Arbeiten in dieser Richtung eine reale Alternative zu teuren neuronalen Umwandlungen von CGI-basierten Strömen bieten könnten, während sie eine größere Realität und Vielfalt bieten.
* Meine Umwandlung der inline-Zitate der Autoren in Hyperlinks.
Erstveröffentlicht am 23. Juli 2022.














