Connect with us

Forbedring af fotorealistisk billedkvalitet i køresimulationer med Generative Adversarial Networks

Kunstig intelligens

Forbedring af fotorealistisk billedkvalitet i køresimulationer med Generative Adversarial Networks

mm

Et nyt forskningsinitiativ mellem USA og Kina har foreslået at bruge Generative Adversarial Networks (GANs) til at øge realisme i køresimulatorer.

I en ny tilgang til udfordringen med at producere fotorealistiske POV-kørescener, har forskerne udviklet en hybridmetode, der udnytter styrkerne i varierende tilgange, ved at kombinere den mere fotorealistiske output fra CycleGAN-baserede systemer med mere konventionelt genererede elementer, som kræver en højere niveau af detaljer og konsistens, såsom vejmarkeringer og de faktiske køretøjer set fra chaufførens synspunkt.

Hybrid Generative Neural Graphics (HGNG) tilbyder en ny retning for køresimulationer, der fastholder nøjagtigheden af 3D-modeller for essentielle elementer (såsom vejmarkeringer og køretøjer), samtidig med at udnytte styrkerne i GANs til at generere interessante og ikke-repetitive baggrund og ambient detaljer. Kilde

Hybrid Generative Neural Graphics (HGNG) tilbyder en ny retning for køresimulationer, der fastholder nøjagtigheden af 3D-modeller for essentielle elementer (såsom vejmarkeringer og køretøjer), samtidig med at udnytte styrkerne i GANs til at generere interessante og ikke-repetitive baggrund og ambient detaljer. Kilde

Systemet, der hedder Hybrid Generative Neural Graphics (HGNG), indsprøjter højtbegrænset output fra en konventionel, CGI-baseret køresimulator i en GAN-pipeline, hvor NVIDIA SPADE-rammen overtager arbejdet med miljøgenerering.

Fordelen, ifølge forfatterne, er, at køremiljøer vil blive potentielt mere varierede, hvilket skaber en mere immersiv oplevelse. Som det er nu, kan selv konvertering af CGI-output til fotorealistisk neural rendering-output ikke løse problemet med repetition, da den originale footage, der indgår i neural-pipelines, er begrænset af modellens miljøer og deres tendens til at gentage teksturer og mesh.

Kilde: https://www.youtube.com/watch?v=0fhUJT21-bs

Konverteret footage fra 2021 paper ‘Enhancing photorealism enhancement’, der stadig afhænger af CGI-renderet footage, herunder baggrund og generel ambient detalje, hvilket begrænser variationen i den simulerede oplevelse. Kilde: https://www.youtube.com/watch?v=P1IcaBn3ej0

Papiret siger*:

‘Trovheden af en konventionel køresimulator afhænger af kvaliteten af dets computergrafik-pipeline, der består af 3D-modeller, teksturer og en renderingsmotor. Højkvalitets 3D-modeller og teksturer kræver håndværk, hvorimod renderingsmotoren må udføre komplicerede fysikberegnninger for den realistiske repræsentation af belysning og skygge.’

Den nye papir er titlen Photorealism in Driving Simulations: Blending Generative Adversarial Image Synthesis with Rendering, og kommer fra forskere ved Department of Electrical and Computer Engineering på Ohio State University og Chongqing Changan Automobile Co Ltd i Chongqing, Kina.

Baggrundsmateriale

HGNG transformerer den semantiske layout af en input CGI-genereret scene ved at kombinere delvist renderet forgrundsmateriale med GAN-genererede miljøer. Selvom forskerne eksperimenterede med forskellige datasæt til at træne modellerne, var det mest effektive datasæt KITTI Vision Benchmark Suite, der primært består af optagelser af chauffør-POV-materiale fra den tyske by Karlsruhe.

HGNG genererer en semantisk segmenteringslayout fra CGI-renderet output, og derefter indsætter SPADE med varierende stil-kodninger, for at skabe tilfældige og diverse fotorealistiske baggrundsbilleder, herunder nærliggende objekter i byscener. Den nye papir siger, at gentagne mønstre, der er almindelige for ressource-begrænsede CGI-pipelines, 'bryder immersion' for menneskelige chauffører, der bruger en simulator, og at de mere varierede baggrunde, som en GAN kan tilbyde, kan lette dette problem.

HGNG genererer en semantisk segmenteringslayout fra CGI-renderet output, og derefter indsætter SPADE med varierende stil-kodninger, for at skabe tilfældige og diverse fotorealistiske baggrundsbilleder, herunder nærliggende objekter i byscener. Den nye papir siger, at gentagne mønstre, der er almindelige for ressource-begrænsede CGI-pipelines, ‘bryder immersion’ for menneskelige chauffører, der bruger en simulator, og at de mere varierede baggrunde, som en GAN kan tilbyde, kan lette dette problem.

Forskere eksperimenterede med både Conditional GAN (cGAN) og CYcleGAN (CyGAN) som generative netværk, og fandt til sidst, at hver har styrker og svagheder: cGAN kræver parrede datasæt, og CyGAN gør ikke. Imidlertid kan CyGAN ikke nu udgøre den nuværende standard i konventionelle simulatorer, afhængigt af yderligere forbedringer i domæne-tilpasning og cyklus-konsistens. Derfor får cGAN, med dens yderligere parrede datakrav, de bedste resultater i øjeblikket.

Den konceptuelle arkitektur af HGNG.

Den konceptuelle arkitektur af HGNG.

I HGNG neural grafik-pipeline, dannes 2D-repræsentationer fra CGI-synthesizede scener. Objekterne, der overføres til GAN-flow, er begrænset til ‘essentielle’ elementer, herunder vejmarkeringer og køretøjer, som en GAN selv ikke kan nu rendre med tilstrækkelig temporal konsistens og integritet til en køresimulator. cGAN-synthesizede billedet bliver derefter kombineret med den delvist fysik-baserede render.

Tests

For at teste systemet, brugte forskerne SPADE, trænet på Cityscapes, til at konvertere den semantiske layout af scenen til fotorealistisk output. CGI-kilden kom fra open source køresimulator CARLA, der udnytter Unreal Engine 4 (UE4).

Output fra den open source køresimulator CARLA. Kilde: https://arxiv.org/pdf/1711.03938.pdf

Output fra den open source køresimulator CARLA. Kilde: https://arxiv.org/pdf/1711.03938.pdf

Skygge- og belysningsmotoren i UE4 leverede den semantiske layout og de delvist renderede billeder, med kun køretøjer og vejmarkeringer som output. Blending blev opnået med en GP-GAN-instance trænet på Transient Attributes Database, og alle eksperimenter kørte på en NVIDIA RTX 2080 med 8 GB GDDR6 VRAM.

Forskere testede for semantisk retention – evnen af output-billedet til at korrespondere med den oprindelige semantiske segmenteringsmaske, der var tænkt som skabelonen for scenen.

I testbillederne ovenfor ser vi, at i ‘render kun’-billedet (nederst til venstre), får den fulde render ikke plausibele skygger. Forskere bemærker, at her (gul cirkel) skygger af træer, der falder på fortovet, blev fejltolket af DeepLabV3 (den semantiske segmenteringsramme, der blev brugt til disse eksperimenter) som ‘vej’-indhold.

I midterkolonne-flow ser vi, at cGAN-oprettede køretøjer ikke har nok konsistent definition til at være brugbare i en køresimulator (rød cirkel). I højre kolonne-flow konformerer det blendede billede til den oprindelige semantiske definition, samtidig med at det fastholder essentielle CGI-baserede elementer.

For at evaluere realisme, brugte forskerne Frechet Inception Distance (FID) som en performances-måling, da det kan operere på parrede data eller uparrede data.

Tre datasæt blev brugt som grund sandhed: Cityscapes, KITTI og ADE20K.

Output-billederne blev sammenlignet med hinanden ved hjælp af FID-scores, og mod den fysik-baserede (dvs. CGI) pipeline, mens semantisk retention også blev evalueret.

I resultaterne ovenfor, der vedrører semantisk retention, er højere score bedre, med cGAN-pyramide-tilgangen (en af flere pipelines, der blev testet af forskerne) scoringer højest.

Resultaterne ovenfor vedrører FID-scores, med HGNG scoringer højest gennem brug af KITTI-datasættet.

‘Den kun render’-metoden (betegnet som [23]) vedrører output fra CARLA, en CGI-flow, der ikke forventes at være fotorealistisk.

Kvalitative resultater på den konventionelle renderingsmotor (‘c’ i billedet direkte ovenfor) viser urealistiske fjerne baggrundsinformationer, såsom træer og vegetation, samtidig med at de kræver detaljerede modeller og just-in-time mesh-loading, samt andre processor-intensiverede procedurer. I midten (b) ser vi, at cGAN ikke kan opnå tilstrækkelig definition for de essentielle elementer, biler og vejmarkeringer. I det foreslåede blendede output (a) er køretøj- og vejdefinition god, mens den ambient miljø er divers og fotorealistisk.

Papiret slutter med at foreslå, at den temporale konsistens af GAN-genererede sektioner af renderings-pipeline kunne øges gennem brug af større by-miljø datasæt, og at fremtidig arbejde i denne retning kunne tilbyde en reel alternativ til dyre neurale transformationer af CGI-baserede strømme, samtidig med at det giver større realisme og variation.

 

* Min konvertering af forfatterens inline-citationer til hyperlinks.

Først udgivet 23. juli 2022.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.