Kunstig intelligens
Forbedring av fotorealistisk kvalitet i kjøresimulatorer med Generative Adversarial Networks

Et nytt forskningsinitiativ mellom USA og Kina har foreslått å bruke Generative Adversarial Networks (GANs) til å øke realisme i kjøresimulatorer.
I en ny tilnærming til utfordringen med å produsere fotorealistiske POV-kjørescenarioer, har forskerne utviklet en hybridmetode som utnytter styrkene til ulike tilnærminger, ved å blande den mer fotorealistiske utdataen fra CycleGAN-baserte systemer med mer konvensjonelt genererte elementer, som krever en høyere nivå av detalj og konsistens, som f.eks. veimarkeringer og de faktiske kjøretøyene sett fra sjåførens synsvinkel.

Hybrid Generative Neural Graphics (HGNG) tilbyr en ny retning for kjøresimulatorer som beholder nøyaktigheten av 3D-modeller for essensielle elementer (som veimarkeringer og kjøretøy), samtidig som det utnytter styrkene til GANs i å generere interessante og ikke-repetitive bakgrunn og ambient detaljer. Source
Systemet, kalt Hybrid Generative Neural Graphics (HGNG), injiserer høyt begrensede utdata fra en konvensjonell, CGI-basert kjøresimulator inn i en GAN-pipeline, der NVIDIA SPADE-rammeverket tar over arbeidet med miljøgenerering.
Fordelen, ifølge forfatterne, er at kjøremiljøer vil bli potensielt mer diverse, og skape en mer immersiv opplevelse. Som det står nå, kan ikke sogar konvertering av CGI-utdata til fotorealistisk neuralt renderingsutdata løse problemet med repetisjon, siden den opprinnelige filmen som går inn i neuralt rørledning er begrenset av modellmiljøets begrensninger, og deres tendens til å repetere teksturer og mesh.

Konvertert film fra 2021 paper ‘Enhancing photorealism enhancement’, som fortsatt er avhengig av CGI-renderede film, inkludert bakgrunn og generell ambient detalj, begrenser variasjonen i simuleringsopplevelsen. Source: https://www.youtube.com/watch?v=P1IcaBn3ej0
Papiret sier*:
‘Troskaben til en konvensjonell kjøresimulator avhenger av kvaliteten på dens computergrafikkrørledning, som består av 3D-modeller, teksturer og en renderingsmotor. Høykvalitets 3D-modeller og teksturer krever håndverk, mens renderingsmotoren må kjøre kompliserte fysikkberegninger for realistisk representasjon av lys og skygge.’
Den nye papiret heter Photorealism in Driving Simulations: Blending Generative Adversarial Image Synthesis with Rendering, og kommer fra forskere ved Department of Electrical and Computer Engineering ved Ohio State University, og Chongqing Changan Automobile Co Ltd i Chongqing, Kina.
Bakgrunnsstoff
HGNG transformerer den semantiske layouten av en innputt CGI-generert scene ved å blande delvis renderet forgrunnsstoff med GAN-genererte miljøer. Selv om forskerne eksperimenterte med ulike datasett for å trene modellene, viste det seg at KITTI Vision Benchmark Suite var det mest effektive, som hovedsakelig består av opptak av sjåfør-POV-materiale fra den tyske byen Karlsruhe.

HGNG genererer en semantisk segmenteringslayout fra CGI-renderet utdata, og deretter interposerer SPADE, med varierende stil-koder, for å skape tilfeldige og diverse fotorealistiske bakgrunnsbilder, inkludert nærliggende objekter i urbane scener. Den nye papiret sier at repetitive mønster, som er vanlige i ressurs-begrensede CGI-rørledninger, ‘bryter innlevelse’ for menneskelige sjåfører som bruker en simulator, og at de mer varierte bakgrunnene som en GAN kan tilby kan lettet dette problemet.
Forskerne eksperimenterte med både Conditional GAN (cGAN) og CYcleGAN (CyGAN) som generative nettverk, og fant til slutt at hver har styrker og svakheter: cGAN krever parrede datasett, og CyGAN gjør ikke. Men CyGAN kan ikke nå utkonkurrere state-of-the-art i konvensjonelle simulatorer, avhengig av videre forbedringer i domene-adapsjon og syklus-konsistens. Derfor er cGAN, med sine ekstra parrede datakrav, den beste nå.

Den konseptuelle arkitekturen til HGNG.
I HGNG neurale grafikkrørledningen, dannes 2D-representasjoner fra CGI-syntetiserte scener. Objektene som sendes gjennom til GAN-strømmen fra CGI-renderingen er begrensede til ‘essensielle’ elementer, inkludert veimarkeringer og kjøretøy, som en GAN selv ikke nå kan rendre med tilstrekkelig temporel konsistens og integritet for en kjøresimulator. cGAN-syntetiserte bildet blandes deretter med delvis fysikkbasert rendering.
Tester
For å teste systemet, brukte forskerne SPADE, trent på Cityscapes, for å konvertere den semantiske layouten av scenen til fotorealistisk utdata. CGI-kilden kom fra åpen kilde kjøresimulator CARLA, som utnytter Unreal Engine 4 (UE4).

Utdata fra åpen kilde kjøresimulator CARLA. Source: https://arxiv.org/pdf/1711.03938.pdf
Skygge- og lysmotoren til UE4 ga den semantiske layouten og delvis renderet bildene, med bare kjøretøy og veimarkeringer utdata. Blanding ble oppnådd med en GP-GAN-instans trent på Transient Attributes Database, og alle eksperimenter kjørte på en NVIDIA RTX 2080 med 8 GB GDDR6 VRAM.
Forskerne testet for semantisk bevaring – evnen til utdata-bildet til å korrespondere med den opprinnelige semantiske segmenteringsmasken som var ment som mal for scenen.
I testbildene ovenfor ser vi at i ‘render kun’-bildet (nederst til venstre), fullstendig rendering ikke oppnår troverdige skygger. Forskerne merker at her (gul sirkel) skygger av trær som faller på fortauet ble feilaktig klassifisert av DeepLabV3 (den semantiske segmenteringsrammeverket brukt for disse eksperimentene) som ‘vei’-innhold.
I midtkolonne-strømmen ser vi at cGAN-oppcreatede kjøretøy ikke har nok konsistent definisjon til å være brukbare i en kjøresimulator (rød sirkel). I høyre kolonne-strømmen konformerer det blandede bildet til den opprinnelige semantiske definisjonen, samtidig som det beholder essensielle CGI-baserte elementer.
For å evaluere realisme, brukte forskerne Frechet Inception Distance (FID) som en ytelsesmetrik, siden det kan operere på parrede data eller uparrede data.
Tre datasett ble brukt som bakgrunnsfakta: Cityscapes, KITTI og ADE20K.
Utdata-bildene ble sammenlignet med hverandre ved hjelp av FID-poeng, og mot den fysikkbaserte (dvs. CGI) rørledningen, mens semantisk bevaring også ble evaluert.

I resultater ovenfor, som gjelder semantisk bevaring, er høyere poeng bedre, med cGAN-pyramidebasert tilnærming (en av flere rørledninger testet av forskerne) som scorer høyest.

Resultatene ovenfor gjelder FID-poeng, med HGNG som scorer høyest ved hjelp av KITTI-datasettet.
‘Den kun render’-metoden (betegnet som [23]) gjelder for utdata fra CARLA, en CGI-strøm som ikke forventes å være fotorealistisk.
Kvalitative resultater på den konvensjonelle renderingsmotoren (‘c’ i bildet ovenfor) viser urealistiske fjerne bakgrunnsinformasjon, som f.eks. trær og vegetasjon, samtidig som det krever detaljerte modeller og just-in-time mesh-lastning, samt andre prosessor-intensiv prosedyrer. I midten (b) ser vi at cGAN ikke kan oppnå tilstrekkelig definisjon for de essensielle elementene, biler og veimarkeringer. I det foreslåtte blandede utdata (a) er definisjonen av kjøretøy og vei god, mens den omgivende miljøet er divers og fotorealistisk.
Papiret konkluderer med å foreslå at den temporale konsistensen av GAN-genererte delen av renderingsrørledningen kan økes gjennom bruk av større urbane datasett, og at fremtidig arbeid i denne retningen kan tilby en reell alternativ til kostbare neurale transformasjoner av CGI-baserte strømmer, samtidig som det gir større realisme og variasjon.
* Min konvertering av forfatternes inline-citater til hyperlenker.
Først publisert 23. juli 2022.














