Kunstig intelligens

Forbedring af fotorealismen ved kørselssimuleringer med generative kontradiktoriske netværk

Opdateret on 9. December, 2022

Et nyt forskningsinitiativ mellem USA og Kina har foreslået brugen af Generative Adversarial Networks (GAN'er) for at øge realismen ved køresimulatorer.

I et nyt tag på udfordringen med at producere fotorealistiske POV-kørselsscenarier har forskerne udviklet en hybridmetode, der spiller til styrkerne ved forskellige tilgange, ved at blande det mere fotorealistiske output fra CycleGAN-baserede systemer med mere konventionelt genererede elementer, som kræver et større detaljeringsniveau og ensartethed, såsom vejafmærkning og de faktiske køretøjer set fra førerens synspunkt.

Hybrid Generative Neural Graphics (HGNG) tilbyder en ny retning for køresimuleringer, der bevarer nøjagtigheden af 3D-modeller for væsentlige elementer (såsom vejmarkeringer og køretøjer), mens de spiller til styrkerne ved GAN'er i at generere interessant og ikke-gentagende baggrund og omgivelser detalje. Kilde

Systemet, kaldet Hybrid Generative Neural Graphics (HGNG), injicerer stærkt begrænset output fra en konventionel, CGI-baseret køresimulator i en GAN-pipeline, hvor NVIDIA SWORDS rammer overtager arbejdet med miljøgenerering.

Fordelen er ifølge forfatterne, at køremiljøer potentielt bliver mere mangfoldige, hvilket skaber en mere fordybende oplevelse. Som det står, endda konvertering af CGI-output til fotoreal neural gengivelsesoutput kan ikke løse problemet med gentagelse, da de originale optagelser, der kommer ind i den neurale pipeline, er begrænset af grænserne for modelmiljøerne og deres tendens til at gentage teksturer og masker.

Kilde: https://www.youtube.com/watch?v=0fhUJT21-bs

Konverterede optagelser fra 2021 papir 'Forbedring af fotorealismeforbedring', som forbliver afhængige af CGI-renderede optagelser, inklusive baggrunden og generelle omgivende detaljer, hvilket begrænser mangfoldigheden af miljøer i den simulerede oplevelse. Kilde: https://www.youtube.com/watch?v=P1IcaBn3ej0

I avisen står der*:

»Troværdigheden af en konventionel køresimulator afhænger af kvaliteten af dens computergrafikpipeline, som består af 3D-modeller, teksturer og en gengivelsesmotor. 3D-modeller og teksturer af høj kvalitet kræver håndværk, hvorimod renderingsmotoren skal køre komplicerede fysikberegninger for at opnå en realistisk repræsentation af belysning og skygge.'

nyt papir er titlen Fotorealisme i køresimuleringer: Blanding af generativ modstridende billedsyntese med gengivelse, og kommer fra forskere ved Department of Electrical and Computer Engineering ved Ohio State University og Chongqing Changan Automobile Co Ltd i Chongqing, Kina.

Baggrundsmateriale

HGNG transformerer det semantiske layout af en input CGI-genereret scene ved at blande delvist gengivet forgrundsmateriale med GAN-genererede miljøer. Selvom forskerne eksperimenterede med forskellige datasæt til at træne modellerne, viste det sig at være den mest effektive KITTI Vision Benchmark Suite, som overvejende indeholder optagelser af driver-POV-materiale fra den tyske by Karlsruhe.

HGNG genererer et semantisk segmenteringslayout fra CGI-gengivet output og indsætter derefter SPADE med forskellige stilkodninger for at skabe tilfældige og forskelligartede fotorealistiske baggrundsbilleder, inklusive nærliggende objekter i byscener. Det nye papir fastslår, at gentagne mønstre, som er fælles for ressourcebegrænsede CGI-rørledninger, 'bryder nedsænkning' for menneskelige chauffører ved hjælp af en simulator, og at de mere varierede baggrunde, som en GAN kan give, kan afhjælpe dette problem.

Forskerne eksperimenterede med begge dele Betinget GAN (cGAN) og CycleGAN (CyGAN) som generative netværk, der i sidste ende finder ud af, at hver især har styrker og svagheder: cGAN kræver parrede datasæt, og det gør CyGAN ikke. CyGAN kan dog i øjeblikket ikke udkonkurrere state-of-the-art inden for konventionelle simulatorer, i afventning af yderligere forbedringer i domænetilpasning og cyklus konsistens. Derfor opnår cGAN med dets yderligere parrede datakrav de bedste resultater i øjeblikket.

Den konceptuelle arkitektur af HGNG.

I HGNG neurale grafikpipeline dannes 2D-repræsentationer ud fra CGI-syntetiserede scener. Objekterne, der føres igennem til GAN-flowet fra CGI-gengivelsen, er begrænset til "væsentlige" elementer, herunder vejafmærkninger og køretøjer, som et GAN i øjeblikket ikke selv kan gengive med tilstrækkelig tidsmæssig konsistens og integritet til en køresimulator. Det cGAN-syntetiserede billede blandes derefter med den delvise fysikbaserede gengivelse.

Tests

For at teste systemet brugte forskerne SPADE, trænet på Bybilleder, for at konvertere scenens semantiske layout til fotorealistisk output. CGI-kilden kom fra open source køresimulator CARLA, som udnytter Unreal Engine 4 (UE4).

Output fra open source køresimulatoren CARLA. Kilde: https://arxiv.org/pdf/1711.03938.pdf

Skygge- og belysningsmotoren i UE4 leverede det semantiske layout og de delvist gengivede billeder, med kun køretøjer og vognbanemarkeringer. Blanding blev opnået med en GP-GAN instans uddannet på Database for forbigående attributter, og alle eksperimenter kører på en NVIDIA RTX 2080 med 8 GB GDDR6 VRAM.

SIGGRAPH 2014 - Forbigående attributter til forståelse og redigering af udendørs scener på højt niveau

SIGGRAPH 2014 - Transient Attributes for High-Level Understanding and Editing of Outdoor Scenes

Watch this video on YouTube

Forskerne testede for semantisk fastholdelse – outputbilledets evne til at svare til den indledende semantiske segmenteringsmaske, der er beregnet som skabelonen for scenen.

I testbillederne ovenfor ser vi, at i 'gengivelse kun'-billedet (nederst til venstre) opnår den fulde gengivelse ikke plausible skygger. Forskerne bemærker, at her (gul cirkel) blev skygger af træer, der falder ned på fortovet, fejlagtigt klassificeret efter DeepLabV3 (den semantiske segmenteringsramme brugt til disse eksperimenter) som 'vej'-indhold.

I den midterste kolonne-flow ser vi, at cGAN-skabte køretøjer ikke har tilstrækkelig konsistent definition til at være brugbare i en køresimulator (rød cirkel). I kolonneflowet længst til højre er det blandede billede i overensstemmelse med den originale semantiske definition, mens de bevarer væsentlige CGI-baserede elementer.

For at vurdere realisme brugte forskerne Frechet Inception Distance (FID) som en præstationsmåling, da den kan fungere på parrede data eller uparrede data.

Tre datasæt blev brugt som grundsandhed: Cityscapes, KITTI og ADE20K.

Outputbillederne blev sammenlignet med hinanden ved hjælp af FID-scorer og mod den fysikbaserede (dvs. CGI) pipeline, mens semantisk retention også blev evalueret.

I resultaterne ovenfor, som relaterer til semantisk fastholdelse, er højere score bedre, hvor den CGAN-pyramidebaserede tilgang (en af flere pipelines testet af forskerne) scorer højest.

Resultaterne afbilledet direkte ovenfor vedrører FID-scoringer, hvor HGNG scorer højest ved brug af KITTI-datasættet.

'Only render'-metoden (betegnet som [23]) vedrører output fra CARLA, et CGI-flow, som ikke forventes at være fotorealistisk.

Kvalitative resultater på den konventionelle gengivelsesmotor ('c' i billedet direkte ovenfor) viser urealistisk fjern baggrundsinformation, såsom træer og vegetation, mens de kræver detaljerede modeller og just-in-time mesh-indlæsning, såvel som andre processorkrævende procedurer. I midten (b) ser vi, at cGAN ikke opnår tilstrækkelig definition af de væsentlige elementer, biler og vejafmærkninger. I det foreslåede blandede output (a) er definitionen af køretøj og vej god, mens det omgivende miljø er forskelligartet og fotorealistisk.

Artiklen afsluttes med at foreslå, at den tidsmæssige konsistens af den GAN-genererede sektion af renderingspipelinen kunne øges ved brug af større bydatasæt, og at fremtidigt arbejde i denne retning kunne tilbyde et reelt alternativ til dyre neurale transformationer af CGI-baserede vandløb, samtidig med at det giver større realisme og mangfoldighed.

* Min konvertering af forfatternes inline-citater til hyperlinks.

Først offentliggjort 23. juli 2022.