Tehisintellekt

Sõidusimulatsioonide fotorealismi parandamine generatiivsete võistlevate võrkude abil

Ajakohastatud on Detsember 9, 2022

Uus uurimisalgatus USA ja Hiina vahel on teinud ettepaneku kasutada generatiivseid võistlevaid võrke (GAN), et suurendada sõidusimulaatorite realistlikkust.

Uudses fotorealistlike POV-sõidustsenaariumide loomise väljakutses on teadlased välja töötanud hübriidmeetodi, mis kasutab erinevate lähenemisviiside tugevaid külgi, segades CycleGAN-põhiste süsteemide fotorealistlikuma väljundi tavapärasemalt genereeritud elementidega, mis nõuavad suurem üksikasjalikkuse ja järjepidevuse tase, näiteks teemärgised ja tegelikud sõidukid, mida juhi vaatenurgast vaadeldakse.

Hübriidne generatiivne närvigraafika (HGNG) pakub sõidusimulatsioonide jaoks uut suunda, mis säilitab oluliste elementide (nt teemärgistused ja sõidukid) 3D-mudelite täpsuse, kasutades samal ajal GAN-ide tugevusi huvitava ja mittekorduva tausta ja ümbritseva keskkonna loomisel. detail. allikas

Süsteem nimega Hybrid Generative Neural Graphics (HGNG) sisestab tavapärase CGI-põhise sõidusimulaatori väga piiratud väljundi GAN torujuhtmesse, kus NVIDIA MÕNED raamistik võtab üle keskkonna loomise töö.

Autorite sõnul on eeliseks see, et sõidukeskkonnad muutuvad potentsiaalselt mitmekesisemaks, luues kaasahaaravama kogemuse. Praegusel kujul isegi konverteeriva CGI väljund fotoreaalsele neuraalsele renderdusväljundile ei saa lahendada kordamise probleemi, kuna närvikonveierisse sisenevat originaalmaterjali piiravad mudelikeskkondade piirangud ning nende kalduvus korrata tekstuure ja võrke.

Allikas: https://www.youtube.com/watch?v=0fhUJT21-bs

Teisendatud kaadrid aastast 2021 paber Fotorealismi täiustamine, mis sõltuvad endiselt CGI-renderdatud filmist, sealhulgas taustast ja ümbritsevast üldisest detailist, piirates simuleeritud kogemuse keskkonna mitmekesisust. Allikas: https://www.youtube.com/watch?v=P1IcaBn3ej0

Lehes on kirjas*:

"Tavalise sõidusimulaatori täpsus sõltub selle arvutigraafika torustiku kvaliteedist, mis koosneb 3D-mudelitest, tekstuuridest ja renderdusmootorist. Kvaliteetsed 3D-mudelid ja tekstuurid nõuavad käsitööd, samas kui renderdusmootor peab teostama keerulisi füüsikalisi arvutusi, et kujutist realistlikult esitada. valgustus ja varjutus.'

. uus paber on pealkirjaga Fotorealism sõidusimulatsioonides: generatiivse võistleva pildi sünteesi ja renderdamise ühendamineja pärineb Ohio osariigi ülikooli elektri- ja arvutitehnika osakonna ning Hiinas Chongqingis asuva Chongqing Changan Automobile Co Ltd teadlastelt.

Tausta materjal

HGNG muudab sisend-CGI-ga loodud stseeni semantilist paigutust, segades osaliselt renderdatud esiplaani materjali GAN-i loodud keskkondadega. Kuigi teadlased katsetasid mudelite koolitamiseks erinevaid andmekogumeid, osutus kõige tõhusamaks KITTI Vision Benchmark Suite, mis sisaldab peamiselt Saksamaa Karlsruhe linnast pärit juhi-POV materjali jäädvustusi.

HGNG genereerib CGI-renderdatud väljundist semantilise segmenteerimispaigutuse ja lisab seejärel erineva stiiliga kodeeringuga SPADE, et luua juhuslikke ja mitmekesiseid fotorealistlikke taustapilte, sealhulgas lähedalasuvaid objekte linnapiltides. Uues dokumendis öeldakse, et korduvad mustrid, mis on omased ressursipiiranguga CGI-konveieritele, "murvad keelekümblust" simulaatorit kasutavate inimjuhtide jaoks ja et GAN-i kirjum taust võib seda probleemi leevendada.

Teadlased katsetasid mõlemaga Tingimuslik GAN (cGAN) ja CYcleGAN (CyGAN) generatiivsete võrkudena, leides lõpuks, et igal neist on tugevad ja nõrgad küljed: cGAN nõuab seotud andmestikud, ja CyGAN seda ei tee. Siiski ei suuda CyGAN praegu tavaliste simulaatorite tipptasemel jõudlust ületada, kuni domeeni kohandamine ja tsükli järjepidevus. Seetõttu saavutab cGAN oma täiendavate paarisandmenõuetega hetkel parimad tulemused.

HGNG kontseptuaalne arhitektuur.

HGNG närvigraafika torujuhtmes moodustatakse CGI-sünteesitud stseenidest 2D esitused. Objektid, mis suunatakse GAN-i voogu CGI-renderdamisest, piirduvad „oluliste” elementidega, sealhulgas teemärgistuste ja sõidukitega, mida GAN ise ei suuda praegu sõidusimulaatori jaoks piisava ajalise järjepidevuse ja terviklikkusega renderdada. Seejärel segatakse cGAN-i sünteesitud pilt osalise füüsikapõhise renderdusega.

Testid

Süsteemi testimiseks kasutasid teadlased väljaõppe saanud SPADE-d Linnapildid, et teisendada stseeni semantiline paigutus fotorealistlikuks väljundiks. CGI allikas pärines avatud lähtekoodiga sõidusimulaatorist CARLA, mis kasutab Unreal Engine 4 (UE4).

Väljund avatud lähtekoodiga sõidusimulaatorist CARLA. Allikas: https://arxiv.org/pdf/1711.03938.pdf

UE4 varjutus- ja valgustusmootor andis semantilise paigutuse ja osaliselt renderdatud kujutised, väljundiks olid ainult sõidukid ja sõiduraja märgised. Segamine saavutati a GP-GAN näiteks koolitatud Mööduvate atribuutide andmebaasja kõik katsed käivad NVIDIA-s RTX 2080 8 GB GDDR6 VRAM-iga.

SIGGRAPH 2014 – mööduvad atribuudid välisstseenide kõrgetasemeliseks mõistmiseks ja toimetamiseks

SIGGRAPH 2014 - Transient Attributes for High-Level Understanding and Editing of Outdoor Scenes

Watch this video on YouTube

Teadlased testisid semantiline säilitamine – väljundpildi võime vastata esialgsele semantilisele segmenteerimismaskile, mis on mõeldud stseeni malliks.

Ülaltoodud testpiltidel näeme, et pildil „ainult renderdamine” (vasakul all) ei saa täisrenderdus usutavaid varje. Teadlased märgivad, et siin (kollane ring) klassifitseeriti kõnniteele langenud puude varjud ekslikult DeepLabV3 (nende katsete jaoks kasutatav semantiline segmenteerimisraamistik) tee sisuna.

Keskmises veerus näeme, et cGAN-i loodud sõidukitel ei ole piisavalt ühtlast määratlust, et neid saaks kasutada sõidusimulaatoris (punane ring). Kõige parempoolsemas veeru voos vastab segatud pilt algsele semantilisele määratlusele, säilitades samal ajal olulised CGI-põhised elemendid.

Realismi hindamiseks kasutasid teadlased Frecheti alguskaugus (FID) toimivusmõõdikuna, kuna see võib töötada nii seotud kui ka sidumata andmetega.

Põhitõena kasutati kolme andmekogumit: Cityscapes, KITTI ja ADE20K.

Väljundpilte võrreldi üksteisega FID skooride ja füüsikapõhise (st CGI) torujuhtmega, kusjuures hinnati ka semantilist säilivust.

Ülaltoodud tulemustes, mis on seotud semantilise säilimisega, on kõrgemad skoorid paremad, CGAN-i püramiidil põhinev lähenemisviis (üks mitmest teadlaste testitud torujuhtmest) on kõrgeim.

Otse ülaltoodud tulemused puudutavad FID skoore, kusjuures HGNG skoor on kõrgeim KITTI andmestiku kasutamisel.

Meetod „Ainus renderdus” (tähistatud kui [23]) puudutab CARLA väljundit, CGI-voogu, mis ei ole eeldatavasti fotorealistlik.

Tavapärase renderdusmootori kvalitatiivsed tulemused ("c" otse ülaloleval pildil) näitavad ebarealistlikku kauget taustateavet, nagu puud ja taimestik, nõudes samal ajal üksikasjalikke mudeleid ja õigeaegset võrgusilma laadimist, aga ka muid protsessorimahukaid protseduure. Keskel (b) näeme, et cGAN ei suuda saada oluliste elementide, autode ja teemärgistuste jaoks piisavat määratlust. Kavandatavas kombineeritud väljundis (a) on sõiduki ja tee määratlus hea, samas kui ümbritsev keskkond on mitmekesine ja fotorealistlik.

Dokumendis tehakse järeldus, et GAN-i genereeritud renderdamiskonveieri lõigu ajalist järjepidevust saab suurendada suuremate linnade andmekogumite kasutamisega ning et tulevane töö selles suunas võib pakkuda tõelist alternatiivi kulukatele CGI-põhiste närvitransformatsioonidele. voogusid, pakkudes samal ajal suuremat realistlikkust ja mitmekesisust.

* Teisendan autorite tekstisisesed tsitaadid hüperlinkideks.

Esmakordselt avaldatud 23. juulil 2022.