Inteligență artificială
Îmbunătățirea fotorealismului simulărilor de conducere cu rețele generative adverse

O nouă inițiativă de cercetare între SUA și China a propus utilizarea rețelelor generative adverse (GAN) pentru a crește realismul simulatorilor de conducere.
Într-o abordare inovatoare a provocării de a produce scenarii de conducere fotorealiste, cercetătorii au dezvoltat o metodă hibridă care combină avantajele diferitelor abordări, amestecând ieșirea mai fotorealistică a sistemelor bazate pe CycleGAN cu elemente generate convențional, care necesită un nivel mai mare de detaliu și coerență, cum ar fi marcajele rutiere și vehiculele observate din punctul de vedere al șoferului.

Grafica neurală generativă hibridă (HGNG) oferă o nouă direcție pentru simulările de conducere care păstrează acuratețea modelului 3D pentru elementele esențiale (cum ar fi marcajele rutiere și vehiculele), în timp ce joacă la puterile GAN în generarea detaliilor de fundal și ambientale interesante și ne-repetitive. Sursă
Sistemul, numit Grafică neurală generativă hibridă (HGNG), injectează ieșirea limitată a unui simulator de conducere convențional, bazat pe CGI, într-un pipeline GAN, unde framework-ul NVIDIA SPADE preia lucrul de generare a mediului.
Avantajul, conform autorilor, este că mediile de conducere vor deveni potențial mai diverse, creând o experiență mai imersivă. În prezent, chiar și conversia ieșirii CGI în ieșire de randare neurală fotorealistică nu poate rezolva problema repetiției, deoarece filmarea originală care intră în pipeline-ul neural este limitată de limitele mediilor modelate și tendința lor de a repeta texturi și mesh-uri.

Imagini convertite din articolul din 2021 ‘Îmbunătățirea fotorealismului’, care rămân dependente de filmarea generată de CGI, inclusiv fundalul și detaliile ambientale generale, limitând varietatea mediului în experiența simulată. Sursă: https://www.youtube.com/watch?v=P1IcaBn3ej0
Articolul afirmă*:
‘Fidelitatea unui simulator de conducere convențional depinde de calitatea pipeline-ului de grafică computerizată, care constă în modele 3D, texturi și un motor de randare. Modele 3D și texturi de înaltă calitate necesită artizanat, în timp ce motorul de randare trebuie să ruleze calcule fizice complicate pentru reprezentarea realistă a iluminării și umbrelor.’
Noul articol se intitulează Fotorealism în simulările de conducere: combinarea sintezei de imagini generative adverse cu randarea și provine de la cercetători de la Departamentul de Inginerie Electrică și Informatică de la Universitatea de Stat Ohio și Chongqing Changan Automobile Co Ltd din Chongqing, China.
Material de fundal
HGNG transformă layout-ul semantic al unei scene generate de CGI prin amestecarea materialului de prim-plan parțial randat cu medii generate de GAN. Deși cercetătorii au experimentat cu diverse seturi de date pentru a antrena modelele, cel mai eficient s-a dovedit a fi setul de date KITTI Vision Benchmark, care prezintă în principal capturi de material din punctul de vedere al șoferului din orașul german Karlsruhe.

HGNG generează un layout de segmentare semantică din ieșirea generată de CGI și apoi interpus SPADE, cu codificări de stil variate, pentru a crea imagini de fundal fotorealiste diverse și ne-repetitive, inclusiv obiecte din apropiere în scene urbane. Noul articol afirmă că modelele repetitive, care sunt comune în pipeline-urile CGI cu resurse limitate, ‘rup imersia’ pentru șoferii care utilizează un simulator, și că fundalele mai variate pe care le poate oferi un GAN pot allevia această problemă.
Cercetătorii au experimentat atât cu GAN condițional (cGAN), cât și cu CYcleGAN (CyGAN) ca rețele generative, găsind în final că fiecare are avantaje și dezavantaje: cGAN necesită seturi de date pereche, iar CyGAN nu. Cu toate acestea, CyGAN nu poate depăși în prezent starea actuală a tehnologiei în simulatorii convenționali, în așteptarea unor îmbunătățiri suplimentare în adaptarea domeniului și a consistenței ciclului. Prin urmare, cGAN, cu cerințele sale suplimentare de date pereche, obține cele mai bune rezultate în acest moment.

Arhitectura conceptuală a HGNG.
În pipeline-ul de grafică neurală HGNG, reprezentările 2D sunt formate din scene generate de CGI. Obiectele care sunt trecute prin GAN sunt limitate la ‘elemente esențiale’, inclusiv marcajele rutiere și vehiculele, pe care un GAN nu le poate rendera în prezent la o consistență temporală și integritate adecvată pentru un simulator de conducere. Imaginea sintetizată de cGAN este apoi amestecată cu randarea parțială bazată pe fizică.
Teste
Pentru a testa sistemul, cercetătorii au utilizat SPADE, antrenat pe Cityscapes, pentru a converti layout-ul semantic al scenei în ieșire fotorealistică. Sursa CGI a provenit de la simulatorul de conducere open source CARLA, care utilizează Unreal Engine 4 (UE4).

Ieșire de la simulatorul de conducere open source CARLA. Sursă: https://arxiv.org/pdf/1711.03938.pdf
Motorul de umbre și iluminare al UE4 a furnizat layout-ul semantic și imaginile parțial randate, cu doar vehicule și marcaje de bandă output. Amestecarea a fost realizată cu o instanță GP-GAN antrenată pe Transient Attributes Database, și toate experimentele au rulat pe un NVIDIA RTX 2080 cu 8 GB de GDDR6 VRAM.
Cercetătorii au testat pentru retenția semantică – capacitatea imaginii de ieșire de a corespunde mascați de segmentare semantică inițială destinată să fie șablonul pentru scenă.
În imaginile de test de mai sus, vedem că în imaginea ‘randare doar’ (stânga jos), randarea completă nu obține umbre plauzibile. Cercetătorii notează că aici (cercuri galbene) umbrele copacilor care cad pe trotuar au fost clasificate greșit de DeepLabV3 (framework-ul de segmentare semantică utilizat pentru aceste experimente) ca ‘conținut de drum’.
În coloana din mijloc, vedem că vehiculele create de cGAN nu au o definiție suficient de consistentă pentru a fi utilizate într-un simulator de conducere (cerc roșu). În coloana din dreapta, imaginea amestecată se conformează definiției semantice originale, păstrând în același timp elementele esențiale bazate pe CGI.
Pentru a evalua realismul, cercetătorii au utilizat Distanța de Incepție Frechet (FID) ca metrică de performanță, deoarece poate opera pe date pereche sau ne-pereche.
Trei seturi de date au fost utilizate ca adevăr: Cityscapes, KITTI și ADE20K.
Imaginile de ieșire au fost comparate între ele utilizând scoruri FID și împotriva pipeline-ului bazat pe fizică (adică CGI), în timp ce retenția semantică a fost evaluată și ea.

În rezultatele de mai sus, care se referă la retenția semantică, scorurile mai mari sunt mai bune, cu abordarea bazată pe piramida cGAN (una dintre pipeline-urile testate de cercetători) obținând scorul cel mai mare.

Rezultatele de mai sus se referă la scorurile FID, cu HGNG obținând scorul cel mai mare prin utilizarea setului de date KITTI.
Metoda ‘Doar randare’ (denumită [23]) se referă la ieșirea de la simulatorul de conducere CARLA, un flux CGI care nu este așteptat să fie fotorealistic.
Rezultatele calitative pe motorul de randare convențional (‘c’ în imaginea de mai sus) prezintă informații de fundal ne-realiste, cum ar fi copaci și vegetație, necesitând modele detaliate și încărcarea mesh-urilor la momentul oportun, precum și alte proceduri consumatoare de procesor. În imaginea din mijloc (b), vedem că cGAN nu obține o definiție adecvată pentru elementele esențiale, mașini și marcaje rutiere. În imaginea de ieșire propusă (a), definiția vehiculului și a drumului este bună, în timp ce mediul ambiental este divers și fotorealistic.
Articolul concluzionează prin a sugera că consistența temporală a secțiunii generate de GAN din pipeline-ul de randare poate fi crescută prin utilizarea unor seturi de date urbane mai mari, și că lucrările viitoare în această direcție ar putea oferi o alternativă reală la transformările neurale costisitoare ale fluxurilor bazate pe CGI, oferind în același timp un realism și o diversitate mai mare.
* Conversia mea a citărilor inline ale autorilor în legături.
Publicat pentru prima dată pe 23 iulie 2022.














