Umělá inteligence

Zlepšení fotorealistického zobrazení simulací řízení pomocí generativních adversativních sítí

Published July 23, 2022

Updated April 28, 2026

Martin Anderson

Nová výzkumná iniciativa mezi USA a Čínou navrhla použití generativních adversativních sítí (GAN) pro zvýšení realismu simulátorů řízení.

V novém přístupu k výzvě vytváření fotorealistických scénářů řízení z pohledu řidiče vyvinuli výzkumníci hybridní metodu, která využívá silných stránek různých přístupů, kombinujících více fotorealistické výstupní cyklu CycleGAN založených systémů s konvenčně generovanými prvky, které vyžadují vyšší úroveň detailu a konzistence, jako jsou vozovky a vozidla pozorovaná z pohledu řidiče.

Hybrid Generative Neural Graphics (HGNG) nabízí nový směr pro simulace řízení, který zachovává přesnost 3D modelů pro základní prvky (jako vozovky a vozidla), zatímco využívá silných stránek GAN při generování zajímavých a neopakovatelných pozadí a ambientních detailů. Source

Systém, nazvaný Hybrid Generative Neural Graphics (HGNG), vkládá vysoce omezený výstup z konvenčního, CGI-založeného simulátoru řízení do GAN potrubí, kde framework NVIDIA SPADE přebírá práci generování prostředí.

Výhoda, podle autorů, spočívá v tom, že prostředí pro řízení se stanou potenciálně rozmanitější, vytvářející více imerzivní zkušenost. Jak stojí, dokonce přepnutí CGI výstupu na fotorealistický neuronový renderovací výstup nemůže vyřešit problém opakování, protože původní záběry vstupující do neuronového potrubí jsou omezeny limity modelových prostředí a jejich tendencí opakovat textury a sítě.

Source: https://www.youtube.com/watch?v=0fhUJT21-bs

Přepněné záběry z roku 2021 papíru ‘Zlepšení fotorealistického zobrazení’, které zůstávají závislé na CGI-renderovaném záběru, včetně pozadí a obecných ambientních detailů, omezujících rozmanitost prostředí ve simulační zkušenosti. Source: https://www.youtube.com/watch?v=P1IcaBn3ej0

Papír uvádí*:

‘Věrnost konvenčního simulátoru řízení závisí na kvalitě jeho počítačové grafické pipeline, která se skládá z 3D modelů, textur a renderovacího engine. Vysokokvalitní 3D modely a textury vyžadují řemeslnou práci, zatímco renderovací engine musí provádět složité fyzikální výpočty pro realistické zobrazení osvětlení a stínování.’

Nový papír se jmenuje Fotorealistické zobrazení v simulacích řízení: Kombinace generativních adversativních obrazových syntéz s renderováním a pochází od výzkumníků z oddělení elektrotechniky a počítačového inženýrství na Ohijské státní univerzitě a Chongqing Changan Automobile Co Ltd v Čchung-čchingu, Číně.

Pozadí

HGNG transformuje semantickou strukturu vstupní CGI-generované scény kombinací částečně renderovaného popředí s GAN-generovanými prostředími. Ačkoli výzkumníci experimentovali s různými datovými soubory pro školení modelů, nejúčinnějším se ukázal být KITTI Vision Benchmark Suite, který převážně obsahuje záběry z pohledu řidiče z německého města Karlsruhe.

HGNG generuje semantickou segmentační strukturu z CGI-renderovaného výstupu a poté vkládá SPADE, s různými stylovými kódy, pro vytváření náhodných a rozmanitých fotorealistických pozadí, včetně blízkých objektů v městských scénách. Nový papír uvádí, že opakující se vzory, které jsou společné pro omezené CGI potrubí, ‘rozrušují imerzivní zkušenost’ pro lidské řidiče pomocí simulátoru, a že více rozmanitá pozadí, která může GAN poskytnout, tento problém zmírňují.

Výzkumníci experimentovali s Conditional GAN (cGAN) a CYcleGAN (CyGAN) jako generativními sítěmi, nakonec zjistili, že každá má své silné a slabé stránky: cGAN vyžaduje spárované datové soubory, a CyGAN ne. Nicméně, CyGAN nemůže目前 překonat stav současného umění v konvenčních simulátorech, dokud nebude provedeno další vylepšení v doménové adaptaci a cyklické konzistenci. Proto cGAN, s jeho dalšími požadavky na spárované datové soubory,目前 získává nejlepší výsledky.

Konceptuální architektura HGNG.

V HGNG neuronovém grafickém potrubí se vytvářejí 2D reprezentace z CGI-syntetizovaných scén. Objekty, které jsou předávány do GAN toku z CGI renderování, jsou omezeny na ‘základní’ prvky, včetně vozovek a vozidel, které GAN sám nemůže目前 dostatečně renderovat pro simulátor řízení. cGAN-syntetizovaný obraz je poté kombinován s částečně fyzikálně založeným renderováním.

Testy

Pro testování systému použili výzkumníci SPADE, školený na Cityscapes, pro převod semantické struktury scény na fotorealistický výstup. CGI zdroj pocházel z open source simulátoru řízení CARLA, který využívá Unreal Engine 4 (UE4).

Výstup z open source simulátoru řízení CARLA. Source: https://arxiv.org/pdf/1711.03938.pdf

Stínovací a osvětlovací engine UE4 poskytoval semantickou strukturu a částečně renderované obrázky, s pouze vozidly a vozovkami jako výstup. Kombinace byla provedena pomocí GP-GAN instance, školené na Transient Attributes Database, a všechny experimenty byly spuštěny na NVIDIA RTX 2080 s 8 GB GDDR6 VRAM.

Výzkumníci testovali semantickou retenci – schopnost výstupního obrazu odpovídat původní semantické segmentační masce určené jako šablona pro scénu.

V testovacích obrazech výše vidíme, že v ‘render only’ obraze (dolní levá), plný render nezískává přesvědčivé stíny. Výzkumníci poznamenávají, že zde (žlutý kruh) stíny stromů, které padají na chodník, byly chybně klasifikovány DeepLabV3 (semantická segmentační framework použitá pro tyto experimenty) jako ‘vozovka’ obsah.

V prostředním sloupci toku vidíme, že cGAN-vytvořená vozidla nemají dostatečnou konzistentní definici, aby mohla být použita v simulátoru řízení (červený kruh). V pravém sloupci toku se kombinovaný obraz shoduje s původní semantickou definicí, zatímco zachovává základní CGI-založené prvky.

Pro hodnocení realismu použili výzkumníci Frechet Inception Distance (FID) jako metriku výkonu, protože může fungovat na spárovaných nebo nesparovaných datech.

Tři datové soubory byly použity jako referenční skutečnosti: Cityscapes, KITTI a ADE20K.

Výstupní obrázky byly porovnány navzájem pomocí FID skóre a proti fyzikálně založenému (tj. CGI) potrubí, zatímco semantická retence byla také vyhodnocena.

Ve výsledcích výše, které se týkají semantické retence, vyšší skóre jsou lepší, s cGAN pyramidovým přístupem (jedním z několika potrubí testovaných výzkumníky) získávajícím nejvyšší skóre.

Výsledky výše se týkají FID skóre, s HGNG získávajícím nejvyšší skóre pomocí KITTI datové sady.

‘M Pouze render’ metoda (označená jako [23]) se týká výstupu z CARLA, CGI toku, který se neočekává, že bude fotorealistický.

Kvalitativní výsledky na konvenčním renderovacím engine (‘c’ v obraze přímo výše) ukazují nerealistické vzdálené pozadí, jako jsou stromy a vegetace, zatímco vyžadují detailní modely a just-in-time mesh loading, jakož i další procesorově náročné postupy. V prostředním (b), vidíme, že cGAN nezískává dostatečnou definici pro základní prvky, vozidla a vozovky. V navrhovaném kombinovaném výstupu (a), vozidla a vozovky mají dobrou definici, zatímco ambientní prostředí je rozmanité a fotorealistické.

Papír uzavírá tím, že navrhuje, že časová konzistence GAN-generované části renderovacího potrubí by mohla být zvýšena pomocí větších městských datových souborů, a že budoucí práce v tomto směru by mohla nabídnout skutečnou alternativu k nákladným neuronovým transformacím CGI-založených toků, zatímco poskytuje větší realismus a rozmanitost.

* Moje konverze autorů inline citací na hypertextové odkazy.

Poprvé publikováno 23. července 2022.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Zlepšení fotorealistického zobrazení simulací řízení pomocí generativních adversativních sítí

Pozadí

Testy

You may like