Intelligenza artificiale

Migliorare il fotorealismo delle simulazioni di guida con reti avversarie generative

Published July 23, 2022

Updated April 28, 2026

Martin Anderson

Una nuova iniziativa di ricerca tra gli Stati Uniti e la Cina ha proposto l’uso di reti avversarie generative (GAN) per aumentare il realismo dei simulatori di guida.

In una nuova interpretazione della sfida di produrre scenari di guida POV fotorealistici, i ricercatori hanno sviluppato un metodo ibrido che sfrutta i punti di forza di diversi approcci, combinando l’output più fotorealistico dei sistemi basati su CycleGAN con elementi generati in modo più convenzionale, che richiedono un livello di dettaglio e coerenza maggiore, come le strisce stradali e i veicoli osservati dal punto di vista del guidatore.

Hybrid Generative Neural Graphics (HGNG) offrono una nuova direzione per le simulazioni di guida che mantiene l’accuratezza dei modelli 3D per elementi essenziali (come le strisce stradali e i veicoli), mentre sfrutta i punti di forza delle GAN nella generazione di dettagli di sfondo e ambientali interessanti e non ripetitivi. Source

Il sistema, chiamato Hybrid Generative Neural Graphics (HGNG), inietta l’output altamente limitato di un simulatore di guida convenzionale basato su CGI in una pipeline GAN, dove il framework NVIDIA SPADE prende il controllo della generazione dell’ambiente.

Il vantaggio, secondo gli autori, è che gli ambienti di guida diventeranno potenzialmente più diversi, creando un’esperienza più immersiva. Come stanno le cose, anche convertire l’output CGI in output di rendering neurale fotorealistico non può risolvere il problema della ripetizione, poiché il footage originale che entra nella pipeline neurale è limitato dai limiti degli ambienti del modello e dalla loro tendenza a ripetere texture e mesh.

Source: https://www.youtube.com/watch?v=0fhUJT21-bs

Footage convertito dal paper del 2021 ‘Enhancing photorealism enhancement’, che rimane dipendente da footage CGI-rendered, incluso lo sfondo e il dettaglio ambientale generale, limitando la varietà di ambiente nell’esperienza simulata. Source: https://www.youtube.com/watch?v=P1IcaBn3ej0

Il paper afferma*:

‘La fedeltà di un simulatore di guida convenzionale dipende dalla qualità della sua pipeline di grafica computerizzata, che consiste in modelli 3D, texture e un motore di rendering. Modelli 3D e texture di alta qualità richiedono artigianato, mentre il motore di rendering deve eseguire calcoli fisici complessi per la rappresentazione realistica di luci e ombre.’

Il nuovo paper è intitolato Fotorealismo nelle simulazioni di guida: combinazione di sintesi di immagini avversarie generative con rendering, e proviene da ricercatori del Dipartimento di Ingegneria Elettrica e Informatica dell’Università statale dell’Ohio e Chongqing Changan Automobile Co Ltd a Chongqing, Cina.

Materiale di sfondo

HGNG trasforma il layout semantico di una scena generata da CGI mescolando materiale di primo piano parzialmente renderizzato con ambienti generati da GAN. Sebbene i ricercatori abbiano sperimentato con vari set di dati per addestrare i modelli, il più efficace si è rivelato essere il KITTI Vision Benchmark Suite, che presenta principalmente catture di materiale da punto di vista del guidatore della città tedesca di Karlsruhe.

HGNG genera un layout di segmentazione semantica da output CGI-rendered, e poi interpone SPADE, con codici di stile vari, per creare immagini di sfondo fotorealistiche casuali e diverse, incluse oggetti vicini in scene urbane. Il nuovo paper afferma che i pattern ripetitivi, comuni alle pipeline CGI a risorse limitate, ‘rompono l’immersione’ per i guidatori umani che utilizzano un simulatore, e che gli sfondi più variegati che una GAN può fornire possono alleviare questo problema.

I ricercatori hanno sperimentato con sia Conditional GAN (cGAN) che CYcleGAN (CyGAN) come reti generative, trovando infine che ciascuna ha punti di forza e debolezze: cGAN richiede set di dati accoppiati, e CyGAN no. Tuttavia, CyGAN non può attualmente superare lo stato dell’arte nei simulatori convenzionali, in attesa di ulteriori miglioramenti in adattamento di dominio e coerenza ciclica. Pertanto cGAN, con i suoi requisiti di dati accoppiati aggiuntivi, ottiene i migliori risultati al momento.

L’architettura concettuale di HGNG.

Nella pipeline di grafica neurale HGNG, le rappresentazioni 2D sono formate da scene sintetizzate da CGI. Gli oggetti che vengono passati alla GAN sono limitati a ‘elementi essenziali’, inclusi le strisce stradali e i veicoli, che una GAN stessa non può attualmente renderizzare con una coerenza temporale e integrità adeguate per un simulatore di guida. L’immagine sintetizzata da cGAN viene quindi combinata con il rendering fisico parziale.

Test

Per testare il sistema, i ricercatori hanno utilizzato SPADE, addestrato su Cityscapes, per convertire il layout semantico della scena in output fotorealistico. La sorgente CGI proveniva dal simulatore di guida open source CARLA, che sfrutta il motore Unreal Engine 4 (UE4).

Output dal simulatore di guida open source CARLA. Source: https://arxiv.org/pdf/1711.03938.pdf

Il motore di ombreggiatura e illuminazione di UE4 ha fornito il layout semantico e le immagini parzialmente renderizzate, con solo veicoli e strisce stradali di output. La combinazione è stata ottenuta con un’istanza di GP-GAN addestrata sul Transient Attributes Database, e tutti gli esperimenti sono stati eseguiti su una NVIDIA RTX 2080 con 8 GB di GDDR6 VRAM.

I ricercatori hanno testato per ritenzione semantica – la capacità dell’immagine di output di corrispondere alla maschera di segmentazione semantica iniziale intesa come modello per la scena.

Nelle immagini di test sopra, vediamo che nell’immagine ‘render only’ (in basso a sinistra), il rendering completo non ottiene ombre plausibili. I ricercatori notano che qui (cerchio giallo) le ombre degli alberi che cadono sul marciapiede sono state classificate erroneamente da DeepLabV3 (la cornice di segmentazione semantica utilizzata per questi esperimenti) come ‘contenuto stradale’.

Nella colonna centrale, vediamo che i veicoli creati da cGAN non hanno una definizione sufficientemente coerente per essere utilizzati in un simulatore di guida (cerchio rosso). Nella colonna di destra, l’immagine combinata si conforma alla definizione semantica originale, mantenendo gli elementi essenziali basati su CGI.

Per valutare il realismo, i ricercatori hanno utilizzato Frechet Inception Distance (FID) come metrica di prestazione, poiché può operare su dati accoppiati o non accoppiati.

Tre set di dati sono stati utilizzati come verità di riferimento: Cityscapes, KITTI e ADE20K.

Le immagini di output sono state confrontate tra loro utilizzando punteggi FID, e contro la pipeline basata su fisica (cioè CGI), mentre la ritenzione semantica è stata valutata anche.

Nei risultati sopra, che si riferiscono alla ritenzione semantica, punteggi più alti sono migliori, con l’approccio basato su piramide cGAN (uno dei diversi pipeline testati dai ricercatori) che ottiene il punteggio più alto.

I risultati sopra si riferiscono ai punteggi FID, con HGNG che ottiene il punteggio più alto attraverso l’uso del set di dati KITTI.

Il metodo ‘Only render’ (denominato [23]) si riferisce all’output del simulatore di guida CARLA, un flusso CGI che non è previsto essere fotorealistico.

I risultati qualitativi sul motore di rendering convenzionale (‘c’ nell’immagine sopra) mostrano informazioni di sfondo irrealistiche, come alberi e vegetazione, richiedendo modelli dettagliati e caricamento di mesh just-in-time, nonché altre procedure intensive per il processore. Nella colonna centrale (b), vediamo che cGAN non ottiene una definizione sufficiente per gli elementi essenziali, auto e strisce stradali. Nell’output combinato proposto (a), la definizione del veicolo e della strada è buona, mentre l’ambiente è diverso e fotorealistico.

Il paper conclude suggerendo che la coerenza temporale della sezione generata da GAN della pipeline di rendering potrebbe essere aumentata attraverso l’uso di set di dati urbani più grandi, e che lavori futuri in questa direzione potrebbero offrire un’alternativa reale alle costose trasformazioni neurali dei flussi basati su CGI, fornendo un maggiore realismo e diversità.

* La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.

Prima pubblicazione 23 luglio 2022.