Intelligenza Artificiale
Rendering neurale: quanto in basso puoi scendere in termini di input?

Ieri alcuni straordinari nuovi lavori sulla sintesi di immagini neurali hanno attirato l'attenzione e l'immaginazione di Internet, come hanno rivelato i ricercatori Intel a Nuovo metodo per migliorare il realismo delle immagini sintetiche.
Il sistema, come dimostrato in a video di Intel, interviene direttamente nella pipeline delle immagini per il videogioco Grand Theft Auto V e migliora automaticamente le immagini attraverso un algoritmo di sintesi delle immagini addestrato su una rete neurale convoluzionale (CNN), utilizzando immagini del mondo reale provenienti dal mapillary set di dati e sostituendo l'illuminazione e le texture meno realistiche del motore di gioco GTA.

I commentatori, in una vasta gamma di reazioni in comunità come Reddit e Hacker News, stanno ipotizzando non solo che il rendering neurale di questo tipo potrebbe sostituire efficacemente l'output meno fotorealistico dei motori di gioco tradizionali e della CGI a livello di VFX, ma che questo processo potrebbe essere ottenuto con input molto più basilari di quelli dimostrati nella demo Intel GTA5, creando di fatto input proxy "fantoccio" con output estremamente realistici.
Set di dati accoppiati
Negli ultimi tre anni, il principio è stato esemplificato da una nuova generazione di sistemi GAN e di codifica/decodifica, come GauGAN di NVIDIA, che genera immagini panoramiche fotorealistiche partendo da schizzi grezzi.
Effettivamente questo principio capovolge l'uso convenzionale della segmentazione semantica visione computerizzata da un metodo passivo che consente ai sistemi delle macchine di identificare e isolare gli oggetti osservati in un input creativo, in cui l'utente "dipinge" una falsa mappa di segmentazione semantica e il sistema genera immagini coerenti con le relazioni che comprende avendo già classificato e segmentato un dominio particolare, come uno scenario.

Un framework di apprendimento automatico applica la segmentazione semantica a varie scene esterne, fornendo il paradigma architettonico che consente lo sviluppo di sistemi interattivi, in cui l'utente disegna un blocco di segmentazione semantica e il sistema riempie il blocco con immagini appropriate da un set di dati specifico del dominio, come il set di street view Mapillary della Germania, utilizzato nella demo di rendering neurale GTA5 di Intel. Fonte: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf
I sistemi di sintesi di immagini di dataset accoppiati funzionano correlando le etichette semantiche su due dataset: un set di immagini completo e completo, generato da immagini del mondo reale (come nel caso del set Mapillary utilizzato per migliorare GTA5 nella demo Intel di ieri) o da immagini sintetiche, come le immagini CGI.

Esempi di dataset accoppiati per un sistema di sintesi di immagini progettato per creare personaggi renderizzati tramite reti neurali a partire da schizzi approssimativi. A sinistra, campioni dal dataset CGI. Al centro, campioni corrispondenti dal dataset "schizzo". A destra, rendering neurali che hanno tradotto gli schizzi in immagini di alta qualità .. Fonte: https://www.youtube.com/watch?v=miLIwQ7yPkA
Gli ambienti esterni sono relativamente poco impegnativi quando si creano trasformazioni di dataset accoppiati di questo tipo, perché le sporgenze sono solitamente piuttosto limitate, la topografia ha un intervallo di varianza limitato che può essere catturato in modo completo in un dataset e non dobbiamo (ancora) occuparci di creare persone artificiali o di negoziare la Uncanny Valley.
Inversione delle mappe di segmentazione
Google ha sviluppato una versione animata dello schema GauGAN, chiamata Natura infinita, capace di "allucinare" deliberatamente paesaggi fittizi continui e senza fine traducendo false mappe semantiche in immagini fotorealistiche tramite NVIDIA VANGA sistema di riempimento:

Fonte: https://www.youtube.com/watch?v=oXUf6anNAtc
Tuttavia, Infinite Nature utilizza una singola immagine come punto di partenza e utilizza SPADE semplicemente per dipingere le sezioni mancanti in fotogrammi successivi, mentre SPADE stesso crea trasformazioni di immagini direttamente dalle mappe di segmentazione.
È questa capacità che sembra aver suscitato ammiratori del sistema Intel Image Enhancement: la possibilità di ricavare immagini fotorealistiche di altissima qualità , anche in tempo reale (alla fine), da input estremamente grezzi.
Sostituzione di texture e illuminazione con rendering neurale
Nel caso dell'input di GTA5, alcuni si sono chiesti se le texture e le luci bitmap e procedurali, dispendiose in termini di elaborazione, provenienti dall'output del motore di gioco saranno davvero necessarie nei futuri sistemi di rendering neurale, o se sarà possibile trasformare l'input a bassa risoluzione, a livello di wireframe, in un video fotorealistico che superi le capacità di ombreggiatura, texturizzazione e illuminazione dei motori di gioco, creando scene iperrealistiche da input proxy "segnaposto".
Potrebbe sembrare ovvio che gli aspetti generati dal gioco, come riflessi, texture e altri tipi di dettagli ambientali, siano fonti essenziali di informazioni per un sistema di rendering neurale del tipo dimostrato da Intel. Eppure sono passati alcuni anni da quando NVIDIA... UNITA ' (UNsupervised Image-to-image Translation Networks) hanno dimostrato che solo il dominio è importante e che anche aspetti generali come "notte o giorno" sono essenzialmente questioni da gestire tramite il trasferimento di stile:
In termini di input richiesto, ciò lascia potenzialmente al motore di gioco solo la necessità di generare simulazioni di geometria e fisica di base, poiché il motore di rendering neurale può sovraverniciare tutti gli altri aspetti sintetizzando le immagini desiderate dal set di dati acquisito, utilizzando le mappe semantiche come interpretazione strato.

Il sistema Intel migliora un frame completamente rifinito e renderizzato di GTA5, aggiungendo segmentazione e mappe di profondità valutate, due aspetti che potrebbero essere forniti direttamente da un motore di gioco ridotto all'osso. Fonte: https://www.youtube.com/watch?v=P1IcaBn3ej0
L'approccio di rendering neurale di Intel prevede l'analisi di frame completamente renderizzati dai buffer di GTA5, e il sistema neurale ha l'ulteriore onere di creare sia le mappe di profondità che quelle di segmentazione. Poiché le mappe di profondità sono implicitamente disponibili nelle pipeline 3D tradizionali (e sono meno impegnative da generare rispetto a texturing, ray-tracing o illuminazione globale), potrebbe essere un utilizzo migliore delle risorse lasciare che sia il motore di gioco a gestirle.
Input ridotto per un motore di rendering neurale
L'attuale implementazione della rete di miglioramento dell'immagine di Intel, quindi, può comportare una grande quantità di cicli di elaborazione ridondanti, poiché il motore di gioco genera texturing e illuminazione computazionalmente costosi di cui il motore di rendering neurale non ha realmente bisogno. Il sistema sembra essere stato progettato in questo modo non perché questo sia necessariamente un approccio ottimale, ma perché è più facile adattare un motore di rendering neurale a una pipeline esistente piuttosto che creare un nuovo motore di gioco ottimizzato per un approccio di rendering neurale.
L'uso più economico delle risorse in un sistema di gioco di questa natura potrebbe essere la completa cooptazione della GPU da parte del sistema di rendering neurale, con l'input proxy ridotto gestito dalla CPU.
Inoltre, il motore di gioco potrebbe facilmente produrre autonomamente mappe di segmentazione rappresentative, disattivando tutte le ombreggiature e l'illuminazione nel suo output. Inoltre, potrebbe fornire video a una risoluzione molto inferiore a quella normalmente richiesta, poiché il video dovrebbe essere solo ampiamente rappresentativo del contenuto, con dettagli ad alta risoluzione gestiti dal motore neurale, liberando ulteriormente le risorse di calcolo locali.
Lavori precedenti di Intel ISL con segmentazione>immagine
La traduzione diretta della segmentazione in video fotorealistici è tutt'altro che ipotetica. Nel 2017 Intel ISL, i creatori del furore di ieri, ha rilasciato le prime riparazioni in grado di eseguire sintesi video urbane direttamente dalla segmentazione semantica.

Segmentazione dell'immagine di Intel ISL dal 2017. Fonte: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
In effetti, la pipeline originale del 2017 è stata semplicemente estesa per adattarsi all'output completamente renderizzato di GTA5.
Rendering neurale in VFX
Anche il rendering neurale da mappe di segmentazione artificiale sembra essere una tecnologia promettente per VFX, con la possibilità di tradurre direttamente videogrammi molto semplici direttamente in filmati di effetti visivi finiti, generando set di dati specifici del dominio presi da modelli o immagini sintetiche (CGI).


Un ipotetico sistema di rendering neurale, in cui l'ampia copertura di ciascun oggetto target viene astratta in un set di dati contribuente e in cui le mappe di segmentazione generate artificialmente vengono utilizzate come base per l'output fotorealistico a piena risoluzione. Fonte: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/
Lo sviluppo e l'adozione di tali sistemi sposterebbero il luogo dello sforzo artistico da un flusso di lavoro interpretativo a uno rappresentativo e eleverebbero la raccolta di dati guidata dal dominio da un ruolo di supporto a un ruolo centrale nelle arti visive.
Articolo aggiornato alle 4:55 per aggiungere materiale sulla ricerca Intel ISL 2017.












