mozzicone I ricercatori utilizzano il deep learning per trasformare foto di riferimento in 4D - Unite.AI
Seguici sui social

Intelligenza Artificiale

I ricercatori utilizzano il deep learning per trasformare le foto dei punti di riferimento in 4D

aggiornato on

I ricercatori della Cornell University hanno sviluppato un nuovo metodo che utilizza il deep learning per trasformare le foto di punti di riferimento mondiali in 4D. Il team si è basato su foto turistiche disponibili pubblicamente di punti importanti come la Fontana di Trevi a Roma, e i risultati finali sono immagini 3D che sono manovrabili e possono mostrare cambiamenti nell'aspetto nel tempo. 

Il metodo appena sviluppato raccoglie e sintetizza decine di migliaia di foto senza tag e senza data, e rappresenta un grande passo avanti per la visione artificiale.

L'opera si intitola "Crowdsampling della funzione plenottica”, ed è stato presentato alla conferenza europea virtuale sulla visione artificiale, che si è svolta dal 23 al 28 agosto.

Noah Snavely è professore associato di informatica alla Cornell Tech e autore senior del documento. Altri contributori includono lo studente di dottorato della Cornell Zhengqi Li, primo autore dell'articolo, nonché Abe Davis, assistente professore di informatica presso la Facoltà di informatica e scienze dell'informazione, e lo studente di dottorato della Cornell Tech Wenqi Xian. 

"È un nuovo modo di modellare la scena che non solo ti consente di muovere la testa e vedere, diciamo, la fontana da diversi punti di vista, ma ti dà anche i controlli per cambiare l'ora", ha detto Snavely. 

“Se andassi davvero alla Fontana di Trevi in ​​vacanza, il modo in cui apparirebbe dipenderebbe dall'ora in cui ci andrai: di notte, sarebbe illuminata dai riflettori dal basso. Nel pomeriggio sarebbe soleggiato, a meno che tu non andassi in una giornata nuvolosa", ha continuato. "Abbiamo appreso l'intera gamma di apparizioni, in base all'ora del giorno e al tempo, da queste raccolte di foto non organizzate, in modo tale da poter esplorare l'intera gamma e contemporaneamente spostarsi sulla scena." 

Limitazioni della visione artificiale tradizionale 

Poiché possono essere presenti così tante trame diverse che devono essere riprodotte, è difficile per la visione artificiale tradizionale rappresentare accuratamente i luoghi attraverso le foto. 

"Il mondo reale è così vario nel suo aspetto e ha diversi tipi di materiali: cose luccicanti, acqua, strutture sottili", ha detto Snavely. 

Oltre a queste barriere, anche la visione artificiale tradizionale deve affrontare dati incoerenti. La funzione plenottica è il modo in cui qualcosa appare da ogni possibile punto di vista nello spazio e nel tempo, ma per riprodurlo sono necessarie centinaia di webcam sulla scena. Non solo, ma avrebbero dovuto registrare tutto il giorno e la notte. Questo potrebbe essere fatto, ma è un compito estremamente dispendioso in termini di risorse se si considera il numero di scene in cui questo metodo sarebbe richiesto. 

Imparare da altre foto

Per aggirare questo problema, il team di ricercatori ha sviluppato il nuovo metodo. 

“Potrebbe non esserci una foto scattata alle 4:9 da questo esatto punto di vista nel set di dati. Quindi dobbiamo imparare da una foto scattata alle 4:03 in un luogo e da una foto scattata alle XNUMX:XNUMX da un altro luogo ", ha detto Snavely. “E non conosciamo la granularità di quando queste foto sono state scattate. Ma l'utilizzo del deep learning ci consente di dedurre come sarebbe stata la scena in un dato momento e luogo". 

I ricercatori hanno introdotto una nuova rappresentazione della scena chiamata Deep Multiplane Images per interpolare l'aspetto in quattro dimensioni, che sono 3D e cambiano nel tempo. 

Secondo Snavely, “Usiamo la stessa idea inventata per creare effetti 3D nell'animazione 2D per creare effetti 3D in scene del mondo reale, per creare questa profonda immagine multistrato adattandola a tutte queste misure disparate dalle foto dei turisti. È interessante che in un certo senso derivi da questa tecnica molto antica e classica utilizzata nell'animazione". 

Lo studio ha dimostrato che il modello addestrato potrebbe creare una scena con 50,000 immagini disponibili pubblicamente da vari siti. Il team ritiene che potrebbe avere implicazioni in molte aree, tra cui la ricerca sulla visione artificiale e il turismo virtuale.

"Puoi avere la sensazione di essere davvero lì", ha detto Snavely. "Funziona sorprendentemente bene per una serie di scene".

Il progetto ha ricevuto il sostegno dell'ex CEO e filantropo di Google Eric Schmidt, nonché di Wendt Schmidt. 

Crowdsampling La funzione plenottica

 

Alex McFarland è un giornalista e scrittore specializzato in intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup e pubblicazioni di intelligenza artificiale in tutto il mondo.