Connect with us

Ricercatori utilizzano l’apprendimento profondo per trasformare le foto dei luoghi di interesse in 4D

Intelligenza artificiale

Ricercatori utilizzano l’apprendimento profondo per trasformare le foto dei luoghi di interesse in 4D

mm

I ricercatori della Cornell University hanno sviluppato un nuovo metodo che utilizza l’apprendimento profondo per trasformare le foto dei luoghi di interesse del mondo in 4D. Il team si è basato su foto di turisti pubblicamente disponibili di punti di riferimento importanti come la Fontana di Trevi a Roma, e i risultati finali sono immagini 3D che possono essere manovrate e mostrare cambiamenti nell’aspetto nel tempo.

Il nuovo metodo sviluppato acquisisce e sintetizza decine di migliaia di foto non etichettate e non datate, e rappresenta un grande passo avanti per la visione artificiale.

Il lavoro è intitolato “Crowdsampling the Plenoptic Function”, e è stato presentato alla Conferenza europea virtuale sulla visione artificiale, che si è svolta tra il 23 e il 28 agosto.

Noah Snavely è un professore associato di informatica alla Cornell Tech e autore principale del documento. Altri contributori includono lo studente di dottorato della Cornell Zhengqi Li, autore principale del documento, nonché Abe Davis, professore assistente di informatica nella Facoltà di informatica e scienza dell’informazione, e lo studente di dottorato della Cornell Tech Wenqi Xian.

“È un nuovo modo di modellare la scena che non solo ti consente di muovere la testa e vedere, ad esempio, la fontana da diverse prospettive, ma ti fornisce anche controlli per cambiare il tempo”, ha detto Snavely.

“Se sei realmente andato alla Fontana di Trevi durante la tua vacanza, l’aspetto sarebbe dipeso da quando ci sei andato – di notte, sarebbe stata illuminata da riflettori dal basso. Nel pomeriggio, sarebbe stata illuminata dal sole, a meno che non ci sia andato in una giornata nuvolosa”, ha continuato. “Abbiamo appreso l’intera gamma di aspetti, in base all’ora del giorno e alle condizioni meteorologiche, da queste raccolte di foto non organizzate, in modo da poter esplorare l’intera gamma e contemporaneamente muoverti intorno alla scena.”

Limitazioni della visione artificiale tradizionale

Poiché possono esserci molte texture diverse da riprodurre, è difficile per la visione artificiale tradizionale rappresentare i luoghi in modo accurato attraverso le foto.

“Il mondo reale è così diverso nel suo aspetto e ha diversi tipi di materiali – cose lucide, acqua, strutture sottili”, ha detto Snavely.

Oltre a queste barriere, la visione artificiale tradizionale lotta anche con dati inconsistenti. La funzione plenotica è come qualcosa appaia da ogni possibile punto di vista nello spazio e nel tempo, ma per riprodurla, sono necessarie centinaia di webcam sulla scena. Non solo, ma dovrebbero registrare tutto il giorno e la notte. Ciò potrebbe essere fatto, ma è un compito estremamente impegnativo in termini di risorse quando si considera il numero di scene in cui questo metodo sarebbe necessario.

Apprendimento da altre foto

Per superare questo, il team di ricercatori ha sviluppato il nuovo metodo.

“Potrebbe non esserci una foto scattata alle 16:00 da questo esatto punto di vista nel set di dati. Quindi dobbiamo imparare da una foto scattata alle 21:00 in un luogo e da una foto scattata alle 16:03 in un altro luogo”, ha detto Snavely. “E non conosciamo la granularità di quando queste foto sono state scattate. Ma utilizzando l’apprendimento profondo, possiamo dedurre come la scena sarebbe apparsa in qualsiasi momento e luogo.”

I ricercatori hanno introdotto una nuova rappresentazione della scena chiamata Deep Multiplane Images per interpolare l’aspetto in quattro dimensioni, che sono 3D e cambiamenti nel tempo.

Secondo Snavely, “Utilizziamo la stessa idea inventata per creare effetti 3D in animazioni 2D per creare effetti 3D in scene del mondo reale, per creare questa immagine multistrato profonda adattandola a tutte queste misurazioni disparate dalle foto dei turisti. È interessante che derivi da questa tecnica molto vecchia e classica utilizzata nell’animazione.”

Lo studio ha dimostrato che il modello addestrato poteva creare una scena con 50.000 immagini pubblicamente disponibili da vari siti. Il team ritiene che potrebbe avere implicazioni in molte aree, tra cui la ricerca sulla visione artificiale e il turismo virtuale.

“Puoi avere la sensazione di essere realmente lì”, ha detto Snavely. “Funziona in modo sorprendentemente efficace per una gamma di scene.”

Il progetto ha ricevuto il sostegno dell’ex CEO di Google e filantropo Eric Schmidt, nonché di Wendt Schmidt.

https://www.youtube.com/watch?v=MAVFKWX8LYo&feature=emb_title

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.