Inteligență artificială

Cercetătorii Utilizează Învățarea Profundă pentru a Transforma Fotografiile Monumentelor în 4D

Published September 10, 2020

Updated April 28, 2026

Alex McFarland

Cercetătorii de la Universitatea Cornell au dezvoltat o nouă metodă care utilizează învățarea profundă pentru a transforma fotografiile monumentelor din lume în 4D. Echipa s-a bazat pe fotografii publice disponibile ale principalelor puncte de interes, cum ar fi Fontana Trevi din Roma, iar rezultatele finale sunt imagini 3D care pot fi manevrate și pot arăta modificări ale aspectului în timp.

Noua metodă dezvoltată preia și sintetizează zeci de mii de fotografii neetichetate și nedatate, și reprezintă un pas important înainte pentru viziunea computerizată.

Lucrarea se intitulează „Crowdsampling the Plenoptic Function”, și a fost prezentată la Conferința Virtuală Europeană de Viziune Computerizată, care a avut loc între 23-28 august.

Noah Snavely este profesor asociat de știință computerizată la Cornell Tech și autor senior al lucrării. Alți contribuitori includ studentul doctoral Zhengqi Li de la Cornell, autorul principal al lucrării, precum și Abe Davis, profesor asistent de știință computerizată în Facultatea de Calcul și Știință a Informației, și studentul doctoral Wenqi Xian de la Cornell Tech.

„Este o nouă modalitate de modelare a scenei care nu numai că vă permite să vă mișcați capul și să vedeți, să zicem, fântâna din perspective diferite, dar vă oferă și controale pentru modificarea timpului”, a spus Snavely.

„Dacă ați fost cu adevărat la Fontana Trevi în vacanță, aspectul său ar depinde de ora la care ați fost — noaptea, ar fi iluminat de proiectoare de la bază. În după-amiaza, ar fi luminat de soare, cu excepția cazului în care ați fost într-o zi înnorată”, a continuat el. „Am învățat întreaga gamă de aspecte, pe baza orei din zi și a vremii, din aceste colecții de fotografii neorganizate, astfel încât puteți explora întreaga gamă și, în același timp, vă puteți deplasa în jurul scenei.”

Limitări ale Viziunii Computerizate Tradiționale

Deoarece pot exista atât de multe texturi diferite care trebuie reproduse, este dificil pentru viziunea computerizată tradițională să reprezinte locurile în mod precis prin fotografii.

„Lumea reală este atât de diversă în aspect și are diferite tipuri de materiale — lucruri strălucitoare, apă, structuri subțiri”, a spus Snavely.

Pe lângă aceste bariere, viziunea computerizată tradițională se confruntă și cu date inconsistente. Funcția plenoptică este modul în care ceva apare din orice punct de vedere posibil în spațiu și timp, dar pentru a reproduce acest lucru, sunt necesare sute de webcam-uri la fața locului. Nu numai atât, dar acestea ar trebui să înregistreze tot timpul zilei și nopții. Acest lucru poate fi realizat, dar este o sarcină extrem de grea din punct de vedere al resurselor atunci când se ia în considerare numărul de scene în care această metodă ar fi necesară.

Învățarea din Alte Fotografii

Pentru a ocoli acest lucru, echipa de cercetători a dezvoltat o nouă metodă.

„Nu există o fotografie făcută la ora 16:00 din acest punct de vedere exact în setul de date. Așadar, trebuie să învățăm dintr-o fotografie făcută la ora 21:00 într-un loc și o fotografie făcută la ora 16:03 într-un alt loc”, a spus Snavely. „Și nu știm granulația când au fost făcute aceste fotografii. Dar utilizarea învățării profunde ne permite să inferăm cum ar fi arătat scena la orice moment și loc.”

Cercetătorii au introdus o nouă reprezentare a scenei numită Deep Multiplane Images pentru a interpolarea aspectului în patru dimensiuni, care sunt 3D și modificări în timp.

Conform lui Snavely, „Utilizăm aceeași idee inventată pentru crearea de efecte 3D în animație 2D pentru a crea efecte 3D în scene reale, pentru a crea această imagine multistrat profundă prin ajustarea ei la toate aceste măsurători disparate din fotografiile turiștilor. Este interesant că provine din această tehnică veche, clasică utilizată în animație.”

Studiul a demonstrat că modelul antrenat poate crea o scenă cu 50.000 de imagini publice disponibile de pe diverse site-uri. Echipa consideră că ar putea avea implicații în multe domenii, inclusiv cercetarea viziunii computerizate și turismul virtual.

„Puteți simți cu adevărat că sunteți acolo”, a spus Snavely. „Funcționează surprinzător de bine pentru o gamă largă de scene.”

Proiectul a primit sprijin din partea fostului CEO Google și filantropului Eric Schmidt, precum și din partea lui Wendt Schmidt.

https://www.youtube.com/watch?v=MAVFKWX8LYo&feature=emb_title

Alex McFarland

Alex McFarland este un jurnalist și scriitor de inteligență artificială, care explorează cele mai recente dezvoltări în domeniul inteligenței artificiale. El a colaborat cu numeroase startup-uri de inteligență artificială și publicații din întreaga lume.