Tehisintellekt

Teadlased kasutavad maamärkide fotode 4D muutmiseks süvaõpet

Ajakohastatud on Detsember 9, 2022

Cornelli ülikooli teadlased on välja töötanud uue meetodi, mis kasutab sügavat õppimist, et muuta maailma vaatamisväärsuste fotod 4D-ks. Meeskond tugines avalikult kättesaadavatele turismifotodele peamistest punktidest, nagu Rooma Trevi purskkaev, ning lõpptulemused on 3D-pildid, mis on manööverdatavad ja võivad aja jooksul väljanägemises muutuda.

Äsja välja töötatud meetod võtab vastu ja sünteesib kümneid tuhandeid märgistamata ja dateerimata fotosid ning see on suur samm edasi arvutinägemise osas.

Töö kannab pealkirja “Plenoptilise funktsiooni ühisproovimine”, ja seda esitleti 23.-28. augustini toimunud virtuaalsel Euroopa arvutinägemise konverentsil.

Noah Snavely on Cornell Techi arvutiteaduse dotsent ja töö vanemautor. Teiste panustajate hulka kuuluvad Cornelli doktorant Zhengqi Li, töö esimene autor, samuti Abe Davis, andmetöötlus- ja infoteaduste teaduskonna arvutiteaduse dotsent ja Cornell Techi doktorant Wenqi Xian.

"See on uus viis stseeni modelleerimiseks, mis mitte ainult ei võimalda teil oma pead liigutada ja näiteks purskkaevu erinevatest vaatenurkadest näha, vaid annab teile ka kontrolli kellaaja muutmiseks," ütles Snavely.

"Kui te tõesti läheksite oma puhkusele Trevi purskkaevu juurde, sõltuks selle välimus sellest, mis kellaajal te läksite – öösel valgustaks seda alt prožektorid. Pärastlõunal oleks päikesepaisteline, kui just pilves päeval ei läinud,” jätkas ta. „Õppisime nendest korrastamata fotokogudest selgeks mitmesugused esinemised, mis põhinevad kellaajal ja ilmal, nii et saate uurida kogu vahemikku ja samal ajal sündmuskohal ringi liikuda.

Traditsioonilised arvutinägemise piirangud

Kuna seal võib olla nii palju erinevaid tekstuure, mida tuleb reprodutseerida, on traditsioonilisel arvutinägemisel keeruline kohti fotode kaudu täpselt kujutada.

"Tegelik maailm on oma välimuselt nii mitmekesine ja sellel on erinevad materjalid - läikivad asjad, vesi, õhukesed struktuurid," ütles Snavely.

Lisaks nendele takistustele on traditsiooniline arvutinägemine hädas ka vastuoluliste andmetega. Plenoptiline funktsioon on see, kuidas miski ilmub ruumis ja ajas igast võimalikust vaatepunktist, kuid selle reprodutseerimiseks on sündmuskohal vaja sadu veebikaameraid. Mitte ainult seda, vaid nad peaksid salvestama kogu päeva ja öö. Seda saaks teha, kuid see on äärmiselt ressursimahukas ülesanne, kui vaadata stseenide arvu, kus seda meetodit vaja oleks.

Teistest fotodest õppimine

Sellest ülesaamiseks töötas teadlaste meeskond välja uue meetodi.

„Andmekogus ei pruugi olla kell 4 tehtud fotot täpselt sellest vaatenurgast. Seega peame õppima ühest kohast kell 9 tehtud fotost ja teisest kohast kell 4 tehtud fotost,” rääkis Snavely. "Ja me ei tea nende fotode tegemise täpsust. Kuid sügava õppimise kasutamine võimaldab meil järeldada, milline oleks stseen igal ajal ja kohas välja näinud.

Teadlased võtsid kasutusele uue stseeni esituse nimega Deep Multiplane Images, et interpoleerida välimust neljas mõõtmes, mis on 3D ja muutuvad ajas.

Snavely sõnul "kasutame sama ideed, mis leiutati 3D-animatsioonis 2D-efektide loomiseks, et luua 3D-efekte reaalsetes stseenides, et luua see sügav mitmekihiline pilt, sobitades selle kõigi nende turistide fotode erinevate mõõtudega. Huvitav on see, et see tuleneb sellest väga vanast klassikalisest tehnikast, mida animatsioonis kasutatakse.

Uuring näitas, et koolitatud mudel suudab luua stseeni 50,000 XNUMX avalikult kättesaadava pildiga erinevatest saitidest. Meeskond usub, et sellel võib olla mõju paljudes valdkondades, sealhulgas arvutinägemise uurimisel ja virtuaalturismil.

"Võite tunda, et olete seal tõesti," ütles Snavely. "See töötab paljude stseenide jaoks üllatavalt hästi."

Projekti toetasid endine Google'i tegevjuht ja filantroop Eric Schmidt ning Wendt Schmidt.

Crowdsampling Plenoptiline funktsioon

Watch this video on YouTube

Seotud teemad:AI tehisintellekti sügav õpe

Järgmisena

Tehisintellekti süsteem, mis suudab liigutada üksikuid molekule

Ära jäta

AI Startup Diffbot loeb faktipõhise teksti genereerimiseks kogu avalikku Internetti

Alex McFarland

Alex McFarland on AI ajakirjanik ja kirjanik, kes uurib tehisintellekti uusimaid arenguid. Ta on teinud koostööd paljude AI idufirmade ja väljaannetega üle maailma.