Kunstig intelligens
Forskere bruker dyp læring for å gjøre landemerkefotografier 4D

Forskere ved Cornell University har utviklet en ny metode som bruker dyp læring for å gjøre verdens landemerkefotografier 4D. Teamet baserte seg på offentlig tilgjengelige turistfotografier av store punkter som Trevi-fontenen i Roma, og slutresultatene er 3D-bilder som kan manøvreres og vise endringer i utseende over tid.
Den nylig utviklede metoden tar inn og syntetiserer titusener av ubrukte og udatede fotografier, og det er et stort skritt fremover for datavisjon.
Arbeidet har tittelen “Crowdsampling the Plenoptic Function”, og det ble presentert på den virtuelle europeiske konferansen om datavisjon, som fant sted mellom 23. og 28. august.
Noah Snavely er en assosiert professor i datavitenskap ved Cornell Tech og seniorforfatter av artikkelen. Andre bidragsytere inkluderer Cornell-doktoranden Zhengqi Li, første forfatter av artikkelen, samt Abe Davis, assistentprofessor i datavitenskap i Fakultetet for datavitenskap og informasjonsvitenskap, og Cornell Tech-doktoranden Wenqi Xian.
“Det er en ny måte å modellere scene som ikke bare lar deg flytte hodet og se, for eksempel, fontenen fra forskjellige synsvinkler, men også gir deg kontroller for å endre tiden,” sa Snavely.
“Hvis du virkelig gikk til Trevi-fontenen på ferie, ville utseendet avhenge av hvilken tid du gikk — om natten ville det være belyst av flomlys fra bunnen. Om ettermiddagen ville det være sollys, med mindre du gikk på en skygge dag,” fortsatte han. “Vi lærte hele rekken av utseender, basert på tid på dagen og vær, fra disse uorganiserte fotosamlingene, slik at du kan utforske hele rekken og samtidig flytte deg rundt i scenen.”
Tradisjonelle datavisjonsbegrensninger
Siden det kan være så mange forskjellige teksturer til stede som må gjengis, er det vanskelig for tradisjonell datavisjon å representere steder nøyaktig gjennom fotografier.
“Den virkelige verden er så mangfoldig i utseende og har forskjellige typer materialer — blanke ting, vann, tynne strukturer,” sa Snavely.
Foruten disse barrierene, kjemper tradisjonell datavisjon også med inkonsistent data. Plenoptisk funksjon er hvordan noe ser ut fra hver mulig synsvinkel i rom og tid, men for å gjengi dette, trengs det hundrevis av webkameraer på stedet. Ikke bare det, men de må også være i gang hele dagen og natten. Dette kan gjøres, men det er en ekstremt ressurskrevende oppgave når man ser på antallet scener hvor denne metoden ville være nødvendig.
Læring fra andre fotografier
For å komme rundt dette, utviklet teamet av forskere den nye metoden.
“Det kan hende at det ikke finnes et fotografi tatt klokken 16.00 fra denne eksakte synsvinkelen i datasset. Så vi må lære fra et fotografi tatt klokken 21.00 på ett sted, og et fotografi tatt klokken 16.03 fra et annet sted,” sa Snavely. “Og vi vet ikke granulariteten av når disse fotografiene ble tatt. Men ved å bruke dyp læring kan vi slutte hva scenen ville ha sett ut som på et gitt tidspunkt og sted.”
En ny scenerepresentasjon kalt Deep Multiplane Images ble introdusert av forskerne for å interpolere utseende i fire dimensjoner, som er 3D og endringer over tid.
Ifølge Snavely, “Vi bruker samme ide som ble funnet for å lage 3D-effekter i 2D-animasjon for å lage 3D-effekter i virkelige scener, for å lage denne dype multilagbilden ved å tilpasse den til alle disse forskjellige målingene fra turistfotografiene. Det er interessant at det noenlunde stammer fra denne meget gamle, klassiske teknikken som brukes i animasjon.”
Studien viste at den trente modellen kunne lage en scene med 50 000 offentlig tilgjengelige bilder fra forskjellige steder. Teamet tror at det kunne ha implikasjoner i mange områder, inkludert datavisjonsforskning og virtuell turisme.
“Du kan få følelsen av å virkelig være der,” sa Snavely. “Det fungerer overraskende godt for en rekke scener.”
Prosjektet mottok støtte fra tidligere Google-sjef og filantrop Eric Schmidt, samt Wendt Schmidt.
https://www.youtube.com/watch?v=MAVFKWX8LYo&feature=emb_title












