Connect with us

Kunstig intelligens

NeRF: Facebook Co-Research Utvikler Blandet Statiske/Dynamiske Video-Syntese

mm

Et samarbeid mellom Virginia Polytechnic Institute and State University og Facebook har løst en av de største utfordringene i NeRF-video-syntese: fritt å blande statiske og dynamiske bilder og videoer i Neural Radiance Fields (NeRF)-utdata.

Systemet kan generere navigerbare scener som inneholder både dynamiske video-elementer og statiske miljøer, hver innspilt på stedet, men skilt ut i kontrollerbare aspekter av et virtuelt miljø:

https://www.youtube.com/watch?v=j8CUzIR0f8M

Videre når det dette fra ett enkelt synspunkt, uten behov for den type multi-kamera-oppsett som kan binde slike initiativer til et studio-miljø.

Den artikkelen, med tittelen Dynamic View Synthesis from Dynamic Monocular Video, er ikke den første til å utvikle en monokulær NeRF-arbeidsflyt, men ser ut til å være den første til å samtidig trene en tid-variabel og en tid-statisk modell fra samme inndata, og å generere en ramme som tillater bevegelsesvideo å eksistere inne i et ‘forhåndskartlagt’ NeRF-område, lignende det som ofte innkapsler skuespillere i høy-budsjett SF-utgaver.

Ut over D-NeRF

Forskerne har måttet i praksis gjenskape fleksibiliteten til Dynamic NeRF (D-NeRF) med bare ett synspunkt, og ikke flertall av kameraer som D-NeRF bruker. For å løse dette, har de forutsagt fremover- og bakover-scene-strøm og brukt denne informasjonen til å utvikle en vridd lysfelt som er tids-konsistent.

Med bare ett synspunkt, var det nødvendig å bruke 2D optisk strøm-analyse for å få 3D-punkter i referanse-rammer. Den beregnede 3D-punktet ble deretter matet tilbake til den virtuelle kameraet for å etablere en ‘scene-strøm’ som matcher den beregnede optiske strømmen med den estimerte optiske strømmen.

Ved trenings-tid, blir dynamiske elementer og statiske elementer forsonet til en fullstendig modell som separat tilgjengelige aspekter.

Ved å inkludere en beregning av dybde-orden-tap, og å anvende streng regularisering av scene-strøm-prediksjon i D-NeRF, blir problemet med bevegelses-uskarphet betydelig redusert.

Selv om forskningen har mye å tilby i forhold til å regularisere NeRF-beregning, og betydelig forbedrer evnen og lettheten til å utforske utdata fra ett enkelt synspunkt, er likeverdig å merke seg den nye separasjonen og gjen-samlingen av dynamiske og statiske NeRF-elementer.

Avhengig av ett enkelt kamera, kan slike systemer ikke replikere panopticon-utsikten til multi-kamera-oppsett NeRF, men de kan gå hvor som helst, og uten en lastebil.

NeRF – Statiske eller Video?

Nylig så vi på noen imponerende nye NeRF-forskning fra Kina som kan skille ut elementer i en dynamisk NeRF-scene innspilt med 16 kameraer.

ST-NeRF

ST-NeRF (ovenfor) tillater visningen å omposisjonere individuelle elementer i en innspilt scene, og sogar å endre størrelsen på dem, endre avspillingshastigheten, fryse dem eller kjøre dem bakover. I tillegg tillater ST-NeRF brukeren å ‘rulle’ gjennom noen del av den 180-graders bue innspilt av de 16 kameraene.

Men forskerne bak ST-NeRF artikkelen innrømmer i slutten at tid alltid løper i noen eller annen retning under dette systemet, og at det er vanskelig å endre lyssettingen og anvende effekter på miljøer som faktisk er video, i stedet for ‘statiske-kartlagte’ NeRF-miljøer som i seg selv inneholder ingen bevegelige komponenter, og ikke trenger å innspilles som video.

Høyredigerte Statiske NeRF-Miljøer

Et statisk Neural Radiance Field-scene, nå isolert fra noen bevegelsesvideo-segmenter, er lettere å behandle og utvide på en rekke måter, inkludert om-lysning, som foreslått tidligere i år av NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis), som tilbyr en første skritt i å endre lyssettingen og/eller teksturen på et NeRF-miljø eller objekt:

Om-lysning av et NeRF-objekt med NeRV. Kilde: https://www.youtube.com/watch?v=4XyDdvhhjVo

Om-lysning av et NeRF-objekt med NeRV. Kilde: https://www.youtube.com/watch?v=4XyDdvhhjVo

Om-teksturing i NeRV, selv inkludert fotorealistiske spekulative effekter. Ettersom basisen for bildeserien er statisk, er det lettere å prosessere og utvide et NeRF-aspekt på denne måten enn å omfatte effekten over en rekke video-rammer, og gjør initialt for-prosessering og eventuell trening lettere.

Om-teksturing i NeRV, selv inkludert fotorealistiske spekulative effekter. Ettersom basisen for bildeserien er statisk, er det lettere å prosessere og utvide et NeRF-aspekt på denne måten enn å omfatte effekten over en rekke video-rammer, og gjør initialt for-prosessering og eventuell trening lettere.

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.