Kunstig intelligens

NeRF: Facebook Co-Research utvikler blandet statisk/dynamisk videosyntese

oppdatert on Desember 9, 2022

Et samarbeid mellom Virginia Polytechnic Institute og State University og Facebook har løst en av de store utfordringene i NeRF-videosyntese: fritt blande statiske og dynamiske bilder og video i Neural Radiance Fields (NeRF)-utgang.

Systemet kan generere navigerbare scener som inneholder både dynamiske videoelementer og statiske miljøer, hver innspilt på stedet, men delt ut i kontrollerbare fasetter av et virtuelt miljø:

Dynamic View Synthesis fra Dynamic Monocular Video

Dynamic View Synthesis from Dynamic Monocular Video

Watch this video on YouTube

Videre oppnår den dette fra et enkelt synspunkt, uten behov for den typen multikamera-array som kan binde initiativer som dette til et studiomiljø.

De papir, har krav på Dynamic View Synthesis fra Dynamic Monocular Video, er ikke den første til å utvikle en monokulær NeRF arbeidsflyt, men ser ut til å være den første som samtidig trener opp en tidsvarierende og en tidsstatisk modell fra den samme inngangen, og genererer et rammeverk som lar bevegelsesvideo eksistere inne i en 'forhåndskartlagt' NeRF-lokale, som ligner på slags virtuelle miljøer som ofte innkapsler aktører i høybudsjetts SF-utflukter.

Utover D-NeRF

Forskerne har i hovedsak måttet gjenskape allsidigheten til Dynamic NeRF (D-NeRF) med bare ett enkelt synspunkt, og ikke mangfoldet av kameraer som D-NeRF bruker. For å løse dette spådde de sceneflyten fremover og bakover og brukte denne informasjonen til å utvikle et skjevt utstrålingsfelt som er tidsmessig konsistent.

Med bare én POV var det nødvendig å bruke 2D optisk flytanalyse for å få 3D-punkter i referanserammer. Det beregnede 3D-punktet mates deretter tilbake til det virtuelle kameraet for å etablere en "sceneflyt" som matcher den beregnede optiske flyten med den estimerte optiske flyten.

På treningstidspunktet blir dynamiske elementer og statiske elementer forenet til en full modell som separat tilgjengelige fasetter.

Ved å inkludere en beregning av dybdeordenstap, modellen og bruke streng regulering av sceneflytprediksjon i D-NeRF, reduseres problemet med bevegelsesuskarphet i stor grad.

Selv om forskningen har mye å tilby når det gjelder å regulere NeRF-beregning, og forbedrer behendigheten og muligheten for utforskning for utdata fra en enkelt POV, er den nye separasjonen og re-integreringen av dynamiske og statiske NeRF-elementer minst like viktig. .

Ved å stole på et eneste kamera, kan et slikt system ikke gjenskape panoptikonvisningen av NeRF-oppsett med flere kameraer, men det kan gå hvor som helst og uten lastebil.

NeRF – Statisk eller video?

Nylig så vi på noen imponerende ny NeRF-forskning fra Kina som er i stand til å skille ut elementer i en dynamisk NeRF-scene tatt med 16 kameraer.

ST-NeRF (over) lar seeren omplassere individuelle elementer i en fanget scene, og til og med endre størrelsen på dem, endre avspillingshastigheten, fryse dem eller kjøre dem bakover. I tillegg lar ST-NeRF brukeren "scrolle" gjennom hvilken som helst del av 180-graders buen fanget av de 16 kameraene.

Men forskerne ved ST-NeRF papir innrømme for å avslutte at tiden alltid løper i en eller annen retning under dette systemet, og at det er vanskelig å endre belysningen og bruke effekter på miljøer som faktisk er video, i stedet for "statisk kartlagte" NeRF-miljøer som i seg selv ikke inneholder noen bevegelige komponenter, og trenger ikke å bli tatt opp som video.

Svært redigerbare statiske NeRF-miljøer

En statisk Neural Radiance Field-scene, nå isolert fra alle bevegelsesvideosegmenter, er lettere å behandle og forsterke på en rekke måter, inkludert relighting, som foreslått tidligere i år av NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis), som tilbyr et første trinn i å endre belysningen og/eller tekstureringen av et NeRF-miljø eller et objekt:

Belysning av et NeRF-objekt med NeRV. Kilde: https://www.youtube.com/watch?v=4XyDdvhhjVo

Reteksturering i NeRV, til og med inkludert fotorealistiske speileffekter. Siden grunnlaget for utvalget av bilder er statisk, er det lettere å behandle og forsterke en NeRF-fasett på denne måten enn å omfatte effekten på tvers av en rekke videorammer, noe som gjør innledende forhåndsbehandling og eventuell trening lettere og enklere.

Relaterte temaer:bildesyntese NeRF forskning video

Neste

Ny AI oppdager sarkasme i sosiale medier

Ikke gå glipp av

Nevral gjengivelse: Hvor lavt kan du gå når det gjelder input?

Martin Andersen

Forfatter om maskinlæring, kunstig intelligens og big data.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai

Unite.AI

NeRF: Facebook Co-Research utvikler blandet statisk/dynamisk videosyntese

Kunstig intelligens