Artificiell intelligens

NeRF: Facebook Co-Research utvecklar blandad statisk/dynamisk videosyntes

Uppdaterad on December 9, 2022

Ett samarbete mellan Virginia Polytechnic Institute och State University och Facebook har löst en av de stora utmaningarna inom NeRF-videosyntes: att fritt blanda statiska och dynamiska bilder och video i Neural Radiance Fields (NeRF) utdata.

Systemet kan generera navigerbara scener som innehåller både dynamiska videoelement och statiska miljöer, var och en inspelad på plats, men separerade ut i kontrollerbara aspekter av en virtuell miljö:

Dynamic View Synthesis från Dynamic Monocular Video

Dynamic View Synthesis from Dynamic Monocular Video

Watch this video on YouTube

Dessutom uppnår den detta från en enda synvinkel, utan behov av den typ av multi-kamera array som kan binda initiativ som detta till en studiomiljö.

Smakämnen papper, berättigad Dynamic View Synthesis från Dynamic Monocular Video, är inte den första att utveckla en monokulär NeRF arbetsflöde, men tycks vara den första som samtidigt tränar en tidsvarierande och en tidsstatisk modell från samma ingång, och att generera ett ramverk som tillåter rörelsevideo att existera i en "förmappad" NeRF-lokal, liknande typ av virtuella miljöer som ofta kapslar in aktörer i högbudget SF-utflykter.

Bortom D-NeRF

Forskarna har varit tvungna att i huvudsak återskapa mångsidigheten hos Dynamic NeRF (D-NeRF) med bara en enda synvinkel, och inte den mångfald kameror som D-NeRF använder. För att lösa detta förutspådde de scenflödet framåt och bakåt och använde denna information för att utveckla ett skevt utstrålningsfält som är tidsmässigt konsekvent.

Med endast en POV var det nödvändigt att använda 2D optisk flödesanalys för att erhålla 3D-punkter i referensramar. Den beräknade 3D-punkten matas sedan tillbaka till den virtuella kameran för att etablera ett "scenflöde" som matchar det beräknade optiska flödet med det uppskattade optiska flödet.

Vid träningstid förenas dynamiska element och statiska element till en fullständig modell som separat tillgängliga aspekter.

Genom att inkludera en beräkning av djupordningsförlust, modellen och tillämpa rigorös reglering av scenflödesprediktion i D-NeRF, mildras problemet med rörelseoskärpa avsevärt.

Även om forskningen har mycket att erbjuda när det gäller att reglera NeRF-beräkningar och avsevärt förbättrar skickligheten och möjligheten att utforska utdata från en enda POV, är minst lika viktig den nya separationen och återintegreringen av dynamiska och statiska NeRF-element .

Om man förlitar sig på en enda kamera kan ett sådant system inte replikera panoptikvyn för NeRF-uppställningar med flera kameror, men det kan gå var som helst och utan lastbil.

NeRF – statisk eller video?

Nyligen tittade vi på några imponerande ny NeRF-forskning från Kina som kan separera ut element i en dynamisk NeRF-scen fångad med 16 kameror.

ST-NeRF (ovan) gör det möjligt för tittaren att flytta om individuella element i en fångad scen, och till och med ändra storlek på dem, ändra deras uppspelningshastighet, frysa dem eller köra dem bakåt. Dessutom tillåter ST-NeRF användaren att "scrolla" genom vilken del som helst av 180-gradersbågen som fångas av de 16 kamerorna.

Men forskarna vid ST-NeRF papper medge avslutningsvis att tiden alltid går i någon eller annan riktning under detta system, och att det är svårt att ändra belysningen och applicera effekter på miljöer som faktiskt är video, snarare än "statiskt kartlade" NeRF-miljöer som i sig inte innehåller några rörliga komponenter och behöver inte spelas in som video.

Mycket redigerbara statiska NeRF-miljöer

En statisk Neural Radiance Field-scen, nu isolerad från alla rörliga videosegment, är lättare att behandla och utöka på ett antal sätt, inklusive relighting, som föreslagits tidigare i år av NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis), som erbjuder ett första steg i att ändra belysningen och/eller strukturen i en NeRF-miljö eller ett objekt:

Återbelysning av ett NeRF-objekt med NeRV. Källa: https://www.youtube.com/watch?v=4XyDdvhhjVo

Omstrukturering i NeRV, inklusive fotorealistiska spegeleffekter. Eftersom basen för bilduppsättningen är statisk, är det lättare att bearbeta och utöka en NeRF-aspekt på detta sätt än att omfatta effekten över en rad videoramar, vilket gör den första förbearbetningen och eventuell träning lättare och enklare.

Relaterade ämnen:bildsyntes NeRF forskning video-

Strax

Ny AI upptäcker sarkasm i sociala medier

Missa inte

Neural rendering: Hur lågt kan du gå när det gäller indata?

Martin Anderson

Författare om maskininlärning, artificiell intelligens och big data.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai

Unite.AI

NeRF: Facebook Co-Research utvecklar blandad statisk/dynamisk videosyntes

Artificiell intelligens