Artificiell intelligens
NeRF: Facebook Co-Research Utvecklar Blandad Statisk/Dynamisk Videosyntes

Ett samarbete mellan Virginia Polytechnic Institute and State University och Facebook har löst en av de stora utmaningarna i NeRF-videosyntes: fritt blanda statiska och dynamiska bilder och videor i Neural Radiance Fields (NeRF)-utdata.
Systemet kan generera navigerbara scener som innehåller både dynamiska videoelement och statiska miljöer, var och en inspelad på plats, men separerade ut i kontrollerbara aspekter av en virtuell miljö:
Dessutom uppnår det detta från en enda vy, utan behov av den typ av multi-kameraarray som kan binda initiativ som detta till en studio-miljö.
Den artikeln, med titeln Dynamic View Synthesis from Dynamic Monocular Video, är inte den första som utvecklar en monokulär NeRF-arbetsflöde, men verkar vara den första som samtidigt tränar en tidsvarierande och en tidsstatisk modell från samma indata, och genererar en ram som tillåter rörlig video att existera inuti en ‘förkarterad’ NeRF-lokal, liknande den typ av virtuella miljöer som ofta omger skådespelare i högbudgetsfilm.
Beyond D-NeRF
Forskarna har varit tvungna att i princip återskapa den flexibilitet som Dynamic NeRF (D-NeRF) har med bara en enda vy, och inte den multiplicitet av kameror som D-NeRF använder. För att lösa detta, förutsåg de framåt och bakåt scenflöde och använde denna information för att utveckla ett krökt strålningsfält som är tidskonsekvent.
Med bara en vy, var det nödvändigt att använda 2D optisk flödesanalys för att få 3D-punkter i referensramar. Den beräknade 3D-punkten matas sedan tillbaka in i den virtuella kameran för att etablera ett ‘scenflöde’ som matchar det beräknade optiska flödet med det uppskattade optiska flödet.
Vid tränningstiden, försonas dynamiska element och statiska element till en fullständig modell som separat tillgängliga aspekter.
Genom att inkludera en beräkning av djupordningsförlust, modellen och tillämpa rigorös regularisering av scenflödesprediktion i D-NeRF, mitigeras problemet med rörelseoskärpa avsevärt.

Även om forskningen har mycket att erbjuda i termer av att regularisera NeRF-beräkning, och förbättrar avsevärt flexibiliteten och faciliterar utforskning av utdata från en enda vy, är den nya separationen och återintegreringen av dynamiska och statiska NeRF-element av minst lika stor betydelse.
Beroende på en enda kamera, kan ett sådant system inte replikera den panoptiska vyn av multi-kameraarray NeRF- installationer, men det kan gå var som helst, och utan en lastbil.
NeRF – Statisk eller Video?
Nyligen tittade vi på några imponerande nya NeRF-forskning från Kina som kan separera ut element i en dynamisk NeRF-scen som spelats in med 16 kameror.

ST-NeRF (ovan) tillåter tittaren att ompositionera individuerade element i en inspelad scen, och till och med att ändra storlek på dem, ändra deras uppspelningshastighet, frysa dem eller köra dem baklänges. Dessutom tillåter ST-NeRF användaren att ‘scrolla’ genom valfri del av den 180-gradersbåge som spelats in av de 16 kamerorna.
Men forskarna i ST-NeRF artikeln medger i slutet att tiden alltid löper i någon eller annan riktning under detta system, och att det är svårt att ändra belysningen och applicera effekter på miljöer som faktiskt är video, snarare än ‘statiskt kartlagda’ NeRF-miljöer som i sig innehåller inga rörliga komponenter, och inte behöver spelas in som video.
Högt Redigerbara Statiska NeRF-Miljöer
En statisk Neural Radiance Field-scen, nu isolerad från alla rörliga videosegment, är lättare att behandla och förstärka på ett antal sätt, inklusive omlysning, som föreslogs tidigare i år av NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis), som erbjuder ett första steg i att ändra belysningen och/eller textureringen av en NeRF-miljö eller objekt:

Omlysning av ett NeRF-objekt med NeRV. Källa: https://www.youtube.com/watch?v=4XyDdvhhjVo

Texturering i NeRV, även inklusive fotorealistiska spekulära effekter. Eftersom grundvalen för arrayen av bilder är statisk, är det lättare att bearbeta och förstärka en NeRF-aspekt på detta sätt än att omfatta effekten över ett antal videofrimer, vilket gör den initiala förbearbetningen och den eventuella träningslättare och enklare.














