Kunstig intelligens

NeRF: Facebook Co-Research Udvikler Blandet Statiske/Dynamiske Video-Syntese

Published May 14, 2021

Updated April 5, 2026

Martin Anderson

Et samarbejde mellem Virginia Polytechnic Institute and State University og Facebook har løst en af de største udfordringer i NeRF video-syntese: frit at blande statiske og dynamiske billeder og video i Neural Radiance Fields (NeRF) output.

Systemet kan generere navigable scener, der indeholder både dynamiske videoelementer og statiske miljøer, hver optaget på stedet, men adskilt ud i kontrollerbare aspekter af et virtuelt miljø:

Desuden opnår det dette fra ét synspunkt, uden behov for den type multi-kamera-array, der kan binde initiativer som denne til et studiemiljø.

Den artikel, med titlen Dynamic View Synthesis from Dynamic Monocular Video, er ikke den første til at udvikle en monokulær NeRF arbejdsgang, men synes at være den første til samtidigt at træne en tidsvarierende og en tidsstatisk model fra samme input, og til at generere en ramme, der tillader bevægelsesvideo at eksistere inde i et ‘forhåndsmappet’ NeRF-lokale, ligesom den type virtuelle miljøer, der ofte indeholder skuespillere i højbudget SF-udgivelser.

Ud over D-NeRF

Forskerne har måttet genskabe den fleksibilitet af Dynamic NeRF (D-NeRF) med kun ét synspunkt, og ikke den mangfoldighed af kameralinjer, som D-NeRF bruger. For at løse dette, har de forudsagt den fremad- og bagudgående sceneflows og brugt denne information til at udvikle en krøllet lysfelt, der er tidsmæssigt konsistent.

Med kun ét synspunkt, var det nødvendigt at bruge 2D optisk flow-analyse til at opnå 3D-punkter i reference-rammer. Den beregnede 3D-punkt føres derefter tilbage til den virtuelle kamera for at etablere en ‘sceneflow’, der matcher den beregnede optiske flow med den estimerede optiske flow.

Ved træningstid, bliver dynamiske elementer og statiske elementer forsonet i en fuld model som adskilt tilgængelige aspekter.

Ved at inkludere en beregning af dybde-ordre-tab, og anvende streng regularisering af sceneflow-forudsigelse i D-NeRF, bliver problemet med bevægelses-blur betydeligt formindsket.

Selvom forskningen har meget at tilbyde i forhold til at regularisere NeRF-beregning, og betydeligt forbedrer sig på dannelsen og faciliteten af udforskning af output fra ét synspunkt, er det lige så væsentligt, at der er en ny adskillelse og gensammensætning af dynamiske og statiske NeRF-elementer.

Afhængigt af en enkelt kamera, kan sådant et system ikke replikere den panoptiske udsigt af multi-kamera-array NeRF-sæt, men det kan gå hvor som helst, og uden en lastbil.

NeRF – Statiske eller Video?

For nylig så vi på nogle imponerende nye NeRF-forskning fra Kina, der kan adskille elementer i en dynamisk NeRF-scene optaget med 16 kameralinjer.

ST-NeRF

ST-NeRF (ovenfor) tillader betragteren at ompositionere individuelle elementer i en optaget scene, og endda til at ændre deres størrelse, ændre deres afspilningshastighed, fryse dem eller køre dem baglæns. Desuden tillader ST-NeRF brugeren at ‘rulle’ gennem enhver del af den 180-graders bue, der er optaget af de 16 kameralinjer.

Men forskerne bag ST-NeRF artiklen indrømmer i afslutningen, at tiden altid løber i en eller anden retning under dette system, og at det er svært at ændre belysningen og anvende effekter på miljøer, der faktisk er video, snarere end ‘statiske-mappede’ NeRF-miljøer, der i sig selv indeholder ingen bevægelser, og ikke behøver at blive optaget som video.

Meget Redigérbar Statiske NeRF-Miljøer

Et statisk Neural Radiance Field-scene, nu adskilt fra enhver bevægelsesvideo-segment, er lettere at behandle og udvide på en række måder, herunder relighting, som foreslået tidligere dette år af NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis), der tilbyder en initial skridt i at ændre belysningen og/eller teksturen af et NeRF-miljø eller objekt:

Relighting a NeRF object with NeRV. Source: https://www.youtube.com/watch?v=4XyDdvhhjVo

Retexturing in NeRV, even including photorealistic specular effects. Since the basis of the array of images is static, it is easier to process and augment a NeRF facet in this way than to encompass the effect across a range of video frames, making initial pre-processing and eventual training lighter and easier.