Kunstmatige intelligentie

NeRF: Facebook Co-Research Ontwikkelt Gemengde Statische/Dynamische Video Synthese

Published May 14, 2021

Updated April 5, 2026

Martin Anderson

Een samenwerking tussen de Virginia Polytechnic Institute and State University en Facebook heeft een van de grote uitdagingen in NeRF-video-synthese opgelost: het vrij mengen van statische en dynamische beelden en video in Neural Radiance Fields (NeRF)-uitvoer.

Het systeem kan navigeerbare scènes genereren die zowel dynamische video-elementen als statische omgevingen bevatten, elk opgenomen op locatie, maar gescheiden in controleerbare facetten van een virtuele omgeving:

https://www.youtube.com/watch?v=j8CUzIR0f8M

Bovendien bereikt het dit vanuit een enkel gezichtspunt, zonder de noodzaak voor het soort multi-camera-array dat initiatieven zoals deze aan een studio-omgeving kan binden.

Het paper, getiteld Dynamic View Synthesis from Dynamic Monocular Video, is niet de eerste die een monocular NeRF-workflow ontwikkelt, maar lijkt de eerste te zijn die tegelijkertijd een tijd-variabele en een tijd-statische model uit hetzelfde invoer traint, en een framework genereert dat motion video mogelijk maakt binnen een ‘pre-gekaarte’ NeRF-locatie, vergelijkbaar met het soort virtuele omgevingen die vaak acteurs in high budget SF-outings omvatten.

Verder dan D-NeRF

De onderzoekers hebben eigenlijk de veelzijdigheid van Dynamic NeRF (D-NeRF) moeten herscheppen met slechts een enkel gezichtspunt, en niet de veelvoud van camera’s die D-NeRF gebruikt. Om dit op te lossen, voorspelden ze de voorwaartse en achterwaartse scène-stroom en gebruikten deze informatie om een verwrongen stralingsveld te ontwikkelen dat temporally consistent is.

Met slechts één POV, was het noodzakelijk om 2D optische stroomanalyse te gebruiken om 3D-punten in referentiekaders te verkrijgen. Het berekende 3D-punt wordt vervolgens teruggevoerd in de virtuele camera om een ‘scène-stroom’ te vestigen die overeenkomt met de geschatte optische stroom.

Tijdens de trainingsfase worden dynamische elementen en statische elementen verzoend in een volledig model als afzonderlijk toegankelijke facetten.

Door een berekening van diepte-orde-verlies op te nemen, het model en het toepassen van strikte regularisatie van scène-stroomvoorspelling in D-NeRF, wordt het probleem van motion blur aanzienlijk verlicht.

Hoewel het onderzoek veel te bieden heeft in termen van regularisatie van NeRF-berekening, en aanzienlijk verbetert de behendigheid en faciliteit van exploratie voor uitvoer vanuit een enkel POV, is van minstens gelijke belang de novale scheiding en herintegratie van dynamische en statische NeRF-elementen.

Afhankelijk van een enkele camera, kan een dergelijk systeem de panopticon-weergave van multi-camera-array NeRF-opstellingen niet repliceren, maar het kan overal naartoe gaan, en zonder een truck.

NeRF – Statisch Of Video?

Onlangs keken we naar enkele indrukwekkende nieuwe NeRF-onderzoek uit China dat in staat is om elementen in een dynamische NeRF-scène te scheiden, vastgelegd met 16 camera’s.

ST-NeRF

ST-NeRF (hierboven) laat de kijker toe om individuele elementen in een vastgelegde scène te herpositioneren, en zelfs om ze te vergroten, de afspeelsnelheid te veranderen, ze te bevriezen of achteruit te laten lopen. Bovendien laat ST-NeRF de gebruiker toe om door elk deel van de 180-graden-boog te ‘scrollen’ die door de 16 camera’s is vastgelegd.

Echter, de onderzoekers van het ST-NeRF paper geven in hun slotopmerking toe dat de tijd altijd in een of andere richting loopt onder dit systeem, en dat het moeilijk is om de verlichting te veranderen en effecten toe te passen op omgevingen die eigenlijk video zijn, in plaats van ‘statisch-gekaarte’ NeRF-omgevingen die in zichzelf geen bewegende componenten bevatten, en niet als video hoeven te worden vastgelegd.

Hoog Bewerkbare Statische NeRF-Omgevingen

Een statische Neural Radiance Field-scène, nu geïsoleerd van alle motion video-segmenten, is gemakkelijker te behandelen en te verrijken op verschillende manieren, inclusief het veranderen van de verlichting, zoals eerder dit jaar voorgesteld door NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis), die een eerste stap biedt in het veranderen van de verlichting en/of de textuur van een NeRF-omgeving of object:

Relighting a NeRF object with NeRV. Source: https://www.youtube.com/watch?v=4XyDdvhhjVo

Retexturing in NeRV, even including photorealistic specular effects. Since the basis of the array of images is static, it is easier to process and augment a NeRF facet in this way than to encompass the effect across a range of video frames, making initial pre-processing and eventual training lighter and easier.