Andersons Blickwinkel

NeRF: Facebook-Co-Forschung entwickelt Mixed Static/Dynamic-Video-Synthese

Veröffentlicht am 14. Mai 2021

Aktualisiert am 24. Mai 2026

Von

Martin Anderson

Eine Zusammenarbeit zwischen der Virginia Polytechnic Institute and State University und Facebook hat eines der großen Herausforderungen in der NeRF-Video-Synthese gelöst: die freie Mischung von statischen und dynamischen Bildern und Videos in Neuralen Radiance Fields (NeRF)-Ausgaben.

Das System kann navigierbare Szenen erzeugen, die sowohl dynamische Video-Elemente als auch statische Umgebungen enthalten, die jeweils an Ort und Stelle aufgenommen, aber in kontrollierbare Aspekte einer virtuellen Umgebung aufgeteilt werden:

Darüber hinaus erreicht es dies aus einer einzigen Perspektive, ohne die Notwendigkeit eines Multi-Kamera-Arrays, das solche Initiativen an ein Studio-Umfeld binden kann.

Die Studie, betitelt Dynamic View Synthesis from Dynamic Monocular Video, ist nicht die erste, die einen monokularen NeRF-Workflow entwickelt, aber sie scheint die erste zu sein, die gleichzeitig ein zeitvariierendes und ein zeitstatisches Modell aus dem gleichen Eingabe trainiert und ein Framework generiert, das es ermöglicht, Bewegungs-Videos innerhalb einer “vorab gemappten” NeRF-Lokalität zu erstellen, ähnlich wie die virtuellen Umgebungen, die oft Schauspieler in hochbudgetierten SF-Produktionen umgeben.

Jenseits von D-NeRF

Die Forscher mussten im Wesentlichen die Vielseitigkeit von Dynamic NeRF (D-NeRF) mit nur einem einzigen Blickwinkel neu erschaffen, und nicht mit der Vielzahl von Kameras, die D-NeRF verwendet. Um dies zu lösen, haben sie die Vorwärts- und Rückwärts-Szene-Fluss vorhergesagt und diese Informationen verwendet, um ein zeitkonsistentes gewarptes Radiance-Feld zu entwickeln.

Mit nur einem Blickwinkel war es notwendig, eine 2D-Optical-Flow-Analyse durchzuführen, um 3D-Punkte in Referenzrahmen zu erhalten. Der berechnete 3D-Punkt wird dann in die virtuelle Kamera eingespeist, um einen “Szenen-Fluss” zu etablieren, der den berechneten optischen Fluss mit dem geschätzten optischen Fluss abgleicht.

Während der Trainingszeit werden dynamische Elemente und statische Elemente in ein vollständiges Modell als separat zugängliche Aspekte vereinigt.

Indem eine Berechnung des Tiefen-Ordnungs-Verlusts hinzugefügt und eine strenge Regularisierung der Szene-Fluss-Vorhersage in D-NeRF angewendet wird, wird das Problem des Bewegungs-Verwischens stark gemildert.

Obwohl die Forschung viel zu bieten hat, um die NeRF-Berechnung zu regulieren und die Beweglichkeit und die Fähigkeit zur Erforschung von Ausgaben aus einer einzigen Perspektive erheblich zu verbessern, ist von mindestens gleicher Bedeutung die neuartige Trennung und Wiedervereinigung von dynamischen und statischen NeRF-Elementen.

Ein solches System kann, da es auf einer einzigen Kamera basiert, nicht die Panoptikum-Ansicht von Multi-Kamera-Array-NeRF-Setups nachahmen, aber es kann überall hingehen, ohne ein Studio zu benötigen.

NeRF – Statisch oder Video?

Kürzlich haben wir uns einige beeindruckende neue NeRF-Forschung aus China angesehen, die in der Lage ist, Elemente in einer dynamischen NeRF-Szene zu trennen, die mit 16 Kameras aufgenommen wurde.

ST-NeRF

ST-NeRF (oben) ermöglicht es dem Betrachter, individuierte Elemente in einer aufgenommenen Szene umzupositionieren und sogar ihre Größe zu ändern, ihre Wiedergabegeschwindigkeit zu ändern, sie einzufrieren oder rückwärts abzuspielen. Darüber hinaus ermöglicht ST-NeRF es dem Benutzer, durch jeden Teil des 180-Grad-Bogens zu “scrollen”, der von den 16 Kameras aufgenommen wurde.

Die Forscher der ST-NeRF-Studie räumen jedoch ein, dass die Zeit immer in irgendeiner Richtung unter diesem System läuft und dass es schwierig ist, die Beleuchtung zu ändern und Effekte auf Umgebungen anzuwenden, die tatsächlich Videos sind, anstatt “statisch gemappte” NeRF-Umgebungen, die keine beweglichen Komponenten enthalten und nicht als Video aufgenommen werden müssen.

Sehr bearbeitbare statische NeRF-Umgebungen

Eine statische NeRF-Szene, jetzt isoliert von jedem Bewegungs-Video-Segment, ist auf verschiedene Weise leichter zu behandeln und zu bearbeiten, einschließlich der Relighting, wie von NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis) vorgeschlagen, das einen ersten Schritt in der Änderung der Beleuchtung und/oder der Textur einer NeRF-Umgebung oder eines Objekts bietet:

Relighting eines NeRF-Objekts mit NeRV. Quelle: https://www.youtube.com/watch?v=4XyDdvhhjVo

Retexturing in NeRV, einschließlich photorealistischer spekularer Effekte. Da die Basis des Bildarrays statisch ist, ist es leichter, einen NeRF-Aspekt auf diese Weise zu verarbeiten und zu bearbeiten, als den Effekt über eine Reihe von Video-Frames zu umfassen, was die anfängliche Vorverarbeitung und das spätere Training leichter und einfacher macht.