Stummel NeRF: Facebook-Co-Forschung entwickelt gemischte statische/dynamische Videosynthese – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

NeRF: Facebook-Co-Research entwickelt gemischte statische/dynamische Videosynthese

mm
Aktualisiert on

Eine Zusammenarbeit zwischen dem Virginia Polytechnic Institute und der State University sowie Facebook hat eine der größten Herausforderungen bei der NeRF-Videosynthese gelöst: das freie Mischen statischer und dynamischer Bilder und Videos in der Ausgabe von Neural Radiance Fields (NeRF).

Das System kann navigierbare Szenen generieren, die sowohl dynamische Videoelemente als auch statische Umgebungen enthalten, die jeweils vor Ort aufgezeichnet, aber in steuerbare Facetten einer virtuellen Umgebung unterteilt sind:

Dynamische Ansichtssynthese aus dynamischem monokularem Video

Darüber hinaus wird dies aus einer einzigen Perspektive erreicht, ohne dass ein Multikamera-Array erforderlich ist, das Initiativen wie diese an eine Studioumgebung binden kann.

Das KrepppapierTitel Dynamische Ansichtssynthese aus dynamischem monokularem VideoEr ist nicht der erste, der ein Monokular entwickelt Nerf Workflow, scheint aber der erste zu sein, der gleichzeitig ein zeitvariables und ein zeitstatisches Modell aus derselben Eingabe trainiert und ein Framework generiert, das die Existenz von Bewegungsvideos innerhalb eines „vorab zugeordneten“ NeRF-Gebietsschemas ermöglicht, ähnlich dem Art von virtuellen Umgebungen, die oft Schauspieler bei SF-Ausflügen mit hohem Budget einschließen.

Jenseits von D-NeRF

Die Forscher mussten im Wesentlichen die Vielseitigkeit von Dynamic NeRF wiederherstellen (D-NeRF) mit nur einem einzigen Blickwinkel und nicht mit der Vielzahl von Kameras, die D-NeRF verwendet. Um dieses Problem zu lösen, haben sie den Vorwärts- und Rückwärtsfluss der Szene vorhergesagt und diese Informationen verwendet, um ein verzerrtes Strahlungsfeld zu entwickeln, das zeitlich konsistent ist.

Mit nur einem POV war es notwendig, eine 2D-Analyse des optischen Flusses zu verwenden, um 3D-Punkte in Referenzrahmen zu erhalten. Der berechnete 3D-Punkt wird dann zurück in die virtuelle Kamera eingespeist, um einen „Szenenfluss“ zu erstellen, der den berechneten optischen Fluss mit dem geschätzten optischen Fluss abgleicht.

Zur Trainingszeit werden dynamische Elemente und statische Elemente als separat zugängliche Facetten zu einem vollständigen Modell zusammengeführt.

Durch die Einbeziehung einer Berechnung des Verlusts der Tiefenordnung in das Modell und die Anwendung einer strengen Regularisierung der Szenenflussvorhersage in D-NeRF wird das Problem der Bewegungsunschärfe erheblich gemildert.

Obwohl die Forschung im Hinblick auf die Regularisierung der NeRF-Berechnung viel zu bieten hat und die Geschicklichkeit und Einfachheit der Erkundung der Ausgabe aus einem einzelnen POV erheblich verbessert, ist die neuartige Trennung und Wiederintegration dynamischer und statischer NeRF-Elemente mindestens ebenso bemerkenswert .

Da ein solches System auf einer einzigen Kamera basiert, kann es die Panoptikum-Ansicht von NeRF-Setups mit mehreren Kamera-Arrays nicht reproduzieren, kann aber überallhin und ohne LKW fahren.

NeRF – Statisch oder Video?

Kürzlich haben wir uns einige angeschaut beeindruckend Neue NeRF-Forschung aus China, die in der Lage ist, Elemente in einer dynamischen NeRF-Szene, die mit 16 Kameras aufgenommen wurde, herauszutrennen.

ST-NeRF

ST-NeRF (oben) ermöglicht es dem Betrachter, einzelne Elemente in einer aufgenommenen Szene neu zu positionieren und sogar ihre Größe zu ändern, ihre Wiedergabegeschwindigkeit zu ändern, sie einzufrieren oder rückwärts laufen zu lassen. Darüber hinaus ermöglicht ST-NeRF dem Benutzer, durch jeden Teil des von den 180 Kameras erfassten 16-Grad-Bogens zu „scrollen“.

Allerdings sagen die Forscher des ST-NeRF Krepppapier Geben Sie abschließend zu, dass die Zeit unter diesem System immer in die eine oder andere Richtung läuft und dass es schwierig ist, die Beleuchtung zu ändern und Effekte auf Umgebungen anzuwenden, die tatsächlich Video sind, statt auf „statisch abgebildete“ NeRF-Umgebungen, die an sich keine enthalten sich bewegende Bauteile und müssen nicht als Video erfasst werden.

Hochgradig editierbare statische NeRF-Umgebungen

Eine statische Neural-Radiance-Field-Szene, die jetzt von allen Bewegungsvideosegmenten isoliert ist, lässt sich auf vielfältige Weise einfacher behandeln und erweitern, einschließlich Neubeleuchtung, wie Anfang dieses Jahres von NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis) vorgeschlagen. Dies bietet einen ersten Schritt zur Änderung der Beleuchtung und/oder der Textur einer NeRF-Umgebung oder eines NeRF-Objekts:

Erneutes Beleuchten eines NeRF-Objekts mit NeRV. Quelle: https://www.youtube.com/watch?v=4XyDdvhhjVo

Erneutes Beleuchten eines NeRF-Objekts mit NeRV. Quelle: https://www.youtube.com/watch?v=4XyDdvhhjVo

Retexturierung in NeRV, sogar einschließlich fotorealistischer Spiegeleffekte. Da die Basis des Bildarrays statisch ist, ist es einfacher, eine NeRF-Facette auf diese Weise zu verarbeiten und zu erweitern, als den Effekt über eine Reihe von Videobildern hinweg zu erfassen, was die anfängliche Vorverarbeitung und das eventuelle Training leichter und einfacher macht.

Retexturierung in NeRV, sogar einschließlich fotorealistischer Spiegeleffekte. Da die Basis des Bildarrays statisch ist, ist es einfacher, eine NeRF-Facette auf diese Weise zu verarbeiten und zu erweitern, als den Effekt über eine Reihe von Videobildern hinweg zu erfassen, was die anfängliche Vorverarbeitung und das eventuelle Training leichter und einfacher macht.