Sztuczna inteligencja

NeRF: Facebook Co-Research Develops Mixed Static/Dynamic Video Synthesis

Published May 14, 2021

Updated April 5, 2026

Martin Anderson

Współpraca pomiędzy Virginia Polytechnic Institute and State University a Facebook rozwiązała jeden z głównych wyzwań w syntezie wideo NeRF: swobodne mieszanie statycznych i dynamicznych obrazów oraz filmów w Neural Radiance Fields (NeRF) output.

System może generować nawigowalne sceny, które zawierają dynamiczne elementy wideo oraz statyczne środowiska, każde nagrane w innym miejscu, ale oddzielone na kontrolowane aspekty wirtualnego środowiska:

Ponadto, osiąga to z jednego punktu widzenia, bez potrzeby wielokamerowego układu, który może ograniczać inicjatywy tego typu do studia.

Artykuł paper, zatytułowany Dynamic View Synthesis from Dynamic Monocular Video, nie jest pierwszym, który opracował monocular NeRF workflow, ale wydaje się być pierwszym, który jednocześnie trenuje model czasowo zmienny i czasowo statyczny z tego samego wejścia, oraz generuje ramy, które pozwalają na istnienie filmów wideo wewnątrz “pre-mapped” NeRF locale, podobnie jak wirtualne środowiska, które często zawierają aktorów w wysokobudżetowych produkcjach SF.

Poza D-NeRF

Badacze musieli praktycznie odtworzyć wszechstronność Dynamic NeRF (D-NeRF) z tylko jednym punktem widzenia, a nie z wielością kamer, które używa D-NeRF. Aby rozwiązać ten problem, przewidzieli przepływ sceny do przodu i do tyłu oraz użyli tej informacji do rozwoju zniekształconego pola promieniowania, które jest czasowo spójne.

Z tylko jednym punktem widzenia, konieczne było użycie 2D analizy optycznego przepływu, aby uzyskać 3D punkty w ramach odniesienia. Obliczony 3D punkt jest następnie wprowadzany z powrotem do wirtualnej kamery, aby ustalić “przepływ sceny”, który dopasowuje obliczony optyczny przepływ z oszacowanym optycznym przepływem.

Podczas treningu, dynamiczne elementy i statyczne elementy są uzgodnione w pełnym modelu jako oddzielnie dostępne aspekty.

Poprzez uwzględnienie obliczeń straty głębi i zastosowanie rygorystycznej regulacji przewidywania przepływu sceny w D-NeRF, problem rozmycia ruchu jest znacznie zmniejszony.

Chociaż badanie ma wiele do zaoferowania w zakresie regulacji obliczeń NeRF, i znacznie poprawia zwinność i łatwość eksploracji danych wyjściowych z jednego punktu widzenia, co najmniej równie ważne jest nowe rozdzielenie i ponowne połączenie dynamicznych i statycznych elementów NeRF.

Opierając się na jednej kamerze, taki system nie może odtworzyć panoramicznego widoku układu wielokamerowego NeRF, ale może iść gdziekolwiek, i bez ciężarówki.

NeRF – Statyczny czy wideo?

Niedawno przyjrzeliśmy się imponującym nowym badaniom NeRF z Chin, które umożliwiają rozdzielenie elementów w dynamicznej scenie NeRF nagranej z 16 kamer.

ST-NeRF

ST-NeRF (powyżej) pozwala widzowi ponownie umieścić indywidualne elementy w scenie, oraz nawet zmienić ich rozmiar, zmienić szybkość odtwarzania, zamrozić je lub odtworzyć wstecz. Dodatkowo, ST-NeRF pozwala użytkownikowi “przewinąć” przez dowolną część 180-stopniowego łuku nagranego przez 16 kamer.

Jednakże, badacze artykułu paper przyznają w podsumowaniu, że czas zawsze biegnie w jakimś kierunku pod tym systemem, i że trudno jest zmienić oświetlenie i zastosować efekty do środowisk, które są naprawdę wideo, a nie “statycznie mapowane” środowiska NeRF, które same w sobie nie zawierają ruchomych komponentów i nie muszą być nagrywane jako wideo.

Wysoce edytowalne statyczne środowiska NeRF

Statyczna scena Neural Radiance Field, teraz odizolowana od wszelkich segmentów wideo, jest łatwiejsza do leczenia i uzupełnienia w wielu sposobach, w tym oświetlenia, jak to proponuje NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis), które oferuje początkowy krok w zmianie oświetlenia i/lub tekstury środowiska NeRF lub obiektu:

Relighting obiektu NeRF z NeRV. Source: https://www.youtube.com/watch?v=4XyDdvhhjVo

Retexturing w NeRV, nawet z fotorealistycznymi efektami specular. Ponieważ podstawa tablicy obrazów jest statyczna, jest łatwiej przetwarzać i uzupełniać aspekt NeRF w ten sposób niż objąć efekt na zakresie klatek wideo, co sprawia, że wstępne przetwarzanie i ostateczny trening są lżejsze i łatwiejsze.