人工知能

NeRF: Facebook Co-Research Develops Mixed Static/Dynamic Video Synthesis

Published May 14, 2021

Updated April 5, 2026

Martin Anderson

Virginia Polytechnic Institute and State University と Facebook の共同研究により、NeRF ビデオ合成における大きな課題の一つである、静的および動的イメージとビデオを自由に混合することが可能になった。

このシステムは、動的ビデオ要素と静的環境を備えたナビゲーション可能なシーンを生成できる。各要素はロケーションで録音され、仮想環境の制御可能な要素に分離される。

https://www.youtube.com/watch?v=j8CUzIR0f8M

さらに、このシステムはマルチカメラアレイを必要とせずに、単一の視点からこれを実現する。

論文「Dynamic View Synthesis from Dynamic Monocular Video」は、モノキュラー NeRF ワークフローを開発した最初の論文ではないが、同じ入力から時間変化モデルと時間静止モデルを同時にトレーニングし、モーションビデオを「事前にマップされた」NeRF ロケール内に存在させるフレームワークを生成する最初の論文である。

Beyond D-NeRF

研究者は、Dynamic NeRF (D-NeRF) の多様性を単一の視点で再現する必要があり、これには複数のカメラが必要となる。これを解決するために、シーンの前方と後方の流れを予測し、時間的に一貫した歪んだ放射場を開発した。

単一の視点のみで、2D オプティカルフロー分析を使用して 3D ポイントを参照フレームで取得する必要がある。計算された 3D ポイントは、仮想カメラにフィードバックされて、計算されたオプティカルフローと推定されたオプティカルフローを一致させる「シーンフロー」を確立する。

トレーニング時、動的要素と静的要素は、完全なモデルとして個別にアクセス可能な要素として調和される。

シーンフローの予測の厳格な正則化を適用し、D-NeRF に深度順序損失の計算を含めることで、モーションブラーの問題が大幅に軽減される。

この研究は、NeRF 計算の正則化に多くのことを提供し、単一の視点からの出力の探索の敏捷性と便利性を大幅に改善するが、動的および静的 NeRF 要素の新しい分離と再統合も注目に値する。

単一のカメラに頼るこのシステムは、マルチカメラアレイ NeRF セットアップのパノプティコンビューを再現できないが、トラックなしでどこにでも行くことができる。

NeRF – 静的またはビデオ？

最近、16 台のカメラでキャプチャされた動的 NeRF シーンの要素を分離できる新しい NeRF 研究について紹介した。

ST-NeRF

ST-NeRF (上) では、ビューアーがキャプチャされたシーンの個別の要素を再配置し、サイズを変更し、再生速度を変更し、凍結または逆再生することができる。さらに、ST-NeRF では、16 台のカメラでキャプチャされた 180 度のアークの任意の部分を「スクロール」することができる。

しかし、ST-NeRF 論文の研究者は、このシステムでは時間が常に何らかの方向に実行されており、実際にはビデオではなく「静的にマップされた」NeRF 環境である静的環境に照明を変更して効果を適用することが難しいと結論付けた。

高度に編集可能な静的 NeRF 環境

静的 NeRF シーンは、モーションビデオセグメントから分離され、リライト、テクスチャー変更など、さまざまな方法で処理および強化される。 NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis) では、NeRF 環境またはオブジェクトの照明とテクスチャーを変更するための初期ステップが提案されている。