Artificial Intelligence
任意の環境マップを使用してニューラル ラディアンス フィールドを再照明する
A 新しい紙 マックス・プランク研究所とMITは、真の値を得る手法を提案しました。 もつれを解く 神経放射フィールドの (ナーフ) データが収集されたときに存在していた照明からのコンテンツ。 アドホック 環境マップを使用して、NeRF シーンのイルミネーションを完全にオフにします。
新しいアプローチでは、人気のオープンソース 3D アニメーション プログラム Blender を使用して「仮想ライト ステージ」を作成します。そこでは、考えられる照明シナリオが多数反復されてレンダリングされ、最終的には NeRF モデル内の特別なレイヤーにトレーニングされ、環境マップに対応できるようになります。ユーザーはシーンを照らすために使用したいと考えています。
このアプローチは、以下に対してテストされました。 ミツバ2 逆レンダリング フレームワーク、および以前の作品に対する 物理学, Rnr, ニューラルPIL および ネファクター、直接照明モデルのみを採用し、最高のスコアを取得しました。
論文は次のように述べています。
「私たちの定性的および定量的な結果は、以前の最先端技術と比較した場合、シーンパラメータの回復と、新しいビューと照明条件下でのアプローチの合成品質の点で明らかな進歩を示しています。」
研究者らは、最終的にはプロジェクトのコードを公開すると述べている。
NeRF 編集機能の必要性
NeRF は本質的に、視点からの何千もの可能なパスのピクセル値を計算し、RGBD 値を割り当て、これらの値のマトリックスを組み立てて、ボリューム表現。 NeRF の核心は照明によって定義されます。
実際、NeRF は、その印象的なビジュアルと NVIDIA による贅沢な採用にも関わらず、著しく「堅固」、つまり CGI 用語で「焼き付けられた」ものです。 したがって、研究コミュニティは過去 12 ~ 18 か月間、この点における扱いやすさと汎用性の向上に重点を置いてきました。
重要性の点で、この種のマイルストーンの賭け金は高く、視覚効果業界を、メッシュ生成、モーション ダイナミクス、テクスチャリングを中心とした創造的で協調的なモデルから、中心に構築されたモデルに変革する可能性が含まれています。 逆レンダリングここで、VFX パイプラインは、推定された職人技による近似値ではなく、実際のもの (または、おそらくは実際の合成モデル) の現実世界の写真によって強化されています。
今のところ、視覚効果コミュニティの間では、少なくとも Neural Radiance Fields からは、あまり心配の余地はありません。 NeRF には、初期段階の能力しかありません。 リギング, ネスティング, 深度制御, 調音…そして確かに、それに関しても 照明を選択します。 付随するビデオ 他の人のために 新しいパペNeRF ジオメトリの初歩的な変形を提供する r は、CGI の現在の最先端技術とニューラル レンダリング技術の独創的な取り組みとの間にある巨大な溝を示しています。
要素をふるいにかける
それにもかかわらず、どこかから始める必要があるため、新しい論文の研究者らは中間制御および生成メカニズムとして CGI を採用しました。 一般的なアプローチ GAN の厳格な潜在空間と、NeRF のほとんど侵入不可能な線形ネットワークに向けて。
事実上、中心的な課題は計算することです グローバルイルミネーション (GI、ニューラル レンダリングには直接適用できません) を同等のものに変換します。 事前に計算された放射輝度転送 (ニューラル レンダリングに適合できる PRT) の計算。
GI は、光が表面や他の表面に反射する様子をモデル化し、これらの反射光の領域をレンダリングに組み込んでリアリズムを高める、現在では由緒ある CGI レンダリング技術です。
新しいアプローチでは PRT が中間照明機能として使用されており、PRT が個別の編集可能なコンポーネントであるという事実により、もつれの解消が実現されます。 新しい方法は、学習された PRT を使用して NeRF オブジェクトのマテリアルをモデル化します。
元のデータの実際のシーンの照明は、そのプロセスで環境マップとして復元され、シーンのジオメトリ自体は符号付き距離フィールドとして抽出されます(SDF) これにより、最終的には仮想ライト ステージで動作する Blender の従来のメッシュが提供されます。
プロセスの最初の段階では、2021 年の Neusの研究 コラボレーション。
神経放射輝度伝達フィールド (NRTF、照明データに対応する) を開発するために、研究者らは、Mitsuba 2 微分可能パス トレーサーを使用しました。
これにより、初期環境マップの生成だけでなく、双方向散乱分布関数 (BSDF) の共同最適化も容易になります。 BSDF が作成されると、パス トレーサーを Blender で使用して (すぐ上の埋め込みビデオを参照)、仮想 XNUMX ライト アット ア タイム (OLAT) シーン レンダリングを作成できます。
次に、NRTF は、互いに絡み合っていないフォトリアル マテリアル エフェクトと合成データの間の複合損失を使用してトレーニングされます。
イルミネーションへの道
この手法のトレーニング要件は、元の NeRF トレーニング時間よりも明らかに短いですが、重要ではありません。 で NVIDIA QuadroRTX 8000 48 GB の VRAM を使用すると、最初の光とテクスチャの推定のための予備トレーニングに 30 分かかります。 OLAT トレーニング (つまり、仮想ライト ステージ キャプチャのトレーニング) には 16 時間かかります。 そして、もつれを解いた合成データと実際のデータの間の最終的な結合最適化には、最適な品質に達するまでさらに XNUMX 時間かかります。
さらに、結果として得られるニューラル表現はリアルタイムで実行できず、研究者によれば「XNUMXフレームあたり数秒」かかるという。
研究者らは次のように結論づけています。
「私たちの結果は、現在の最先端技術に比べて明らかな改善を示していますが、将来の作業には、ランタイムのさらなる改善と、ジオメトリ、マテリアル、およびシーンの照明の共同推論が含まれる可能性があります。」
初版は28年2022月XNUMX日。