スタブ 任意の環境マップを使用してニューラル ラディアンス フィールドを再照明する - Unite.AI
私達と接続

Artificial Intelligence

任意の環境マップを使用してニューラル ラディアンス フィールドを再照明する

mm
更新中 on

A 新しい紙 マックス・プランク研究所とMITは、真の値を得る手法を提案しました。 もつれを解く 神経放射フィールドの (ナーフ) データが収集されたときに存在していた照明からのコンテンツ。 アドホック 環境マップを使用して、NeRF シーンのイルミネーションを完全にオフにします。

新しい技術を実際のデータに適用しました。 この方法が、データがキャプチャされたときに新しいパイプラインが考慮されていなかったこのタイプのアーカイブ データに対しても機能することは注目に値します。 それにもかかわらず、現実的でユーザー指定の照明制御が得られます。出典: https://arxiv.org/pdf/2207.13607.pdf

に適用された新しい技術 実際のデータ。 この方法が、データがキャプチャされたときに新しいパイプラインが考慮されていなかったこのタイプのアーカイブ データに対しても機能することは注目に値します。 それにもかかわらず、現実的でユーザー指定の照明制御が得られます。 出典:https://arxiv.org/pdf/2207.13607.pdf

新しいアプローチでは、人気のオープンソース 3D アニメーション プログラム Blender を使用して「仮想ライト ステージ」を作成します。そこでは、考えられる照明シナリオが多数反復されてレンダリングされ、最終的には NeRF モデル内の特別なレイヤーにトレーニングされ、環境マップに対応できるようになります。ユーザーはシーンを照らすために使用したいと考えています。

Blender を利用して抽出されたジオメトリの仮想ライト ステージ ビューを作成するパイプラインの部分の図。 同様の方針に従う従来の方法では、このデータを提供するために実際のライトステージが使用されていましたが、これは個別のオブジェクトにとっては面倒な要件であり、外部環境ビューにとっては不可能な要件です。 一番右の XNUMX つの写真の左上には、シーンの照明を決定する環境マップが表示されます。 これらはエンド ユーザーが任意に作成できるため、NeRF は最新の CGI アプローチの柔軟性にさらに近づきます。

Blender を利用して抽出されたジオメトリの仮想ライト ステージ ビューを作成するパイプラインの部分の図。 同様の方針に従う従来の方法では、このデータを提供するために実際のライトステージが使用されていましたが、これは個別のオブジェクトにとっては面倒な要件であり、外部環境ビューにとっては不可能な要件です。 一番右の XNUMX つの写真の左上には、シーンの照明を決定する環境マップが表示されます。 これらはエンド ユーザーが任意に作成できるため、NeRF は最新の CGI アプローチの柔軟性にさらに近づきます。

このアプローチは、以下に対してテストされました。 ミツバ2 逆レンダリング フレームワーク、および以前の作品に対する 物理学, Rnr, ニューラルPIL および ネファクター、直接照明モデルのみを採用し、最高のスコアを取得しました。

さまざまな損失関数の下で同等のアプローチと比較した、新しい手法の結果。 研究者らは、自分たちのアプローチが最高品質の手法をもたらし、結果はピーク信号対雑音比(PSNR)、構造類似性指数測定(SSIM)、および偏心的ではあっても効果的な学習知覚画像パッチ類似性(LPIPS)を通じて評価されると主張しています。 。

さまざまな損失関数の下で同等のアプローチと比較した、新しい手法の結果。 研究者らは、自分たちのアプローチが最高品質の手法をもたらし、結果はピーク信号対雑音比(PSNR)、構造類似性指数測定(SSIM)、および偏心的ではあっても効果的な学習知覚画像パッチ類似性(LPIPS)を通じて評価されると主張しています。 。

論文は次のように述べています。

「私たちの定性的および定量的な結果は、以前の最先端技術と比較した場合、シーンパラメータの回復と、新しいビューと照明条件下でのアプローチの合成品質の点で明らかな進歩を示しています。」

研究者らは、最終的にはプロジェクトのコードを公開すると述べている。

NeRF 編集機能の必要性

NeRF は本質的に、視点からの何千もの可能なパスのピクセル値を計算し、RGBD 値を割り当て、これらの値のマトリックスを組み立てて、ボリューム表現。 NeRF の核心は照明によって定義されます。

実際、NeRF は、その印象的なビジュアルと NVIDIA による贅沢な採用にも関わらず、著しく「堅固」、つまり CGI 用語で「焼き付けられた」ものです。 したがって、研究コミュニティは過去 12 ~ 18 か月間、この点における扱いやすさと汎用性の向上に重点を置いてきました。

重要性の点で、この種のマイルストーンの賭け金は高く、視覚効果業界を、メッシュ生成、モーション ダイナミクス、テクスチャリングを中心とした創造的で協調的なモデルから、中心に構築されたモデルに変革する可能性が含まれています。 逆レンダリングここで、VFX パイプラインは、推定された職人技による近似値ではなく、実際のもの (または、おそらくは実際の合成モデル) の現実世界の写真によって強化されています。

今のところ、視覚効果コミュニティの間では、少なくとも Neural Radiance Fields からは、あまり心配の余地はありません。 NeRF には、初期段階の能力しかありません。 リギング, ネスティング, 深度制御, 調音…そして確かに、それに関しても 照明を選択します。 付随するビデオ 他の人のために 新しいパペNeRF ジオメトリの初歩的な変形を提供する r は、CGI の現在の最先端技術とニューラル レンダリング技術の独創的な取り組みとの間にある巨大な溝を示しています。

要素をふるいにかける

それにもかかわらず、どこかから始める必要があるため、新しい論文の研究者らは中間制御および生成メカニズムとして CGI を採用しました。 一般的なアプローチ GAN の厳格な潜在空間と、NeRF のほとんど侵入不可能な線形ネットワークに向けて。

事実上、中心的な課題は計算することです グローバルイルミネーション (GI、ニューラル レンダリングには直接適用できません) を同等のものに変換します。 事前に計算された放射輝度転送 (ニューラル レンダリングに適合できる PRT) の計算。

GI は、光が表面や他の表面に反射する様子をモデル化し、これらの反射光の領域をレンダリングに組み込んでリアリズムを高める、現在では由緒ある CGI レンダリング技術です。

動的拡散グローバル イルミネーション パート I サンプル イメージ

新しいアプローチでは PRT が中間照明機能として使用されており、PRT が個別の編集可能なコンポーネントであるという事実により、もつれの解消が実現されます。 新しい方法は、学習された PRT を使用して NeRF オブジェクトのマテリアルをモデル化します。

ローカルで変形可能な事前計算された放射輝度転送

元のデータの実際のシーンの照明は、そのプロセスで環境マップとして復元され、シーンのジオメトリ自体は符号付き距離フィールドとして抽出されます(SDF) これにより、最終的には仮想ライト ステージで動作する Blender の従来のメッシュが提供されます。

新しい手法のパイプラインの概要。

新しい手法のパイプラインの概要。

プロセスの最初の段階では、2021 年の Neusの研究 コラボレーション。

神経放射輝度伝達フィールド (NRTF、照明データに対応する) を開発するために、研究者らは、Mitsuba 2 微分可能パス トレーサーを使用しました。

ミツバレンダラー - はじめに

これにより、初期環境マップの生成だけでなく、双方向散乱分布関数 (BSDF) の共同最適化も容易になります。 BSDF が作成されると、パス トレーサーを Blender で使用して (すぐ上の埋め込みビデオを参照)、仮想 XNUMX ライト アット ア タイム (OLAT) シーン レンダリングを作成できます。

次に、NRTF は、互いに絡み合っていないフォトリアル マテリアル エフェクトと合成データの間の複合損失を使用してトレーニングされます。

新しいビューの合成と再ライティングの課題に関する、前任者 NeRFactor との比較。

新しいビューの合成と再ライティングの課題に関する、前任者 NeRFactor との比較。

イルミネーションへの道

この手法のトレーニング要件は、元の NeRF トレーニング時間よりも明らかに短いですが、重要ではありません。 で NVIDIA QuadroRTX 8000 48 GB の VRAM を使用すると、最初の光とテクスチャの推定のための予備トレーニングに 30 分かかります。 OLAT トレーニング (つまり、仮想ライト ステージ キャプチャのトレーニング) には 16 時間かかります。 そして、もつれを解いた合成データと実際のデータの間の最終的な結合最適化には、最適な品質に達するまでさらに XNUMX 時間かかります。

さらに、結果として得られるニューラル表現はリアルタイムで実行できず、研究者によれば「XNUMXフレームあたり数秒」かかるという。

研究者らは次のように結論づけています。

「私たちの結果は、現在の最先端技術に比べて明らかな改善を示していますが、将来の作業には、ランタイムのさらなる改善と、ジオメトリ、マテリアル、およびシーンの照明の共同推論が含まれる可能性があります。」

 

初版は28年2022月XNUMX日。