スタブ ニューラル レンダリング: NeRF が新鮮な空気の中を散歩する - Unite.AI
私達と接続

Artificial Intelligence

ニューラル レンダリング: NeRF が新鮮な空気の中を散歩する

mm
更新中 on

Google Research とハーバード大学の共同研究により、完全なシーンの 360 度ニューラル ビデオを作成する新しい方法が開発されました。 ニューラル ラディアンス フィールド (NeRF)。 新しいアプローチにより、NeRF は環境に制限されることなく、あらゆる環境でのカジュアルな抽象使用に一歩近づきます。 卓上モデル or 閉じられた内部シナリオ.

出典: https://www.youtube.com/watch?v=YStDS2-Ln1s

フルビデオについては記事の最後をご覧ください。 出典: https://www.youtube.com/watch?v=YStDS2-Ln1s

Mip-NeRF 360 は、拡張された背景や空などの「無限の」オブジェクトを処理できます。これは、これまでのほとんどの反復とは異なり、光線の解釈方法に制限を設定し、長時間のトレーニング時間を合理化する注意の境界を作成するためです。 より多くの例とプロセスの詳細な洞察については、この記事の最後に埋め込まれた新しい付属ビデオを参照してください。

  新しい紙 というタイトルです Mip-NeRF 360: 無制限のアンチエイリアス処理されたニューラル放射フィールドであり、Google Research のシニア スタッフ 研究科学者である Jon Barron が率いています。

この画期的な進歩を理解するには、神経放射場ベースの画像合成がどのように機能するかについて基本的な理解を得る必要があります。

NeRFとは何ですか?

NeRF ネットワークを「ビデオ」という観点から説明するのは問題があり、完全な 3D 実現に近いものですが、 AIベース 仮想環境では、1 枚の写真 (ビデオ フレームを含む) からの複数の視点を使用して、技術的には機械学習アルゴリズムの潜在空間にのみ存在するシーンをつなぎ合わせますが、そこから膨大な数の視点とビデオを自由に抽出できます。 。

NeRF がニューラル シーンに組み立てるデータを提供する複数のカメラ キャプチャ ポイントの図 (右の図)。

NeRF がニューラル シーンに組み立てるデータを提供する複数のカメラ キャプチャ ポイントの図 (右の図)。

投稿された写真から得られた情報は、従来のアルゴリズムと同様のマトリックスにトレーニングされます。 ボクセルグリッド CGI ワークフローでは、3D 空間内のすべてのポイントが最終的に値を持ち、シーンがナビゲート可能になります。

従来のボクセル マトリックスは、ピクセル情報 (通常、JPEG ファイルのピクセル グリッドなどの 2D コンテキストに存在します) を 344488704 次元空間に配置します。 出典: https://www.researchgate.net/publication/XNUMX_Processing_and_analysis_of_airborne_full-waveform_laser_scanning_data_for_the_characterization_of_forest_structur_and_fuel_properties

従来のボクセル マトリックスは、ピクセル情報 (通常、JPEG ファイルのピクセル グリッドなどの 2D コンテキストに存在します) を XNUMX 次元空間に配置します。 出典:ResearchGate

(必要に応じて) 写真間の隙間スペースを計算した後、寄与する各写真の考えられる各ピクセルのパスが効果的に「レイ トレーシング」され、透明度値を含むカラー値が割り当てられます (透明度値がなければ、ニューラル マトリックスは完全に不透明になります)。または完全に空です)。

ボクセルグリッドのように、 異なり、 CGI ベースの 3D 座標空間、「閉じた」オブジェクトの「内部」は、NeRF マトリックスには存在しません。 必要に応じて、CGI ドラムキットを分割して内部を確認することができます。 ただし、NeRF に関する限り、ドラム キットの表面の不透明度の値が「1」になると、ドラム キットの存在は終了します。

ピクセルのより広い視野

Mip-NeRF 360 は、 2021年XNUMX月調査これにより、徹底的なスーパーサンプリングを行わずに効率的なアンチエイリアシングが NeRF に効果的に導入されました。

NeRF は伝統的に XNUMX つのピクセル パスのみを計算します。 「ギザギザ」 初期のインターネット画像形式を特徴づけたものと同様に、 以前のゲームシステム。 これらのギザギザのエッジはさまざまな方法で解決され、通常は隣接するピクセルをサンプリングして平均表現を見つけることが含まれます。

従来の NeRF はその XNUMX つのピクセル パスのみをサンプリングするため、Mip-NeRF では、ワイド ビーム トーチのような「円錐形」集水域を導入し、以下の十分な情報を提供します。 隣接 ピクセルを使用して、ディテールが改善された経済的なアンチエイリアスを生成します。

Mip-NeRF が使用する円錐形の集水域は、円錐台にスライスされ (下図)、これをさらに「ぼかして」、ピクセルの精度とエイリアシングを計算するために使用できる、より曖昧なガウス空間を表します。 出典: https://www.youtube.com/watch?v=EpH175PY1A0

Mip-NeRF が使用する円錐形の集水域は円錐台 (下の画像) にスライスされ、これをさらに「ぼかして」、ピクセルの精度とエイリアシングの計算に使用できるあいまいなガウス空間を作成します。 出典: https://www.youtube.com/watch?v=EpH175PY1A0

標準の NeRF 実装と比較した改善は顕著でした。

2021 年 XNUMX 月にリリースされた Mip-NeRF (右) は、ギザギザのエッジを避けるために単にピクセルを「ぼかす」のではなく、より包括的かつ経済的なエイリアシング パイプラインを通じて改善されたディテールを提供します。 出典: https://jonbarron.info/mipnerf/

2021 年 XNUMX 月にリリースされた Mip-NeRF (右) は、ギザギザのエッジを避けるために単にピクセルを「ぼかす」のではなく、より包括的かつ経済的なエイリアシング パイプラインを通じて改善されたディテールを提供します。 出典: https://jonbarron.info/mipnerf/

NeRF 無制限

XNUMX 月の論文では、空を含む非常に遠くにある物体が含まれる可能性がある境界のない環境で Mip-NeRF を使用することに関して、未解決の XNUMX つの問題が残されました。 新しい論文では、次の方法を適用することでこれを解決しています。 カルマンスタイル Mip-NeRF ガウスにワープします。

第 360 に、シーンが大きくなると、より大きな処理能力とトレーニング時間の延長が必要になります。Mip-NeRF XNUMX は、シーンのジオメトリを小さな「提案」で「蒸留」することで解決します。 多層パーセプトロン (MLP)、大規模な標準 NeRF MLP によって予測されるジオメトリを事前に制限します。 これにより、トレーニングが XNUMX 倍高速化されます。

最後に、シーンが大きくなると、解釈されたジオメトリの離散化が曖昧になる傾向があり、その結果、ゲーム出力が「裂ける」ときにゲーマーがよく知っているようなアーティファクトが生じます。 新しい論文では、Mip-NeRF 光線間隔の新しい正則化子を作成することでこの問題に対処しています。

右側には、このような大きなシーンを境界付けるのが難しいため、Mip-NeRF で不要なアーティファクトが見られます。 左側では、新しいレギュラライザーがシーンを十分に最適化し、これらの妨害を除去していることがわかります。

右側には、このような大きなシーンを境界付けるのが難しいため、Mip-NeRF で不要なアーティファクトが見られます。 左側では、新しいレギュラライザーがシーンを十分に最適化し、これらの妨害を除去していることがわかります。

新しい論文の詳細については、以下のビデオをご覧ください。 2021年XNUMX月の動画紹介 Mip-NeRFへ。 NeRF 研究について詳しくは、こちらをご覧ください。 これまでの私たちの取材範囲.

Mip-NeRF 360: 無制限のアンチエイリアス処理されたニューラル放射フィールド

初版発行日: 25 年 2021 月 XNUMX 日
21年2021月12日午後25時XNUMX分 – デッドビデオを置き換えました。 – MA