Artificial Intelligence

NeRF が CGI の代替にまた一歩近づく

更新中 on 2022 年 12 月 9 日

MIT と Google の研究者らは、最終的に CGI に取って代わる可能性がある新興 AI 駆動テクノロジーにとって最も基本的な障害の XNUMX つを解決するという大きな一歩を踏み出しました。これは、神経放射場 (NeRF) 画像をその構成要素である視覚コンポーネントに分離することで、画像がテクスチャを再設定して再点灯します。

と呼ばれる新しいアプローチネファクターは、キャプチャされた画像をオブジェクトごとの法線 (テクスチャを割り当てることができる)、光の可視性、アルベド (表面から反射される入射光の割合)、および双方向反射率分布関数 (BRDF) に効果的に分割します。

これらのファセットを分離すると、個々のオブジェクトまたはオブジェクトグループのテクスチャを切り替えるだけでなく、NeRF 画像の入力を生成するマルチカメラアレイによってキャプチャされたものを差し引いて、斬新でユニークな光源と影の実装を追加することもできます。

法線、可視性、アルベド、BRDF は NeRFactor の下で分離されました。 出典: https://www.youtube.com/watch?v=UUVSPJlwhPg

このモデルは、任意のユーザー定義の光源からのソフトシャドウまたはハードシャドウをサポートし、再構成損失、以前の BRDF 計算からのデータ、および基本的な単純な滑らかさの正則化を使用して、キャプチャされたビデオの XNUMX つの側面をプログラム的に分離します。

NeRFactor のワークフロー。複数のカメラアレイから得られた画像の実用的な側面を個別に抽出します。 出典：https://arxiv.org/pdf/2106.01970.pdf

NeRFactor は、HDR ライトプローブを使用します。これは、開発以来視覚産業および芸術シーンに浸透している確立されたアプローチです。導入 1998 年に、光線の可能なルートを評価し、任意の照明を可能にしました。これにより、制御できない数の可能なパラメーターが生成されるため、ライトプローブは多層パーセプトロン (MLP) を通してフィルター処理され、モデル空間の完全な照明ボリュームマップを計算することなく、知覚されたジオメトリをプローブにマッピングします。

XNUMX つの神経放射輝度フィールドモデルを使用して、NeRFactor で可能な XNUMX つの照明モデルを示します。画像をクリックすると高解像度が表示されます。

反省の理由

この新しい研究はおそらく、反射を制御するキャプチャされた画像のレイヤーを分離する点で最も重要です。これは依然として神経放射フィールド画像にとって最大の課題の XNUMX つです。なぜなら、真に斬新で柔軟な NeRF システムは、テクスチャを置き換えることができるだけでなく、(一般的な固定環境だけでなく) 動く物体を反映する何らかの方法が決定的に必要になるからです。これは通常、CGI ワークフローで考慮されます。

この問題は、Intel の印象的な新しい研究畳み込みニューラルネットワークを介してビデオゲームの映像をフォトリアリスティックなビデオに変換します。このようなワークフローでは、ソースマテリアルの多くの「ベイク済み」の側面を個別にして交換可能にする必要があります。これはおそらく、リフレクション (「モデルの範囲外にあるオフスクリーンのジオメトリ)。

したがって、反射を促進する NeRF ビデオ内のレイヤーを分離することで、NeRF は「反射の課題」の解決に一歩近づきます。

NeRFactor: 未知の照明下での形状と反射率の神経因数分解

NeRFactor: Neural Factorization of Shape and Reflectance Under an Unknown Illumination

Watch this video on YouTube

HDR 環境の使用により、ワールド環境の反射 (つまり、空、風景、その他の「固定」環境要素) を生成する問題はすでに解決されていますが、動きのある動的な反射を導入するには、新しいアプローチが必要になります。

NeRF を使用した写真測量

Neural Radiance Field 画像は、機械学習分析を使用して、さまざまな角度からキャプチャされたシーンまたはオブジェクトから完全なボリューム空間を作成します。

昨年登場したさまざまな NeRF ベースのスキームでは、貢献する多数のカメラデバイスが使用されています。 16 台以上のカメラを使用するところもあれば、XNUMX ～ XNUMX 台のカメラを使用するところもあります。すべての場合において、シーンまたはオブジェクトを流動的にナビゲートできるように、中間の視点が「埋められる」(つまり、解釈される)。

結果として得られるエンティティは、入力画像の 3D 解析された合計から従来の CG メッシュを生成する機能など、さまざまな方法で活用できる固有の 3D 理解を備えた完全な体積空間です。

「新しい CGI」の文脈における NeRF

神経放射フィールド画像は描かれた人、物体、シーンの動画など、現実世界の画像から直接抽出します。対照的に、CGI 手法は世界を「研究」して解釈し、現実世界の画像 (つまり、顔や環境のキャプチャ) を利用するメッシュ、リグ、テクスチャを構築する熟練作業者を必要とします。それは依然として本質的に解釈的で職人的なアプローチであり、費用と労力がかかります。

さらに、CGI は、人間の類似性を再現する取り組みにおいて「不気味の谷」効果に関する継続的な問題を抱えています。これは、単に実際の人々のビデオまたは画像をキャプチャして操作する NeRF 主導のアプローチに制約を与えません。

さらに、NeRF は、必要に応じて写真から従来の CGI スタイルのメッシュジオメトリを直接生成でき、事実上、コンピュータ生成画像では常に必要であった手動手順の多くを置き換えることができます。

NeRF の課題

MIT と Google によるこの最新の研究は、昨年のまさに NeRF 論文の洪水の中で発表されており、その多くは 2020 年の最初の論文によって引き起こされたさまざまな課題に対する解決策を提供しています。

XNUMX 月、中国の研究コンソーシアムによるイノベーションにより、個別に隔離する NeRF シーン内の人々を含むファセットの個々のタイムライン。

中国の研究により、エンドユーザーはキャプチャした要素をコピー、貼り付け、サイズ変更することができ、元のソースビデオの直線的なタイムラインから要素を切り離すことができます。出典: https://www.youtube.com/watch?v=Wp4HfOwFGP4

このアプローチにより、カメラアレイでキャプチャされた任意の角度からシーンを再想像できるだけでなく (一般的なビデオキャプチャで表現される XNUMX つのビューだけでなく)、多彩な合成が可能になり、さらには同じものから XNUMX つの側面を表現する機能も可能になります。独自の時間枠で実行される (または必要に応じて逆方向に実行される) 映像。

4 つの別個の NeRF ファセットが同じシーン内で異なる速度で実行されます。出典: https://www.youtube.com/watch?v=Wp4HfOwFGPXNUMX

NeRF にとっての最大の課題の XNUMX つは、シーンのトレーニングに必要なかなりのリソースを削減することであり、これについては最近の多くの論文で取り上げられています。たとえば、マックスプランクインテリジェントシステム研究所は最近導入しました。キロネRFこれにより、レンダリング時間が 1000 倍高速化されるだけでなく、NeRF がインタラクティブに動作できるようになります。

KiloNeRF は、GTX 50ti 上で 1080fps でインタラクティブ環境を実行しています。 出典: https://github.com/creiser/kilonerf

しかし、2021 年に研究者と一般の人々の想像力を真に魅了した NeRF のスピードイノベーションは、プレンオクツリー Neural Radiance Fields のリアルタイムレンダリングを提供する UC Berkeley 主導のコラボレーション:

神経放射フィールドのリアルタイムレンダリングのための PlenOctrees

PlenOctrees for Real-time Rendering of Neural Radiance Fields

Watch this video on YouTube

PlenOctrees のインタラクティブ機能の効果は、ライブのWebベースのインターフェース.

Firefox での PlenOctrees オブジェクトのライブインタラクティブな動き (動きはこの GIF が表すよりもスムーズでダイナミックです)。 出典: http://alexyu.net/plenoctrees/demo/

さらに、再帰的 NeRF (清華大学の研究者による 2021 年 XNUMX 月の論文より) オンデマンドで高品質の再帰レンダリングを提供します。表示されない可能性のある部分を含むシーン全体をレンダリングすることをユーザーに義務付ける代わりに、Recursive-NeRF は JPEG の非可逆圧縮に似たものを提供し、オンデマンドで追加の画像を処理するための個別のサブ NeRF を生成することができ、計算リソースの大幅な節約を実現します。。

Recursive-NeRF を使用して不要なレンダリング計算をダンプしながらディテールを保持します。出典: https://arxiv.org/pdf/2105.09103.pdf

Recursive-NeRF を使用して不要なレンダリング計算をダンプしながらディテールを保持します。画像をクリックすると高解像度が表示されます。 出典：https://arxiv.org/pdf/2105.09103.pdf

他のアプローチとしては、ファストネRF、200fpsで高忠実度のニューラルレンダリングを実現すると主張しています。

NeRF の最適化テクニックの多くには、シーンを「ベイク」するレンダリングしたい側面にコミットし、他の側面を破棄することにより、探索は制限されますが、対話性は大幅に高速化されます。

この欠点は、ベイク処理されたシーンが膨大な量のディスク領域を占有するため、ストレスが GPU からストレージに移ることです。これは、ベイクしたデータをダウンサンプリングすることである程度軽減できますが、これには、探索やインタラクティブ性の道を遮断するという点で、一定の取り組みが必要になります。

モーションキャプチャーとリギングに関しては、浙江大学とコーネル大学による新たなアプローチ、 XNUMX月に明らかには、ブレンドウェイトフィールドと入力ビデオから解釈されたスケルトン構造を使用してアニメーション化可能な人間を再作成する方法を提供しました。

Animatable NeRF の派生骨格構造。 出典: https://www.youtube.com/watch?v=eWOSWbmfJo4

NeRF に「ジュラシックパーク」の瞬間が訪れるのはいつですか?

神経放射フィールドを介した画像合成の急速な進歩にもかかわらず、NeRF がどのように展開可能になるかについてのあらゆる種類の「熱力学の法則」が確立されるのはこの時期だけです。 CGI の歴史に似たタイムラインの観点から見ると、NeRF は現在、1973 年頃、つまり XNUMX 年頃をさまよっています。最初の使用 CGIの ウエストワールド.

それは、NeRF が同等の製品を開発するために必ずしも XNUMX 年待つ必要があるという意味ではありません。 カーンの怒り マイルストーンあるいは、1989 年代にジェームズキャメロンの熱烈な後援のもと CGI が達成した同様の進歩には数十年かかりました。 アビス または1991年代 ターミネーター2 – そして、このテクノロジーは本当に革新的ですブレイクアウトの瞬間 1993年に Jurassic Park.

映画の誕生から 1990 年代初頭まで映画やテレビの制作を支配していた光化学視覚効果の長期停滞以来、映像シーンは大きく変化しました。 PC 革命の到来とムーアの法則の加速は CGI 革命をもたらしましたが、そうでなければ 1960 年代にはすでに起こっていた可能性があります。

NeRF の進歩をそれほど長く妨げるほどの頑固な障壁があるのかどうか、また、その後のコンピュータビジョンの革新が、神経放射フィールドを特徴づける CGI の王冠の主要な候補として NeRF を完全に追い越すことはないかもしれないのかどうかは、まだ分からない。ニューラル画像合成の短命な「ファックスマシン」として。

現時点では、NeRF は学術研究以外の状況では使用されていません。しかし、注目に値するのは、Google Research などの大手企業や、最も有名なコンピュータビジョン研究所の多くが、最新の NeRF の進歩を目指して競争していることです。

NeRF の最大の障害の多くは今年、直接対処され始めています。その後の研究が「反射問題」の解決策を提供し、NeRF 最適化研究の多くの要素が合体して、テクノロジーの相当な処理および/またはストレージ要求に対する決定的な解決策が得られれば、NeRF は本当に「新しい CGI」になるチャンスを掴むことができます。今後XNUMX年以内に。