Connect with us

人工知能

Splatter Image: 超高速シングルビュー 3D リコンストラクション

mm
Splatter Image: Ultra-Fast Single-View 3D Reconstruction

シングルビュー 3D オブジェクト リコンストラクションに convolutional ネットワークを使用することで、注目すべき能力を実証してきました。シングルビュー 3D リコンストラクション モデルは、任意のオブジェクトの 3D モデルを単一の画像から生成するため、コンピュータ ビジョンの分野で最もホットな研究トピックの 1 つとなっています。

例えば、上の画像のオートバイを考えてみましょう。3D 構造を生成するには、低レベル画像からのヒントと高レベル セマンティック情報、およびパーツの構造的な配置に関する知識を組み合わせる複雑なパイプラインが必要です。

この複雑なプロセスにより、シングルビュー 3D リコンストラクションはコンピュータ ビジョンの分野で大きな課題となりました。シングルビュー 3D リコンストラクションの効率を高めるために、開発者は Splatter Image という手法を開発しました。この手法は、オブジェクトの超高速シングルビュー 3D シェイプと 3D 外観の構築を実現することを目的としています。Splatter Image フレームワークの核となる部分は、3D 表現を分析するために Gaussian Splatting 手法を使用し、その高速性と品質を活用しています。

最近、Gaussian Splatting 手法は、リアルタイム レンダリング、スケーリングの向上、高速トレーニングのために、多視点リコンストラクション モデルで実装されてきました。ただし、Splatter Image は、シングルビュー リコンストラクション タスクで Gaussian Splatting 手法を実装する最初のフレームワークです。

この記事では、Splatter Image フレームワークが Gaussian Splatting を使用して超高速シングルビュー 3D リコンストラクションを実現する方法について説明します。では、始めましょう。

Splatter Image : 超高速シングルビュー 3D リコンストラクションへの挑戦

先ほど述べたように、Splatter Image は、Gaussian Splatting 手法に基づく超高速シングルビュー 3D オブジェクト リコンストラクション手法です。Splatter Image は、従来、Gaussian Splatting が多視点 3D オブジェクト リコンストラクション フレームワークを動かしていたのに対し、最初のコンピュータ ビジョン フレームワークであり、モノキュラー 3D オブジェクト生成に Gaussian Splatting を実装しました。ただし、Splatter Image フレームワークを従来の手法と区別するのは、学習ベースのアプローチであり、テストでのリコンストラクションにはニューラル ネットワークのフィードフォワード評価のみが必要であるという点です。

Splatter Image は、Gaussian Splatting のレンダリングの特性と、高速処理速度を利用して 3D リコンストラクション を生成します。Splatter Image フレームワークには、シンプルな設計があります。フレームワークは、2D 画像から画像へのニューラル ネットワークを使用して、入力画像の各ピクセルに対して 3D ガウシアンを予測し、入力画像を 1 つの 3D ガウシアンにピクセルごとにマップします。結果として得られる 3D ガウシアンは、Splatter Image という形式の画像であり、360 度の表現も提供します。このプロセスは、次の画像に示されています。

プロセスはシンプルで直截ですが、Splatter Image フレームワークでは、Gaussian Splatting を使用して シングルビュー 3D 表現 の 3D ガウシアンを生成する際に、いくつかの重要な課題があります。最初の主要な課題は、入力画像を受け取り、画像のすべての側面を表すガウシアン混合を出力するニューラル ネットワークを設計することです。この課題に対処するために、Splatter Image は、生成されたガウシアン混合がセットまたは順序なしのコレクションであるにもかかわらず、順序付きデータ構造に格納できるという事実を利用します。したがって、フレームワークは、各ピクセルが 1 つのガウシアンのパラメータ (形状、不透明度、色など) を含む 2D 画像をコンテナとして使用します。

3D ガウシアン セットを画像に格納することで、Splatter Image フレームワークは、画像から画像へのニューラル ネットワークを学習する際のリコンストラクションの障害を軽減できます。 このアプローチを使用することで、リコンストラクション プロセスは、3D オペレータに依存するのではなく、効率的な 2D オペレータのみを使用して実装できます。さらに、Splatter Image フレームワークでは、3D 表現は 3D ガウシアンの混合であり、Gaussian Splatting が提供するレンダリングの高速性とメモリ効率の優位性を活用できます。これにより、トレーニングと推論の効率が向上します。次に、Splatter Image フレームワークは、シングルビュー 3D 表現を生成するだけでなく、標準の 3D オブジェクト ベンチマークで 1 つの GPU でトレーニングできるという驚異的な効率も実証しています。さらに、Splatter Image フレームワークは、複数の画像を受け取ることができます。これは、個々のガウシアン混合を共通の参照フレームに登録し、個々のビューからのガウシアン混合の組み合わせを取ることで実現します。フレームワークはまた、異なるビューが予測中に相互に通信できるように、軽量のクロスアテンション層をアーキテクチャに注入します。

経験的観点から見ると、Splatter Image フレームワークは、オブジェクトの 1 つの側面しか見えていないにもかかわらず、360 度のリコンストラクションを生成できることが注目に値します。フレームワークは、生成された 360 度情報を 2D 画像にコード化するために、2D 近傍の異なるガウシアンをオブジェクトの異なる部分に割り当てます。さらに、フレームワークは、複数のガウシアンの不透明度を 0 に設定して無効にし、ポストプロセスでカリングできるようにします。

要約すると、Splatter Image フレームワークは

  1. Gaussian Splatting アプローチをポートしてシングルビュー 3D オブジェクト リコンストラクションを生成するための新しいアプローチです。
  2. 多視点 3D オブジェクト リコンストラクションの方法を拡張します。
  3. 標準ベンチマークで、例外的な速度と品質で 3D オブジェクト リコンストラクションのステートオブザアート パフォーマンスを達成します。

Splatter Image : 方法論とアーキテクチャ

Gaussian Splatting

先ほど述べたように、Gaussian Splatting は、Splatter Image フレームワークによって実装される主要な方法であり、シングルビュー 3D オブジェクト リコンストラクションを生成するために使用されます。単純に言えば、Gaussian Splatting は、3D 画像のリコンストラクションとリアルタイム レンダリングのためのラスタライズ手法であり、複数の視点を持つ画像をレンダリングします。画像の 3D 空間はガウシアンと呼ばれ、各ガウシアンのパラメータを学習するためにマシン ラーニング技術が実装されます。Gaussian Splatting では、レンダリング中にトレーニングが必要ありません。これにより、レンダリング時間が速くなります。次の画像は、3D ガウシアン スプラッティングのアーキテクチャをまとめています。

3D ガウシアン スプラッティングは、入力画像のセットを使用してポイント クラウドを生成します。Gaussian Splatting は、入力画像を使用して、カメラの外部パラメータ (例: 倒立、位置) を推定します。これらのパラメータはポイント クラウドを計算するために使用されます。さまざまなマシン ラーニング方法を使用して、Gaussian Splatting は各ガウシアンの 4 つのパラメータ (位置、共分散、色、アルファ) を最適化します。最適化プロセスは、各カメラ位置で画像をレンダリングし、元の画像に近づけるためにパラメータを使用します。結果として得られる 3D ガウシアン スプラッティングの出力は、Splatter Image と呼ばれる画像であり、最も元の画像に似ています。

さらに、Gaussian Splatting の不透明度関数と色関数は、3D ポイントの視線方向の放射場を提供します。フレームワークは、ピクセルを通過するレイに沿って観測された色を積分することで、放射場を画像にレンダリングします。Gaussian Splatting は、これらの関数を色付きガウシアンの組み合わせとして表します。ガウシアンの平均または中心とガウシアンの共分散は、形状とサイズを決定するのに役立ちます。各ガウシアンには、不透明度の特性と視線依存の色の特性があり、放射場を定義します。

Splatter Image

レンダラー コンポーネントは、3D ガウシアンのセットを画像にマップします。シングルビュー 3D リコンストラクションを実行するために、フレームワークは、画像から 3D ガウシアンの混合を再構築する逆関数を探します。ここでの重要な点は、逆関数のためのシンプルで有効な設計を提案することです。特に、入力画像に対して、フレームワークは画像から画像へのニューラル ネットワーク アーキテクチャを使用して、各ピクセルごとにガウシアンを予測し、Splatter Image と呼ばれる画像を出力します。ネットワークは、形状、不透明度、色も予測します。

Splatter Image フレームワークがオブジェクトの 1 つのビューのみにアクセスしていても、オブジェクトの 3D 表現をどうやってリコンストラクションできるのか、という疑問が生じるかもしれません。実時間で、Splatter Image フレームワークは、利用可能なガウシアンの一部を使用してビューをリコンストラクションし、画像の見えていない部分を自動的にリコンストラクションするために残りのガウシアンを使用することを学習します。効率を最大化するために、フレームワークは、不透明度が 0 であるかどうかを予測することで、ガウシアンを自動的にオフに切り替えることができます。不透明度が 0 の場合、ガウシアンはオフになり、フレームワークはこれらのポイントをレンダリングせず、代わりにポストプロセスでカリングされます。

画像レベル ロス

Gaussian Splatting 方法の高速性と効率性を利用することの主な利点は、各イテレーションですべての画像をレンダリングできることです。さらに、分解可能なロスだけでなく、画像レベル ロスも使用できることを意味します。

スケール 正規化

単一のビューからオブジェクトのサイズを推定することは困難であり、ロスのトレーニング中にこの曖昧さを解決することは困難なタスクです。同様の問題は、すべてのオブジェクトが同じカメラ内部パラメータでレンダリングされ、カメラから固定距離にあるため、合成データセットでは見られません。ただし、実際の画像のデータセットでは、曖昧さは明らかであり、Splatter Image フレームワークは、すべてのオブジェクトのスケールを約束的に固定するために、事前処理方法を使用します。

視線依存色

視線依存色を表現するために、Splatter Image フレームワークは、色をランベルト色モデルを超えて一般化するために球面調和関数を使用します。特定のガウシアンに対して、モデルは、ネットワークと球面調和関数によって予測される係数を定義します。視点の変更は、カメラ ソースの視線方向を参照フレームの対応する視線方向に変換します。モデルは、変換された色関数を見つけるために、対応する係数を見つけます。モデルは、球面調和関数が回転の下で閉じているため、これを実行できます。

ニューラル ネットワーク アーキテクチャ

入力画像をガウシアンの混合にマッピングする予測子のアーキテクチャの大部分は、SongUNet フレームワークで使用されているプロセスと同じです。アーキテクチャの最後の層は、色モデルが出力チャネルの幅を決定する 1×1 畳み込み層に置き換えられます。入力画像が与えられた場合、ネットワークはチャネル テンソルを出力として生成し、各ピクセル チャネルは、オフセット、不透明度、回転、深度、色をコード化するパラメータを変換してガウシアン パラメータを取得します。フレームワークは、パラメータを活性化するために非線形関数を使用します。

多視点 3D リコンストラクションを再構築するために、Splatter Image フレームワークは、同じネットワークを各入力ビューに適用し、視点アプローチを使用して個々のリコンストラクションを組み合わせます。さらに、ネットワーク内のさまざまなビュー間の情報の効率的な調整と交換を促進するために、Splatter Image フレームワークはネットワークに 2 つの変更を加えます。まず、フレームワークはモデルをそれぞれのカメラ ポーズで条件付けて、各エントリを正弦位置埋め込みを使用して複数の次元にエンコードすることによって、ベクトルを通過します。2 番目に、フレームワークは、異なるビューの機能間の通信を促進するために、クロス アテンション層を追加します。

Splatter Image : 実験と結果

Splatter Image フレームワークは、ノベル ビュー シンセシス品質を評価することで、リコンストラクションの品質を測定します。フレームワークは、ソース ビューを使用して 3D シェイプをレンダリングし、目標の見えていないビューにリコンストラクションを実行するためです。フレームワークは、SSIM (構造類似度) や PSNR (ピーク信号ノイズ比) などの LPIPS (知覚品質) スコアを使用してパフォーマンスを評価します。

シングルビュー 3D リコンストラクション パフォーマンス

次の表は、ShapeNet ベンチマークでのシングルビュー 3D リコンストラクション タスクにおける Splatter Image モデルのパフォーマンスを示しています。

観察すると、Splatter Image フレームワークは、LPIPS と SSIM スコアで、すべての決定論的リコンストラクション方法を上回っています。これらのスコアは、Splatter Image モデルがより鋭いリコンストラクションを生成していることを示しています。さらに、Splatter Image モデルは、生成されたリコンストラクションがより正確であることを示す PSNR スコアでも、すべての決定論的ベースラインを上回っています。さらに、すべての決定論的方法を上回るだけでなく、Splatter Image フレームワークは、トレーニングとテストの両方の段階で効率を高めるために、相対的なカメラ ポーズのみを必要とします。

次の画像は、Splatter Image フレームワークの定性的能力を示しています。モデルは、薄い幾何学的構造と、条件付きビューの詳細を捉えたリコンストラクションを生成していることがわかります。

次の画像は、Splatter Image フレームワークによって生成されたリコンストラクションが、以前のモデルよりも薄い構造や視認性の低い条件で、より鋭く、より正確であることを示しています。

多視点 3D リコンストラクション

多視点 3D リコンストラクションの能力を評価するために、Splatter Image フレームワークは、2 つのビュー予測のために SpaneNet-SRN Cars データセットでトレーニングされます。既存の方法は、多視点 3D リコンストラクション タスクの絶対カメラ ポーズの条件付けを使用します。つまり、モデルは、オブジェクトのカノニカルな向きに大きく依存することを学習します。ただし、これは、絶対カメラ ポーズが新しいオブジェクト画像でしばしば不明であるため、モデルの適用可能性を制限します。

最終的な考え

この記事では、オブジェクトの超高速シングルビュー 3D シェイプと 3D 外観の構築を実現することを目的とする Splatter Image という手法について説明しました。Splatter Image フレームワークの核となる部分は、3D 表現を分析するために Gaussian Splatting 手法を使用し、その高速性と品質を活用しています。Splatter Image フレームワークは、2D 画像から画像へのニューラル ネットワークを使用して、各ピクセルごとにガウシアンを予測し、Splatter Image と呼ばれる画像を出力します。Gaussian Splatting を使用することで、Splatter Image フレームワークは、高速なレンダリングと高速な推論を組み合わせて、リアルと合成のベンチマークで迅速なトレーニングと評価を実現します。

職業はエンジニア、心は作家。クナルは、AIとMLを深く愛し理解しているテクニカルライターで、これらの分野の複雑な概念を魅力的で情報の多いドキュメンテーションを通じて簡素化することに尽力しています。