スタブ シングルビュー 3D 再構成はどのように機能しますか? - Unite.AI
私達と接続

Artificial Intelligence

シングルビュー 3D 再構成はどのように機能しますか?

mm

公開済み

 on

従来、畳み込みニューラル ネットワーク上に構築された単一ビュー オブジェクト再構成用モデルは、再構成タスクにおいて顕著なパフォーマンスを示してきました。近年、シングルビュー 3D 再構成が AI コミュニティで人気の研究トピックとして浮上しています。使用される特定の方法論に関係なく、すべてのシングルビュー 3D 再構成モデ​​ルは、フレームワーク内にエンコーダ/デコーダ ネットワークを組み込むという共通のアプローチを共有しています。このネットワークは、出力空間の 3D 構造について複雑な推論を実行します。

この記事では、シングルビュー 3D 再構成がリアルタイムでどのように動作するか、およびこれらのフレームワークが再構成タスクで直面している現在の課題について説明します。シングルビュー 3D 再構成モデ​​ルで利用されるさまざまな主要なコンポーネントと手法について説明し、これらのフレームワークのパフォーマンスを向上させる戦略を探ります。さらに、エンコーダ/デコーダ方式を採用した最先端のフレームワークによって生成された結果を分析します。飛び込んでみましょう。

シングルビューの 3D オブジェクトの再構築

シングルビュー 3D オブジェクトの再構築には、単一の視点から、より簡単に言えば単一の画像からオブジェクトの 3D モデルを生成することが含まれます。たとえば、画像からバイクなどの物体の 3D 構造を推測するのは複雑なプロセスです。これは、部品の構造的配置、低レベルの画像キュー、高レベルの意味情報に関する知識を組み合わせたものです。この範囲には、次の XNUMX つの主要な側面が含まれます。 再建 および 認識。再構成プロセスでは、シェーディング、テクスチャ、視覚効果などの手がかりを使用して、入力画像の 3D 構造を識別します。対照的に、認識プロセスでは入力画像を分類し、データベースから適切な 3D モデルを取得します。

現在のシングルビュー 3D オブジェクト再構成モデ​​ルはアーキテクチャが異なる場合がありますが、フレームワークにエンコーダ/デコーダ構造を組み込むことで統一されています。この構造では、エンコーダは入力画像を潜在表現にマッピングし、デコーダは出力空間の 3D 構造について複雑な推論を行います。このタスクを正常に実行するには、ネットワークが高レベルの情報と低レベルの情報の両方を統合する必要があります。さらに、多くの最先端のエンコーダ/デコーダ方式は、単一ビューの 3D 再構成タスクの認識に依存しているため、再構成機能が制限されます。さらに、シングルビュー 3D オブジェクトの再構築における最新の畳み込みニューラル ネットワークのパフォーマンスは、3D オブジェクトの構造を明示的に推論することなく超えることができます。ただし、単一ビューのオブジェクト再構成タスクにおける畳み込みネットワークにおける認識の優位性は、評価プロトコルやデータセット構成を含むさまざまな実験手順の影響を受けます。このような要因により、フレームワークはショートカット ソリューション (この場合は画像認識) を見つけることができます。

従来、シングルビュー 3D オブジェクト再構成フレームワークは、シェイプ フロム シェーディング アプローチを使用して再構成タスクにアプローチし、テクスチャとデフォーカスが再構成タスクのエキゾチックなビューとして機能します。これらの手法は単一の深度キューを使用するため、サーフェスの目に見える部分についての推論を提供できます。さらに、たくさんの シングルビュー 3D 再構成フレームワーク 単一の単眼画像から深さを推定するための構造知識とともに複数の手がかりを使用します。これらの組み合わせにより、これらのフレームワークは目に見える表面の深さを予測できます。より最近の深度推定フレームワークは、畳み込みニューラル ネットワーク構造を導入して、単眼画像の深度を抽出します。 

ただし、効果的な単一ビュー 3D 再構成のために、モデルは画像内の目に見えるオブジェクトの 3D 構造を推論する必要があるだけでなく、データから学習した特定の事前分布を使用して画像内の目に見えない部分を幻覚させる必要もあります。これを達成するために、現在、モデルの大部分は、直接 2D 監視を使用して 3D 画像を 3D 形状にマッピングするトレーニング済みの畳み込みニューラル ネットワーク構造を展開していますが、他の多くのフレームワークは、3D 形状のボクセルベースの表現を展開し、潜在表現を使用して3D アップコンボリューションを生成します。特定のフレームワークは、出力空間を階層的に分割して計算効率とメモリ効率を向上させ、モデルが高解像度の 3D 形状を予測できるようにします。最近の研究では、畳み込みニューラル ネットワークを使用したシングルビュー 3D 形状予測に対して、より弱い形式の監視を使用することに焦点を当てています。予測された形状とそのグラウンドトゥルース予測を比較して形状リグレッサーをトレーニングするか、複数の学習信号を使用してモデルの予測に役立つ平均形状をトレーニングします。変形。シングルビュー 3D 再構成の進歩が限られているもう XNUMX つの理由は、タスクに利用できるトレーニング データの量が限られていることです。 

さらに進むと、単一ビューの 3D 再構成は、視覚データを幾何学的に解釈するだけでなく、意味的にも解釈するため、複雑なタスクです。それらは完全に異なるわけではありませんが、幾何学的再構成から意味認識まで、異なる範囲に及びます。再構成タスクは、画像内のオブジェクトの 3D 構造をピクセルごとに推論します。再構成タスクでは、画像の内容を意味的に理解する必要はなく、テクスチャ、色、シェーディング、影、遠近法、フォーカスなどの低レベルの画像キューを使用して実現できます。一方、認識タスクはオブジェクト全体と量を使用して入力内のオブジェクトを分類し、データベースから対応する形状を取得するため、認識は画像セマンティクスを使用する極端なケースです。認識タスクは、画像に表示されていないオブジェクトの部分について堅牢な推論を提供できますが、意味論的な解決策は、データベース内に存在するオブジェクトによって説明できる場合にのみ実現可能です。 

認識タスクと再構成タスクは互いに大きく異なる場合がありますが、どちらも入力画像に含まれる貴重な情報を無視する傾向があります。可能な限り最良の結果と、オブジェクト再構成の正確な 3D 形状を得るために、これらのタスクの両方を同時に使用することをお勧めします。つまり、最適な単一ビュー 3D 再構成タスクの場合、モデルは構造知識、低レベルの画像キュー、オブジェクトの高度な理解。 

シングルビュー 3D 再構成 : 従来のセットアップ

従来のセットアップを説明し、単一ビュー 3D 再構成フレームワークのセットアップを分析するために、物体の単一ビューまたは画像を使用して 3D 形状を推定するための標準セットアップを展開します。トレーニング目的で使用されるデータセットは ShapeNet データセットで、13 クラスにわたるパフォーマンスを評価することで、データセット内のクラスの数がモデルの形状推定パフォーマンスをどのように決定するかをモデルが理解できるようになります。

最新の畳み込みニューラル ネットワークの大部分は、単一の画像を使用して高解像度 3D モデルを予測します。これらのフレームワークは、出力の表現 (深度マップ、点群、ボクセル グリッド) に基づいて分類できます。このモデルは、歴史的にボクセル グリッド アプローチよりも優れたパフォーマンスを発揮し、主要な出力表現をカバーできる代表的な手法として OGN または Octree Generating Networks を使用します。出力表現を利用する既存の方法とは対照的に、OGN アプローチでは、モデルが高解像度の形状を予測できるようになり、オクツリーを使用して占有スペースを効率的に表現できます。 

ベースライン

結果を評価するために、モデルは問題を純粋に認識タスクとして考慮する 2 つのベースラインを展開します。最初のベースラインはクラスタリングに基づいており、2 番目のベースラインはデータベースの検索を実行します。 

クラスタリング

クラスタリング ベースラインでは、モデルは K-Means アルゴリズムを使用してトレーニング形状を K サブカテゴリにクラスター化または束ね、ベクトルに平坦化された 32*32*32 のボクセル化に対してアルゴリズムを実行します。クラスターの割り当てを決定した後、モデルはより高い解像度のモデルの使用に戻ります。次に、モデルは各クラスター内の平均形状を計算し、モデル全体の平均 IoU または Intersection over Union を最大化することによって最適値が計算される平均形状をしきい値に設定します。モデルはトレーニング データ内の 3D 形状と画像間の関係を知っているため、画像と対応するクラスターを容易に照合できます。 

検索

検索ベースラインは、結合空間に形状と画像を埋め込むことを学習します。モデルは、トレーニング セット内の 3D 行列形状のペアごとの類似性を考慮して、埋め込み空間を構築します。このモデルは、Sammon マッピングによる多次元スケーリング手法を使用して、行列内の各行を低次元の記述子に圧縮することでこれを実現します。さらに、XNUMX つの任意の形状間の類似性を計算するために、モデルはライト フィールド記述子を使用します。さらに、モデルは畳み込みニューラル ネットワークをトレーニングして、画像を記述子にマッピングして空間に画像を埋め込みます。 

分析

シングルビュー 3D 再構築モデルはさまざまな戦略に従っており、その結果、一部の領域では他のモデルよりも優れたパフォーマンスを発揮しますが、他の領域では劣ります。さまざまなフレームワークを比較し、そのパフォーマンスを評価するために、さまざまな指標があり、その XNUMX つは平均 IoU スコアです。 

上の画像からわかるように、アーキテクチャは異なりますが、現在の最先端の 3D 再構成モデ​​ルはほぼ同様のパフォーマンスを提供します。ただし、興味深いのは、純粋な認識方法であるにもかかわらず、この検索フレームワークが平均 IoU スコアと中央値 IoU スコアの点で他のモデルよりも優れていることです。クラスタリング フレームワークは、AtlasNet、OGN、および Matryoshka フレームワークを上回る確かな結果をもたらします。ただし、この分析の最も予想外の結果は、完全な検索アーキテクチャを採用しているにもかかわらず、依然として Oracle NN が他のすべての方法よりも優れているということです。平均 IoU スコアの計算は比較には役立ちますが、モデルに関係なく結果のばらつきが大きいため、全体像は得られません。 

一般的な評価指標

シングルビュー 3D 再構成モデ​​ルは、多くの場合、さまざまな評価指標を使用して、幅広いタスクのパフォーマンスを分析します。以下は、一般的に使用される評価指標の一部です。 

連合上の交差点

和集合上の平均交差は、ベンチマークとして機能する定量的尺度として一般的に使用される指標です。 シングルビュー 3D 再構築モデル。 IoU はモデルのパフォーマンスについてある程度の洞察を提供しますが、IoU は、値が十分に高く、IoU 間で顕著な差異が観察された場合にのみ、モデルによって予測される形状の品質を示すため、メソッドを評価する唯一の指標とはみなされません。指定された 2 つの形状の低および中範囲のスコア。 

面取り距離

面取り距離は点群で定義され、さまざまな 3D 表現に適切に適用できるように設計されています。ただし、面取り距離の評価メトリックは外れ値の影響を非常に受けやすいため、基準形状からの外れ値の距離が生成の品質を大きく決定するため、モデルのパフォーマンスを評価する際に問題のある尺度になります。 

Fスコア

F スコアは、大多数のマルチビュー 3D 再構成モデ​​ルで積極的に使用される一般的な評価指標です。 F スコア メトリクスは、再現率と精度の間の調和平均として定義され、オブジェクトの表面間の距離を明示的に評価します。精度は、再構成の精度を測定するために、グラウンド トゥルースまでの事前定義された距離内にある再構成されたポイントの割合をカウントします。一方、リコールは、再構成までの事前定義された距離内にあるグラウンド トゥルース上のポイントのパーセンテージをカウントし、再構成の完全性を測定します。さらに、開発者は距離のしきい値を変更することで、F スコア メトリックの厳密さを制御できます。 

クラスごとの分析

上記のフレームワークによって提供されるパフォーマンスの類似性は、クラスの異なるサブセットで実行されているメソッドの結果である可能性はありません。次の図は、Oracle NN検索ベースラインがそれらすべての中で最良の結果を達成する、異なるクラス間での一貫した相対パフォーマンスを示しています。すべてのクラスで高い分散を観察するメソッド。  

さらに、クラスで利用可能なトレーニング サンプルの数によって、クラスごとのパフォーマンスに影響を与えると考えられる場合があります。ただし、次の図に示されているように、クラスで利用可能なトレーニング サンプルの数はクラスごとのパフォーマンスに影響を与えず、クラス内のサンプル数とその平均 IoU スコアには相関関係がありません。 

定性分析

上のセクションで説明した定量的な結果は、次の図に示す定性的な結果によって裏付けられています。 

大部分のクラスでは、クラスタリングのベースラインとデコーダベースの方法によって行われた予測の間に大きな違いはありません。サンプルと平均クラスター形状の間の距離が遠い場合、または平均形状自体がクラスターを十分に説明できない状況では、クラスタリング手法では結果が得られません。一方、デコーダベースのメソッドと検索アーキテクチャを採用したフレームワークは、生成された 3D モデルに細かい詳細を含めることができるため、最も正確で魅力的な結果を提供します。 

シングルビュー 3D 再構築 : 最終的な考察

この記事では、シングル ビュー 3D オブジェクトの再構成について説明し、その仕組みについて説明し、取得と分類という XNUMX つのベースラインについて説明しました。取得ベースライン アプローチは現在の最先端モデルよりも優れたパフォーマンスを発揮します。最後に、とはいえ、 シングルビューの 3D オブジェクトの再構築 は AI コミュニティで最もホットなトピックであり、最も研究されているトピックの 3 つであり、過去数年間で大幅な進歩を遂げたにもかかわらず、シングル ビュー XNUMXD オブジェクトの再構成は完璧には程遠く、今後数年間で克服しなければならない大きな障害があります。 

「職業はエンジニア、心は作家」。 Kunal は、AI と ML に対する深い愛情と理解を備えたテクニカル ライターであり、魅力的で有益なドキュメントを通じてこれらの分野の複雑な概念を簡素化することに専念しています。