人工知能
シングルビュー3Dリコンストラクションのしくみは?

伝統的に、シングルビュー・オブジェクト・リコンストラクションのモデルは、畳み込みニューラル・ネットワークに基づいており、リコンストラクション・タスクで優れたパフォーマンスを発揮してきました。近年、シングルビュー3Dリコンストラクションは、AIコミュニティで人気のある研究テーマとして注目されています。特定の方法論に関係なく、すべてのシングルビュー3Dリコンストラクション・モデルは、エンコーダー・デコーダー・ネットワークをそのフレームワーク内に組み込むという共通のアプローチを共有しています。このネットワークは、出力空間の3D構造について複雑な推論を実行します。
この記事では、シングルビュー3Dリコンストラクションがリアルタイムでどのように動作し、これらのフレームワークがリコンストラクション・タスクで直面している現在の課題について探ります。シングルビュー3Dリコンストラクション・モデルで使用されるさまざまな重要なコンポーネントと方法について議論し、これらのフレームワークのパフォーマンスを向上させるための戦略を探ります。さらに、エンコーダー・デコーダー・メソッドを使用する最先端のフレームワークによって生成される結果を分析します。詳しく見てみましょう。
シングルビュー3Dオブジェクトリコンストラクション
シングルビュー3Dオブジェクトリコンストラクションとは、単一の視点、または単純に言えば、単一の画像からオブジェクトの3Dモデルを生成することを意味します。たとえば、画像からオブジェクト(例:オートバイ)の3D構造を推測することは、複雑なプロセスです。パーツの構造的な配置、低レベルの画像のヒント、ハイレベルのセマンティック情報の知識を組み合わせたものです。このスペクトルには、リコンストラクションと認識の2つの主要な側面が含まれます。リコンストラクション・プロセスは、陰影、テクスチャ、視覚効果などのヒントを使用して、入力画像の3D構造を推測します。一方、認識プロセスは入力画像を分類し、データベースから適切な3Dモデルを取得します。
現在のシングルビュー3Dオブジェクトリコンストラクション・モデルは、アーキテクチャーで異なる場合がありますが、すべてのモデルはエンコーダー・デコーダー構造をフレームワーク内に組み込むという点で統一されています。この構造では、エンコーダーは入力画像を潜在的な表現にマッピングし、デコーダーは出力空間の3D構造について複雑な推論を実行します。このタスクを成功させるには、ネットワークはハイレベルとローレベルの情報の両方を統合する必要があります。さらに、多くの最先端のエンコーダー・デコーダー・メソッドは、シングルビュー3Dリコンストラクション・タスクで認識に依存しており、これによりそのリコンストラクション能力が制限されます。また、シングルビュー3Dオブジェクトリコンストラクション・タスクで現代の畳み込みニューラル・ネットワークのパフォーマンスは、3Dオブジェクト構造を明示的に推測することなく超越できます。しかし、シングルビュー・オブジェクト・リコンストラクション・タスクで畳み込みニューラル・ネットワークの認識の優位性は、評価プロトコルやデータセットの構成などのさまざまな実験的手順によって影響を受けています。これらの要因により、フレームワークはショートカット・ソリューション、つまり画像認識を見つけることができます。
伝統的に、シングルビュー3Dオブジェクトリコンストラクション・フレームワークは、形状から陰影というアプローチを使用してリコンストラクション・タスクに取り組み、テクスチャや焦点外れをリコンストラクション・タスクのためのエキゾチックなビューとして使用します。これらのテクニックは単一の深度キューを使用しているため、表面の可視部分について推論を提供できます。さらに、多くのシングルビュー3Dリコンストラクション・フレームワークは、複数のキューと構造的な知識を組み合わせて、単一のモノキュラー画像から深度を推定し、これによりこれらのフレームワークは可視表面の深度を予測できます。最近の深度推定フレームワークは、モノキュラー画像から深度を抽出するために畳み込みニューラル・ネットワーク構造を展開しています。
しかし、有効なシングルビュー3Dリコンストラクションのために、モデルは画像内の可視オブジェクトの3D構造について推論するだけでなく、画像内の不可視部分を特定の事前知識を使用して推測する必要があります。これを実現するために、多くのモデルは、2D画像を直接3D監視を使用して3D形状にマッピングするために、トレーニング済みの畳み込みニューラル・ネットワーク構造を展開しています。一方、他の多くのフレームワークは、3D形状のボクセルベースの表現を展開し、潜在的な表現を使用して3Dのアップ・コンボリューションを生成しました。特定のフレームワークは、計算とメモリの効率を向上させるために、出力空間を階層的にパーティション化し、これによりモデルは高解像度の3D形状を予測できます。最近の研究は、畳み込みニューラル・ネットワークを使用したシングルビュー3D形状予測のための弱い形式の監視を使用することに焦点を当てています。予測形状とそのグラウンド・トゥルース予測を比較して形状回帰器をトレーニングするか、またはモデルが変形を予測するのに役立つ平均形状をトレーニングするために複数の学習シグナルを使用しています。シングルビュー3Dリコンストラクションの進歩が限られているもう1つの理由は、タスク用に利用可能なトレーニングデータが限られていることです。
さらに、シングルビュー3Dリコンストラクションは、視覚的なデータを幾何学的にもセマンティックにも解釈する複雑なタスクです。完全に異なるわけではありませんが、幾何学的リコンストラクションからセマンティック認識まで、異なるスペクトルムをカバーします。リコンストラクション・タスクでは、画像内のオブジェクトの3D構造についてピクセルごとの推論が必要です。リコンストラクション・タスクでは、画像の内容についてセマンティックな理解が必要ではなく、テクスチャ、色、陰影、影、視点、焦点などの低レベルの画像のヒントを使用して実行できます。一方、認識は画像のセマンティクスを使用する極端なケースであり、認識タスクでは全体のオブジェクトを使用し、入力内のオブジェクトを分類し、データベースから対応する形状を取得します。認識タスクは画像内の不可視部分について強力な推論を提供できますが、セマンティックなソリューションは、データベースに存在するオブジェクトによって説明できる場合にのみ実行可能です。
認識とリコンストラクション・タスクは互いに大きく異なりますが、両者は入力画像に含まれる貴重な情報を無視する傾向があります。可能な限り最良の結果を得るには、両者を組み合わせて使用することが推奨されます。つまり、シングルビュー3Dリコンストラクションのタスクの最適な結果、つまりオブジェクトのリコンストラクションのための正確な3D形状を得るには、モデルは構造的な知識、低レベルの画像のヒント、オブジェクトのハイレベルの理解を組み合わせる必要があります。
シングルビュー3Dリコンストラクション:従来のセットアップ
シングルビュー3Dリコンストラクション・フレームワークの従来のセットアップを説明し、セットアップを分析するために、オブジェクトの3D形状を推定するための標準的なセットアップを展開します。トレーニングのために使用されるデータセットはShapeNetデータセットであり、13クラス間でパフォーマンスを評価し、モデルがデータセット内のクラスの数が形状推定パフォーマンスにどのように影響するかを理解できるようにします。
多くの現代の畳み込みニューラル・ネットワークは、単一の画像から高解像度の3Dモデルを予測し、これらのフレームワークは出力の表現に基づいてカテゴリ化できます。深度マップ、点群、ボクセル・グリッドです。モデルはOGN(Octree Generating Networks)をその代表的な方法として使用し、歴史的にボクセル・グリッド・アプローチを上回り、または優勢な出力表現をカバーすることができます。既存の方法が出力表現を使用するのとは対照的に、OGNアプローチはモデルが高解像度の形状を予測し、占有空間を効率的に表現するためにオクツリーを使用することを可能にします。
ベースライン
結果を評価するために、モデルは2つのベースラインを展開し、問題を純粋に認識タスクとして考えています。最初のベースラインはクラスタリングに基づいており、2番目のベースラインはデータベースの取得を実行します。
クラスタリング
クラスタリング・ベースラインでは、モデルはK-平均アルゴリズムを使用してトレーニング・シェイプをKのサブ・カテゴリにクラスタリングし、32*32*32のボクセル化をベクトルにフラット化してアルゴリズムを実行します。クラスターの割り当てを決定した後、モデルは高解像度のモデルで作業するように切り替えます。モデルは次に各クラスター内の平均形状を計算し、平均形状をしきい値付けします。ここで、最適値は平均IoU(交差係数)を最大化することによって計算されます。モデルはトレーニング・データ内で3Dシェイプと画像の関係を知っているため、モデルは画像をその対応するクラスターと簡単にマッチングできます。
取得
取得ベースラインは、形状と画像を共同空間に埋め込みます。モデルはトレーニング・セット内の3Dマトリックス・シェイプのペアワイズの類似性を考慮して埋め込み空間を構築します。モデルはこれを実現するために、多次元スケーリングとサモン・マッピング・アプローチを使用して、行列の各行を低次元の記述子に圧縮します。さらに、2つの任意の形状の類似性を計算するために、モデルはライト・フィールド記述子を使用します。さらに、モデルは画像を記述子にマッピングするために畳み込みニューラル・ネットワークをトレーニングし、画像を空間に埋め込みます。
分析
シングルビュー3Dリコンストラクション・モデルは、異なる戦略を使用するため、他のモデルよりもいくつかの分野で優れていますが、他の分野では劣っています。これらのフレームワークを比較し、パフォーマンスを評価するために、平均IoUスコアなどのさまざまなメトリックがあります。

上の画像からわかるように、異なるアーキテクチャーを持っているにもかかわらず、現在の最先端の3Dリコンストラクション・モデルはほぼ同等のパフォーマンスを発揮しています。ただし、認識メソッドとして純粋に使用されているにもかかわらず、取得フレームワークが平均および中央値のIoUスコアで他のモデルを上回っていることは興味深いです。クラスタリング・フレームワークはAtlasNet、OGN、Matryoshkaフレームワークを上回り、堅実な結果を発揮しています。ただし、この分析で最も予想外の結果は、完璧な取得アーキテクチャーを使用しているにもかかわらず、Oracle NNが他のすべての方法を上回っていることです。平均IoUスコアを計算することは比較に役立ちますが、結果の分散が大きいため、完全な絵は示しません。
一般的な評価メトリック
シングルビュー3Dリコンストラクション・モデルは、さまざまなタスクのパフォーマンスを分析するために、さまざまな評価メトリックを使用します。以下は一般的に使用される評価メトリックのいくつかです。
交差係数
平均の交差係数は、シングルビュー3Dリコンストラクション・モデルのベンチマークとして使用される一般的なメトリックです。ただし、IoUはモデルが予測する形状の品質についてのみ、値が十分に高い場合に洞察を提供しますが、2つの形状の低いスコアと中間スコアの間には大きな差があります。
チャンパー距離
チャンパー距離は点群に定義され、さまざまな3D表現に適切に適用できます。ただし、チャンパー距離の評価メトリックはアウトライアに非常に敏感であり、これによりモデルが生成する品質を評価するために問題のある尺度となり、アウトライアの参照形状からの距離が生成品質を大幅に決定します。
F-スコア
F-スコアは、多くのマルチビュー3Dリコンストラクション・モデルで一般的に使用される評価メトリックです。F-スコアは、リコールと精度の調和平均として定義され、オブジェクトの表面の間の距離を明示的に評価します。精度は、再構築された点のうち、グラウンド・トゥルースに事前に定義された距離内にある点の割合を数えて、再構築の精度を測定します。一方、リコールは、グラウンド・トゥルース上の点のうち、再構築内に事前に定義された距離内にある点の割合を数えて、再構築の完全性を測定します。さらに、距離のしきい値を変化させることで、開発者はF-スコアの厳密さを制御できます。
クラスごとの分析
上記のフレームワークのパフォーマンスの類似性は、方法が異なるクラスのサブセットで実行されていることの結果ではありません。次の図は、クラス間で一貫した相対的なパフォーマンスを示し、Oracle NN取得ベースラインが最高の結果を達成し、すべての方法でクラスごとに高い分散が観察されています。

さらに、クラスごとのトレーニング・サンプルの数がクラスごとのパフォーマンスに影響を与える可能性がありますが、次の図は、クラスごとのトレーニング・サンプルの数とその平均IoUスコアの間に関連性がないことを示しています。

定性的分析
上記のセクションで議論された定量的結果は、次の画像に示すように定性的結果によって裏付けられています。

大多数のクラスでは、クラスタリング・ベースラインとデコーダー・ベースの方法による予測の間に大きな違いはありません。クラスタリング・アプローチは、サンプルと平均クラスター・シェイプの間の距離が大きい場合、または平均シェイプがクラスターを十分に説明できない場合に、結果を提供できません。一方、デコーダー・ベースの方法と取得アーキテクチャーを使用するフレームワークは、生成された3Dモデルに微妙な詳細を含めることができるため、最も正確で魅力的な結果を提供します。
シングルビュー3Dリコンストラクション:最終的な考察
この記事では、シングルビュー3Dオブジェクトリコンストラクションについて議論し、どのように動作するかについて説明し、2つのベースライン、取得とクラスタリングについて説明しました。最後に、シングルビュー3Dオブジェクトリコンストラクションは、AIコミュニティで最もホットなトピックであり、最も研究されているトピックの1つであり、過去数年で大きな進歩を遂げてきましたが、シングルビュー3Dオブジェクトリコンストラクションはまだ完璧ではなく、来年克服しなければならない大きな障害があります。












