人工知能

Uni3D: 大規模な3D表現の統一探索

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

近年、テキストと視覚の表現の拡大が研究の主要な焦点となっている。近年の研究と開発により、言語学習と視覚において多くの革命が起こった。しかし、テキストと視覚の表現の拡大が人気を博しているにもかかわらず、3Dシーンとオブジェクトの表現の拡大については十分に議論されていない。

今日、Uni3Dについて議論する。Uni3Dは、統一された3D表現を探求することを目的とした3D基礎モデルである。Uni3Dフレームワークは、2D初期化されたViTフレームワークを使用して、画像テキストの特徴を3D点群の特徴と一致させるために、エンドツーエンドで事前トレーニングを行う。

Uni3Dフレームワークは、事前タスクとシンプルなアーキテクチャを使用して、豊富な2Dモデルの初期化とターゲットとしての画像テキスト同期モデルを活用する。このアプローチにより、2Dモデルの全潜在能力と、3D世界への拡大戦略が解放される。

この記事では、3DコンピュータビジョンとUni3Dフレームワークについて深く掘り下げ、モデルの基本概念とアーキテクチャを探求する。

Uni3Dと3D表現学習：紹介

近年、コンピュータビジョンはAI業界で最も多く投資されている分野の1つとなっている。2Dコンピュータビジョンフレームワークにおける重大な進歩に続き、開発者は3Dコンピュータビジョンに焦点を当てている。この分野、特に3D表現学習は、コンピュータグラフィックス、機械学習、コンピュータビジョン、数学の側面を組み合わせて、3D幾何学の処理と理解を自動化する。LiDARなどの3Dセンサーの急速な開発と、AR/VR業界でのその広範な応用により、3D表現学習は注目度を高めてきた。その潜在的な応用は毎日増え続けている。

既存のフレームワークは、3Dモデルアーキテクチャ、タスク指向モデリング、学習目標において著しい進歩を示しているが、ほとんどが小規模なデータ、パラメータ、タスクシナリオで3Dアーキテクチャを探求している。スケーラブルな3D表現を学習し、それをさまざまな環境でのリアルタイムアプリケーションに適用するという課題は、未解決のままである。

さらに、近年、事前トレーニングされた大規模言語モデルのスケーリングは、自然言語処理ドメインを革命的に変え、最近の研究は、データとモデルのスケーリングを使用して言語から2Dへの進歩を示唆しており、開発者はこれらの成功を3D表現の学習に適用しようとしている。

Uni3Dは、スケーラブルで統一された3D事前トレーニングフレームワークであり、10万枚以上の画像と70万件以上のテキスト、および100万以上の3D形状を使用して、10億パラメータ以上のスケールで大規模な3D表現を学習することを目的として開発された。以下の図は、Uni3Dフレームワークのゼロショット精度とパラメータの比較を示している。Uni3Dフレームワークは、6百万から10億までの3D表現をスケーリングすることに成功した。

Uni3Dフレームワークは、2D ViTまたはVision Transformerを3Dエンコーダーとして使用し、画像テキストの特徴を3D点群の特徴と一致させるためにエンドツーエンドで事前トレーニングを行う。Uni3Dフレームワークは、事前タスクとシンプルなアーキテクチャを使用して、豊富な2Dモデルの初期化とターゲットとしての画像テキスト同期モデルを活用する。このアプローチにより、2Dモデルの全潜在能力と、3D世界への拡大戦略が解放される。

モデルのスケーリング（6Mから10億パラメータまで）。
2D初期化からテキスト監視付きの視覚的自己学習まで。
テキスト画像ターゲットモデルのスケーリング（1.5億パラメータから10億パラメータまで）。

Uni3Dフレームワークの柔軟で統一されたフレームワークの下で、開発者は各コンポーネントのスケーリング時にパフォーマンスの改善を観察する。大規模な3D表現学習も、共有可能な2Dとスケールアップ戦略から大幅に利益を得る。

以下の図は、Uni3Dフレームワークが、少ショットとゼロショットの設定で、従来の最先端フレームワークと比較してパフォーマンスの向上を示していることを示している。注目すべきは、Uni3DフレームワークがModelNetで88％以上のゼロショット分類精度を達成し、複数の最先端の監視方法と同等のパフォーマンスを示していることである。

さらに、Uni3Dフレームワークは、パーツセグメンテーションやオープンワールド理解などの他の代表的な3Dタスクでも、トップクラスの精度とパフォーマンスを提供する。Uni3Dフレームワークは、2Dビジョンと3Dビジョンの間のギャップを埋め、統一されたシンプルな事前トレーニングアプローチを使用して、さまざまなタスクに対してより強固な3D表現を学習することを目的としている。

Uni3D：関連研究

Uni3Dフレームワークは、以前の3D表現学習と基礎モデルの開発、特にさまざまなモダリティの下で、インスピレーションを得て学んでいる。

3D表現学習

3D表現学習方法は、3Dオブジェクトの理解に点群を使用し、この分野は最近、開発者によって多く探求されてきた。点群は、自己監視を使用して事前トレーニングできることが観察されており、特定の3D事前タスク、包括してマスクポイントモデリング、自己再構築、対比学習を使用して事前トレーニングできる。

これらの方法は、限られたデータで動作し、通常、2DまたはNLPから3Dへの多モーダル表現を探求しない。ただし、CLIPフレームワークの最近の成功は、対比学習方法を使用して生のテキストから視覚的概念を効率的に学習することを示しており、さらに、同じ対比学習方法を使用して、画像、テキスト、点群の特徴を一致させて3D表現を学習することを目指している。

基礎モデル

開発者は、多モーダル表現をスケールアップして統一する基礎モデルを設計するために多大な努力を払っている。例えば、NLPドメインでは、開発者は事前トレーニングされた言語モデルをスケールアップするフレームワークに取り組んでおり、これはNLP業界を革命的に変えつつある。さらに、2Dビジョンドメインでも進歩が見られ、開発者は言語から2Dモデルへの進歩を助けるデータとモデルスケーリング技術を使用するフレームワークに取り組んでいる。ただし、3Dモデルは、3Dデータの限られた可用性と、3Dフレームワークを統一してスケールアップする際の課題により、こうしたフレームワークを複製することは難しい。

これら2つの分野の研究から学んだ開発者は、Uni3Dフレームワークを創出した。これは、10億パラメータ以上の最初の3D基礎モデルであり、統一されたViTまたはVision Transformerアーキテクチャを使用して、開発者は、統一された2DまたはNLPのスケーリング戦略を使用して、Uni3Dモデルをスケールアップできる。開発者は、この方法が、2Dビジョンと3Dビジョンの間のギャップを埋め、多モーダルな収束を促進することを期待している。

Uni3D：方法とアーキテクチャ

上の図は、Uni3Dフレームワークの概要を示している。開発者は、70万件以上のテキストと10万枚以上の画像、および100万以上の3D形状を使用して、Uni3Dフレームワークを10億パラメータ以上にスケールアップする。Uni3Dフレームワークは、2D ViTまたはVision Transformerを3Dエンコーダーとして使用し、画像テキストデータを3D点群の特徴と一致させるためにエンドツーエンドで事前トレーニングを行う。Uni3Dフレームワークは、さまざまなベンチマークで高い効率と精度を提供する。

Uni3Dフレームワークのスケーリング

点群表現学習に関する以前の研究は、特定のモデルアーキテクチャを設計することに重点を置いてきたが、これらのモデルは限られたデータで動作し、小規模なデータセットに基づいている。最近の研究は、3Dでスケーラブルな事前トレーニングの可能性を探求しようとしたが、3Dデータの限られた可用性により、大きな成果は得られなかった。3Dフレームワークのスケーラビリティ問題を解決するために、Uni3Dフレームワークは、Vision Transformerに似たバニラトランスフォーマー構造の力を利用し、統一された2DまたはNLPのスケーリング戦略を使用してモデルサイズをスケールアップできる。

Uni3Dの初期化

3D表現のスケーリングにおける以前の研究で遭遇されたもう1つの大きな課題は、収束と過剰適合の困難であり、これはモデルの大きなサイズによるものであった。収束と過剰適合の課題を克服するための効果的なアプローチは、個々の3Dバックボーンを特定の3D事前タスクで事前トレーニングし、事前トレーニングされたパラメータを初期化することである。ただし、このアプローチは、高いトレーニングコストを伴い、3Dデータの限られた可用性により、クロスモーダル学習のための強固な初期化を確立することは難しい。

Uni3Dフレームワークは、ViTに似たバニラトランスフォーマー構造を利用する。これにより、Uni3Dフレームワークは、他のモダリティの事前トレーニングされた大規模モデルを活用して、Uni3Dフレームワークを初期化できる。

多モーダル同期

Uni3Dフレームワークは、OpenShapeやULIPフレームワークに似たパラダイムを使用して、画像、言語、点群の間で多モーダル同期を学習することを目指している。さらに、他の方法との公平な比較を確保するために、Uni3Dフレームワークは、OpenShapeによってアンサンブルされた3Dデータセットを使用してトレーニングを行う。このアンサンブルデータセットには、4つの3Dデータセットが含まれる。

Objaverse。
ShapeNet。
3D-FUTURE。
ABO。

実験と結果

Uni3Dフレームワークは、さまざまな設定でテストされ、ゼロショットとファーショットの設定を含むさまざまな分類タスクのパフォーマンスを評価する。さらに、オープンワールド理解などの結果についても詳しく見ていく。

ゼロショット形状分類

Uni3Dフレームワークのゼロショット形状分類タスクのパフォーマンスを評価するために、開発者は、ModelNet、ScanObjNN、Objaverse-LVISベンチマークデータセットを含む3つのベンチマークで実験を行う。ModelNetとScanObjNNは、分類タスクで広く使用されるデータセットであり、15個と40個のオブジェクトカテゴリを含む。Objaverse-LVISベンチマークは、1,100以上のカテゴリにわたる40,000以上のオブジェクトで構成される、クリーンアップおよび注釈付けたデータセットである。フレームワーク間の比較は以下の図に示されており、Uni3Dフレームワークがさまざまな設定で以前の最先端フレームワークを大幅に上回っていることがわかる。

ファーショット線形プローブ

AIでは、線形プローブは、モデルが学習した表現を評価するために使用される一般的な方法である。Uni3Dの線形プローブ能力を評価するために、開発者は、OpenShapeと同じ設定で、Uni3Dフレームワークのパラメータをフリーズし、ファーショットクラスラベルを使用して線形分類器をトレーニングする。以下の図は、Objaverse-LVISデータセットでのさまざまなフレームワークの線形プローブ能力を示しており、10個のランダムシードでの平均パフォーマンスを示している。Uni3Dフレームワークが、さまざまなファーショット設定で既存の方法を大幅に上回っていることがわかる。

オープンワールド理解

Uni3Dフレームワークがリアルタイムで実世界の形状とオブジェクトを理解する能力を評価するために、開発者は、ScanNetとCLIPデータセットを使用して、Uni3Dのパフォーマンスを探求する。注目すべきは、グラウンドトゥルースのインスタンスセグメンテーションが利用可能であり、各シーンの個々のインスタンスのカテゴリをゼロショット設定で認識することが主な目的である。結果は以下の図に示されており、Uni3Dフレームワークが、実世界の理解と認識で優れた結果を示していることがわかる。Uni3Dフレームワークは、実世界のデータセットでトレーニングしたことがないにもかかわらず、既存のフレームワークを大幅に上回っている。

クロスモーダルリトリーバル

Uni3Dフレームワークによって学習された多モーダル表現により、フレームワークは、テキストまたは画像から自然に3D形状をリトリーブできる。3D形状をリトリーブするために、モデルは、3D形状の埋め込みと、クエリーテキストプロンプトまたはクエリーアイメージの埋め込みの間のコサイン類似度を計算する。次に、フレームワークは、KNN（K最近傍法）を使用して、クエリーに最も似ている3D形状を生成する。結果は以下の図に示されており、Uni3Dフレームワークが、実世界の画像を使用して3D形状をリトリーブすることに成功していることがわかる。さらに、トレーニング画像は、レンダリング目的のみであり、実世界の画像とトレーニング画像の間のギャップは大きい。さらに、モデルは、2つの入力画像を取り込み、コサイン類似度を使用して、両方の画像に似ている3D形状をリトリーブする。結果は興味深いものであり、Uni3Dが、多様な3D表現を学習し、複数の2Dシグナルを感知する能力を示している。

最初の列では、フレームワークは、2つのクエリーアイメージを使用して、クエリーに最も似ている3D形状をリトリーブする。2列目では、フレームワークは、2つの入力画像を使用して、両方の入力画像に似ている3D形状をリトリーブする。最後の列では、モデルは、クエリーテキストを使用して、テキストクエリーに最も似ている3D形状をリトリーブする。

最終的な考察

この記事では、Uni3Dについて議論した。Uni3Dは、統一された3D表現を探求することを目的とした、スケーラブルで統一された3D事前トレーニングフレームワークである。開発者は、10万枚以上の画像と70万件以上のテキスト、および100万以上の3D形状を使用して、10億パラメータ以上のスケールで大規模な3D表現を学習する。開発者は、バニラトランスフォーマー構造を使用して、Uni3Dフレームワークをスケールアップできる。さらに、Uni3Dフレームワークは、豊富な2Dモデルの初期化とターゲットとしての画像テキスト同期モデルを活用する。実験結果は、Uni3Dフレームワークが、さまざまな設定で高い精度と効率を示すことを示しており、既存の最先端フレームワークを上回っている。