Connect with us

お知らせ

Intel Labs、コンピュータビジョン開発を2つの新しいAIモデルで推進

mm

VI-Depth 1.0とMiDaS 3.1のオープンソースAIモデルは、コンピュータビジョンにおける深度推定を改善する。

深度推定は、ロボティクス、拡張現実(AR)および仮想現実(VR)などの幅広いアプリケーションを作成するために必要な、難しいコンピュータビジョンのタスクです。既存のソリューションは、正しく距離を推定することが難しいことが多く、これは視覚的なナビゲーションにおいて動きを計画し、障害物を避けるために重要な側面です。Intel Labsの研究者は、この問題に対処するために、モノキュラー深度推定用の2つのAIモデルをリリースしています。1つは視覚慣性深度推定用、もう1つは堅牢な相対深度推定(RDE)用です。

最新のRDEモデルであるMiDaSバージョン3.1は、単一の画像のみを入力として使用して、堅牢な相対深度を予測します。大量で多様なデータセットでトレーニングされたため、より広い範囲のタスクと環境で効率的に実行できます。MiDaSの最新バージョンは、より大きなトレーニングセットと更新されたエンコーダーの背骨を使用して、RDEのモデル精度を約30%向上させます。

MiDaSは、Stable Diffusion 2.0を含む多くのプロジェクトに組み込まれており、ここでは入力画像の深度を推定し、テキストと深度情報の両方を使用して新しい画像を生成する深度から画像の機能を可能にします。例えば、デジタルクリエイターScottie Foxは、Stable DiffusionとMiDaSの組み合わせを使用して、360度のVR環境を作成しました。このテクノロジーは、法廷での犯罪シーンの再構築、ヘルスケアの治療環境、没入型ゲーム体験など、新しい仮想アプリケーションにつながる可能性があります。

RDEは一般化性が良く、有用ですが、スケールの欠如により、メトリック深度を必要とするダウンストリームタスク(マッピング、計画、ナビゲーション、物体認識、3D再構築、画像編集など)ではその有用性が低下します。Intel Labsの研究者は、この問題に対処するために、VI-Depthという別のAIモデルをリリースしています。これは、正確な深度推定を提供します。

VI-Depthは、モノキュラー深度推定と視覚慣性オドメトリ(VIO)を統合する視覚慣性深度推定パイプラインであり、メトリックスケールを持つ濃密な深度推定を生成します。このアプローチにより、シーンの再構築、マッピング、物体操作に役立つ正確な深度推定が可能になります。

慣性データの組み込みにより、スケールの不確実性を解決できます。ほとんどのモバイルデバイスには、慣性測定ユニット(IMU)がすでに含まれています。グローバルな整列により、適切なグローバルスケールが決定され、濃密なスケール整列(SML)は、ローカルで動作し、領域を正しいメトリック深度に向けて押したり引いたりします。SMLネットワークは、MiDaSをエンコーダーの背骨として利用します。モジュラーなパイプラインでは、VI-Depthは、データ駆動型の深度推定とMiDaSの相対深度予測モデルの両方を、IMUセンサ測定ユニットと組み合わせます。データソースの組み合わせにより、VI-Depthは、画像の各ピクセルに対してより信頼性の高い濃密なメトリック深度を生成できます。

MiDaS 3.1VI-Depth 1.0は、GitHubでオープンソースのMITライセンスの下で利用可能です。

詳細については、「Vision Transformers for Dense Prediction」および「Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer」を参照してください。

ダニエルは、AIが最終的にすべてを混乱させることになるという考えの強い支持者です。彼は技術を呼吸し、新しいガジェットを試すために生きています。