Connect with us

NVIDIA Cosmos: 物理AIをシミュレーションで強化する

人工知能

NVIDIA Cosmos: 物理AIをシミュレーションで強化する

mm

物理AIシステムの開発、例えば工場の床にいるロボットや街中を走る自動運転車、は、大規模で高品質のデータセットに大きく依存しています。しかし、現実世界のデータを収集することは、高額で時間がかかり、また、大手テクノロジー企業に限られていることが多いです。NVIDIAのCosmosプラットフォームは、この課題に対処するために、物理シミュレーションを使用してリアルな合成データを大規模に生成します。これにより、エンジニアは、現実世界のデータを収集することによるコストと遅延なしに、AIモデルをトレーニングできます。この記事では、Cosmosがトレーニングデータへのアクセスを改善し、現実世界のアプリケーション向けの安全で信頼性の高いAIの開発を加速する方法について説明します。

物理AIの理解

物理AIとは、物理世界を認識、理解、操作できる人工知能システムを指します。従来のAIとは異なり、物理AIは、空間関係、物理力、動的環境などの現実世界の複雑さに対処する必要があります。例えば、自動運転車は、歩行者を認識し、その動きを予測し、天候や道路状況などの要素を考慮してリアルタイムで経路を調整する必要があります。同様に、倉庫内のロボットは、障害物を回避し、物体を精密に操作する必要があります。

物理AIの開発は、多様な現実世界のシナリオにモデルをトレーニングするために、膨大な量のデータが必要であるため、課題があります。このデータを収集することは、運転映像やロボットのタスクデモの数時間、時間がかかり、高額になる可能性があります。また、AIを現実世界でテストすることは、ミスが事故につながる可能性があるため、リスクがあります。NVIDIA Cosmosは、物理シミュレーションを使用してリアルな合成データを生成することで、これらの課題に対処します。

ワールドファウンデーションモデルとは

NVIDIA Cosmosの核となるのは、ワールドファウンデーションモデル(WFMs)と呼ばれるAIモデルのコレクションです。これらのAIモデルは、物理世界をシミュレートする仮想環境を生成するように特別に設計されています。物理法則に基づいてオブジェクトの相互作用をシミュレートすることで、WFMsは物理的に認識できるビデオやシナリオを生成します。例えば、WFMsは、雨天での車の運転シミュレーションを生成し、水がトラクションに与える影響や、ヘッドライトが濡れた表面に反射する方法を示すことができます。

WFMsは、物理AIに不可欠です。なぜなら、開発者が現実世界のデータを収集するのではなく、WFMsを使用して合成データを生成できるからです。このアプローチは、コストを削減するだけでなく、開発プロセスを加速し、リスクなく複雑でまれなシナリオ(例:異常な交通状況)をテストできるからです。WFMsは、一般目的のモデルであり、特定のアプリケーション向けにファインチューニングできるため、言語モデルが翻訳やチャットボットなどのタスクに適応されるのと同様です。

NVIDIA Cosmosの紹介

NVIDIA Cosmosは、開発者が物理AIアプリケーション、特に自動運転車(AV)やロボティクス向けのWFMsを構築およびカスタマイズできるように設計されたプラットフォームです。Cosmosは、物理世界とやり取りするAIシステムを開発するために、先進的な生成モデル、データ処理ツール、セーフティ機能を統合しています。このプラットフォームはオープンソースであり、モデルは寛容なライセンスの下で利用できます。

プラットフォームの主なコンポーネントは次のとおりです:

  • 生成ワールドファウンデーションモデル(WFMs): 仮想環境と相互作用をシミュレートする事前トレーニング済みモデル。
  • 高度なトークナイザー: データを効率的に圧縮および処理するツール、モデルトレーニングを高速化します。
  • 高速データ処理パイプライン: 大規模なデータセットを処理するシステム、NVIDIAのコンピューティングインフラストラクチャによって動作します。

Cosmosの重要な新機能は、その物理AIの推論モデルです。このモデルにより、開発者は仮想世界を作成および変更できます。開発者は、ロボットがオブジェクトを拾う能力をテストしたり、自動運転車が突然の障害物に対応する方法を評価したりするなどの特定のニーズに合わせてシミュレーションをカスタマイズできます。

NVIDIA Cosmosの主な機能

NVIDIA Cosmosは、物理AI開発の特定の課題に対処するために、さまざまなコンポーネントを提供します:

  • Cosmos Transfer WFMs: これらのモデルは、セグメンテーションマップ、深度マップ、またはLiDARスキャンなどの構造化ビデオ入力を取り込み、制御可能で写実的なビデオ出力を生成します。この機能は、自動運転車がオブジェクトを識別したり、ロボットが周囲を認識したりするのを支援する感知AIをトレーニングするための合成データを作成するために特に役立ちます。
  • Cosmos Predict WFMs: Cosmos Predictモデルは、テキスト、画像、ビデオなどのマルチモーダル入力に基づいて仮想世界の状態を生成します。将来のシナリオ、例えばシーンが時間の経過とともにどのように進化するかを予測し、複雑なシーケンスのためのマルチフレーム生成をサポートします。開発者は、NVIDIAの物理AIデータセットを使用して、これらのモデルを特定のニーズ、例えば歩行者の動きやロボットのアクションを予測するためにカスタマイズできます。
  • Cosmos Reason WFM: Cosmos Reasonモデルは、完全にカスタマイズ可能なWFMであり、空間時間的認識能力を備えています。このモデルの推論能力により、空間関係と時間の経過による変化の両方を理解できます。モデルは、ビデオデータを分析し、結果を予測するために、思考の連鎖による推論を使用します。例えば、歩行者が横断歩道に入るか、箱が棚から落ちるかを予測します。

アプリケーションとユースケース

NVIDIA Cosmosは、業界で既に大きな影響を与えており、複数の主要企業が物理AIプロジェクト向けにこのプラットフォームを採用しています。これらの早期採用者は、さまざまな業界でのCosmosの汎用性と実用的な影響を強調しています:

  • 1X: AI駆動のロボットを開発する能力を向上させるためにCosmosを使用しています。
  • Agility Robotics: 人間型ロボットシステム向けにCosmosを利用するためのNVIDIAとのパートナーシップを拡大しています。
  • Figure AI: 人間型ロボティクスを進歩させるためにCosmosを利用しています。複雑なタスクを実行できるAIに焦点を当てています。
  • Foretellix: 自動運転車のシミュレーションにCosmosを適用し、幅広いテストシナリオを生成しています。
  • Skild AI:様々なアプリケーション向けのAI駆動ソリューションを開発するためにCosmosを使用しています。
  • Uber: 自動運転車の開発にCosmosを統合し、自律走行システムのトレーニングデータを改善しています。
  • Oxa: 産業用モビリティの自動化を加速させるためにCosmosを使用しています。
  • Virtual Incision: 手術用ロボティクス向けにCosmosを探索し、医療における精度を向上させています。

これらのユースケースは、Cosmosが輸送から医療まで、幅広いニーズに対応し、物理AIシステムをトレーニングするための合成データを提供できることを示しています。

将来の影響

NVIDIA Cosmosの発売は、物理AIシステムの開発において重要です。オープンソースのプラットフォームで強力なツールとモデルを提供することで、NVIDIAは、より幅広い開発者や組織が物理AIの開発に取り組めるようにします。これにより、自動運転、ロボティクス、医療などの分野で大きな進歩がもたらされる可能性があります。

自動運転車の場合、トレーニングデータとシミュレーションの強化により、より安全で信頼性の高い自律走行車が実現する可能性があります。ロボティクスでは、複雑なタスクを実行できるロボットの開発が速まることで、製造、物流、医療などの業界が変革される可能性があります。医療では、Virtual Incisionが探索している手術用ロボティクスなどの技術により、医療処置の精度と成果が向上する可能性があります。

まとめ

NVIDIA Cosmosは、物理AIの開発において重要な役割を果たします。このプラットフォームでは、物理ベースのワールドファウンデーションモデル(WFMs)を提供し、リアルなシミュレーションを生成できるため、開発者は高品質の合成データを生成できます。オープンソースアクセス、先進的な機能、倫理的保護のために、Cosmosは物理AIの開発をより迅速かつ効率的に行えるようにしています。プラットフォームは、すでに輸送、ロボティクス、医療などの業界で大きな進歩をもたらし、物理世界とやり取りする知能システムを構築するための合成データを提供しています。

Dr. Tehseen ZiaはCOMSATS University Islamabadの正教授であり、オーストリアのVienna University of TechnologyでAIのPh.D.を取得しています。人工知能、機械学習、データサイエンス、コンピュータビジョンを専門とし、信頼性の高い科学雑誌に掲載された出版物で著しい貢献をしています。Dr. Tehseenは、主な調査員としてさまざまな産業プロジェクトを率い、AIコンサルタントとしても務めています。