Connect with us

身体化AIの進化: MetaがAIに人間のようなタッチと器用さをもたらす方法

ロボティクス

身体化AIの進化: MetaがAIに人間のようなタッチと器用さをもたらす方法

mm

AIは視覚認識と言語処理の分野で大きな進歩を遂げてきました。ただし、これらの能力だけでは物理的な世界と交互作用するシステムを構築するには十分ではありません。人間は、物体を扱ったり、制御された動きをしたりするために、触覚を利用しています。私たちは、質感、温度、重量を感じて、各動作を正確に行います。このタクティルフィードバックにより、私たちは繊細なアイテムを操作したり、ツールを制御して使用したり、複雑なタスクをスムーズに実行したりできます。

Metaは、バーチャルリアリティとオーグメンテッドリアリティの分野で知られていますが、今回は物理的な世界と人間のように交互作用するAIの開発に取り組んでいます。FAIR Roboticsイニシアチブを通じて、Metaはロボットの触覚と身体的敏捷性を高めるためのオープンソースツールとフレームワークを開発しています。これらの努力により、embodied AI — システムが人間のように物体を感知して操作できる — の開発につながる可能性があります。

Embodied AIとは何か?

Embodied AIは、物理的な交互作用と人工知能を組み合わせ、機械が自然に周囲と交互作用できるようにします。ただし、「見る」または「聞く」入力だけではなく、AIシステムが「感じる」と「世界で行動する」ことを可能にします。圧力に応じてグリップを調整し、敏捷に動くロボットを想像してください。Embodied AIは、AIを画面やスピーカーから物理的な世界へと移し、物体を操作し、タスクを実行し、人々とより意味のある方法で交互作用できるようにします。

たとえば、Embodied AIを搭載したロボットは、繊細なアイテムを損傷せずに老人に拾わせることができます。医療分野では、外科手術中に医師が器具を正確に保持するのを支援できます。この潜在性は、研究室や工場のロボットアームを超えて、機械が物理的な環境にリアルタイムで理解し、対応できるようにすることについてです。

MetaのEmbodied AIへのアプローチ

Metaは、人間のようなタッチを実現するために、3つの重要な分野に焦点を当てています。まず、圧力、質感、温度などのものを機械が検出できる高度なタクティルセンシング技術を開発しています。2番目に、Metaは、これらの信号を理解し、反応するためのタッチ感覚モデルを作成しています。最後に、Metaは、複数のセンサーと感覚モデルを統合したタクティル開発プラットフォームを構築しています。これにより、タッチを可能にするための完全なシステムが提供されます。ここでは、Metaがこれらの分野でEmbodied AIの進歩を促進する方法について説明します。

Meta Digit 360: 人間レベルのタクティルセンシング

Metaは、Embodied AIに人間のようなタッチ感覚を与えるために、Digit 360を導入しました。このタクティルセンシング技術は、18以上のセンシング機能を備えており、振動、熱、または表面の化学物質を検出できます。AIチップを搭載した指先はタッチデータを即座に処理し、ストーブの熱や針の鋭い突きなどに対して迅速に反応します。この技術は、人間の反射的な反応と同様のものを模倣する、Embodied AI内の「末梢神経系」として機能します。Metaは、この指先を8百万を超えるタクセルを含む独自の光学システムで開発しました。これにより、非常に小さな詳細まで検知し、1ミリニュートンの力のような小さな力まで検知できます。Embodied AIは、環境に対して繊細に調整された感覚を持ちます。

Meta Sparsh: タクティル感覚の基盤

Metaは、AIが物理的な感覚を理解し、反応できるように、タッチ感覚の能力を強化しています。サンスクリット語で「触覚」を意味するSparshは、Embodied AIの「タッチブレイン」として機能します。このモデルにより、機械が圧力やグリップなどの複雑なタクティル信号を解釈できます。

Sparshの特徴の1つは、その汎用性です。従来のタクティルシステムは、各タスクに別々のモデルを使用し、ラベル付けされたデータや特定のセンサーに大きく依存しています。Sparshは、このアプローチを完全に変えます。汎用モデルとして、Sparshはさまざまなセンサーとタスクに適応します。Sparshは、46万を超えるタクティル画像の巨大なデータベースを使用して、自己教師あり学習(SSL)でタッチパターンを学習します。ラベル付けされたデータは必要ありません。

Metaは、Sparshの能力を評価するために、6つのタッチベースタスクを備えた新しいベンチマークであるTacBenchを導入しました。Metaによると、Sparshは、特にデータが少ないシナリオでは、従来のモデルを95.1%上回ったということです。MetaのI-JEPAとDINOアーキテクチャを基にしたSparshのバージョンは、力の推定、スリップ検出、複雑な操作などのタスクで優れた能力を示しています。

Meta Digit Plexus: タクティルシステム開発プラットフォーム

Metaは、センシング技術とタクティル感覚モデルを統合して、Embodied AIシステムを作成するために、Digit Plexusを導入しました。このプラットフォームは、ロボットハンド内に指先と手のひらセンサーを組み合わせて、より調整されたタッチレスポンスを可能にします。この設定により、Embodied AIは感覚フィードバックを処理し、リアルタイムで行動を調整できます。人間の手が動き、反応するのと同様です。

Digit Plexusは、ハンド全体でタッチフィードバックを標準化することで、Embodied AIの精度と制御を高めます。この開発は、製造や医療などの分野で、慎重な取り扱いが不可欠である場合に特に重要です。プラットフォームは、指先やReSkinなどのセンサーを制御システムに接続し、データ収集、制御、分析を1本のケーブルで簡素化します。

Metaは、Digit Plexusのソフトウェアとハードウェア設計をオープンソースコミュニティに公開します。目標は、Embodied AIの研究と開発を促進し、イノベーションと進歩を加速することです。

Embodied AIの研究と開発を促進する

Metaは、技術だけでなく、Embodied AIの研究と開発を促進するためのリソースも進めています。主要な取り組みの1つは、AIモデルを評価するためのベンチマークの開発です。1つのベンチマークであるPARTNR(Planning And Reasoning Tasks in humaN-Robot collaboration)は、AIモデルが家事での人間との協力中にどのように交互作用するかを評価します。Habitat 3.0シミュレーターを使用して、PARTNRは、ロボットが家事のタスクを支援するための現実的な環境を提供します。100,000を超える言語ベースのタスクがあり、Embodied AIの進歩を促進することを目的としています。

内部イニシアチブに加えて、Metaは、GelSight Inc.Wonik Roboticsなどの組織と協力して、タクティルセンシング技術の採用を促進しています。GelSightはDigit 360センサーを配布し、Wonik Roboticsは、Digit Plexus技術を統合したAllegro Handを製造します。これらの技術をオープンソースプラットフォームとパートナーシップを通じて利用可能にすることで、Metaは、医療、製造、家庭支援などの分野でイノベーションにつながる可能性のあるエコシステムを作成するのに役立ちます。

まとめ

Metaは、Embodied AIを進化させ、視覚や音だけでなく、触覚も可能にします。Digit 360やSparshなどのイノベーションにより、AIシステムは環境に正確に反応することができます。Metaは、これらの技術をオープンソースコミュニティと主要な組織と共有することで、タクティルセンシングの開発を促進しています。この進歩により、医療、製造、家庭支援などの分野で、AIがより能力豊かでリアルタイムに反応できるようになる可能性があります。

Dr. Tehseen ZiaはCOMSATS University Islamabadの正教授であり、オーストリアのVienna University of TechnologyでAIのPh.D.を取得しています。人工知能、機械学習、データサイエンス、コンピュータビジョンを専門とし、信頼性の高い科学雑誌に掲載された出版物で著しい貢献をしています。Dr. Tehseenは、主な調査員としてさまざまな産業プロジェクトを率い、AIコンサルタントとしても務めています。