ロボティクス
July 30, 2025
ヒューマノイドの時代は来ていない — すでにここにいる
先月、中国では、ヒューマノイドロボットの双双(Shuang Shuang)が、福建省の高校の卒業式で、ステージに上がって、卒業証書を受け取り、生徒や教師を喜ばせた。そうした瞬間は、ヒューマノイドロボットが公共の生活に目立つ形で登場し始めていることを示唆している。これらの瞬間は、単なる公衆の好奇心を示すものではなく、現実世界への統合へのシフトを示唆している。この記事では、ヒューマノイドがショーや見世物から機能性へとどう移行するか、また、ハードウェアのみの実現であると思われがちであるが、実際には、これらのマシンが自動化のためにスクリプト化されていない環境で歩き、交流し、学習することを可能にする統合されたインテリジェンスについて探る。また、早期の導入と長期的なパートナーシップを通じて、商業化にどのように取り組むかについても議論する。ヒューマノイドがAIを現実世界に押し出す仮想的なパフォーマンスと物理的な信頼性の間のギャップは、AIの最も見過ごされがちな課題の1つである。チャットボットは、行動を起こすことなく、文章を生成することができる。同様に、ビジョンモデルは、物理的に移動することなく、または転倒することなく、画像の中のステップを識別することができる。ヒューマノイドには、そのような贅沢は許されない。現実世界で機能するには、AIは静的なデータセットと制御された条件を離れなければならない。AIは、1秒ごとに変化する環境で、見る、決定する、行動する必要がある。それには、不均一な床、配置された物体、予測不可能な人間の行動、状況に依存した非言語的な合図が含まれる。結果として、毎日、ノイズ、曖昧さ、潜在的な失敗との対決になる。ここで、言語が空間、時間、結果に根ざした、エンボディッド・リージョニングが、トークン予測よりも重要になる。例えば、人間が「気をつけて、滑りやすい」と言った場合、ロボットは、そのフレーズを単に語彙の定義に結び付けるだけでなく、空間的な認識、潜在的なリスク、リアルタイムの調整に結び付ける必要がある。同時に、マルチモーダル・ラーニングは不可欠になる。なぜなら、単一の入力チャンネルは、単独で運用するには十分に信頼できるものではないからである。カメラが滑らかな表面を見逃すかもしれないが、足にある圧力センサーは突然のトラクションの喪失を検出できる。ある他の状況では、スピーチ認識が騒々しい倉庫では失敗するかもしれないが、視覚的な合図やジェスチャーがギャップを埋めることができる。汎化も重要になる。ロボットは、同じ環境を見て、2回目に同じ行動をとることができない。床が濡れている、照明が変わっている、箱が昨日と同じ場所にない場合に、ロボットは行動を適応させる必要がある。これが、成功した実行と失敗の違いとなる。ヒューマノイドでは、これが私たちが早期に商業パートナーとテストを開始する理由である。私たちは、潜在的な欠陥をすぐに発見し、導入前に最適な動作を確保するために、ロボットを実際の環境に統合する。シミュレーションやデモでうまく機能するロボットは、プレッシャー下で信頼を得るロボットとは異なる。なぜなら、その信頼は最終的に現実世界の学習に基づいているからである。私たちは、ヒューマノイドが2年以内に商業的に利用可能になることを知っている。しかし、私たちは待つことはない。私たちにとって、商業化は早期に始まる。実際のユースケースを中心に、長期的なパートナーシップを構築することを意味する。パイロットプログラムのシリーズを通じて、私たちはパートナーに技術について教育するだけでなく、パートナーと共に学ぶ。共有された学習プロセスはまた、私たちが最初の日からコスト構造とパフォーマンスの信頼性を洗練し、システムが拡大するにつれて、可能な限り最適な総所有コスト(TCO)を確保するのに役立つ。ヒューマノイドは汎用的な知能の究極のテストベッドである私たちが過去100年間で作り上げてきた世界は、人間のスケールに合わせられている。ドアのハンドル、フォークリフト、倉庫 — 全てが特定の寸法、動きの範囲、暗黙の社会的行動を前提としている。ヒューマノイドは、その現実に適応する必要がある。そうでない場合、機能性が極めて限定されることになる。階段を上る、物体を運ぶ、指し示すジェスチャーを解釈する、声の躊躇を認識するためには、ロボットは、視覚的な分類やスクリプト化された動きの計画を超えた文脈を理解する必要がある。ロボットは意図を推測し、人間の行動を見て新しいタスクを学び、少し異なるレイアウトにそのスキルを適応させ、時間の経過とともにパフォーマンスを向上させる必要がある。実践では、このシステムは、実際の制約下でAIが何ができるかを効果的に拡大している。ヒューマノイドでは、テレオペレーションを通じてそのプロセスを加速する。開発の初期段階では、人間のオペレーターがロボットを重要なタスクに通じて導く。手作業でのデータは、新しい行動をトレーニングする基礎となる。時間の経過とともに、これらのデモンストレーションは、信頼性の高い自律性に向けて構築する私たちのエンドツーエンド・モデルにフィードされる。狭いシステムから統合された知能へ現在のほとんどのAIシステムは、狭いタスクで優れている。個別には、それぞれうまく機能する。しかし、ヒューマノイドは切り離された専門家を必要としない。統合するには、モダリティや時間尺度を横断して推論できるシステムが必要である。ヒューマノイドは、比較的曖昧な指示 — 「倉庫の部屋にある黄色の箱を、廊下の向こうから持ってきて」 — を受け取り、それをサブタスクのシーケンスに解釈する必要がある。話し手をローカライズする、廊下を移動する、正しい箱を識別する、握力調整する、衝突を避ける、そしてもちろん、安全に戻る。シーケンスの各部分には、異なるサブシステム — ビジョン、歩行、言語、操作、フィードバック — が関与する。全体の信頼性は、変化する条件下でこれらの部分がどのように通信するかに依存する。モジュラー・アーキテクチャは、この課題に対処する方法である。これにより、私たちはサブシステムを個別に反復的に改良することができ、システム全体の調整も達成できる。さらに、これにより、私たちは環境を再構築することなく、複数の環境にわたって機能性をスケールアップできる。これが、クローズド・デモからオープン・ワールド・パフォーマンスへの移行の方法である。賭けは巨大 — かつグローバルであるヒューマノイドを未来的なものと見なすのは簡単である。しかし、顧客と話すと、必要性は即時のものである。多くの倉庫、組み立てライン、他の活気に満ちた作業場は、人員を維持するのに苦労している。これらの労働力不足は、人口統計的な問題である。日本では、人口の約30%が65歳以上である。ヨーロッパでは、主要なセクター — これらのセクターの給与は合計1.7兆ドルに達する — は、若い労働者を募集するのに苦労している。これらは、多くの人にとって欲しい役割ではなく、ますます、人々が行いたい役割でもない。ヒューマノイドは、代わりに補助的な役割として登場する。物理的に要求の厳しい、繰り返しのある、または危険なタスク — 在庫の移動、パレットのローディング、機械の操作 — を、疲労や怪我のリスクなく行うことができる。人間の労働者は、より複雑な、創造的な、または人間関係の側面に注力できる。さらに、これにより、長期的な経済的堅実性が生まれる。労働力が不安定または利用できない場合、知能的なマシンは、安全性、品質、適応性を犠牲にすることなく、継続性を確保するのに役立つ。別の側面を強調する必要があるのは、規制枠組みである。多くのチーム — 特に規制が緩い管轄区域では — これについて考えるのを待つ。しかし、私たちはそこから始めた。ヨーロッパの安全性とデータの法律は、世界で最も厳格なものの1つであるが、私たちはそれらを障害と見なすのではなく、競争上の優位性と見なしている。規制が厳しくなる他の市場では、私たちはそれらに応じる準備ができている。別の会社は、準備ができていないかもしれない。新しいAIの競争...