ソートリーダー
ヒューマノイドの時代は来るのではなく、すでに到来している

今月初め、中国で、 シュアンシュアンがステージに上がった 福建省の高校の卒業式で、卒業証書を受け取り、握手を交わし、生徒と教師を共に喜ばせている。このような瞬間は、ヒューマノイドロボットが社会生活に非常に目に見える形で登場し始めているという、意義深い変化を象徴している。
これらの瞬間は、人々の好奇心を掻き立てるだけでなく、現実世界への統合へと向かう変化を示唆しています。この記事では、ヒューマノイドがいかにしてショーや見世物から実用化へと移行していくのか、そして一見ハードウェアのみの偉業のように見えるものが、実際には、自動化を想定していない環境でもこれらの機械が歩行、インタラクション、学習を可能にする統合インテリジェンスによるものである理由を探ります。また、早期導入と長期的なパートナーシップを通じて、どのように商業化に取り組んでいるかについても議論します。
ヒューマノイドがAIを現実世界に押し上げる方法
仮想的なパフォーマンスと物理的な信頼性のギャップは、AIにおいて依然として最も見過ごされがちな課題の一つです。チャットボットは、実際に操作することなく、流暢な文章を段落単位で生成できます。これは、視覚モデルが画像内の段差を物理的に移動したり転倒の危険を冒したりすることなく識別できるのと同じです。ヒューマノイドにはそのような余裕はありません。
AIが現実世界で機能するには、静的なデータセットや制御された環境を捨て去らなければなりません。刻一刻と変化する環境の中で、AIは視覚的に判断し、行動しなければなりません。これには、凹凸のある床、置き忘れられた物体、予測不可能な人間の行動、状況に依存する非言語的な手がかりなどが含まれます。その結果、AIは日々、ノイズ、曖昧さ、そして潜在的な障害と対峙することになります。
ここで、単なる言葉の予測よりも、空間、時間、そして結果に根ざした言語に基づく具体化された推論が重要になります。例えば、人間が「気をつけて、滑りやすいよ」と言った場合、ロボットはそのフレーズを単なる言葉の定義だけでなく、空間認識、潜在的なリスク、そしてリアルタイムの調整に結びつける必要があります。
同時に、マルチモーダル学習が不可欠になります。なぜなら、単一の入力チャネルだけでは十分な信頼性が得られないからです。カメラは滑りやすい路面を見逃す可能性がありますが、足元の圧力センサーは突然のグリップ力の低下を検知できます。あるいは、騒音の激しい倉庫では音声認識がうまくいかないかもしれませんが、視覚的な手がかりやジェスチャーでそのギャップを埋めることができます。
一般化も重要になります。ロボットは同じ環境を2度見ることに頼ることはできません。床が濡れていたり、照明が変わったり、箱が昨日の場所と違っていたりすると、行動を適応させる必要があります。これが実行の成功と失敗を分ける要因となります。
ヒューマノイドでは、だからこそ商業パートナーと早期にテストを開始しています。ロボットを実際の環境に統合することで、潜在的な欠陥を迅速に発見し、導入前に最適な動作を確認します。シミュレーションやデモで優れたパフォーマンスを発揮するロボットと、プレッシャーの下で信頼を獲得するロボットは同じではありません。なぜなら、信頼は最終的には実世界での学習に基づいて構築されるからです。
ヒューマノイドロボットは今後2年以内に商用化されると確信していますが、私たちは待つつもりはありません。私たちにとって、商用化は早期から始まります。つまり、実際のユースケースに基づいた長期的なパートナーシップを構築することを意味します。一連のパイロットプログラムを通じて、パートナーの皆様に技術を啓蒙するだけでなく、共に学びを深めていきます。この共同学習プロセスは、コスト構造とパフォーマンスの信頼性を初日から改善することにも役立ち、システムの拡張に合わせて最適な総所有コスト(TCO)を確保します。
ヒューマノイドが汎用知能の究極のテストベッドとなる理由
過去100年間に私たちが作り上げてきた世界は、人間のスケールに合わせて作られています。ドアノブ、フォークリフト、倉庫など、あらゆるものが一定の寸法、可動範囲、そして暗黙の社会的行動を前提としています。ヒューマノイドはこうした現実に適応しなければ、機能が著しく制限されてしまう危険性があります。
階段を上ったり、物を運んだり、指差しジェスチャーを解釈したり、声の躊躇いを認識したりするには、ロボットは視覚的な分類やスクリプト化された動作計画をはるかに超える文脈を理解する必要があります。意図を推測し、人間の行動を観察して新しいタスクを学習し、そのスキルをわずかに異なるレイアウトに適応させ、時間の経過とともにパフォーマンスを向上させなければなりません。実際には、このシステムは、現実の制約下でAIが実行できることを効果的に拡張しています。
Humanoidでは、遠隔操作によってそのプロセスを加速させています。開発の初期段階では、人間のオペレーターがロボットに主要なタスクを指示します。この実践的なデータは、新しい行動を訓練するための基盤となります。時間の経過とともに、これらのデモンストレーションはエンドツーエンドのモデルに反映され、信頼性の高い自律性の構築に役立ちます。
狭義のシステムから統合インテリジェンスへ
今日のAIシステムのほとんどは、特定のタスクに特化しています。それぞれが単独で機能すれば、十分に機能します。しかし、ヒューマノイドには分断された専門家は必要ありません。統合を成功させるには、様々なモダリティやタイムスケールを横断して推論できるシステムが必要です。
ヒューマノイドは、「廊下の向こうの倉庫から黄色い箱を持ってきてくれ」という比較的漠然とした指示を受け取り、それを一連のサブタスクに解読する必要があります。サブタスクには、話者の位置を特定し、廊下を移動し、正しい箱を識別し、握力を調整し、衝突を回避し、そしてもちろん、無事に戻ることが含まれます。
この一連の動作の各部分には、視覚、移動、言語、操作、フィードバックといった異なるサブシステムが関わっています。そして、全体の信頼性は、変化する状況下でこれらの部分がどれだけうまくコミュニケーションできるかにかかっています。
モジュラーアーキテクチャは、この課題を解決する一つの方法です。これにより、サブシステムを個別にイテレーションしながら、システム全体の連携を実現できます。さらに、ゼロから再構築することなく、複数の環境に機能を拡張できます。このようにして、クローズドデモからオープンワールドパフォーマンスへと移行しています。
賭け金は莫大で、世界規模だ
ヒューマノイドを未来的なものとして捉えるのは簡単です。しかし、お客様と話をすると、そのニーズは差し迫ったものであることがわかります。かつては活気に満ちていた倉庫、組立ライン、その他の作業現場の多くが、今や人員確保に苦労しています。
こうした労働力不足は人口動態の問題です。日本では、 人口の約30%が65歳以上ヨーロッパでは、主要セクター(合計で 給与総額1.7兆ドル - は 若い労働者の採用に苦労しているこれらはほとんどの人が望むような役割ではなく、ますます、人々が喜んで引き受けたいと思うような役割ではなくなってきています。
ヒューマノイドロボットは、代替ではなく、補助的な役割を担うことで、在庫の移動、パレットへの積み込み、機械の操作といった、肉体的に負担が大きく、反復的、あるいは危険な作業を、疲労や怪我のリスクなしにこなすことができます。これにより、人間の労働者は、より複雑で創造的な、あるいは対人関係に関わる仕事に集中できるようになります。
さらに、これは長期的な経済の回復力を生み出します。労働力が不安定であったり、不足している場合、インテリジェントマシンは安全性、品質、適応性を犠牲にすることなく、事業の継続性を確保するのに役立ちます。
もう一つ強調すべき点は、規制の枠組みです。多くのチーム、特に規制の緩い法域では、この点について考えるのを先延ばしにしています。私たちはそこから着手しました。欧州の安全およびデータに関する法律は世界で最も厳しいものの一つですが、私たちはそれを障害と捉えるのではなく、競争上の強みと捉えています。他の市場でより厳しい規制が導入されるにつれ、他社が慌てふためく中、私たちはそれらに対応する準備を整えています。
新たなAIレース — しかし、あなたが想像しているものとは違います
今日、AIをめぐる議論の多くは、計算能力、パラメータ、そして学習データに集中しています。しかし、真のブレークスルーは、別の領域、つまり物理世界との統合から生まれるかもしれません。そこでは、知能は単なる予測ではなく、実際に行動することを学ぶ必要があります。
この点で、競争の焦点は最も有能なシステム、つまり公共の場で、安全上の制約の下で、人間と連携して動作できるシステムです。このシステムは、データから学習するだけでなく、特に現実から学習し、物事の流れを妨げずに人々と連携して動作します。
だからこそ、私たちは導入を待つことなく、最初から商用パートナーと直接連携し、実環境への統合を進めます。これにより、最も重要な部分、つまり実用面でのシステム改善を確実に実現します。
こうした現実世界での学習こそが、まさに狭義のシステムが至らない点です。こうしたシステムは私たちを大きく前進させましたが、そもそもこのような複雑な状況を想定して設計されたものではありません。ヒューマノイドには、協調性、堅牢性、そして前述のように、予期せぬ事態から学習する能力といった、別の要素が必要です。
それが私たちの目の前にある大きなチャンスです。すべてを自動化するのではなく、人間の世界を理解し、ナビゲートし、協力できる機械を構築することです。