Connect with us

ソートリーダー

ロボットに動くことを教えた。現在、ロボットに生きることを教えている

mm

現代のロボティクスは、動きが主な課題ではなくなった段階に達しています。機械はすでに、ナビゲーション、把持、空間での操作を印象的な精度で行うことができます。しかし、ロボットが本当に「生き」、現実の世界で機能することを可能にするには、未解決の問題が残っています。

このプロセスでは、基本的な反応、行動、環境との相互作用を担当するシステム、つまり「脊髄」と呼ばれるものが、重要な役割を果たします。

ロボットの進化をこのレンズで見ると、各ステージでシステムが新しいことを学ぶシーケンスは、単純な動きから複雑な、コンテキストに応じたアクションまで、人間の発達と密接に似ていることが明らかになります。

そして、まさにこの進化の中で、「空」のハードウェアから意味のある行動へのシフトが、今日の物理的なAIで起こっています。より深く学ぶことが興味深いです。

ロボティクスの基礎:まれに議論されるステージ

実用的には、ロボットとは何ですか?ロボットは、元々ユニバーサルプラットフォームとして作成された物理デバイスです。本質的には、それは「空」の状態で、後に特定のタスクに適応し、与えられた環境で動作するようにトレーニングされ、必要なアクションを実行するように教えられます。

日常のシナリオを超えて、よりリアルな近未来のアプリケーションを考慮すると、ロボットの全面的な採用は、主に工業的で、潜在的に危険な環境で発生することが明らかになります。これは、ロボットの動作、堅牢性、トレーニングの品質に対する要件が大幅に高まることを意味します。

プロセスは、最も基本的なステップから始まります。デバイス自体を構築することです。ロボットは、アクチュエーター、モーター、センサー、カメラ、LiDAR など、複数のコンポーネントから構成されています。ロボットはヒューマノイド、車輪、二足歩行、または四足歩行型の形態をとることができます。形状は二次的なものです。重要なのは、この段階で、機能するがまだ「空」のデバイスができあがることです。

次のステージは、基本的なモデルをインストールすることです。このモデルは、ロボットの動作の基盤となります。広い意味では、「モデル」とは、機能的な制御レイヤーの全体です。ロボットの基本的な能力、つまりバランスを維持し、立って動き、ポイント A からポイント B までナビゲートし、障害物を避け、環境を損なわないようにし、人間と安全に相互作用することを担当します。

ここで、強化学習が役割を果たします。このようなシステムでは、数十億のシミュレーションが実行されます。複雑な環境でロボットが「学習」している様子のビデオをよく見かけます。ほとんどのロボットは倒れたり、バランスを失ったり、タスクを完了できなかったりします。しかし、立ったまま動き続けることができたロボットは、進歩しています。

これが強化学習の本質です。成功した行動を選択することです。倒れなかったロボットのアルゴリズムが、次のイテレーションの基礎となります。結果として、数多くの実行の後、障害物に対処できるモデルが現れます。このアルゴリズムは、物理デバイスに転送されます。

これは、地に足のついたしかし重要なステージです。コンピュータビジョンはほとんど必要ありません。ここで扱っているのは、システムに最初から組み込まなければならない基本的な物理学と力学です。

ロボットが世界を「感じる」ように始める

さて、すでに「ハードウェア」、つまり基本モデルがインストールされたロボットがあります。立ったり、歩いたり、バランスを維持したりすることができます。しかし、これで現実世界のタスク、たとえば工業環境でのタスクに十分ですか?明らかにそうではありません。

次のレベルがここから始まります。センサーを統合し、モデルをセンサ入力に基づいて行動させるようにトレーニングします。新しい層の基本的なスキルが現れます。すでに単純な動きよりもはるかに複雑です。

人間の発達との類似性はここで役立ちます。最初のステージでは、システムをおよそ1歳の子どものレベルにまで持ってきました。立ったり、最初のステップを踏んだり、倒れずにバランスを維持したりすることができます。次のステップは、8歳の子どものレベルに近いです。

この年齢の子どもは、積極的に「センサー」を使用しています。危険を認識し、行動の結果を評価することができます。何か熱いものに触れないこと、または口に非常に冷たいものを入れないことを理解しています。机の上に乗ったり、自転車に乗ったり、物体と相互作用したり、持ち運んだり、操作したり、基本的な自己ケアアクションを実行することができます。

これをプレトレーニングと呼びます。この時点では、シミュレーションだけで十分ではありません。

はい、一部のシナリオはまだ効果的にモデル化できます。たとえば、グラスを拾ったり、バッテリーを交換したりする方法 (コンポーネントを取り外し、充電し、別のコンポーネントを取り付け、元に戻す) などですが、全体的なバランスはシフトしています。約80%のトレーニングはまだシミュレーションで行うことができますが、約20%のデータは現実の世界から来なければなりません。これが、エゴセントリックデータの議論の始まりです。

エゴセントリックデータとしての環境理解の基礎

今日、エゴセントリックデータは世界中で大量に収集されています。なぜなら、それがないと、基本的なメカニクスから現実の世界との有意義な相互作用へと移行することは不可能だからです。私の同僚は、自動車修理店のネットワークを運営しています。従業員は、ヘッドマウントカメラを使用して、自動車修理プロセスを全体的に記録しています。ニューヨーク市の建物の所有者は、同様のアプローチを実施しています。清掃スタッフは、頭部にカメラを装着して、空間を掃除し、衛生区域を維持する方法を記録しています。

時間の経過とともに、これらの記録はスタンドアロンの製品になります。パッケージ化され、販売されます。主な価値は、環境とアクションのシーケンスの基礎的な理解を構築するのに役立つことです。

たとえば、Keymakr では、シンプルなシナリオ (皿を洗うなど) から複雑なシナリオ (自動車の修理など) まで、エゴセントリックデータのコレクションが独立して作成されました。

なぜこれが重要かというと、これらのデータは、純粋なシミュレーションでは提供できないものを提供するからです。現実の世界の環境の多様性です。オフィス、自動車修理店、建設現場、レストラン、ホテルなど、それぞれが独自のコンテキスト、シナリオ、ニュアンスを追加します。これらすべてが、システムが現実の世界のダイナミクスを理解し始めることができるデータセットを形成します。

この段階では、ロボットが特定のアクションを完璧に実行することを教えることが目的ではありません。より重要なのは、ロボットが最初に周囲の環境を把握できるようにすることです。

今日、ロボティクスで活動しているほぼすべての企業、テスラから Unitree Robotics や Figure AI まで、すべてこの段階に焦点を当てています。彼らの目標は、基本的なモデルを構築することです。その能力は最初に「8歳の子どもの」レベルに似ており、次に「12歳」のレベルに進歩することです。これが私たちが Introspector で行っていることです。プレトレーニングに必要なデータを準備しています。これは、現代のロボティクスの「成熟」における最も重要な段階です。

トレーニングの最後の1マイル:汎用性が終わり、専門化が始まる

ロボットがすでにプレトレーニングを完了し、基本的な世界の理解と、十代のレベルに相当するスキルセットで製造されたと想定しましょう。しかし、これでも現実のビジネスシナリオでは十分ではありません。企業は「汎用」のロボットではなく、専門家ロボットが必要です。

自動車製造を例にとりましょう。人間がまだ行っている一部のタスクは、感覚、精密さ、継続的な視覚的な管理が必要です。伝統的な自動化ではここで苦労します。工業用マニピュレーターは、繰り返しの作業、厳格なタスク (「ピック、ムーブ、プレイス」) に優れています。しかし、適応性、圧力感知、リアルタイムの調整が必要なタスクは、人間のドメインのままです。

ここで、新しいニーズが生まれます。ロボットを、特定の作業とシナリオで、熟練した労働者と同じように動作させるようにトレーニングする必要があります。言い換えれば、ベーストレーニングの後、次のレベル、特定の職業とシナリオのトレーニングが必要になります。

ここで、実用的質問が生じます。このレベルのトレーニングには何が必要か?ロボットが人間のパフォーマンスを繰り返すようにしたい場合は、人間の動作を可能な限り正確に捉える必要があります。たとえば、工場の床にある専門家は、タスクを実行する方法を長期間、数ヶ月または1年間、カメラで記録する必要があります。

ロボットが人間の世界で「生きる」ために何が必要か

カメラだけでは十分ではありません。視覚的な視点だけではなく、動きの物理学も捉える必要があります。これは、圧力、適用された力、物体との相互作用の性質を測定するタクタイルセンサー付きの専用グローブを使用して行われます。これは特に重要です。物体自体は、車のモデルによって異なる場合があり (シーリングストリップの刚性など)、タスクの実行方法に直接影響します。

次に、運動学的追跡が来ます。視覚的なマーカーまたはセンサーベースのマーカーが、手首、肘、時には肩に配置されます。これには、視覚的なマーカー (QR コードに似たもの) を含むブレスレットが含まれる場合があります。これにより、ビデオから手の位置を空間で追跡することができます。さらに、ジャイロスコープなどのセンサーを使用して、関節の動きを捉えることができます。

最終的な目標は、運動のメカニクスを完全に再構築することです。肩がどのように動くか、肘がどのように曲がるか、手首がどのように回転するか。これらすべてが、次のステージであるポストトレーニングに不可欠です。

プレトレーニングの段階では、まだ部分的にシミュレーションに頼ることができましたが、この段階ではそうではありません。この「最後の1マイル」は、正確にモデル化することはほぼ不可能です。たとえば、シェフが生地を伸ばす方法 (適用される力、圧力の分布、材料の感覚) を完全にシミュレートすることはできません。

したがって、ポストトレーニングでは、ほぼすべてのデータが現実の世界から来なければなりません。これが、主な課題が実践的なドメインにシフトしていることを明らかにします。現実でこのようなデータを取得する方法です。エゴセントリックデータをこのレベルで収集することは、複雑な多段階のプロセスであり、環境へのアクセス、専門機器、熟練した労働者の参加、後のデータの準備が必要です。

理論を超えて、これがロボットが本当に「生き」始める場所です。現実の世界でこのプロセスを組織化し、業界横断的なチームが直面する制約を克服し、こうしたデータセットを大規模に注釈付けることができるようになった後です。これについては、次のパートで詳しく説明します。そこでは、ラベリングと準備の際に発生するすべての課題を詳しく見ていきます。

Michael Abramovは、Introspectorの創設者兼CEOであり、15年以上のソフトウェアエンジニアリングとコンピュータビジョンAIシステムの経験をもって、企業向けのラベリングツールを構築しています。

Michaelは、ソフトウェアエンジニアおよびR&Dマネージャーとしてキャリアを始め、スケーラブルなデータシステムを構築し、クロスファンクショナルエンジニアリングチームを管理しました。2025年まで、KeymakrのCEOを務め、データラベリングサービス会社で、ヒューマンインザループワークフロー、先進的なQAシステム、および大規模なコンピュータビジョンおよび自律性データニーズをサポートするためのカスタムツールを開発しました。

彼は、コンピュータサイエンスの学士号と、エンジニアリングおよびクリエイティブアーツの背景を持っており、難しい問題を解決するための多角的な視点を提供しています。Michaelは、技術革新、戦略的製品リーダーシップ、現実世界への影響の交差点に生き、自律システムと知能型自動化の次のフロンティアを推進しています。