Connect with us

ロボティクス新時代のレース: データ、モデル、製造

ソートリーダー

ロボティクス新時代のレース: データ、モデル、製造

mm

革新は、孤立した環境ではほとんど生まれません。多くの場合、技術の進化を理解しようとするエンジニア、起業家、研究者、投資家らの会話の中で生まれます。

1年間で、私は世界中の数十の会議に出席しました。ビジネス旅行は時々数ヶ月間続き、パートナーやクライアントとの会議はアジアから北米まで行われます。しかし、スイスへの最近の旅行は特に興味深かったです。そこで出会った人々やそこで起こった会話のおかげです。

チューリッヒは、ロボティクスやPhysical AIの未来が今活発に議論されている場所の1つであることが証明されました。会話が進むにつれて、ロボティクスでの真正のレースはデータをめぐって展開されていることが明らかになりました。

ヨーロッパのシリコンバレー

チューリッヒは伝統的に金融セクターと関連付けられてきましたが、近年ではヨーロッパのシリコンバレーと呼ばれることが増えています。これらの評判の多くは、ヨーロッパで最も尊敬されるエンジニアリング大学の1つであるETHチューリッヒに結び付けられています。ここには、研究者、博士課程の学生、起業家、エンジニアが世界中から集まってきます。結果として、大学を中心とした強力なテクノロジー・エコシステムが形成され、研究、スタートアップ、産業プロジェクトがほぼ同時に進化しています。

私の旅の1つの理由は、2025年初頭からブームを経験しているロボティクス市場でIntrospectorが何を提供できるかをより深く理解することでした。この業界には、多くのスタートアップが参入しようとしていますが、大手テクノロジー企業からの技術的ブレークスルーが活発に業界を再定義しています。にもかかわらず、この分野はまだ多くの疑問を残しています。

チューリッヒはまた、私たちのパートナーであるLightlyの本拠地でもあり、彼らはロボティクス、コンピュータビジョン、AIの交差点で働く同僚を紹介してくれました。ここで強調したいのは、地元のテクノロジー・エコシステムの1つの重要な側面です。人々は非常にオープンで迎え入れてくれます。彼らはアイデアや仮説を共有することを恐れません。彼らが解決しようとしている課題について話し、彼らが実行している実験について話します。結果として、市場の実際の状況と業界が向かっている方向をより迅速に理解することができます。

ちなみに、人々が私にヨーロッパの「シリコンバレー」がアメリカのものとどう違うかを問うとき、答えは彼らを驚かせることが多いです。チューリッヒでは、仕事と生活のバランスがより強い感じがします。朝はスポーツ、日中は集中して仕事をするが、落ち着いたリズムで、夕方は家族と一緒に山で過ごしたり、単にリラックスしたりします。サンフランシスコでは、常に他の人よりもハードに働いていることを証明する必要があるような気がします。チューリッヒでは、ペースは異なります。より持続可能です。ただし、ここでの技術的野心のレベルは低くありません。

より優れたロボットよりも優れたデータ

この旅から得た主な教訓は、ある程度単純な観察でした。多くの人々が今日、ロボティクスで働きたいと思っています。しかし、業界への関心が非常に高いにもかかわらず、多くのチームはまだ探索段階にあり、ロボティクスとPhysical AIの新しい波の中でどのような役割を果たすことができるか、どのような貢献ができるかを理解しようとしています。

多くの会話は最終的に同じテーマに収束します。データ。今日、業界はデクスタリティ・タスクに関するデータ、つまり繊細な運動能力が不足しています。ロボットの能力は非常に限られています。人間が手で自動的に行うこと – 物体を拾う、回す、慎重にどこかに置く、または小さな操作を行う – がロボットにとって最も挑戦的なタスクの1つです。

ここでの進歩の鍵は、主に大規模で適切に収集されたデータセットにあります。今日、人々は souvent egocentric データセット、第一人称の視点から記録されたデータセットについて話します。ここで、システムは人間の行動を自身が実行しているようにキャプチャします。しかし、実践では、egocentric データセットの概念自体が非常に異なる意味を持ち、多くの技術的な疑問を引き起こします。カメラをどこに配置するべきですか?額に、胸に、または目線レベルに?ビデオ録音にどのようなセンサーを付けるべきですか?手の動きをキャプチャする場合、オペレーターは特殊なグローブを使用するべきですか?そうであれば、そのグローブにはタクタイル・センサー、ジャイロスコープ、またはその他のモーション・トラッキング・システムを含めるべきですか?

さらに複雑な質問が生じます。どうすれば動きの深さを適切にキャプチャできるでしょうか? 2次元平面における手の位置だけではなく、3次元空間を前後上下に動く方法を理解することが重要です。

まだ、業界は統一された答えに到達していません。したがって、多くのチームは現在、さまざまなセンサー構成、録音方法、データセット形式を実験しています。

マルチモーダル・システム

ロボティクスでのデータ収集について話し始めると、すぐに別のトピックが浮かび上がってきます。追加のセンサーとマルチモーダリティについてです。これにより、身体の動き、手の動作、物体の相互作用をより正確にキャプチャできます。また、データセットの収集中のエラーを減らすこともできます。

誰かがカメラで自分の行動を録音するとき、いつでも部分的な素材が使えないリスクがあります。カメラが少し動いたり、撮影角度が間違ったり、オペレーターが間違った方向に回ったり、動きが速すぎたりして、録音された素材の相当部分が却下されます。単純な例として、真正に使える1時間のビデオを得るために、オペレーターは約2時間の生映像を録音する必要があります。

追加のセンサーはこれらの問題をある程度補償するのに役立ちます。カメラが少し動いても、センサー・データは手や身体の位置を空間で再構築することを可能にします。結果として、2時間ではなく約1時間20分で同じ量の使えるデータを取得できます。これにより、データセットの収集の効率が向上し、作成コストが削減されます。

したがって、多くのチームがマルチモーダル・データ・アノテーションへの関心が高まっていることを認識するのは偶然ではありません。これは、ロボティクスとエンボディッドAIの開発に直接関連する傾向の1つです。

次の点は、そのようなデータセットのラベル付けです。私たちもKeymakrでロボティクス・ケースのクライアント・データセットを扱ったときと同じ疑問に直面しました。実践では、そのようなアノテーションはどのようなものでしょうか? 骨格的でしょうか? 2次元か3次元か? 強化学習の要素をパイプラインに組み込むべきでしょうか? そのような質問は数十もあります。エンジニア自身が認めるように、まだ誰もが確実にどの特定のデータ構成が最終的に技術的ブレークスルーにつながるかを語ることができません。

これらの懸念は理解できます。複雑なデータセットを構築するのは高コストなプロセスです。データ構造の間違いは数千ドル、または数百万ドルものコストを招く可能性があります。「間違った」データセットを収集したり、現実世界で再現が難しい条件下で録音したりして、最終的に全プロジェクトが損なわれる可能性があります。正確にそのため、今日、モデル自体とモデルを訓練するデータの品質、構造への注意が増しています。

市場が必要とするロボットの種類

クラシックな産業用ロボットは、数十年間自動車組立ラインで運用されてきましたが、実際には高度なコンピュータビジョンや複雑なAIモデルはほとんど必要ありません。彼らのタスクは非常に具体的です。高精度と一貫性を持って、厳密に繰り返しの動き (左、右、上、下) を行うことです。この分野では、彼らは人間を長らく超越しています。

人間型ロボットはまったく別のカテゴリです。これらのシステムには「脳」が必要です。空間をナビゲートし、周囲の環境を認識し、状況の文脈を理解し、事前にプログラムされた軌道ではなく、現実世界に適応することでマニピュレーターを制御する能力が必要です。

現代の工場フロアでは自動化が進んでいますが、多くのタスクはまだ人間によって実行されています。物体を移動させる、箱を拾う、部品を整理する、部品を固定する、または材料を整理する – これらは柔軟性と調整が必要な小さなアクションです。この分野はまだ自動化するのが最も難しい分野であり、人間型システムが役割を見出す可能性があります。

私が話した多くのチームは、似たようなビジネスモデルを使用しています。彼らは工場にアプローチし、特定の生産ケースを解決することを提案します。例えば、作業者が1日中倉庫ゾーン間で箱を移動している場合、エンジニアは単純な実験を提案します。作業者にカメラとセンサー・セットを装着し、彼らの行動を数千時間録音し、そのデータを使用して人間型ロボットを制御するモデルを訓練します。こうしてロボットは、人間の作業者が行ったのと同じタスクを実行することを学びます。

本質的に、会社は人間型プラットフォームを購入し、開発チームは特定のシナリオまたは生産タスクのセットに特化したカスタム・モデルを構築します。これは、任意のタスクを解決できる汎用的な知能ではありません。特定のシナリオや生産タスクのセットに訓練されたスキルセットです。多くのエンジニアにとって、このアプローチはより現実的です。汎用的なロボットを作ろうとするのではなく、狭いながら経済的に実行可能な自動化シナリオに焦点を当てています。

ビジネス・ディメンション

未来がカスタム・モデルにあるとすれば、経済的な観点からこれはかなり長い開発パスであることを理解することが重要です。

各業界は本質的に独自の世界です。各生産環境には独自のプロセス、ワークフロー、例外があります。自動車工場で動作するように訓練されたロボットを、食料製造や倉庫ロジスティクスに直接転用することはできません。各ケースで、システムを最初から再訓練する必要があります。

これにより、次の論理的な質問が生じます。誰がこのようなテクノロジーの最初の顧客になるでしょうか?

この段階では、主な採用者はおそらく大企業でしょう。彼らは予算があり、自動化によって経済的に有意義な影響を生み出すことができます。今日、人間型ロボットのハードウェア単体のコストは約6万ドルから9万ドルです。これはベース・コンフィグレーションのみです。さらに、メンテナンス・コスト、バッテリー、充電ステーション、インフラストラクチャ、ソフトウェアがあります。

結果として、大企業、自動車メーカー、食料企業、主要な産業企業だけがこうしたシステムを実験できる可能性があります。

もちろん、小規模なセクターでも早期の採用者が見られるかもしれません。いくつかの会社は特定のタスク用に1つか2つのロボットを購入するかもしれません。しかし、ほとんどの場合、これらのビジネスはまだ、特に高度に特化した運用シナリオ用にカスタム・データセットを収集してアノテートするのに必要な数十万ユーロを投資する準備にはなっていません。彼らにとって、人間の労働はまだ安い選択肢です。

ロボティクスのイノベーションの長期戦略

最終的に、基本的な経済的な質問にたどり着きます。人間とロボット、どちらがより効率的でしょうか? 今日の経済を見ると、答えは明らかです。人間の労働はより安い、条件の変化に迅速に適応し、複雑なインフラストラクチャは必要としません。

那么、業界は今日でもロボティクスに投資し続けるのはなぜでしょうか? 答えは主に戦略的です。

多くの会社は、技術的リーダーシップをめぐるレースが進行中であることを理解しています。彼らはまだ高いコストをかけても、将来ロボティクスが経済的に変化したときに先行するために、すでに解決策を開発しています。

例えば、新しい規制が人間型ロボットの大量使用を許可したとします。あるいは、政府が産業のロボティ化を補助し始めたとします。そんなシナリオでは、市場は数年間で劇的に成長する可能性があります。そうした場合、準備が整っていた会社、すでにモデルを構築し、データを蓄積し、必要なテクノロジー・インフラストラクチャを確立していた会社が最も利益を得ることになります。

それがなぜ、ビジネス・エコノミーがまだ理想的ではない現在でも開発が続けられているのかを説明しています。多くの会社にとって、これは将来への投資です。技術がよりアクセスしやすくなり、需要が急激に増加するときのためのものです。

そして、このレースでは、多くの技術革新と同様に、1つの要素が決定的な役割を果たすことが多いです。誰が最初に始めたかです。今日のロボティクスは、人工知能の初期段階と強い類似性を持っています。当時も、質問よりも答えの方が多かったのです。しかし、データやインフラストラクチャを早くから始めたチームが最終的に業界全体の方向性を形作ったのです。

Michael Abramovは、Introspectorの創設者兼CEOであり、15年以上のソフトウェアエンジニアリングとコンピュータビジョンAIシステムの経験をもって、企業向けのラベリングツールを構築しています。

Michaelは、ソフトウェアエンジニアおよびR&Dマネージャーとしてキャリアを始め、スケーラブルなデータシステムを構築し、クロスファンクショナルエンジニアリングチームを管理しました。2025年まで、KeymakrのCEOを務め、データラベリングサービス会社で、ヒューマンインザループワークフロー、先進的なQAシステム、および大規模なコンピュータビジョンおよび自律性データニーズをサポートするためのカスタムツールを開発しました。

彼は、コンピュータサイエンスの学士号と、エンジニアリングおよびクリエイティブアーツの背景を持っており、難しい問題を解決するための多角的な視点を提供しています。Michaelは、技術革新、戦略的製品リーダーシップ、現実世界への影響の交差点に生き、自律システムと知能型自動化の次のフロンティアを推進しています。