ロボティクス

MITの研究者はロボットの動作データと言語モデルを組み合わせてタスクの実行を改善する

Published March 27, 2024

Updated April 4, 2026

Alex McFarland

家庭用ロボットは、模倣学習を通じて複雑なタスクを実行するように教えられることが増えています。これは、ロボットが人間によって示された動作をコピーするプロセスです。ロボットは優れた模倣者であることが証明されていますが、タスクの実行中に発生する障害や予期せぬ状況に適応することがよく苦労しています。明示的なプログラミングがなければ、ロボットはタスクの最初からやり直すことを余儀なくされます。この課題に対処するために、MITのエンジニアは、ロボットに予期せぬ状況に対して共通の感覚を与えることを目的とした新しいアプローチを開発しています。これにより、ロボットは手動介入を必要とせずにタスクを続行できます。

新しいアプローチ

MITの研究者は、ロボットの動作データと大規模言語モデル（LLM）の「共通の感覚知識」を組み合わせる方法を開発しました。これらの2つの要素を接続することで、このアプローチはロボットが与えられた家庭用タスクをサブタスクに論理的に解析し、各サブタスク内で物理的に障害に適応できるようにします。これにより、ロボットはタスクの最初からやり直す必要なく、次に進むことができ、エンジニアが途中でのすべての可能な障害に対して明示的にプログラミングする必要がなくなります。
MITの電気電子計算機科学科（EECS）の大学院生であるYanwei Wang氏は、「私たちの方法では、ロボットは自己修復を実行し、全体的なタスクの成功を改善できます」と説明しています。

この新しいアプローチを示すために、研究者は、シンプルな家事を使用しました。1つのボウルからマーブルをすくい、別のボウルに注ぐというものです。従来、エンジニアはロボットを一連の動作で動かしますが、Wang氏は「人間のデモンストレーションは1つの長い、連続したトラジェクトリーです」と指摘しています。チームは、人間が1つのタスクを1度に示すかもしれませんが、タスクはサブタスクのシーケンスに依存していることを実現しました。たとえば、ロボットはボウルに手を入れる前に、マーブルをすくい取る前に、マーブルをすくい取る必要があります。

ロボットがこれらのサブタスクのいずれかでミスをすると、唯一の選択肢は停止して最初からやり直すことです。エンジニアが各サブタスクを明示的にラベル付けしてプログラミングしたり、新しいデモンストレーションを収集してロボットが障害から回復するようにしたりしない限りです。Wang氏は「そのレベルの計画は非常に面倒です」と強調しています。これが研究者の新しいアプローチが活躍する場所です。LLMの力を利用することで、ロボットは自動的にタスクに含まれるサブタスクを特定し、障害が発生した場合の潜在的な回復アクションを決定できます。これにより、エンジニアがロボットをすべての可能な障害シナリオに対して手動でプログラミングする必要がなくなり、ロボットは家庭用タスクの実行においてより適応性と効率性が向上します。

大規模言語モデルの役割

LLMは、MITの研究者の新しいアプローチで重要な役割を果たします。これらのディープラーニングモデルは、膨大なテキストライブラリを処理し、単語、文、段落の間の接続を確立します。これらの接続を通じて、LLMは学習したパターンに基づいて新しい文を生成できます。基本的に、最後の単語やフレーズの後に続く可能性のある単語やフレーズの種類を理解します。

研究者は、LLMのこの能力を利用して、タスク内にサブタスクを自動的に特定し、障害が発生した場合の潜在的な回復アクションを決定できることを実現しました。ロボットの動作データとLLMの「共通の感覚知識」を組み合わせることで、新しいアプローチはロボットがタスクをサブタスクに論理的に解析し、予期せぬ状況に適応できるようにします。このLLMとロボットの統合は、家庭用ロボットがプログラミングされ、トレーニングされる方法を変革する可能性があり、ロボットをより適応性と障害に対処する能力が向上するようにします。

ロボット工学の分野が進化を続けるにつれて、LLMのようなAIテクノロジーの統合はますます重要になります。MITの研究者のアプローチは、人間の行動を模倣するだけでなく、タスクの根底にある論理と構造を理解できる家庭用ロボットを作成するための重要なステップです。この理解は、ロボットが複雑な現実世界の環境で自律的に効率的に動作するために不可欠です。

家庭用ロボットのより賢い、より適応性のある将来へ

ロボットが実行エラーを自己修復し、全体的なタスクの成功を改善できるようにすることで、この方法はロボットプログラミングにおける主要な課題の1つ、つまり現実世界の状況への適応性に対処します。

この研究の影響は、マーブルをすくい取るという単純なタスクを超えて広がります。家庭用ロボットがより普及するにつれて、ダイナミックで構造化されていない環境で幅広いタスクを処理する能力が必要になります。タスクをサブタスクに分解し、根底にある論理を理解し、障害に適応する能力は、これらのロボットが効果的に効率的に動作するために不可欠です。

さらに、LLMとロボットの統合は、AIテクノロジーがロボットをプログラミングし、トレーニングする方法を変革する可能性を示しています。これらのテクノロジーが進化を続けるにつれて、より賢い、より適応性のある、より自律的なロボットが私たちの家や職場に現れることが期待できます。

MITの研究者の仕事は、真正に現実世界の複雑さを理解し、ナビゲートできる家庭用ロボットを作成するための重要なステップです。このアプローチが洗練され、より広範なタスクに適用されると、生活をより簡単で効率的にする可能性があり、人間の生活や仕事のやり方を変える可能性があります。

Unite.AI

MITの研究者はロボットの動作データと言語モデルを組み合わせてタスクの実行を改善する

新しいアプローチ

大規模言語モデルの役割

家庭用ロボットのより賢い、より適応性のある将来へ

You may like