人工知能

Technique Enables AI to Think Far Into Future

Published December 2, 2022

Updated April 5, 2026

Alex McFarland

MIT、MIT-IBM Watson AI Lab、他の機関の研究チームは、新しいアプローチを開発し、人工知能（AI）エージェントが遠い将来を考えることができるようにしました。言い換えれば、AIは、他のAIエージェントの行動を考慮してタスクを完了するときに、自分の行動を考えることができます。

この研究は、Conference on Neural Information Processing Systemsで発表される予定です。

AIが他のエージェントの将来の行動を考慮する

チームが作成したマシンラーニングフレームワークにより、協力または競合するAIエージェントは、他のエージェントが行う行動を考慮できます。これは、次のステップだけではなく、時間が無限大に近づくにつれてです。エージェントは、他のエージェントの将来の行動に影響を与えるために、行動を適応させ、最適な長期的な解決策に到達することができます。

チームによると、このフレームワークは、たとえば、失踪したハイカーを探すために共同で作業する一群の自律ドローンによって使用できます。また、乗客の安全性を向上させるために、他の車両の将来の動きを予測する自律走行車によっても使用できます。

Dong-Ki Kimは、MIT Laboratory for Information and Decision Systems（LIDS）の大学院生であり、研究論文の第一著者です。

“AIエージェントが協力または競争している場合、最も重要なのは、いつ彼らの行動が将来のある時点で収束するかです。”とKimは言います。“途中で多くの一時的な行動がありますが、長期的にはあまり重要ではありません。収束した行動に到達することが私たちが本当に気にかけていることであり、現在それを可能にする数学的な方法を持っています。”

研究者が解決した問題は、多エージェント強化学習と呼ばれます。強化学習は、AIエージェントが試行錯誤によって学習するマシンラーニングの一種です。

複数の協力または競合するエージェントが同時に学習する場合、プロセスははるかに複雑になることがあります。エージェントが他のエージェントの将来のステップや自分の行動、および他のエージェントに与える影響を考慮するにつれて、問題は計算能力が不足することがあります。

AIが無限大について考える

“AIは本当にゲームの終わりについて考える必要がありますが、ゲームがいつ終了するかはわかりません。”とKimは言います。“彼らは、将来のある時点で勝つために、行動をどのように適応させるかについて無限大まで考える必要があります。私たちの論文は、AIが無限大について考える新しい目的を提案します。”

アルゴリズムに無限大を統合することは不可能であるため、チームはエージェントが他のエージェントと収束する将来のポイントに焦点を当てるようにシステムを設計しました。これは均衡と呼ばれ、均衡点はエージェントの長期的なパフォーマンスを決定します。

多エージェントシナリオでは、複数の均衡が存在する可能性があり、有効なエージェントが他のエージェントの将来の行動を積極的に影響する場合、エージェントは望ましい均衡に到達することができます。すべてのエージェントが互いに影響を与えると、一般的な概念である「積極的な均衡」に収束します。

FURTHERフレームワーク

チームのマシンラーニングフレームワークはFURTHERと呼ばれ、エージェントが他のエージェントとの相互作用に基づいて行動を調整して積極的な均衡を達成する方法を学習できるようにします。

フレームワークは2つのマシンラーニングモジュールに依存しています。最初のモジュールは、推論モジュールで、エージェントが他のエージェントの将来の行動と、以前の行動に基づいて使用する学習アルゴリズムを推測することができます。この情報は、エージェントが他のエージェントに影響を与えるために行動を適応させるために使用する強化学習モジュールにフィードされます。

“課題は無限大について考えることでした。実現するために、多くの異なる数学的なツールを使用し、実践で機能するようにするためにいくつかの仮定を行う必要がありました。”とKimは言います。

チームは、さまざまなシナリオでFURTHERを使用した他の多エージェント強化学習フレームワークと比較してテストし、FURTHERを使用するAIエージェントが優位に立つことが示されました。

アプローチは分散型なので、エージェントは独立して学習します。また、エージェントを制御する中央コンピュータが必要な他の方法と比較して、スケーラビリティにも優れています。

チームによると、FURTHERは、多くの相互作用するエンティティの行動や利益が時間の経過とともに変化する状況を含む、多くの多エージェント問題で使用できます。Kimは、経済学への応用に特に期待しています。ここでは、時間の経過とともに変化する行動や利益を持つ多くの相互作用するエンティティを含む状況で、健全な政策を開発するために使用できます。