Artificial Intelligence
AI が遠い未来を考えることを可能にする技術
MIT、MIT-IBM Watson AI Lab、その他の機関の研究者チームは、人工知能 (AI) エージェントが先見の明を達成できるようにする新しいアプローチを開発しました。 言い換えれば、AI は、タスクを完了するときに自分の行動に他の AI エージェントの行動がどのように含まれるかを検討する際に、遠い将来のことを考えることができます。
研究 で発表される予定です 神経情報処理システムに関する会議.
他のエージェントの今後の行動を考慮する AI
チームが作成した機械学習フレームワークにより、協力的または競合的な AI エージェントが他のエージェントが何をするかを考慮できるようになります。 これは次のステップに進むだけではなく、時間が無限に近づくにつれて起こります。 エージェントは、他のエージェントの将来の行動に影響を与えるために自らの行動を適応させ、長期的な最適な解決策に到達するのに役立ちます。
研究チームによると、このフレームワークは、例えば、道に迷ったハイカーを見つけるために協力する自律型ドローンのグループによって使用される可能性があるという。 また、自動運転車が他の車両の将来の動きを予測して乗客の安全性を向上させるために使用することもできます。
Dong-Ki Kim は、MIT 情報意思決定システム研究所 (LIDS) の大学院生であり、研究論文の主著者です。
「AI エージェントが協力または競合している場合、最も重要なのは、将来のある時点で彼らの行動がいつ収束するかです」とキム氏は言います。 「途中で、長期的にはあまり問題にならない一時的な行動がたくさんあります。 私たちが本当に重視しているのは、この収束した動作を実現することであり、それを可能にする数学的な方法を手に入れました。」
研究者らが取り組んだ問題はマルチエージェント強化学習と呼ばれるもので、強化学習はAIエージェントが試行錯誤して学習する機械学習の一種である。
複数の協力的または競合するエージェントが同時に学習する場合、プロセスははるかに複雑になる可能性があります。 エージェントが他のエージェントの今後のステップや、自分自身の行動とそれが他のエージェントにどのような影響を与えるかを考慮すると、この問題には多大な計算能力が必要になります。
無限について考える AI
「AI はゲームの終わりについて真剣に考えたがっていますが、ゲームがいつ終わるかはわかりません」とキム氏は言います。 「彼らは、遠い将来に勝つことができるように、自分たちの行動を無限に適応させ続ける方法を考える必要があります。 私たちの論文は本質的に、AI が無限について考えることを可能にする新しい目標を提案しています。」
無限をアルゴリズムに統合することは不可能であるため、チームはエージェントが自分の行動が他のエージェントと収束する将来の点に焦点を当てるようにシステムを設計しました。 これは平衡と呼ばれ、平衡点はエージェントの長期的なパフォーマンスを決定します。
マルチエージェントのシナリオでは複数の平衡が存在する可能性があり、有効なエージェントが他のエージェントの将来の行動に積極的に影響を与えると、エージェントの観点から望ましい平衡に達する可能性があります。 すべてのエージェントが互いに影響し合うと、「能動的平衡」と呼ばれる一般的な概念に収束します。
さらなる枠組み
チームの機械学習フレームワークは「FURTHER」と呼ばれ、エージェントが他のエージェントとの相互作用に基づいて行動を調整し、能動的平衡を達成する方法を学習できるようになります。
このフレームワークは XNUMX つの機械学習モジュールに依存しています。 XNUMX つ目は、エージェントが他のエージェントの将来の行動と、以前のアクションに基づいて使用する学習アルゴリズムを推測できるようにする推論モジュールです。 次に、情報は強化学習モジュールに供給され、エージェントはこれを利用して自身の行動を適応させ、他のエージェントに影響を与えます。
「課題は無限について考えることでした。 それを可能にするためにさまざまな数学的ツールを使用し、実際に機能させるためにいくつかの仮定を立てる必要がありました」とキム氏は言います。
チームは、FURTHER を使用する AI エージェントが優位に立つさまざまなシナリオで、他のマルチエージェント強化学習フレームワークに対してメソッドをテストしました。
このアプローチは分散化されているため、エージェントは独立して勝つ方法を学びます。 さらに、エージェントを制御するために中央コンピューターを必要とする他の方法と比較して、拡張性に優れた設計になっています。
チームによると、FURTHER はさまざまなマルチエージェント問題に使用できる可能性があります。 キム氏は特に経済学への応用に期待を寄せており、時間の経過とともに変化する行動や利益を持つ多くの相互作用する主体が関与する状況で、健全な政策を策定するために応用できる可能性があるとしている。