人工知能
AI 研究者が過去のイベントを記憶できるビデオゲームプレイモデルを作成

Uber の AI 研究室の研究者チームは最近、システムを開発しました。クラシックなアタリービデオゲームで、人間のプレイヤーや他の AI システムを上回る AI アルゴリズムのシステムです。研究者によって開発された AI システムは、以前の成功した戦略を記憶し、過去の成功に基づいて新しい戦略を作成することができます。研究チームは、開発したアルゴリズムが言語処理やロボティクスなどの他の技術分野への応用可能性があると考えています。
典型的な方法は、ビデオゲームをプレイできる AI システムを作成するために、強化学習アルゴリズムを使用することです。強化学習アルゴリズムは、可能な行動の範囲を探索し、各行動の後、強化(報酬または罰)を提供します。時間の経過とともに、AI モデルはより大きな報酬につながる行動を学習し、これらの行動を実行する可能性が高くなります。ただし、強化学習モデルは、データセット内の他のデータポイントと一致しないデータポイントに遭遇すると問題が発生します。
研究チームによると、彼らのアプローチが他の AI 研究者によって考慮されなかった理由は、戦略が通常の強化学習で使用される「内発的動機付け」アプローチと異なるためです。内発的動機付けアプローチの問題は、モデルがまだ探索する価値のある潜在的に報酬のある領域を「忘れる」可能性があることです。この現象は「脱線」と呼ばれます。結果として、モデルは予期しないデータに遭遇すると、まだ探索する必要のある領域について忘れる可能性があります。
TechXploreによると、研究チームは、予期しないデータに応答できるように、より柔軟な学習モデルを作成しようとしました。研究者は、問題を解決しようとした前のモデルのバージョンによって取られたすべての行動を記憶できるアルゴリズムを導入することで、この問題を克服しました。AI モデルは、学習したものと一致しないデータポイントに遭遇すると、メモリーマップを確認します。モデルは、どの戦略が成功し、どの戦略が失敗したかを識別し、適切に戦略を選択します。
ビデオゲームをプレイするとき、モデルはゲームのスクリーンショットを収集し、行動のログを作成します。画像は類似性に基づいてグループ化され、モデルが参照できる明確な時間点が形成されます。アルゴリズムは、ログされた画像を使用して、興味深い時間点に戻り、そこから探索を続けることができます。モデルが負けていることがわかると、スクリーンショットに戻って別の戦略を試みます。
BBCによると、AI エージェントがゲームをプレイするときに、危険なシナリオを処理する問題もあります。エージェントが自分を殺す可能性のあるハザードに遭遇すると、さらに探索する価値のある領域に戻ることができなくなり、問題は「脱線」と呼ばれます。AI モデルは、別のプロセスを使用して、古い領域の探索を促進するために、脱線の問題を処理します。
研究チームは、モデルのパフォーマンスを分析するために、55 のアタリーゲームをプレイしました。これらのゲームは、通常、AI モデルのパフォーマンスをベンチマークするために使用されますが、研究者はモデルに追加のルールを導入しました。研究者は、モデルに最高得点を達成するだけでなく、毎回より高い得点を達成するように指示しました。モデルのパフォーマンスの結果を分析した結果、研究者は、開発した AI システムが他の AI システムよりも約 85% の時間でゲームを上回ったことを発見しました。AI は、特に Montezuma’s Revenge というプラットフォーミングゲームで、プレイヤーがハザードを避けながら宝物を集めるゲームで、特に優れています。ゲームは、人間のプレイヤーと他の AI システムの記録を上回り、高い得点を達成しました。
Uber の AI 研究者によると、研究チームによって使用された戦略は、ロボティクスなどの業界への応用可能性があります。ロボットは、どの行動が成功したか、どの行動が失敗したか、どの行動がまだ試されていないかを記憶する能力から利益を得ます。












