スタブ AI研究者が過去の出来事を記憶できるビデオゲームプレイモデルを作成 - Unite.AI
私達と接続

Artificial Intelligence

AI研究者が過去の出来事を記憶できるビデオゲームプレイモデルを作成

mm
更新中 on

Uber の AI ラボの研究者チームは最近、 システムを開発した 古典的な Atari ビデオ ゲームで人間のプレイヤーと他の AI システムの両方を上回る AI アルゴリズムを備えています。 研究者らが開発した AI システムは、以前に成功した戦略を記憶し、過去に成功した戦略に基づいて新しい戦略を作成することができます。 の 研究の 研究チームは、彼らが開発したアルゴリズムは、言語処理やロボット工学などの他の技術分野にも応用できる可能性があると考えています。

ビデオ ゲームをプレイできる AI システムを作成するために使用される一般的な方法は、強化学習アルゴリズムを使用することです。 強化学習アルゴリズムは、さまざまな可能なアクションを探索することでタスクの実行方法を学習し、各アクションの後に一種の強化 (報酬または罰) が提供されます。 時間の経過とともに、AI モデルはどのアクションがより大きな報酬につながるかを学習し、これらのアクションを実行する可能性が高くなります。 残念ながら、強化学習モデルは、データセット内の他のデータポイントと一致しないデータポイントに遭遇すると問題に遭遇します。

研究チームによると、彼らのアプローチが他のAI研究者によって検討されなかった理由は、その戦略が強化学習で一般的に使用される「内発的動機づけ」アプローチとは異なるためであるという。 内発的動機づけアプローチの問題は、モデルが、まだ探索する価値がある潜在的に報酬をもたらす領域を「忘れる」傾向があることです。 この現象を「剥離」といいます。 その結果、モデルが予期しないデータに遭遇すると、まだ調査すべき領域を忘れてしまう可能性があります。

TechXploreによると研究チームは、より柔軟で予期せぬデータに対応できる学習モデルの作成に着手しました。 研究者らは、以前のバージョンのモデルが問題を解決しようとしたときに実行したすべてのアクションを記憶できるアルゴリズムを導入することで、この問題を克服しました。 AI モデルがこれまでに学習した内容と一致しないデータ ポイントに遭遇すると、モデルはメモリ マップをチェックします。 その後、モデルはどの戦略が成功したか失敗したかを特定し、戦略を適切に選択します。

ビデオ ゲームをプレイするとき、モデルはプレイ中のゲームのスクリーンショットを収集し、アクションのログを作成します。 画像は類似性に基づいてグループ化され、モデルが参照できる明確な時点を形成します。 このアルゴリズムは、ログに記録された画像を使用して、興味深い時点に戻り、そこから探索を続けることができます。 モデルは負けていると判断すると、撮影したスクリーンショットを参照して別の戦略を試みます。

BBCが説明したように、ゲームをプレイする AI エージェントにとって危険なシナリオを処理するという問題もあります。 エージェントが死亡する可能性のある危険に遭遇した場合、さらなる探索に値する領域にエージェントが戻ることができなくなり、これは「脱線」と呼ばれる問題です。 AI モデルは、古い地域の探索を促進するために使用されるプロセスとは別のプロセスを通じて脱線問題を処理します。

研究チームはこのモードを 55 の Atari ゲームを通してプレイしてもらいました。 これらのゲームは AI モデルのパフォーマンスのベンチマークによく使用されますが、研究者らはモデルにひねりを加えました。 研究者らはゲームに追加のルールを導入し、可能な限り最高のスコアを達成するだけでなく、毎回さらに高いスコアを達成するようモデルに指示しました。 モデルのパフォーマンスの結果を分析したところ、研究者らは、その AI システムが試合で約 85% の確率で他の AI よりも優れていることを発見しました。 この AI は、プレイヤーが危険を回避して宝物を収集するプラットフォーム ゲーム、Montezuma'sリベンジ で特に優れたパフォーマンスを発揮しました。 このゲームは人間のプレイヤーの記録を破り、他の AI システムよりも高いスコアを獲得しました。

Uber AI 研究者らによると、研究チームが使用した戦略はロボット工学などの業界にも応用できるという。 ロボットは、どのアクションが成功したのか、どのアクションが機能しなかったのか、どのアクションがまだ試行されていないのかを記憶する能力の恩恵を受けます。

 

専門分野を持つブロガーおよびプログラマー 機械学習 および 深層学習 トピック。 ダニエルは、他の人が社会利益のために AI の力を活用できるよう支援したいと考えています。