スタブ AI エージェントが仮想かくれんぼで緊急知能の特性を実証 - Unite.AI
私達と接続

Artificial Intelligence

AI エージェントが仮想かくれんぼで緊急知能の特性を実証

mm
更新中 on

AI 研究に関する興味深い事実の XNUMX つは、AI がしばしばアクションを実行し、AI を設計した研究者自身を驚かせるような戦略を追求できることです。 これは、複数の AI エージェントが互いに対戦する最近のかくれんぼの仮想ゲーム中に発生しました。 サンフランシスコに拠点を置く AI 企業 OpenAI の研究者は、自社の AI エージェントが 戦略を悪用し始めた 研究者も存在すら知らなかったゲームの世界。

OpenAI は、AI エージェントのグループが互いにかくれんぼゲームをするように訓練しました。 AI プログラムは、アルゴリズムにフィードバックを提供することで AI アルゴリズムから望ましい動作を引き出す技術である強化学習でトレーニングされます。 AI はランダムなアクションを実行することから始まり、目標に近づくアクションを実行するたびにエージェントに報酬が与えられます。 AI は可能な限り最大の報酬を獲得したいと考えているため、どのアクションがより多くの報酬を獲得できるかを実験します。 試行錯誤を通じて、AI は勝利をもたらす戦略と、最大の報酬をもたらす戦略を区別することができます。

強化学習g はすでにゲームのルールを学習することに目覚ましい成功を収めています。 OpenAI は最近、AI チームを次のように訓練しました。 MMORPG DOTA 2 をプレイするそして昨年、AIは人間のプレーヤーからなる世界チャンピオンチームを破った。 AI が DeepMind によってゲーム上でトレーニングされたときに、StarCraft ゲームでも同様のことが起こりました。 強化学習は、AI プログラムに人間とピクショナリーをプレイするよう教え、絵を解釈し、基本的な常識的推論を使用することを学習するためにも使用されています。

研究者たちが作成したかくれんぼビデオ ゲームでは、複数の AI エージェントが互いに対戦しました。 その結果、ある種の軍拡競争が起こり、各エージェントは他のエージェントよりも優れたパフォーマンスを発揮して、最大の報酬ポイントを獲得しようとしました。 あるエージェントが新しい戦略を採用すると、対戦相手はそれに対抗するための新しい戦略を模索するようになり、その逆も同様です。 OpenAIの研究者であるIgor Mordatch氏はIEEE Spectrumに対し、この実験はエージェント間で試行錯誤しながらプレイするこのプロセスが「エージェントが自分たちで驚くべき行動を学ぶのに十分であることを示している。それは子供たちがお互いに遊んでいるようなものだ」と説明した。

驚くべき行動とは一体何だったのでしょうか? 研究者らは、AI エージェントが学習することを期待する 25 つの基本戦略を持っていました。そして、彼らはこれらをかなり早く学習し、わずか 3 万回のシミュレートされたゲーム後にそれらの戦略を習得できるようになりました。 ゲームは、スロープ、ブロック、壁でいっぱいの XNUMXD 環境で行われました。 AI エージェントは、お互いを追いかけたり、ブロックを移動して隠れられる砦を構築したり、スロープを移動したりすることを学習しました。 AI シーカーはスロープを引きずってハイダーの砦の中に入る方法を学びましたが、ハイダーはシーカーがスロープを使用できないようにスロープを自分たちの砦に持ち込もうとする方法を学びました。

しかし、380 億 XNUMX 万ゲームというベンチマーク付近で、予期せぬことが起こりました。 AI エージェントは、研究者が予期していなかった XNUMX つの戦略を使用することを学習しました。 シーカーエージェントは、箱に飛び乗って、近くの砦に向かって箱を傾けたり、乗ったりすることで、砦に飛び込み、隠れ者を見つけられることを学びました。 研究者たちは、ゲーム環境の物理学においてこれが可能であることにさえ気づいていませんでした。 隠れ家たちは、箱を砦内の所定の位置にドラッグすることで、この問題に対処する方法を学びました。

この場合、強化学習アルゴリズムで訓練されたエージェントの予期せぬ動作は無害ですが、強化学習が他の状況にどのように適用されるかについて潜在的な懸念が生じます。 OpenAI 研究チームのメンバー、Bowen Baker 氏は、これらの予期しない動作は潜在的に危険である可能性があると IEEE Spectrum に説明しました。 結局のところ、ロボットが予期しない動作をし始めたらどうなるでしょうか?

「これらの環境を構築するのは難しいです」とベイカー氏は説明しました。 「エージェントはこうした予期せぬ動作を思いつくでしょう。エージェントをより複雑な環境に置くと、将来的には安全上の問題が発生するでしょう。」

しかし、ベイカー氏は、強化戦略が現在の問題に対する革新的な解決策につながる可能性があるとも説明した。 強化学習でトレーニングされたシステムは、私たちが想像することさえできないソリューションで幅広い問題を解決できる可能性があります。

専門分野を持つブロガーおよびプログラマー 機械学習 & 深層学習 トピック。 ダニエルは、他の人が社会利益のために AI の力を活用できるよう支援したいと考えています。