人工知能

DeepMind の新しい AI は、プレイ中にゲームのルールを学習できる

更新中 on 2022 年 12 月 9 日

Alphabetの子会社DeepMindは最近、ゲームのルールをプレイ中に学習できるAIシステムを開発した。 DeepMind はこれまでに、チェス、将棋、囲碁、ビデオゲームなどのゲームをマスターできる優れた AI モデルを作成しましたが、これらのモデルには事前にゲームのルールを提供する必要があります。そのため、DeepMind の新しい AI は、強化学習によってゲームをプレイすることを学習する以前の AI アルゴリズムに比べて顕著な改善を示しています。

AI システム – MuZero

論文最近ジャーナルに掲載されました自然, DeepMindは、新しいAIシステムがどのように動作するかを詳しく説明しました。 MuZero と呼ばれるこの新しい AI は、「先読み検索」と呼ばれる原理のおかげで、プレイ中にゲームのルールを学習することができます。 Engadgetの報道によると, MuZero は先読み検索を使用して、対戦相手からの最も可能性の高い応答に基づいて実行すべき手を決定します。

チェスのようなゲームで考えられるすべての手を考慮するとき、MuZero は優先順位を付けて、最も可能性が高く関連性のある動きだけに絞り込むことができます。 MuZero は、成功した操作と失敗した操作の両方から学習します。考えられるすべての要因をモデル化するのではなく、当面の意思決定に最も関連する要因のみを考慮します。 MuZero は基本的に、考慮可能な無数の潜在的な変数を取得し、それらを最も顕著で影響力のある機能だけに絞り込みます。これらの機能は、ツリーベースの検索アルゴリズムで表現されます。次に、ツリー内の可能性が、テスト環境の機能に基づいて学習されたモデルと結合されます。先読み検索は、環境の最も関連性の高い側面が特定された後に実行されます。

最終的な決定を下すために、XNUMX つの要素が考慮されます。

MuZero は、前の選択の結果、現在の位置、次に実行できる潜在的なアクションを考慮します。このアプローチは、基本的な先読み検索やツリーベースのモデルなど、DeepMind によって以前に使用されていたアプローチを打ち破ります。 MuZero は、少なくとも AlphaZero と同じくらいチェス、将棋、囲碁に優れていることが証明されましたが、ミズパックマンゲームをプレイしたとき、MuZero は一度に約 XNUMX ～ XNUMX の手しか考慮できませんでした。この制限にもかかわらず、AI は依然として非常に優れたパフォーマンスを発揮できました。 DeepMind はまた、移行を開始する前に完了できるシミュレーションの数を制限することで、MuZero の機能を実験しました。一般に、考えられる動きを検討するためにプログラムに与えられた時間が長いほど、パフォーマンスは向上します。

DeepMind の主任研究員である David Silver 氏は、 TechXplore経由で説明 MuZero は、環境のルールの独自の表現を生成できる最初の AI モデルであり、その表現を使用してアクションを計画します。

「世界がどのように機能するかについて独自の理解を構築し、その理解を利用してチェスのようなゲームで以前に見られたような高度な先読み計画を実行できるシステムが初めて実際に実現しました。」シルバーは言った。「（MuZeroは）何もないところからスタートすることができ、試行錯誤を通じて世界のルールを発見し、それらのルールを使用してある種の超人的なパフォーマンスを達成することができます。」

可能なアプリケーション

タスクの制約を真に学習し、その制約内で動作できる AI には、さまざまな用途が考えられます。 MuZero は、ビデオ圧縮などのタスクに使用できます。ビデオ圧縮は、さまざまなビデオ形式や圧縮モードが可能なため、AI を使用して自動化することがこれまで困難でした。 MuZero は約 5% の圧縮改善を達成することができました。これは、Google と YouTube がホストする多数の動画に影響を与える可能性があります。 DeepMind はビデオ以外にも、同じ MuZero 技術をタンパク質アーキテクチャ設計やロボットプログラミングに使用することを検討しています。

サウサンプトン大学のコンピュータサイエンス教授であるウェンディホール氏によると、MuZero は強化学習アルゴリズムの「重要な前進」を表しています。しかし、ホール氏はアルゴリズムが悪用される可能性を懸念している。例えば、米空軍はすでにMuZeroを対象とした初期の研究論文を参照して、U-2偵察機からミサイルを発射できるAIシステムを開発している。これは、ディープマインドの研究者らが、自社のアルゴリズムをいかなる致命的な兵器にも使用することに反対を表明し、いかなる致命的なテクノロジーも人間の管理下に置かれるべきであると主張する自律型致死兵器誓約書に署名しているにもかかわらずである。

シルバー氏は、ディープマインドは将来を見据え、脳と同じくらい強力で多用途なアルゴリズムの開発を目指していると説明した。多用途で柔軟なアルゴリズムを作成するための最初のステップは、システムがインテリジェントであるとはどういう意味かを理解することです。インテリジェンスは、複雑な環境のパターンやルールを識別する能力と結びついています。