人工知能

DeepMindの新しいAIは、ゲームをプレイするにつれてルールを学習できる

Published December 27, 2020

Updated April 28, 2026

Daniel Nelson

Alphabetの子会社DeepMindは、ゲームをプレイするにつれてルールを学習できるAIシステムを最近開発しました。DeepMindは以前、チェス、将棋、囲碁、ビデオゲームなどのゲームをマスターできる印象的なAIモデルを作成しましたが、これらのモデルはあらかじめゲームのルールを提供する必要があります。したがって、DeepMindの新しいAIは、強化学習によってゲームを学習する前のAIアルゴリズムよりも著しい改善を表しています。

AIシステム – MuZero

最近のNature誌の論文では、DeepMindは、新しいAIシステムの動作方法について説明しています。新しいAI、MuZeroは、「先読み検索」と呼ばれる原理により、ゲームをプレイするにつれてルールを学習できます。Engadgetによると、MuZeroは、相手からの最も可能性の高い応答に基づいて、どの動きを実行するかを決定するために先読み検索を使用します。
チェスなどのゲームで可能な動きをすべて考慮すると、MuZeroは最も可能性の高い動きと関連する動きのみに絞り込むことができます。MuZeroは、成功した動きと失敗した動きの両方から学習します。すべての可能な要因をモデル化するのではなく、決定に関係のある要因のみを考慮します。MuZeroは、潜在的な変数の多様性を取り出し、最も重要な特徴のみに絞り込むことになります。これらの特徴は、ツリーベースの検索アルゴリズムで表されます。ツリー内の可能性は、テスト環境の特徴に基づいて学習されたモデルと組み合わせられます。先読み検索は、環境の最も関連する側面が特定された後に実行されます。
最終的な決定に至るために、3つの要因が考慮されます。
MuZeroは、前の選択の結果、現在の位置、次に取ることができる潜在的な動きを考慮します。このアプローチは、DeepMindが以前使用していた基本的な先読み検索やツリーベースのモデルを上回ります。MuZeroは、チェス、将棋、囲碁でAlphaZeroと同等の性能を発揮し、Ms. Pac-Manをプレイしたとき、MuZeroは約6〜7回の動きのみを考慮することができました。にもかかわらず、AIはまだかなりよく機能しました。DeepMindは、MuZeroの能力をテストするために、シミュレーションの数を制限しました。一般的に、プログラムが可能な動きを考慮する時間が与えられれば、性能が向上しました。
DeepMindのプリンシパルリサーチサイエンティスト、David Silverは、TechXploreを通じて、MuZeroは、環境のルールの独自の表現を生成する最初のAIモデルであり、行動を計画するためにその表現を使用することができると説明しました。
「初めて、私たちには、世界がどのように機能するかについての理解を構築し、その理解を使用して、チェスなどのゲームで以前見られたような高度な先読み計画を行うことができるシステムがあります。」とSilverは述べました。「(MuZero)は、なんでもないところから始めて、試行錯誤を通じて、ルールを発見し、それらのルールを使用して超人的な性能を達成することができます。」

可能な応用

タスクの制約を真正に学習し、制約内で動作することができるAIは、幅広い可能な応用があります。MuZeroは、歴史的にAIを使用して自動化するのが難しかったビデオ圧縮などのタスクに使用できます。MuZeroは、約5%の圧縮改善を達成しました。これは、GoogleとYouTubeがホストする膨大な数のビデオに影響を及ぼす可能性があります。ビデオ以外に、DeepMindは、同じMuZeroのテクニックを使用してタンパク質アーキテクチャ設計とロボティクスプログラミングにも取り組んでいます。
サウザンプトン大学のコンピュータサイエンス教授、Wendy Hallは、MuZeroは「強化学習アルゴリズムにとって重大な進歩」を表していると述べています。ただし、Hallは、アルゴリズムが誤用される可能性があることを心配しています。例えば、米空軍は、MuZeroを使用してU-2偵察機からミサイルを発射することができるAIシステムを作成するために、既存の研究論文を参照しています。DeepMindの研究者は、致死的な武器にアルゴリズムを使用することに反対し、Lethal Autonomous Weapons Pledgeに署名して、致死的な技術が人間の管理下に留まるべきだと主張しています。
Silverは、DeepMindは、脳と同等の力と多様性を持つアルゴリズムを開発することを目指していると述べています。多様性のある柔軟なアルゴリズムを作成するための第一歩は、システムが何を意味するかを理解することであり、知能は、複雑な環境のパターンとルールを認識する能力と関連しています。

Daniel Nelson

ブログ作家およびプログラマーで、 Machine Learning と Deep Learning のトピックを専門としています。Danielは、AIの力を社会のために利用する手助けを他者に与えることを希望しています。

Unite.AI

DeepMindの新しいAIは、ゲームをプレイするにつれてルールを学習できる

AIシステム – MuZero

可能な応用

You may like