人工知能

DeepMindとGoogle Brainは、強化学習の効率を向上させる方法を開発することを目指している

Published February 19, 2020

Updated April 5, 2026

Daniel Nelson

強化学習システムは、数千回のトレーニングを通じて非常に複雑なタスクを実行できる強力で堅牢なものになる可能性がある。強化学習アルゴリズムは、洗練された挙動や時折驚くべき挙動を可能にすることができるが、トレーニングには長い時間がかかり、膨大な量のデータが必要となる。これらの要因により、強化学習技術はやや非効率的となり、最近、AlphabetのDeepMindとGoogle Brainの研究チームは、強化学習システムの作成をより効率的にする方法を探すことを目指している。

VentureBeatによると、合同研究グループは最近、強化学習トレーニングをより効率的にする方法を提案した。提案された改善の1つは、Adaptive Behavior Policy Sharing (ABPS)と呼ばれるアルゴリズムであり、もう1つは、Universal Value Function Approximators (UVFA)と呼ばれるフレームワークであった。ABPSにより、AIエージェントのプールが適応的に選択された経験を共有できるようになり、UVFAにより、AIエージェントが同時に指向性のある探索ポリシーを調査できるようになる。

ABPSは、モデルのトレーニング時にハイパーパラメータのカスタマイズを迅速化することを目的としている。ABPSにより、複数の異なるエージェントが異なるハイパーパラメータでトレーニングされ、行動ポリシーの経験を共有できるようになり、最適なハイパーパラメータをより迅速に見つけることができる。具体的には、ABPSにより、強化学習エージェントが、ポリシーによって許可された行動から行動を選択し、次にその行動に基づいて報酬と観測が与えられる。

AI強化学習エージェントは、減衰率や学習率などのさまざまなハイパーパラメータの組み合わせでトレーニングされる。モデルのトレーニングでは、モデルのパフォーマンスが最も良くなるハイパーパラメータの組み合わせに収束することを目指しており、この場合は、データ効率も向上する。効率は、同時に多くのエージェントをトレーニングし、次のタイムステップでデプロイされるエージェントの行動のみを選択することで向上する。ターゲットエージェントのポリシーが使用されて行動がサンプリングされ、遷移は共有スペースにログされ、このスペースは定期的に評価されるため、ポリシーの選択が頻繁に発生する必要はない。トレーニングの終了時に、エージェントのアンサンブルが選択され、トップパフォーマンスのエージェントが最終的なデプロイメントのために選択される。

UVFAについては、強化学習の一般的な問題である、弱く強化されたエージェントがタスクを学習しない問題に対処しようとしている。UVFAは、エージェントが同時に別々の探索ポリシーと搾取ポリシーを学習することでこの問題を解決しようとしている。タスクを分離することで、探索ポリシーが環境を継続的に探索できるフレームワークが作成され、搾取ポリシーは現在のタスクの報酬を最大化しようとする。UVFAの探索ポリシーは、基準となるアーキテクチャとして機能し、自然な報酬が見つからなくても改善を続ける。そうした条件では、内在的な報酬に対応する関数が近似され、エージェントが環境内のすべての状態を探索するように促される。

VentureBeatによると、UVFAフレームワークが使用されている場合、システムの内在的な報酬がエージェントに直接入力される。エージェントは、エピソード中に発生するすべての入力（報酬、行動、状態など）の表現を保持し、結果として、報酬が時間の経過とともに保持され、エージェントのポリシーは常にそれによってある程度情報が提供される。

これは、「エピソードの新規性」と「生涯の新規性」と呼ばれる2つのモジュールを使用して実現される。最初のモジュールの機能は、現在のエピソードのメモリを保持し、現在の発見を先ほど述べた表現にマッピングすることで、エージェントがトレーニングの各ステップに対して内在的なエピソード報酬を決定できるようにする。次に、現在の観測にリンクされた状態がメモリに追加される。同時に、生涯の新規性モジュールは、エージェントが複数のエピソードを通じて探索する頻度に影響を与える。

Alphabet/Googleチームによると、新しいトレーニング技術は、すでに強化学習システムのトレーニングにおいて大幅な改善の可能性を示している。UVFAは、さまざまなAtariゲームをプレイするベースエージェントのパフォーマンスを2倍にし、ABPSは、同じAtariゲームでトップパフォーマンスのエージェントの分散を約25%削減することができた。UVFAトレーニングアルゴリズムは、Pitfallで高いスコアを達成できたが、人間のデモのエンジニアリングされた機能は必要なかった。