人工知能
DeepMindは、強化学習AIを安全に訓練する新しい方法を報告する

強化学習は、非常に複雑なタスクを処理できるAIを生み出すという、AI開発の有望な分野である。強化学習アルゴリズムは、モバイルロボティクスシステムや自動運転車などの作成に使用されている。しかし、強化学習が訓練される方法のため、時々、奇妙で予期せぬ動作が現れることがある。これらの動作は危険であり、AI研究者はこれを「安全な探索」問題と呼んでいる。これは、AIが安全でない状態の探索に陥る問題である。最近、GoogleのAI研究ラボであるDeepMindは、安全な探索問題に対処し、強化学習AIをより安全に訓練する新しい方法を提案する論文を発表した。DeepMindが提案する方法は、報酬のハッキングや報酬基準のループホールにも対処する。DeepMindの新しい方法には、安全でない動作が生じる可能性のある状況でAIの動作を導く2つのシステムがある。DeepMindの訓練テクニックで使用される2つのシステムは、生成モデルと前方ダイナミクスモデルである。これらのモデルは、安全性の専門家によるデモンストレーションや完全にランダムな車両の軌跡などのさまざまなデータで訓練される。データは、報酬値が特定されたスーパーバイザーによってラベル付けされ、AIエージェントは最大の報酬を得ることができる動作のパターンを学習する。安全でない状態もラベル付けされており、モデルが報酬と安全でない状態を成功的に予測した後、対象のアクションを実行するためにデプロイされる。研究チームは、論文の中で、ゼロから可能な動作を作成し、望ましい動作を示し、これらの仮想的なシナリオを可能な限り情報に富んだものにする,同时に学習環境への直接的な干渉を避けるという考えであると説明している。DeepMindチームは、このアプローチをReQueST、または報酬クエリ合成による軌道最適化と呼んでいる。ReQueSTは、4つの異なるタイプの動作につながることができる。最初のタイプの動作は、アンサンブル報酬モデルの不確実性を最大化することを試みる。一方、2番目と3番目の動作は、予測された報酬を最小化および最大化することを試みる。予測された報酬は、モデルが間違って予測している動作を発見するために最小化される。一方、予測された報酬は、情報量の高い動作ラベルを持つために最大化される。最後に、4番目のタイプの動作は、トラジェクトリーの新規性を最大化することを試みる。これにより、モデルは報酬の予測に関係なく、探索を続けることができる。モデルが望ましいレベルの報酬収集に達した後、計画エージェントは、学習された報酬に基づいて決定を下す。モデル予測制御スキームにより、エージェントは、ダイナミクスモデルを使用して可能な結果を予測することで、安全でない状態を避けることを学習できる。これは、純粋なトライアルアンドエラーで学習するアルゴリズムの動作とは対照的である。VentureBeatによると、DeepMindの研究者は、彼らのプロジェクトが、制御された、安全な方法で学習できる最初の強化学習システムであると考えている。「私たちの知る限り、ReQueSTは、安全な方法で安全でない状態について学習し、高次元の連続状態を持つ環境でニューラルネットワーク報酬モデルを訓練することができる最初の報酬モデリングアルゴリズムである。現在のところ、私たちは、ReQueSTの有効性を、比較的単純なダイナミクスを持つシミュレートドメインでしか実証していない。将来的には、ReQueSTを、よりリアルな物理学と環境内の他のエージェントの動作を持つ3Dドメインでテストすることが必要である。」












