Connect with us

ディープ強化学習とは何か?

AI 101

ディープ強化学習とは何か?

mm

ディープ強化学習とは何か?

アンサーシブ機械学習や教師あり学習とともに、AIの創出におけるもう1つの一般的な形式が強化学習です。通常の強化学習よりも、ディープ強化学習は、ディープラーニングと強化学習の両方の最良の側面を組み合わせることで、驚くほど印象的な結果をもたらすことができます。ディープ強化学習がどのように動作するのかを見てみましょう。

ディープ強化学習に取り組む前に、通常の強化学習のしくみを復習しておくことがよいでしょう。強化学習では、目標指向のアルゴリズムは試行錯誤のプロセスを通じて設計され、最もよい結果をもたらす行動、または最も多くの「報酬」を得る行動を最適化します。強化学習アルゴリズムをトレーニングするとき、それらは「報酬」または「罰」が与えられます。これらは、将来どのような行動を取るかを影響します。アルゴリズムは、システムに最も多くの報酬をもたらす一連の行動を見つけようとします。即時的な報酬と将来の報酬のバランスをとります。

強化学習アルゴリズムは非常に強力です。なぜなら、ほぼすべてのタスクに適用できるからです。環境から柔軟かつ動的に学び、可能な行動を発見することができます。

ディープ強化学習の概要

写真: Megajuice via Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

ディープ強化学習の場合、環境は通常、画像で表されます。画像は、特定の時点での環境のスナップショットです。エージェントは画像を分析し、そこから関連する情報を抽出し、どのような行動を取るべきかを決定するためにその情報を使用します。ディープ強化学習は、通常、2つの異なるテクニックのいずれかで実行されます。価値ベースの学習と方針ベースの学習です。

価値ベースの学習テクニックは、畳み込みニューラルネットワークやDeep-Q-Networkなどのアルゴリズムとアーキテクチャを使用します。これらのアルゴリズムは、画像をグレースケールに変換し、画像の不要な部分を切り取ることから始めます。その後、画像はさまざまな畳み込みとプーリング操作を経て、画像の最も関連性の高い部分を抽出します。画像の重要な部分は、エージェントが取ることができるさまざまな行動のQ値を計算するために使用されます。Q値は、エージェントにとって最もよい行動方針を決定するために使用されます。初期のQ値が計算された後、最も正確なQ値が決定されるように、逆伝播が実行されます。

方針ベースの方法は、エージェントが取ることができる行動の数が非常に多い場合に使用されます。これは、通常、現実世界のシナリオで発生します。このような状況では、すべての個別の行動のQ値を計算することは実用的ではありません。方針ベースのアプローチは、個々の行動の関数値を計算することなく、方針を直接学習することによって動作します。ポリシーグラディエントなどのテクニックを使用して、方針を学習します。

ポリシーグラディエントは、状態を受け取り、エージェントの過去の経験に基づいて行動の確率を計算することから始めます。最も確率の高い行動が選択されます。このプロセスは、評価期間の終了まで繰り返され、報酬がエージェントに与えられます。報酬がエージェントに与えられた後、ネットワークのパラメータは逆伝播によって更新されます。

Q学習とは何か?

Q学習がディープ強化学習プロセスの大きな部分であるため、Q学習システムがどのように動作するかを見てみましょう。

マルコフ決定プロセス

マルコフ決定プロセス。写真: waldoalvarez via Pixabay, Pixbayライセンス (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

AIエージェントが一連のタスクを実行し、目標を達成するには、エージェントは状態とイベントのシーケンスを処理する必要があります。エージェントは初期状態から開始し、終了状態に到達するために一連の行動を取らなければなりません。初期状態と終了状態の間には大量の状態が存在する可能性があります。すべての状態に関する情報を保存することは実用的ではありません。したがって、システムは最も関連性の高い状態情報のみを保存する方法を見つける必要があります。これは、マルコフ決定プロセスを使用して実現されます。マルコフ決定プロセスは、現在の状態と前の状態に関する情報のみを保存します。すべての状態はマルコフ特性を持ち、エージェントが前の状態から現在の状態に変化する方法を追跡します。

ディープQ学習

モデルが学習環境の状態に関する情報にアクセスできるようになると、Q値を計算できます。Q値は、行動のシーケンスの終わりにエージェントに与えられる合計報酬です。

Q値は、報酬のシーケンスを使用して計算されます。現在の状態と現在の行動に基づいて計算される即時報酬があります。次の状態のQ値も計算され、次の状態のQ値も計算されます。すべての状態のQ値が計算されるまで続きます。将来の報酬がエージェントの行動に与える重みを制御するためのガンマパラメータもあります。方針は、Q値をランダムに初期化し、トレーニングの過程で最適なQ値に収束することで計算されます。

ディープQネットワーク

Q学習を使用した強化学習における基本的な問題の1つは、状態の数が増加するにつれて、データを保存するために必要なメモリの量が急激に増加することです。ディープQネットワークは、ニューラルネットワークモデルとQ値を組み合わせることでこの問題を解決します。エージェントは経験から学び、取るべき最もよい行動について合理的な推測を行うことができます。ディープQ学習では、Q値関数はニューラルネットワークを使用して推定されます。ニューラルネットワークは状態を入力データとして受け取り、エージェントが取ることができるすべての可能な行動のQ値を出力します。

ディープQ学習は、過去のすべての経験をメモリに保存し、Qネットワークの最大出力を計算し、損失関数を使用して現在の値と理論的な最高値の差を計算することによって実行されます。

ディープ強化学習とディープラーニング

ディープ強化学習と通常のディープラーニングの主な違いは、前者の入力が常に変化することです。これは、通常のディープラーニングではそうではありません。どのようにして、入力と出力が常に変化することを考慮して、学習モデルを設計することができますか?

基本的に、予測値とターゲット値の乖離を考慮するために、1つの代わりに2つのニューラルネットワークを使用できます。1つのネットワークはターゲット値を推定し、もう1つのネットワークは予測を担当します。ターゲットネットワークのパラメータは、選択した数のトレーニングイテレーションが完了した後、モデルが学習するにつれて更新されます。各ネットワークの出力は、差を決定するために結合されます。

方針ベースの学習

方針ベースの学習アプローチは、Q値ベースのアプローチとは異なります。Q値アプローチは、状態と行動の報酬を予測する価値関数を作成しますが、方針ベースの方法は、状態を行動にマッピングする方針を決定します。言い換えると、方針関数が直接最適化され、価値関数を考慮しません。

ポリシーグラディエント

ディープ強化学習のポリシーグラディエントは、確率的または決定的なポリシーのいずれかになります。決定的なポリシーは、状態を行動にマッピングするものです。つまり、ポリシーが状態に関する情報を受け取ると、行動が返されます。一方、確率的ポリシーは、単一の離散的な行動ではなく、行動の確率分布を返します。

決定的なポリシーは、行動の結果について不確実性がない場合に使用されます。言い換えると、環境自体が決定論的である場合です。一方、確率的ポリシーの出力は、行動の結果が不確実な環境に適しています。通常、強化学習シナリオには不確実性が伴うため、確率的ポリシーが使用されます。

ポリシーグラディエントアプローチには、Q学習アプローチよりもいくつかの利点と欠点があります。利点として、最適なパラメータに収束するのが早く、より信頼性が高いです。ポリシーグラディエントは、最適なパラメータを見つけるまで追跡できます。一方、価値ベースの方法では、推定された行動値の小さな変更が、行動とその関連パラメータに大きな変更につながる可能性があります。

ポリシーグラディエントは、高次元の行動空間にも適しています。行動の数が非常に多い場合、ディープQ学習は実用的ではありません。なぜなら、すべての時間ステップのすべての可能な行動にスコアを割り当てる必要があるからです。しかし、方針ベースの方法では、パラメータは時間の経過とともに調整され、最適なパラメータの数はモデルが収束するにつれて急激に減少します。

ポリシーグラディエントは、確率的ポリシーも実装できます。これは、価値ベースのポリシーでは実現不可能です。確率的ポリシーは確率分布を生成するため、探索/搾取トレードオフを実装する必要はありません。

欠点として、ポリシーグラディエントの主な欠点は、最適なパラメータを探索するときに、狭い、ローカルな最適値のセットに焦点を当て、グローバルな最適値を見逃す可能性があることです。

ポリシースコア関数

モデルを最適化するためのポリシーは、スコア関数を最大化することを目指しています – J(θ)。J(θ)が目標を達成するための私たちのポリシーの良さの尺度である場合、「θ」の値を見つけることができます。これは、私たちに最もよいポリシーを与えます。まず、期待されるポリシーレワードを計算する必要があります。私たちは、目標を設定するために、ポリシーレワードを推定します。ポリシースコア関数は、期待されるポリシーレワードを計算する方法であり、一般的に使用されるポリシースコア関数は、エピソード環境の開始値、連続環境の平均値、時間ステップあたりの平均報酬などです。

ポリシーグラディエント上昇

グラディエント上昇は、スコアが最も高い場所にあるパラメータまで移動することを目指しています。写真: パブリックドメイン (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

望ましいポリシースコア関数を使用し、期待されるポリシーレワードを計算した後、「θ」の値を見つけることができます。これは、スコア関数 J(θ) を最大化します。スコア関数 J(θ) を最大化するために、グラディエント上昇と呼ばれるテクニックが使用されます。グラディエント上昇は、ディープラーニングにおけるグラディエント下降と概念的に似ていますが、減少ではなく最も急な増加を最適化しています。これは、スコアが「エラー」ではなく、最大化したいものであるためです。ポリシーグラディエント定理と呼ばれる式は、ポリシー「θ」に関する勾配を推定するために使用されます。

ディープ強化学習のまとめ

まとめると、ディープ強化学習は、強化学習とディープニューラルネットワークの側面を組み合わせます。ディープ強化学習は、2つの異なるテクニックで実行されます。ディープQ学習とポリシーグラディエントです。

ディープQ学習方法は、特定の状態で特定の行動を取った場合に続く報酬を予測することを目指します。一方、ポリシーグラディエントアプローチは、行動空間を最適化し、行動自体を予測することを目指します。ディープ強化学習におけるポリシーベースのアプローチは、決定論的または確率的な性質を持ちます。決定論的ポリシーは、状態を直接行動にマッピングします。一方、確率的ポリシーは、行動の確率分布を生成します。

ブログ作家およびプログラマーで、 Machine Learning Deep Learning のトピックを専門としています。Danielは、AIの力を社会のために利用する手助けを他者に与えることを希望しています。