Connect with us

AI 101

深層強化学習とは何か?

mm

深層強化学習とは何か?

教師なし機械学習や教師あり学習と並んで、AI構築のもう一つの一般的な形態が強化学習です。通常の強化学習を超えて、深層強化学習は、深層学習と強化学習の両方の長所を組み合わせているため、驚くほど印象的な結果をもたらすことができます。深層強化学習がどのように動作するのか、正確に見てみましょう。 深層強化学習について詳しく説明する前に、通常の強化学習がどのように機能するかを復習しておくと良いかもしれません。強化学習では、試行錯誤のプロセスを通じて目標指向のアルゴリズムが設計され、最良の結果をもたらす行動/最も多くの「報酬」を得る行動を最適化します。強化学習アルゴリズムが訓練されるとき、それらは将来どのような行動を取るかに影響を与える「報酬」または「罰」を与えられます。アルゴリズムは、即時報酬と将来の報酬の両方をバランスさせながら、システムに最も多くの報酬を提供する一連の行動を見つけようとします。 強化学習アルゴリズムは非常に強力です。なぜなら、ほぼすべてのタスクに適用でき、環境から柔軟かつ動的に学習し、可能な行動を発見できるからです。

深層強化学習の概要

写真: Megajuice via Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

深層強化学習に関しては、環境は通常、画像で表現されます。画像は、特定の時点での環境のキャプチャです。エージェントは画像を分析し、そこから関連情報を抽出し、その情報を基に取るべき行動を決定しなければなりません。深層強化学習は、通常、2つの異なる手法のいずれかで実行されます:価値ベース学習と方策ベース学習です。 価値ベース学習手法は、畳み込みニューラルネットワークやDeep-Q-Networksなどのアルゴリズムとアーキテクチャを利用します。これらのアルゴリズムは、画像をグレースケールに変換し、画像の不要な部分を切り取ることで動作します。その後、画像は様々な畳み込みとプーリング操作を受け、画像の最も関連性の高い部分を抽出します。画像の重要な部分は、エージェントが取り得る様々な行動のQ値を計算するために使用されます。Q値は、エージェントにとって最良の行動方針を決定するために使用されます。初期のQ値が計算された後、最も正確なQ値を決定できるように、誤差逆伝播法が実行されます。 方策ベース手法は、エージェントが取り得る可能な行動の数が極めて多い場合に使用されます。これは、通常、現実世界のシナリオで当てはまります。このような状況では、すべての個々の行動に対してQ値を計算することは現実的ではないため、異なるアプローチが必要です。方策ベースアプローチは、個々の行動に対する関数値を計算せずに動作します。代わりに、多くの場合Policy Gradientsと呼ばれる手法を通じて、方策を直接学習することで方策を採用します。 ポリシーグラディエントは、状態を受け取り、エージェントの過去の経験に基づいて行動の確率を計算することで動作します。その後、最も確率の高い行動が選択されます。このプロセスは評価期間の終わりまで繰り返され、報酬がエージェントに与えられます。報酬がエージェントに処理された後、ネットワークのパラメータは誤差逆伝播法で更新されます。

Q学習とは何か?

Q学習は深層強化学習プロセスの大きな部分を占めるため、Q学習システムがどのように機能するかをしっかり理解する時間を取りましょう。 マルコフ決定過程

マルコフ決定過程。写真: waldoalvarez via Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

AIエージェントが一連のタスクを実行し目標に到達するためには、エージェントは一連の状態とイベントに対処できなければなりません。エージェントはある状態から始まり、終了状態に到達するために一連の行動を取らなければならず、開始状態と終了状態の間に存在する状態の数は膨大である可能性があります。すべての状態に関する情報を保存することは非現実的または不可能であるため、システムは最も関連性の高い状態情報のみを保持する方法を見つけなければなりません。これは、マルコフ決定過程を使用することで達成され、現在の状態と前の状態に関する情報のみを保持します。すべての状態はマルコフ性に従い、エージェントが前の状態から現在の状態にどのように変化したかを追跡します。 深層Q学習 モデルが学習環境の状態に関する情報にアクセスできるようになると、Q値を計算できます。Q値は、一連の行動の終わりにエージェントに与えられる総報酬です。 Q値は一連の報酬で計算されます。現在の状態で計算され、現在の行動に依存する即時報酬があります。その後の状態のQ値も計算され、その次の状態のQ値も計算され、異なる状態のすべてのQ値が計算されるまで続きます。また、将来の報酬がエージェントの行動にどの程度の重みを持つかを制御するために使用されるガンマパラメータもあります。方策は通常、Q値をランダムに初期化し、訓練の過程でモデルが最適なQ値に収束するようにすることで計算されます。 深層Qネットワーク 強化学習におけるQ学習の使用に関する根本的な問題の一つは、状態の数が増加するにつれてデータを保存するために必要なメモリ量が急速に拡大することです。深層Qネットワークは、ニューラルネットワークモデルとQ値を組み合わせることでこの問題を解決し、エージェントが経験から学習し、取るべき最良の行動について合理的な推測を行えるようにします。深層Q学習では、Q値関数はニューラルネットワークで推定されます。ニューラルネットワークは状態を入力データとして受け取り、ネットワークはエージェントが取り得るすべての異なる可能な行動に対するQ値を出力します。 深層Q学習は、すべての過去の経験をメモリに保存し、Qネットワークの最大出力を計算し、次に損失関数を使用して現在の値と理論的に可能な最高値との差を計算することで達成されます。 深層強化学習 vs 深層学習 深層強化学習と通常の深層学習の重要な違いの一つは、前者の場合、入力が絶えず変化する点であり、これは従来の深層学習では当てはまりません。絶えず変化する入力と出力を学習モデルはどのように考慮できるのでしょうか? 基本的に、予測値と目標値の間の乖離を考慮するために、1つではなく2つのニューラルネットワークを使用できます。1つのネットワークは目標値を推定し、もう1つのネットワークは予測を担当します。目標ネットワークのパラメータは、選択された数の訓練イテレーションが経過した後、モデルが学習するにつれて更新されます。それぞれのネットワークの出力は、その後、差を決定するために結合されます。

方策ベース学習

方策ベース学習アプローチは、Q値ベースアプローチとは異なる方法で動作します。Q値アプローチは状態と行動に対する報酬を予測する価値関数を作成する一方で、方策ベース手法は状態を行動にマッピングする方策を決定します。言い換えれば、行動を選択する方策関数は、価値関数を考慮せずに直接最適化されます。 ポリシーグラディエント 深層強化学習の方策は、確率的または決定論的の2つのカテゴリーのいずれかに分類されます。決定論的方策は、状態が行動にマッピングされるものであり、方策が状態に関する情報を与えられると行動が返されることを意味します。一方、確率的方策は、単一の離散的な行動ではなく、行動の確率分布を返します。 決定論的方策は、取られる行動の結果について不確実性がない場合、つまり環境自体が決定論的である場合に使用されます。対照的に、確率的方策出力は、行動の結果が不確実な環境に適しています。通常、強化学習シナリオにはある程度の不確実性が伴うため、確率的方策が使用されます。 ポリシーグラディエントアプローチには、Q学習アプローチに比べていくつかの利点と、いくつかの欠点があります。利点に関しては、方策ベース手法は最適なパラメータに迅速かつ確実に収束します。ポリシーグラディエントを追跡するだけで最良のパラメータが決定されますが、価値ベース手法では、推定された行動値の小さな変化が、行動とそれに関連するパラメータの大きな変化につながる可能性があります。 ポリシーグラディエントは、高次元の行動空間にも適しています。取り得る可能な行動の数が極めて多い場合、深層Q学習は、すべてのタイムステップで可能なすべての行動にスコアを割り当てなければならないため、計算上不可能である可能性があり、非現実的になります。しかし、方策ベース手法では、パラメータは時間とともに調整され、モデルが収束するにつれて可能な最良パラメータの数は急速に減少します。 ポリシーグラディエントは、価値ベース方策とは異なり、確率的方策を実装することもできます。確率的方策は確率分布を生成するため、探索と活用のトレードオフを実装する必要がありません。 欠点に関しては、ポリシーグラディエントの主な欠点は、最適なパラメータを探している間に立ち往生し、大域的最適値ではなく、狭い局所的な最適値のセットにのみ焦点を当ててしまう可能性があることです。 方策スコア関数 モデルのパフォーマンスを最適化するために使用される方策は、スコア関数を最大化することを目指します – J(θ)。もしJ(θ)が、望ましい目標を達成するための我々の方策がどれだけ優れているかの尺度であるなら、我々は最良の方策を与える「θ」の値を見つけることができます。まず、期待される方策報酬を計算する必要があります。我々は方策報酬を推定するので、最適化すべき目標、何かがあります。方策スコア関数は、期待される方策報酬を計算する方法であり、一般的に使用される異なる方策スコア関数があります。例えば:エピソード環境の開始値、連続環境の平均値、タイムステップごとの平均報酬などです。 方策勾配上昇法

勾配上昇法は、スコアが最も高くなる場所にパラメータを移動させることを目指します。写真: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

望ましい方策スコア関数が使用され、期待される方策報酬が計算された後、スコア関数を最大化するパラメータ「θ」の値を見つけることができます。スコア関数J(θ)を最大化するために、「勾配上昇法」と呼ばれる手法が使用されます。勾配上昇法は、深層学習における勾配降下法と概念的には似ていますが、減少ではなく最も急峻な増加を最適化します。これは、多くの深層学習問題のように、我々のスコアが「誤差」ではないからです。我々のスコアは最大化したいものです。方策勾配定理と呼ばれる式が、方策「θ」に関する勾配を推定するために使用されます。

深層強化学習のまとめ

まとめると、深層強化学習は強化学習と深層ニューラルネットワークの側面を組み合わせたものです。深層強化学習は、2つの異なる手法で行われます:深層Q学習とポリシーグラディエントです。 深層Q学習手法は、特定の状態で取られた特定の行動にどの報酬が続くかを予測することを目指し、一方、ポリシーグラディエントアプローチは行動空間を最適化し、行動自体を予測することを目指します。深層強化学習への方策ベースアプローチは、本質的に決定論的または確率的です。決定論的方策は状態を直接行動にマッピングし、確率的方策は行動の確率分布を生成します。

Blogger and programmer with specialties in Machine Learning and Deep Learning topics. Daniel hopes to help others use the power of AI for social good.