AI 101

深層強化学習とは何ですか？

更新中 on 2021 年 8 月 2 日

深層強化学習とは何ですか？

教師なし機械学習と教師あり学習と並んで、AI 作成のもう 1 つの一般的な形式は強化学習です。通常の強化学習を超えて、深層強化学習深層学習と強化学習の両方の最良の側面を組み合わせているため、驚くほど印象的な結果が得られます。深層強化学習がどのように動作するかを正確に見てみましょう。

深層強化学習に入る前に、どのくらい定期的に学習が行われるかについて復習しておくと良いかもしれません。強化学習動作します。強化学習では、目標指向のアルゴリズムが試行錯誤のプロセスを通じて設計され、最良の結果につながるアクション/最も多くの「報酬」を得るアクションを最適化します。強化学習アルゴリズムがトレーニングされると、将来どのような行動をとるかに影響を与える「報酬」または「罰」が与えられます。アルゴリズムは、当面の報酬と将来の報酬のバランスをとりながら、システムに最大の報酬を提供する一連のアクションを見つけようとします。

強化学習アルゴリズムは、ほぼすべてのタスクに適用でき、環境から柔軟かつ動的に学習して可能なアクションを発見できるため、非常に強力です。

深層強化学習の概要

写真: Megajuice (ウィキメディアコモンズ、CC 1.0 経由) (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

深層強化学習に関しては、環境は通常画像で表現されます。画像は、特定の時点での環境をキャプチャしたものです。エージェントは画像を分析し、画像から関連情報を抽出し、その情報を使用して取るべきアクションを通知する必要があります。深層強化学習は通常、価値ベースの学習とポリシーベースの学習という XNUMX つの異なる手法のいずれかを使用して実行されます。

価値ベースの学習手法では、畳み込みニューラルネットワークやディープ Q ネットワーク。これらのアルゴリズムは、画像をグレースケールに変換し、画像の不要な部分を切り取ることによって動作します。その後、画像はさまざまな畳み込みとプーリング操作を経て、画像の最も関連性の高い部分が抽出されます。画像の重要な部分は、エージェントが実行できるさまざまなアクションの Q 値を計算するために使用されます。 Q 値は、エージェントにとって最適な行動方針を決定するために使用されます。初期 Q 値が計算された後、最も正確な Q 値を決定できるようにバックプロパゲーションが実行されます。

ポリシーベースの方法は、エージェントが実行できるアクションの数が非常に多い場合に使用されます。これは、現実世界のシナリオでは一般的です。このような状況では、すべての個々のアクションの Q 値を計算するのは実用的ではないため、別のアプローチが必要になります。ポリシーベースのアプローチは、個々のアクションの関数値を計算せずに動作します。代わりに、多くの場合、ポリシー勾配と呼ばれる手法を介して、ポリシーを直接学習してポリシーを採用します。

ポリシー勾配は、状態を受け取り、エージェントの以前の経験に基づいてアクションの確率を計算することによって機能します。次に、最も可能性の高いアクションが選択されます。このプロセスは評価期間が終了するまで繰り返され、報酬がエージェントに与えられます。報酬がエージェントによって処理された後、ネットワークのパラメータはバックプロパゲーションによって更新されます。

Qラーニングとは何ですか?

なぜなら Q学習は深層強化学習プロセスの非常に大きな部分を占めているため、Q 学習システムがどのように機能するかを実際に理解するために少し時間を取ってみましょう。

マルコフ決定過程

マルコフ決定プロセス。写真: waldoalvarez Pixabay 経由、Pixbay ライセンス (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

AI エージェントが一連のタスクを実行して目標に到達するには、エージェントは一連の状態とイベントを処理できなければなりません。エージェントは XNUMX つの状態から開始され、終了状態に到達するまでに一連のアクションを実行する必要があり、開始状態と終了状態の間には膨大な数の状態が存在する可能性があります。すべての状態に関する情報を保存することは非現実的または不可能であるため、システムは最も関連性の高い状態情報だけを保存する方法を見つける必要があります。これは、マルコフ決定過程、現在の状態と以前の状態に関する情報のみが保存されます。すべての状態はマルコフプロパティに従い、エージェントが以前の状態から現在の状態にどのように変化するかを追跡します。

深いQ学習

モデルが学習環境の状態に関する情報にアクセスできるようになると、Q 値を計算できるようになります。 Q 値は、一連のアクションの終了時にエージェントに与えられる報酬の合計です。

Q 値は一連の報酬を使用して計算されます。現在の状態で現在のアクションに応じて計算される即時報酬があります。その後の状態の Q 値も計算され、その後の状態の Q 値も計算され、さまざまな状態の Q 値がすべて計算されるまで続きます。エージェントのアクションに対して将来の報酬がどの程度の重みを占めるかを制御するために使用されるガンマパラメーターもあります。ポリシーは通常、Q 値をランダムに初期化し、トレーニングの過程でモデルを最適な Q 値に収束させることによって計算されます。

ディープ Q ネットワーク

根本的な問題の XNUMX つは、 Qラーニングの活用強化学習の特徴は、状態の数が増加するにつれて、データの保存に必要なメモリの量が急速に増大することです。 Deep Q Networks は、ニューラルネットワークモデルと Q 値を組み合わせることでこの問題を解決し、エージェントが経験から学習し、取るべき最適なアクションについて合理的な推測を行えるようにします。ディープ Q ラーニングでは、Q 値関数がニューラルネットワークで推定されます。ニューラルネットワークは入力データとして状態を受け取り、エージェントが実行する可能性のあるすべての可能なアクションに対する Q 値を出力します。

ディープ Q ラーニングは、過去のすべての経験をメモリに保存し、Q ネットワークの最大出力を計算し、損失関数を使用して現在の値と理論上の可能な最大値の差を計算することによって実現されます。

深層強化学習と深層学習

深層強化学習と通常の深層学習の重要な違いの XNUMX つは、前者の場合、入力が常に変化することですが、これは従来の深層学習には当てはまらないことです。学習モデルは、常に変化する入力と出力をどのように考慮できるのでしょうか?

基本的に、予測値と目標値の間の乖離を考慮するために、XNUMX つではなく XNUMX つのニューラルネットワークを使用できます。 XNUMX つのネットワークがターゲット値を推定し、もう XNUMX つのネットワークが予測を担当します。ターゲットネットワークのパラメーターは、選択したトレーニング反復回数が経過した後、モデルが学習するにつれて更新されます。次に、それぞれのネットワークの出力が結合されて、差異が決定されます。

ポリシーベースの学習

ポリシーベースの学習アプローチは、Q 値ベースのアプローチとは動作が異なります。 Q 値のアプローチでは、状態とアクションの報酬を予測する価値関数が作成されますが、ポリシーベースの方法では、状態をアクションにマッピングするポリシーが決定されます。言い換えれば、アクションを選択するポリシー関数は、価値関数に関係なく直接最適化されます。

ポリシーの勾配

深層強化学習のポリシーは、確率論的または決定論的の XNUMX つのカテゴリのいずれかに分類されます。決定的ポリシーとは、状態がアクションにマップされるポリシーです。つまり、ポリシーに状態に関する情報が与えられると、アクションが返されます。一方、確率的ポリシーは、単一の個別のアクションではなく、アクションの確率分布を返します。

決定論的ポリシーは、実行可能なアクションの結果について不確実性がない場合に使用されます。言い換えれば、環境自体が決定的である場合です。対照的に、確率論的な政策出力は、行動の結果が不確実な環境に適しています。通常、強化学習シナリオにはある程度の不確実性が含まれるため、確率的ポリシーが使用されます。

ポリシー勾配アプローチには、Q 学習アプローチに比べていくつかの利点があると同時に、いくつかの欠点もあります。利点の点では、ポリシーベースの方法は、より迅速かつ確実に最適なパラメータに収束します。ポリシーの勾配は、最適なパラメーターが決定されるまで従うことができますが、値ベースの方法では、推定アクション値の小さな変化がアクションとそれに関連するパラメーターの大きな変化につながる可能性があります。

ポリシーの勾配は、高次元のアクション空間でもより効果的に機能します。実行できるアクションの数が非常に多い場合、ディープ Q ラーニングは非現実的になります。これは、すべてのタイムステップですべての可能なアクションにスコアを割り当てる必要があり、これは計算上不可能であるためです。ただし、ポリシーベースの方法では、パラメーターは時間の経過とともに調整されるため、モデルが収束するにつれて、考えられる最良のパラメーターの数は急速に減少します。

ポリシー勾配は、値ベースのポリシーとは異なり、確率的なポリシーを実装することもできます。確率的ポリシーは確率分布を生成するため、探索/活用のトレードオフを実装する必要はありません。

短所に関して言えば、ポリシー勾配の主な欠点は、グローバルな最適値ではなく、狭いローカルな最適値のセットのみに焦点を当て、最適なパラメーターを検索中に行き詰まる可能性があることです。

ポリシースコア関数

モデルのパフォーマンス目標を最適化するために使用されるポリシースコア関数を最大化するには – J(θ）。 J(θ）は、望ましい目標を達成するために私たちのポリシーがどの程度優れているかを示す尺度であり、「」の値を見つけることができます。θそれが私たちに最適なポリシーを与えてくれます。まず、期待されるポリシー報酬を計算する必要があります。私たちはポリシーの報酬を見積もるため、それに向けて最適化するための目標を設定します。ポリシースコア関数は、期待されるポリシー報酬を計算する方法であり、一時的な環境の開始値、継続的環境の平均値、タイムステップごとの平均報酬など、一般的に使用されるさまざまなポリシースコア関数があります。

ポリシー勾配上昇

勾配上昇は、スコアが最高となる場所に到達するまでパラメータを移動することを目的としています。写真: パブリックドメイン (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

目的のポリシースコア関数が使用され、期待されるポリシー報酬が計算された後、パラメーターの値を見つけることができます。θ」スコア機能を最大化します。スコア関数 J(θ）と呼ばれるテクニックです。勾配上昇" 使用されている。勾配上昇は、深層学習における勾配降下と概念が似ていますが、減少ではなく最も急な増加を最適化しています。これは、多くの深層学習の問題とは異なり、スコアが「エラー」ではないためです。私たちのスコアは最大化したいものです。政策に対する勾配を推定するには、政策勾配定理と呼ばれる式が使用されます。θ"。

深層強化学習の概要

要約すると、深層強化学習は、強化学習と深層ニューラルネットワークの側面を組み合わせたものです。深層強化学習は、深層 Q 学習とポリシー勾配という XNUMX つの異なる技術を使用して実行されます。

ディープ Q ラーニング手法は、特定の状態で行われた特定のアクションの後にどの報酬が得られるかを予測することを目的としていますが、ポリシー勾配アプローチはアクション空間を最適化し、アクション自体を予測することを目的としています。深層強化学習へのポリシーベースのアプローチは、本質的に決定論的または確率論的です。決定論的ポリシーは状態をアクションに直接マッピングしますが、確率論的ポリシーはアクションの確率分布を生成します。