AI 101
強化学習とは何か?

強化学習とは何か?
簡単に言えば、強化学習は、行動と関連する報酬の繰り返しによって、人工知能エージェントを訓練する機械学習の手法です。強化学習エージェントは、環境で実験を行い、行動を取り、正しい行動を取ったときに報酬を受け取ります。時間の経過とともに、エージェントは報酬を最大化する行動を取ることを学習します。強化学習の簡単な定義ですが、強化学習の背後にある概念を詳しく見てみることで、より深い理解を得ることができます。
「強化学習」という用語は、心理学における強化の概念から採用されています。したがって、心理学的な強化の概念を理解するために、時間を取りましょう。心理学的な意味では、強化とは、特定の反応/行動が発生する可能性を高めるものです。この強化の概念は、操作的条件づけの理論の中心的な考え方であり、心理学者B.F.スキナーによって初めて提案されました。この文脈では、強化とは、特定の行動の頻度を高めるものです。人間に対する可能な強化としては、賛辞、昇進、キャンディー、楽しい活動などがあります。
伝統的な、心理学的な意味では、強化には2つの種類があります。陽性強化と陰性強化があります。陽性強化は、行動を増やすために何かを追加することです。例えば、犬が良く振る舞ったときにご褒美を与えることです。陰性強化には、行動を誘発するために刺激を除去することが含まれます。例えば、臆病な猫を誘き出すために、大きな音を止めることです。
陽性&陰性強化
陽性強化は行動の頻度を高めますが、陰性強化は行動の頻度を低めます。一般的に、強化学習では、陽性強化が最も一般的に使用されるタイプの強化です。陽性強化は、モデルが特定のタスクのパフォーマンスを最大化するのに役立ちます。また、陽性強化は、モデルが持続可能な変更を行うのに役立ち、これらの変更は一貫したパターンとなり、長期間にわたって続きます。
一方で、陰性強化も行動の頻度を高めるものですが、モデルが最大のパフォーマンスを達成するのではなく、最低のパフォーマンス基準を維持するために使用されます。強化学習における陰性強化は、モデルが望ましくない行動から遠ざかるのを助けることができますが、モデルが望ましい行動を探索することはできません。
強化エージェントの訓練
強化学習エージェントを訓練するときには、4つの異なる成分または状態が訓練に使用されます。初期状態(状態0)、新しい状態(状態1)、行動、報酬です。
例えば、AIの目標がレベルの終わりに到達することであるプラットフォーミングビデオゲームで強化エージェントを訓練することを想像してみましょう。ゲームの初期状態は環境から抽出され、ゲームの最初のフレームが分析され、モデルに与えられます。この情報に基づいて、モデルは行動を決定する必要があります。
訓練の初期段階では、これらの行動はランダムですが、モデルが強化されるにつれて、特定の行動がより一般的になります。行動が取られた後、ゲームの環境が更新され、新しい状態またはフレームが作成されます。エージェントが取った行動が望ましい結果を生んだ場合、例えば、この場合、エージェントがまだ生きていることと、敵に当たっていないことを確認するために、エージェントに報酬が与えられ、将来同じ行動を取る可能性が高くなります。
この基本的なシステムは、繰り返し繰り返され、エージェントは毎回少し学び、報酬を最大化しようとします。
エピソードタスクと連続タスク
強化学習タスクは、通常、2つの異なるカテゴリのいずれかに分類できます。エピソードタスクと連続タスクです。
エピソードタスクは、終了基準が満たされるまで、学習/訓練ループを実行し、パフォーマンスを向上させ、訓練を終了します。ゲームでは、これはレベルの終わりに到達したり、危険な場所に落ち込んだりすることなどです。対照的に、連続タスクには終了基準がないため、エンジニアが訓練を終了するまで、基本的に無限に訓練を続けます。
モンテカルロと時間差
強化学習エージェントを訓練する、または学習させるための2つの主な方法があります。モンテカルロアプローチでは、報酬はエージェント(スコアが更新される)に、訓練エピソードの終わりにのみ与えられます。言い換えると、終了条件が満たされるまで、モデルはどれほどよく機能したかを学習しません。次に、モデルはこの情報を使用して更新し、次の訓練ラウンドが開始されると、モデルは新しい情報に応じて反応します。
時間差法は、モンテカルロ法と異なり、価値推定またはスコア推定が訓練エピソードの途中で更新されることを特徴としています。モデルが次の時間ステップに進むと、値は更新されます。
探索と活用
強化学習エージェントを訓練することは、2つの異なる指標のバランスを取ることです。探索と活用です。
探索とは、周囲の環境についてより多くの情報を収集することです。一方、活用とは、すでに環境について知られている情報を使用して報酬ポイントを獲得することです。エージェントが探索のみを行い、活用をしない場合、望ましい行動は実行されません。一方、エージェントが活用のみを行い、探索をしない場合、エージェントは1つの行動のみを学習し、他の可能な戦略を発見しません。したがって、強化学習エージェントを作成する際には、探索と活用のバランスを取ることが重要です。
強化学習の用途
強化学習は、さまざまな役割で使用でき、タスクの自動化が必要なアプリケーションに最適です。
産業用ロボットによるタスクの自動化は、強化学習が有益である分野の1つです。強化学習は、テキストマイニングの問題、長いテキストをまとめることができるモデルを作成する問題などにも使用できます。研究者は、強化学習を医療分野で使用して、治療方針の最適化などのタスクを処理するエージェントを扱うことも実験しています。強化学習は、学生のために教育資料をカスタマイズすることもできます。
強化学習のまとめ
強化学習は、印象的で時には驚くべき結果をもたらす可能性のある、強力なAIエージェントを作成する方法です。強化学習を使用してエージェントを訓練することは複雑で難しい場合があります。訓練に多くの反復と探索/活用の微妙なバランスが必要です。ただし、成功すれば、強化学習で作成されたエージェントは、さまざまな環境で複雑なタスクを実行できます。












