AI 101

強化学習とは何か？

公開日 2019年10月20日

更新日 2026年5月25日

著者

Daniel Nelson

強化学習とは何か？

簡単に言えば、強化学習は、行動とその行動に対する報酬を繰り返すことで、人工知能エージェントを訓練するマシンラーニングの手法です。強化学習エージェントは、環境の中で実験を行い、行動をとり、正しい行動をとったときに報酬を受け取ります。時間の経過とともに、エージェントは報酬を最大化する行動をとるようになります。那は強化学習の簡単な定義ですが、強化学習の背後にある概念をより深く理解するために、強化学習の詳細を見てみましょう。

「強化学習」という用語は、心理学における「強化」の概念から採用されています。したがって、心理学的な強化の概念を理解するために、少し時間を取りましょう。心理学的な意味では、強化とは、特定の反応または行動が起こる可能性を高めるものです。この強化の概念は、オペラント・コンディショニングの理論の中心的な考え方であり、心理学者B.F.スキナーによって初めて提案されました。この文脈では、強化とは、特定の行動の頻度を高めるものです。人間にとっての強化の例としては、称賛、昇進、キャンディー、楽しい活動などがあります。

伝統的な、心理学的な意味では、強化には2つの種類があります。肯定的な強化と否定的な強化があります。肯定的な強化は、行動を高めるために何かを追加することです。例えば、良い行動をした犬にご褒美を与えることです。否定的な強化は、行動を引き出すために刺激を取り除くことです。例えば、うるさい音を止めることで、怖がっている猫を誘き出すことです。

肯定的な強化と否定的な強化

肯定的な強化は行動の頻度を高めますが、否定的な強化は行動の頻度を低めます。一般的に、強化学習では肯定的な強化が最も一般的に使用されるタイプの強化です。なぜなら、肯定的な強化はモデルが特定のタスクのパフォーマンスを最大化するのに役立つからです。また、肯定的な強化はモデルが持続可能な変化をもたらし、長期間にわたって一貫したパターンを生み出すことができます。

一方、否定的な強化も行動をより起こりやすくしますが、モデルが最大のパフォーマンスを達成するのではなく、最低のパフォーマンス基準を維持するために使用されます。強化学習における否定的な強化は、モデルが望ましくない行動から遠ざかるのを助けることができますが、モデルが望ましい行動を探索することはできません。

強化学習エージェントの訓練

強化学習エージェントを訓練するときには、4つの異なる成分または状態が使用されます。初期状態（状態0）、新しい状態（状態1）、行動、報酬です。

プラットフォームゲームを訓練する強化学習エージェントを想像してみましょう。AIの目標は、画面の右側に移動することでレベルを終了することです。ゲームの初期状態は環境から抽出され、モデルに与えられます。モデルはこの情報に基づいて行動を決定します。

訓練の初期段階では、これらの行動はランダムですが、モデルが強化されると、特定の行動がより一般的になります。行動が取られた後、ゲームの環境は更新され、新しい状態またはフレームが作成されます。エージェントが取った行動が望ましい結果を生み出した場合、たとえばエージェントがまだ生きている場合、または敵に当たっていない場合、エージェントは報酬を受け取り、将来同じ行動をとる可能性が高くなります。

この基本的なシステムは、繰り返しループされ、エージェントは少しずつ学習し、報酬を最大化しようとします。

エピソードベースのタスクと連続的なタスク

強化学習のタスクは、通常、2つの異なるカテゴリのいずれかに分類できます。エピソードベースのタスクと連続的なタスクです。

エピソードベースのタスクは、学習/訓練ループを実行し、終了基準が満たされるまでパフォーマンスを向上させ、訓練を終了します。ゲームの場合、これはレベルの終了または危険物（たとえば、トゲ）に当たることになります。対照的に、連続的なタスクには終了基準がないため、エンジニアが訓練を終了するまでずっと訓練を続けます。

モンテカルロ法と時間差法

強化学習エージェントを訓練する、または学習させる主要な2つの方法があります。モンテカルロ法では、報酬がエージェントに与えられ（スコアが更新され）、訓練エピソードの終了時にのみ行われます。言い換えれば、終了条件が満たされたときにのみ、モデルは自分のパフォーマンスがどのようだったかを学習します。次に、モデルはこの情報を使用して自己を更新し、次の訓練ラウンドが開始されると、モデルは新しい情報に応じて反応します。

時間差法は、モンテカルロ法と異なり、訓練エピソードの途中で価値の推定、またはスコアの推定を更新します。モデルが次の時間ステップに進むと、値は更新されます。

探索と利用

強化学習エージェントを訓練することは、2つの異なる指標、探索と利用のバランスを取ることです。

探索とは、周囲の環境についてより多くの情報を収集することです。一方、利用とは、すでに知られている環境の情報を使用して報酬を得ることです。エージェントが探索のみを行い、利用をしない場合、望ましい行動は実行されません。一方、エージェントが利用のみを行い、探索をしない場合、エージェントは1つの行動のみを学習し、他の戦略を発見しません。したがって、探索と利用のバランスを取ることは、強化学習エージェントを作成する上で非常に重要です。

強化学習の用途

強化学習は、自動化されたタスクを実行する必要があるアプリケーションに最も適しています。

産業用ロボットの自動化は、強化学習が役立つ分野の1つです。強化学習は、テキストマイニング、長いテキストを要約するモデルを作成するなどの問題にも使用できます。研究者は、強化学習を医療分野で使用して治療方針の最適化などのタスクを実行するエージェントを作成することも試みています。強化学習は、教育資料を学生にカスタマイズするために使用することもできます。

強化学習のまとめ

強化学習は、印象的な結果をもたらす可能性のある、強力なAIエージェントを作成するための手法です。強化学習を使用してエージェントを訓練することは複雑で難しい場合があります。訓練には多くの反復と探索/利用のジレンマの微妙なバランスが必要です。ただし、強化学習で作成されたエージェントは、さまざまな環境で複雑なタスクを実行できます。

Daniel Nelson

ブログ作家およびプログラマーで、 Machine Learning と Deep Learning のトピックを専門としています。Danielは、AIの力を社会のために利用する手助けを他者に与えることを希望しています。

Unite.AI

強化学習とは何か？

強化学習とは何か？

肯定的な強化と否定的な強化

強化学習エージェントの訓練

エピソードベースのタスクと連続的なタスク

モンテカルロ法と時間差法

探索と利用

強化学習の用途

強化学習のまとめ

もっと見る