AI 101

Что такое обучение с подкреплением?

обновленный on 5 июня 2021

Что такое обучение с подкреплением?

Проще говоря, обучение с подкреплением — это метод машинного обучения, который включает в себя обучение агента искусственного интеллекта посредством повторения действий и связанных с ними вознаграждений. Агент обучения с подкреплением экспериментирует в окружающей среде, предпринимает действия и получает вознаграждение за правильные действия. Со временем агент учится предпринимать действия, которые максимизируют его вознаграждение. Это краткое определение обучения с подкреплением, но более внимательное изучение концепций, лежащих в основе обучения с подкреплением, поможет вам лучше понять его.

Термин «обучение с подкреплением» заимствован из концепции подкрепление в психологии. По этой причине давайте на минутку разберемся с психологической концепцией подкрепления. В психологическом смысле термин «подкрепление» относится к чему-то, что увеличивает вероятность того, что произойдет конкретная реакция/действие. Эта концепция подкрепления является центральной идеей теории оперантного обусловливания, первоначально предложенной психологом Б. Ф. Скиннером. В этом контексте подкрепление — это все, что вызывает увеличение частоты данного поведения. Если мы подумаем о возможном подкреплении для людей, то это могут быть такие вещи, как похвала, повышение на работе, конфеты и веселые занятия.

В традиционном, психологическом смысле существует два типа подкрепления. Есть положительное подкрепление и отрицательное подкрепление. Положительное подкрепление — это добавление чего-то, чтобы усилить поведение, например, дать собаке лакомство, когда она ведет себя хорошо. Отрицательное подкрепление включает в себя удаление стимула, чтобы вызвать поведение, например, отключение громких звуков, чтобы уговорить пугливую кошку.

Положительное и отрицательное подкрепление

Положительное подкрепление увеличивает частоту поведения, в то время как отрицательное подкрепление уменьшает частоту. В целом положительное подкрепление является наиболее распространенным типом подкрепления, используемым в обучении с подкреплением, поскольку оно помогает моделям максимизировать производительность при выполнении данной задачи. Не только это, но и положительное подкрепление приводит модель к более устойчивым изменениям, изменениям, которые могут стать постоянными моделями и сохраняться в течение длительного периода времени.

Напротив, хотя отрицательное подкрепление также повышает вероятность возникновения поведения, оно используется для поддержания минимального стандарта производительности, а не для достижения максимальной производительности модели. Отрицательное подкрепление в обучении с подкреплением может помочь уберечь модель от нежелательных действий, но на самом деле оно не может заставить модель исследовать желаемые действия.

Обучение агента подкрепления

Когда агент обучения с подкреплением обучается, есть четыре разных ингредиента or государств используемые в обучении: начальные состояния (состояние 0), новое состояние (состояние 1), действия и награды.

Представьте, что мы обучаем агента подкрепления играть в видеоигру-платформер, где цель ИИ — пройти до конца уровня, перемещаясь прямо по экрану. Исходное состояние игры рисуется из окружающей среды, то есть первый кадр игры анализируется и передается модели. На основе этой информации модель должна принять решение о действии.

На начальных этапах обучения эти действия случайны, но по мере укрепления модели некоторые действия станут более распространенными. После выполнения действия среда игры обновляется и создается новое состояние или кадр. Если действие, предпринятое агентом, привело к желаемому результату, скажем, в этом случае, что агент все еще жив и не был поражен противником, агенту дается некоторая награда, и становится более вероятным, что он сделает то же самое в будущее.

Эта базовая система постоянно зацикливается, происходит снова и снова, и каждый раз агент пытается узнать немного больше и максимизировать свое вознаграждение.

Эпизодические и непрерывные задачи

Задачи обучения с подкреплением обычно можно отнести к одной из двух категорий: эпизодические задачи и постоянные задачи.

Эпизодические задачи будут выполнять цикл обучения/обучения и повышать свою производительность до тех пор, пока не будут выполнены некоторые конечные критерии и обучение не будет прекращено. В игре это может быть достижение конца уровня или попадание в опасность, такую как шипы. Напротив, непрерывные задачи не имеют критериев завершения, по сути продолжая обучение до тех пор, пока инженер не решит прекратить обучение.

Монте-Карло против временной разницы

Есть два основных способа обучения или обучения агента обучения с подкреплением. В метод Монте-Карло, награды доставляются агенту (его счет обновляется) только в конце тренировочного эпизода. Иными словами, только когда выполняется условие завершения, модель узнает, насколько хорошо она работает. Затем он может использовать эту информацию для обновления, и когда начнется следующий раунд обучения, он будет реагировать в соответствии с новой информацией.

Ассоциация метод временной разности отличается от метода Монте-Карло тем, что оценка значения или оценка количества баллов обновляется в ходе тренировочного эпизода. Как только модель переходит к следующему временному шагу, значения обновляются.

Разведка против эксплуатации

Обучение агента обучения с подкреплением — это балансирование, включающее балансировку двух разных показателей: исследования и эксплуатации.

Исследование — это сбор дополнительной информации об окружающей среде, в то время как исследование использует уже известную информацию об окружающей среде для получения наградных баллов. Если агент только исследует и никогда не использует среду, желаемые действия никогда не будут выполнены. С другой стороны, если агент только эксплуатирует и никогда не исследует, агент научится выполнять только одно действие и не обнаружит другие возможные стратегии получения вознаграждения. Поэтому баланс между исследованием и эксплуатацией имеет решающее значение при создании агента обучения с подкреплением.

Варианты использования для обучения с подкреплением

Обучение с подкреплением можно использовать в самых разных ролях, и оно лучше всего подходит для приложений, в которых задачи требуют автоматизации.

Автоматизация задач, выполняемых промышленными роботами, — это одна из областей, где обучение с подкреплением оказывается полезным. Обучение с подкреплением также можно использовать для таких задач, как интеллектуальный анализ текста, создание моделей, способных обобщать длинные текстовые блоки. Исследователи также экспериментируют с использованием обучения с подкреплением в сфере здравоохранения, когда агенты подкрепления выполняют такие задачи, как оптимизация политики лечения. Обучение с подкреплением также можно использовать для настройки учебного материала для учащихся.

Резюме обучения с подкреплением

Обучение с подкреплением — это мощный метод создания агентов ИИ, который может привести к впечатляющим, а иногда и удивительным результатам. Обучение агента с помощью обучения с подкреплением может быть сложным и трудным, так как требует много итераций обучения и тонкого баланса дихотомии «исследовать/эксплуатировать». Однако в случае успеха агент, созданный с помощью обучения с подкреплением, может выполнять сложные задачи в самых разных средах.

Похожие темы:101

Что такое дерево решений?

Не пропустите

Что такое глубокое обучение?

Дэниэл Нельсон

Блогер и программист со специализацией в Машинное обучение и Глубокое обучение темы. Дэниел надеется помочь другим использовать возможности ИИ на благо общества.

Unite.ИИ

Что такое обучение с подкреплением?

AI 101

Что такое обучение с подкреплением?

Оглавление

Что такое обучение с подкреплением?

Положительное и отрицательное подкрепление

Обучение агента подкрепления

Эпизодические и непрерывные задачи

Монте-Карло против временной разницы

Разведка против эксплуатации

Варианты использования для обучения с подкреплением

Резюме обучения с подкреплением

Unite.ИИ

Что такое обучение с подкреплением?

Оглавление

Что такое обучение с подкреплением?

Положительное и отрицательное подкрепление

Обучение агента подкрепления

Эпизодические и непрерывные задачи

Монте-Карло против временной разницы

Разведка против эксплуатации

Варианты использования для обучения с подкреплением

Резюме обучения с подкреплением

Вам может понравиться