- Терминология (от А до D)
- Управление возможностями ИИ
- AIOps
- Альбументации
- Производительность активов
- автоассоциатор
- обратное распространение
- Теорема Байеса
- Big Data
- Чат-бот: руководство для начинающих
- Вычислительное мышление
- Компьютерное зрение
- Матрица путаницы
- Сверточные нейронные сети
- Информационная безопасность
- Фабрика данных
- Рассказ данных
- Наука данных
- Хранилище данных
- Древо решений
- Deepfakes
- Глубокое обучение
- Глубокое обучение
- Девопс
- DevSecOps
- Диффузионные модели
- Цифровой Твин
- Уменьшение размерности
- Терминология (от E до K)
- Edge AI
- Эмоция AI
- Обучение ансамблю
- Этические Хакинг
- ETL
- Объясняемый ИИ
- Федеративное обучение
- ФинОпс
- Генеративный ИИ
- Генеративная Состязательная Сеть
- Генеративное против дискриминационного
- Повышение градиента
- Градиентный спуск
- Небольшое обучение
- Классификация изображений
- ИТ-операции (ITOps)
- Автоматизация инцидентов
- Инжиниринг влияния
- Кластеризация K-сред
- K-Ближайшие соседи
- Терминология (от L до Q)
- Терминология (от R до Z)
- Усиление обучения
- Ответственный AI
- РЛХФ
- Роботизированная автоматизация процессов
- Структурированный против неструктурированного
- Анализ настроений
- Контролируемый против неконтролируемого
- Поддержка векторных машин
- Синтетические данные
- Синтетические носители
- Классификация текста
- КрошечныйML
- Передача обучения
- Трансформаторные нейронные сети
- Тест Тьюринга
- Поиск сходства векторов
AI 101
Что такое обучение с подкреплением?
Оглавление
Что такое обучение с подкреплением?
Проще говоря, обучение с подкреплением — это метод машинного обучения, который включает в себя обучение агента искусственного интеллекта посредством повторения действий и связанных с ними вознаграждений. Агент обучения с подкреплением экспериментирует в окружающей среде, предпринимает действия и получает вознаграждение за правильные действия. Со временем агент учится предпринимать действия, которые максимизируют его вознаграждение. Это краткое определение обучения с подкреплением, но более внимательное изучение концепций, лежащих в основе обучения с подкреплением, поможет вам лучше понять его.
Термин «обучение с подкреплением» заимствован из концепции подкрепление в психологии. По этой причине давайте на минутку разберемся с психологической концепцией подкрепления. В психологическом смысле термин «подкрепление» относится к чему-то, что увеличивает вероятность того, что произойдет конкретная реакция/действие. Эта концепция подкрепления является центральной идеей теории оперантного обусловливания, первоначально предложенной психологом Б. Ф. Скиннером. В этом контексте подкрепление — это все, что вызывает увеличение частоты данного поведения. Если мы подумаем о возможном подкреплении для людей, то это могут быть такие вещи, как похвала, повышение на работе, конфеты и веселые занятия.
В традиционном, психологическом смысле существует два типа подкрепления. Есть положительное подкрепление и отрицательное подкрепление. Положительное подкрепление — это добавление чего-то, чтобы усилить поведение, например, дать собаке лакомство, когда она ведет себя хорошо. Отрицательное подкрепление включает в себя удаление стимула, чтобы вызвать поведение, например, отключение громких звуков, чтобы уговорить пугливую кошку.
Положительное и отрицательное подкрепление
Положительное подкрепление увеличивает частоту поведения, в то время как отрицательное подкрепление уменьшает частоту. В целом положительное подкрепление является наиболее распространенным типом подкрепления, используемым в обучении с подкреплением, поскольку оно помогает моделям максимизировать производительность при выполнении данной задачи. Не только это, но и положительное подкрепление приводит модель к более устойчивым изменениям, изменениям, которые могут стать постоянными моделями и сохраняться в течение длительного периода времени.
Напротив, хотя отрицательное подкрепление также повышает вероятность возникновения поведения, оно используется для поддержания минимального стандарта производительности, а не для достижения максимальной производительности модели. Отрицательное подкрепление в обучении с подкреплением может помочь уберечь модель от нежелательных действий, но на самом деле оно не может заставить модель исследовать желаемые действия.
Обучение агента подкрепления
Когда агент обучения с подкреплением обучается, есть четыре разных ингредиента or государств используемые в обучении: начальные состояния (состояние 0), новое состояние (состояние 1), действия и награды.
Представьте, что мы обучаем агента подкрепления играть в видеоигру-платформер, где цель ИИ — пройти до конца уровня, перемещаясь прямо по экрану. Исходное состояние игры рисуется из окружающей среды, то есть первый кадр игры анализируется и передается модели. На основе этой информации модель должна принять решение о действии.
На начальных этапах обучения эти действия случайны, но по мере укрепления модели некоторые действия станут более распространенными. После выполнения действия среда игры обновляется и создается новое состояние или кадр. Если действие, предпринятое агентом, привело к желаемому результату, скажем, в этом случае, что агент все еще жив и не был поражен противником, агенту дается некоторая награда, и становится более вероятным, что он сделает то же самое в будущее.
Эта базовая система постоянно зацикливается, происходит снова и снова, и каждый раз агент пытается узнать немного больше и максимизировать свое вознаграждение.
Эпизодические и непрерывные задачи
Задачи обучения с подкреплением обычно можно отнести к одной из двух категорий: эпизодические задачи и постоянные задачи.
Эпизодические задачи будут выполнять цикл обучения/обучения и повышать свою производительность до тех пор, пока не будут выполнены некоторые конечные критерии и обучение не будет прекращено. В игре это может быть достижение конца уровня или попадание в опасность, такую как шипы. Напротив, непрерывные задачи не имеют критериев завершения, по сути продолжая обучение до тех пор, пока инженер не решит прекратить обучение.
Монте-Карло против временной разницы
Есть два основных способа обучения или обучения агента обучения с подкреплением. В метод Монте-Карло, награды доставляются агенту (его счет обновляется) только в конце тренировочного эпизода. Иными словами, только когда выполняется условие завершения, модель узнает, насколько хорошо она работает. Затем он может использовать эту информацию для обновления, и когда начнется следующий раунд обучения, он будет реагировать в соответствии с новой информацией.
Ассоциация метод временной разности отличается от метода Монте-Карло тем, что оценка значения или оценка количества баллов обновляется в ходе тренировочного эпизода. Как только модель переходит к следующему временному шагу, значения обновляются.
Разведка против эксплуатации
Обучение агента обучения с подкреплением — это балансирование, включающее балансировку двух разных показателей: исследования и эксплуатации.
Исследование — это сбор дополнительной информации об окружающей среде, в то время как исследование использует уже известную информацию об окружающей среде для получения наградных баллов. Если агент только исследует и никогда не использует среду, желаемые действия никогда не будут выполнены. С другой стороны, если агент только эксплуатирует и никогда не исследует, агент научится выполнять только одно действие и не обнаружит другие возможные стратегии получения вознаграждения. Поэтому баланс между исследованием и эксплуатацией имеет решающее значение при создании агента обучения с подкреплением.
Варианты использования для обучения с подкреплением
Обучение с подкреплением можно использовать в самых разных ролях, и оно лучше всего подходит для приложений, в которых задачи требуют автоматизации.
Автоматизация задач, выполняемых промышленными роботами, — это одна из областей, где обучение с подкреплением оказывается полезным. Обучение с подкреплением также можно использовать для таких задач, как интеллектуальный анализ текста, создание моделей, способных обобщать длинные текстовые блоки. Исследователи также экспериментируют с использованием обучения с подкреплением в сфере здравоохранения, когда агенты подкрепления выполняют такие задачи, как оптимизация политики лечения. Обучение с подкреплением также можно использовать для настройки учебного материала для учащихся.
Резюме обучения с подкреплением
Обучение с подкреплением — это мощный метод создания агентов ИИ, который может привести к впечатляющим, а иногда и удивительным результатам. Обучение агента с помощью обучения с подкреплением может быть сложным и трудным, так как требует много итераций обучения и тонкого баланса дихотомии «исследовать/эксплуатировать». Однако в случае успеха агент, созданный с помощью обучения с подкреплением, может выполнять сложные задачи в самых разных средах.
Блогер и программист со специализацией в Машинное обучение и Глубокое обучение темы. Дэниел надеется помочь другим использовать возможности ИИ на благо общества.