Искусственный интеллект

DeepMind Reports New Method Of Training Reinforcement Learning AI Safely

Published December 14, 2019

Updated April 5, 2026

Daniel Nelson

Обучение с подкреплением является перспективным направлением развития ИИ, позволяющим создавать ИИ, способный справляться с чрезвычайно сложными задачами. Алгоритмы обучения с подкреплением используются при создании систем мобильной робототехники и самоходных автомобилей, среди других применений. Однако из-за того, как обучается ИИ с подкреплением, они иногда могут проявлять странные и непредсказуемые поведения. Эти поведения могут быть опасными, и исследователи ИИ называют эту проблему “проблемой безопасного исследования”, когда ИИ застревает в исследовании небезопасных состояний.

Недавно лаборатория ИИ Google DeepMind опубликовала статью, в которой предложила новые методы решения проблемы безопасного исследования и обучения ИИ с подкреплением более безопасным образом. Метод, предложенный DeepMind, также исправляет ошибки вознаграждения или лазейки в критериях вознаграждения.

Новый метод DeepMind использует две различные системы, предназначенные для управления поведением ИИ в ситуациях, когда может возникнуть небезопасное поведение. Две системы, используемые в методе обучения DeepMind, – это генеративная модель и модель прямой динамики. Обе эти модели обучаются на различных данных, таких как демонстрации экспертами безопасности и совершенно случайные траектории транспортных средств. Данные помечаются руководителем с конкретными значениями вознаграждения, и агент ИИ будет находить закономерности поведения, которые позволят ему собрать наибольшее вознаграждение. Небезопасные состояния также помечены, и после того, как модель успешно предсказала вознаграждения и небезопасные состояния, она развертывается для выполнения целевых действий.

Команда исследователей объясняет в статье, что идея состоит в том, чтобы создать возможные поведения с нуля, предложить желаемые поведения и сделать эти гипотетические сценарии как можно более информативными, одновременно избегая прямого вмешательства в среду обучения. Команда DeepMind называет этот подход ReQueST, или синтез запроса вознаграждения через оптимизацию траектории.

ReQueST способен привести к четырем различным типам поведения. Первый тип поведения пытается максимизировать неопределенность относительно моделей вознаграждения ансамбля. Тем временем поведение два и три пытаются минимизировать и максимизировать предсказанные вознаграждения. Предсказанные вознаграждения минимизируются для открытия поведений, которые модель может неправильно предсказывать. С другой стороны, предсказанное вознаграждение максимизируется для открытия меток поведения, обладающих наивысшей информационной ценностью. Наконец, четвертый тип поведения пытается максимизировать новизну траекторий, чтобы модель продолжала исследовать, независимо от прогнозируемых вознаграждений.

После того, как модель достигла желаемого уровня сбора вознаграждения, используется агент планирования для принятия решений на основе выученных вознаграждений. Этот модель-предсказательный контроль позволяет агентам учиться избегать небезопасных состояний, используя динамическую модель и предсказывая возможные последствия, в отличие от поведения алгоритмов, которые учатся через чистый пробный метод.

Как сообщает VentureBeat, исследователи DeepMind считают, что их проект является первым системой обучения с подкреплением, способной учиться в контролируемом, безопасном режиме:

“Насколько нам известно, ReQueST – это первый алгоритм моделирования вознаграждения, который безопасно учится о небезопасных состояниях и масштабируется для обучения нейронных сетевых моделей вознаграждения в средах с высокоразмерными, непрерывными состояниями. Пока мы продемонстрировали эффективность ReQueST только в симулированных доменах с относительно простой динамикой. Одним из направлений будущей работы является тестирование ReQueST в 3D-доменах с более реалистичной физикой и другими агентами, действующими в среде.”

Related Topics:DeepMind reinforcement learning safety

Daniel Nelson

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.

Unite.AI

DeepMind Reports New Method Of Training Reinforcement Learning AI Safely

You may like