Искусственный интеллект

Исследователи ИИ создали модель, играющую в видеоигры, которая может запоминать прошлые события

Опубликовано 27 февраля 2021

Обновлено 25 мая 2026

Daniel Nelson

Команда исследователей в лаборатории ИИ компании Uber недавно разработала систему алгоритмов ИИ, которые превзошли как человеческих игроков, так и другие системы ИИ в классических видеоиграх Atari. Система ИИ, разработанная исследователями, способна запоминать ранее успешные стратегии и создавать новые стратегии на основе того, что сработало в прошлом. Согласно исследованию, команда исследователей считает, что разработанные ими алгоритмы имеют потенциальные применения в других технических областях, таких как обработка языка и робототехника.

Типичный метод создания систем ИИ, способных играть в видеоигры, заключается в использовании алгоритма обучения с подкреплением. Алгоритмы обучения с подкреплением учатся выполнять задачу, исследуя диапазон возможных действий, и после каждого действия они получают некоторый вид подкрепления (награды или наказания). Со временем модель ИИ учится, какие действия приводят к более крупным наградам, и становится более вероятным выполнение этих действий. К сожалению, модели обучения с подкреплением испытывают трудности, когда они сталкиваются с данными, несовместимыми с другими данными в наборе.

Согласно команде исследователей, причина, по которой их подход не был рассмотрен другими исследователями ИИ, заключается в том, что стратегия отличается от подхода “внутренней мотивации”, обычно используемого в обучении с подкреплением. Проблема с подходом внутренней мотивации заключается в том, что модель может быть склонна к “забыванию” потенциально полезных областей, которые все еще заслуживают исследования. Это явление называется “отсоединением”. В результате, когда модель сталкивается с неожиданными данными, она может забыть об областях, которые все еще должны быть исследованы.

Согласно TechXplore, команда исследователей поставила цель создать модель обучения, которая была бы более гибкой и способной реагировать на неожиданные данные. Исследователи преодолели эту проблему, введя алгоритм, способный запоминать все действия, предпринятые предыдущей версией модели при попытке решить проблему. Когда модель ИИ сталкивается с данными, несовместимыми с тем, что она узнала до сих пор, модель проверяет свою карту памяти. Модель затем определяет, какие стратегии были успешными и неудачными, и выбирает стратегии соответствующим образом.

Когда модель играет в видеоигру, она собирает скриншоты игры, делая журнал своих действий. Изображения группируются вместе на основе сходства, образуя четкие точки во времени, к которым модель может обратиться. Алгоритм может использовать сохраненные изображения, чтобы вернуться к интересной точке во времени и продолжить исследование оттуда. Когда модель обнаруживает, что она проигрывает, она обращается к сохраненным скриншотам и пробует другую стратегию.

Как объясняет BBC, существует также проблема обработки опасных сценариев для агента ИИ, играющего в игру. Если агент сталкивается с опасностью, которая может его убить, это помешает ему вернуться к областям, которые заслуживают более подробного исследования, проблему, называемую “сбиванием с пути”. Модель ИИ решает проблемы сбивания с пути через отдельный процесс от того, который используется для поощрения исследования старых областей.

Команда исследователей заставила модель сыграть 55 игр Atari. Эти игры обычно используются для оценки производительности моделей ИИ, но исследователи добавили поворот для своей модели. Исследователи ввели дополнительные правила в игры, инструктируя модель не только достичь наивысшего возможного счета, но и попытаться достичь еще более высокого счета каждый раз. Когда были проанализированы результаты производительности модели, исследователи обнаружили, что их система ИИ превзошла другие ИИ в играх примерно 85% времени. Модель ИИ показала особенно хорошую производительность в игре Montezuma’s Revenge, платформерной игре, где игрок избегает опасностей и собирает сокровища. Игра побила рекорд для человеческого игрока и также набрала более высокий балл, чем любая другая система ИИ.

Согласно исследователям ИИ из Uber, стратегии, используемые командой исследователей, имеют применения в отраслях, таких как робототехника. Роботы пользуются возможностью запоминать, какие действия были успешными, какие не сработали и какие еще не были попробованы.

Daniel Nelson

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.

Unite.AI

Исследователи ИИ создали модель, играющую в видеоигры, которая может запоминать прошлые события

Узнать больше