Искусственный интеллект
ИИ-агенты демонстрируют эмерджентные интеллектуальные свойства в виртуальной игре в прятки

Одним из интересных фактов о исследовании ИИ является то, что он может часто выполнять действия и преследовать стратегии, которые удивляют самих исследователей, проектирующих их. Это произошло во время недавней виртуальной игры в прятки, где несколько ИИ-агентов были противопоставлены друг другу. Исследователи в OpenAI, фирме по ИИ, базирующейся в Сан-Франциско, были удивлены, обнаружив, что их ИИ-агенты начали использовать стратегии в игровом мире, которые исследователи даже не знали, что существуют.
OpenAI обучила группу ИИ-агентов играть в игру в прятки друг с другом. Программы ИИ обучены с помощью техники подкрепления, когда желаемое поведение вызывается у алгоритмов ИИ путем предоставления алгоритмам обратной связи. ИИ начинает с случайных действий, и каждый раз, когда он выполняет действие, которое приближает его к цели, агент получает награду. ИИ стремится получить максимально возможное количество наград, поэтому он экспериментирует, чтобы увидеть, какие действия принесут ему больше наград. Через проб и ошибку ИИ способен различать стратегии, которые приведут его к победе, те, которые принесут ему наибольшую награду.
Обучение с подкреплением уже продемонстрировало впечатляющий успех в обучении правилам игр. OpenAI недавно обучила команду ИИ играть в MMORPG DOTA 2, и ИИ победил команду чемпионов-людей в прошлом году. Аналогичное произошло с игрой StarCraft, когда ИИ был обучен на игре компанией DeepMind. Обучение с подкреплением также использовалось для обучения программ ИИ играть в Пиктори с людьми, обучаясь интерпретировать изображения и использовать базовые рассуждения.
В игре в прятки, созданной исследователями, несколько ИИ-агентов были противопоставлены друг другу. Результатом стала своего рода гонка вооружений, где каждый агент хочет превзойти другого и получить наибольшее количество очков награды. Новая стратегия, принятая одним агентом, заставит его оппонента искать новую стратегию, чтобы противостоять ей, и наоборот. Игорь МордATCH, исследователь в OpenAI, объяснил IEEE Spectrum, что этот эксперимент демонстрирует, что этот процесс проб и ошибок между агентами “достаточен, чтобы агенты научились удивительным поведениям самостоятельно – это как дети, играющие друг с другом”.
Какие были эти удивительные поведения? Исследователи имели четыре базовые стратегии, которые они ожидали, что ИИ-агенты научатся, и они быстро научились им, став компетентными в них после всего 25 миллионов симулированных игр. Игра проходила в 3D-окружении, полном рамп, блоков и стен. ИИ-агенты научились преследовать друг друга, перемещать блоки, чтобы построить укрепления, в которые они могли спрятаться, и перемещать рампы. ИИ-искатели научились тянуть рампы, чтобы попасть внутрь укреплений прячущихся, а прячущиеся научились пытаться взять рампы внутрь своих укреплений, чтобы искатели не могли использовать их.
Однако около отметки 380 миллионов игр произошло что-то неожиданное. ИИ-агенты научились использовать две стратегии, которых исследователи не ожидали. Искатели-агенты научились, что, прыгая на коробку и наклоняя/ездя на коробке к ближайшему укреплению, они могли прыгнуть внутрь укрепления и найти прячущегося. Исследователи даже не знали, что это возможно в физике игрового окружения. Прячущиеся научились решать эту проблему, перемещая коробки внутрь своих укреплений.
Хотя неожиданное поведение агентов, обученных на алгоритмах обучения с подкреплением, безобидно в этом случае, оно вызывает некоторые потенциальные опасения о том, как обучение с подкреплением применяется в других ситуациях. Член команды исследователей OpenAI, Боуэн Бейкер, объяснил IEEE Spectrum, что эти неожиданные поведения могут быть потенциально опасными. Ведь что, если роботы начнут вести себя неожиданным образом?
“Создание этих окружений – это сложно”, – объяснил Бейкер. “Агенты будут придумывать эти неожиданные поведения, которые станут проблемой безопасности в будущем, когда вы поместите их в более сложные окружения”.
Однако Бейкер также объяснил, что стратегии обучения с подкреплением могут привести к инновационным решениям текущих проблем. Системы, обученные с помощью обучения с подкреплением, могут решить широкий спектр проблем с решениями, которые мы даже не можем представить.










