Свяжитесь с нами:

Агенты ИИ демонстрируют новые свойства интеллекта в виртуальной игре в прятки

Искусственный интеллект

Агенты ИИ демонстрируют новые свойства интеллекта в виртуальной игре в прятки

mm

Один из интересных фактов об исследованиях ИИ заключается в том, что он часто может выполнять действия и следовать стратегиям, которые удивляют самих исследователей, разрабатывающих их. Это произошло во время недавней виртуальной игры в прятки, в которой несколько агентов ИИ столкнулись друг с другом. Исследователи из OpenAI, компании, специализирующейся на искусственном интеллекте, базирующейся в Сан-Франциско, были удивлены, обнаружив, что их агенты искусственного интеллекта начал использовать стратегии в игровом мире, о существовании которого исследователи даже не подозревали.

OpenAI обучил группу агентов ИИ играть в прятки друг с другом. Программы ИИ обучаются с помощью обучения с подкреплением, метода, при котором желаемое поведение выявляется из алгоритмов ИИ, предоставляя алгоритмам обратную связь. ИИ начинает со случайных действий, и каждый раз, когда он предпринимает действие, приближающее его к цели, агент получает вознаграждение. ИИ желает получить максимально возможное вознаграждение, поэтому он будет экспериментировать, чтобы увидеть, какие действия принесут ему больше вознаграждения. Путем проб и ошибок ИИ способен различать стратегии, которые приведут его к победе, те, которые принесут ему наибольшую награду.

Обучение с подкреплениемg уже продемонстрировал впечатляющие успехи в изучении правил игр. OpenAI недавно обучил команду ИИ играй в ММОРПГ ДОТА 2, а в прошлом году ИИ победил команду чемпионов мира, состоящую из людей. То же самое произошло с игрой StarCraft, когда DeepMind обучил ИИ игре. Обучение с подкреплением также использовалось, чтобы научить программы ИИ играть в Pictionary с людьми, учиться интерпретировать изображения и использовать базовые рассуждения на основе здравого смысла.

В видеоигре в прятки, созданной исследователями, несколько агентов ИИ противостояли друг другу. Результатом стала своего рода гонка вооружений, в которой каждый агент хочет превзойти другого и получить наибольшее количество наградных очков. Новая стратегия, принятая одним агентом, заставит его противника искать новую стратегию для противодействия ему, и наоборот. Игорь Мордатч, исследователь OpenAI, объяснил IEEE Spectrum, что эксперимент демонстрирует, что этого процесса проб и ошибок между агентами «достаточно, чтобы агенты сами научились удивительному поведению — это как дети, играющие друг с другом».

Что именно удивило в поведении? У исследователей было четыре основных стратегии, которым, по их мнению, должны были научиться агенты ИИ, и они выучили их довольно быстро, став компетентными в них всего после 25 миллионов смоделированных игр. Действие игры происходило в трехмерной среде, полной пандусов, блоков и стен. Агенты ИИ научились преследовать друг друга, перемещать блоки, чтобы строить форты, в которых они могли прятаться, и перемещать пандусы. Искатели ИИ научились перетаскивать пандусы, чтобы попасть внутрь фортов прячущихся, в то время как прячущиеся научились пытаться забирать пандусы в свои форты, чтобы искатели не могли их использовать.

Однако около отметки в 380 миллионов игр произошло нечто неожиданное. Агенты ИИ научились использовать две стратегии, которых исследователи не ожидали. Агенты-искатели узнали, что, запрыгнув на коробку и наклонив ее к ближайшему форту, они могут прыгнуть в форт и найти прячущегося. Исследователи даже не представляли, что такое возможно в рамках физики игровой среды. Прячущиеся научились справляться с этой проблемой, перетаскивая ящики на место в своем форте.

Хотя неожиданное поведение агентов, обученных алгоритмам обучения с подкреплением, в данном случае безвредно, оно вызывает некоторые потенциальные опасения по поводу того, как обучение с подкреплением применяется в других ситуациях. Член исследовательской группы OpenAI Боуэн Бейкер объяснил IEEE Spectrum, что такое неожиданное поведение может быть потенциально опасным. В конце концов, что, если роботы начнут вести себя неожиданным образом?

«Создать такую ​​среду сложно, — объяснил Бейкер. «Агенты будут придумывать такое неожиданное поведение, что станет проблемой безопасности в будущем, когда вы поместите их в более сложные условия».

Однако Бейкер также объяснил, что стратегии подкрепления могут привести к инновационным решениям текущих проблем. Системы, обученные с помощью обучения с подкреплением, могут решать широкий спектр проблем с решениями, которые мы даже не можем себе представить.

Блогер и программист со специализацией в Машинное обучение и Глубокое обучение темы. Дэниел надеется помочь другим использовать возможности ИИ на благо общества.