заглушки POKELLMON: агент человеческого паритета для битв покемонов с LLM - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

POKELLMON: агент человеческого паритета для битв покемонов с LLM

mm

опубликованный

 on

POKELLMON: агент человеческого паритета для битв покемонов с LLM

Большие языковые модели и генеративный искусственный интеллект продемонстрировали беспрецедентный успех в широком спектре задач обработки естественного языка. После завоевания области НЛП следующей задачей для исследователей GenAI и LLM является изучение того, как большие языковые модели могут действовать автономно в реальном мире с расширенным разрывом между поколениями от текста до действия, что представляет собой важную парадигму в поисках общего искусственного интеллекта. . Онлайн-игры считаются подходящей тестовой основой для разработки агентов, воплощенных в большой языковой модели, которые взаимодействуют с визуальной средой так, как это делал бы человек. 

Например, в популярной онлайн-игре-симуляторе Minecraft агенты принятия решений могут использоваться для помощи игрокам в исследовании мира, а также в развитии навыков изготовления инструментов и решения задач. Другой пример взаимодействия агентов LLM с визуальной средой можно увидеть в другой онлайн-игре The Sims, где агенты продемонстрировали выдающиеся успехи в социальных взаимодействиях и демонстрируют поведение, напоминающее человеческое. Однако по сравнению с существующими играми тактические боевые игры могут оказаться лучшим выбором для оценки способности больших языковых моделей играть в виртуальные игры. Основная причина, по которой тактические игры являются лучшим эталоном, заключается в том, что процент побед можно измерить напрямую, а постоянные противники, включая игроков-людей и ИИ, всегда доступны. 

Опираясь на то же самое, POKELLMON стремится стать первым в мире воплощенным агентом, который достигает человеческого уровня в тактических играх, подобно тому, который наблюдался в битвах покемонов. По своей сути структура POKELLMON включает в себя три основные стратегии.

  1. Обучение с подкреплением в контексте, которое мгновенно использует текстовую обратную связь, полученную в ходе сражений, для итеративного уточнения политики. 
  2. Генерация, дополненная знаниями, которая извлекает внешние знания для противодействия галлюцинациям, позволяя агенту действовать правильно и тогда, когда это необходимо. 
  3. Последовательная генерация действий для минимизации ситуации панического переключения, когда агент сталкивается с сильным игроком и хочет избежать встречи с ним. 

Целью этой статьи является более глубокое освещение фреймворка POKELLMON, и мы исследуем механизм, методологию, архитектуру фреймворка, а также его сравнение с современными фреймворками. Мы также поговорим о том, как платформа POKELLMON демонстрирует замечательные боевые стратегии, подобные человеческим, и способность своевременно принимать решения, достигая приличного процента побед почти 50%. Итак, давайте начнем.

POKELLMON: Агент человеческого паритета с LLM для битв покемонов

Рост возможностей и эффективности моделей большого языка и структур генеративного искусственного интеллекта за последние несколько лет был просто чудесным, особенно в задачах НЛП. В последнее время разработчики и исследователи ИИ работают над тем, как сделать генеративный ИИ и LLM более заметными в реальных сценариях с возможностью действовать автономно в физическом мире. Чтобы добиться такой автономной работы в физических и реальных ситуациях, исследователи и разработчики рассматривают игры как подходящую испытательную площадку для разработки агентов, воплощенных в LLM, способных взаимодействовать с виртуальной средой способом, напоминающим человеческое поведение. 

Ранее разработчики пытались разработать агентов, воплощенных в LLM, для виртуальных игр-симуляторов, таких как Minecraft и Sims, хотя считается, что тактические игры, такие как Pokemon, могут быть лучшим выбором для разработки этих агентов. Pokemon Battles позволяет разработчикам оценить способности тренера сражаться в известных играх про покемонов и дает ряд преимуществ перед другими тактическими играми. Поскольку пространства действий и состояний дискретны, их можно без каких-либо потерь перевести в текст. На следующем рисунке показана типичная битва покемонов, в которой игрока просят сгенерировать действие для выполнения на каждом ходу, учитывая текущее состояние покемонов с каждой стороны. Пользователи имеют возможность выбирать из пяти разных покемонов, а всего в пространстве действий есть четыре хода. Кроме того, игра помогает снизить нагрузку на время вывода и затраты на выводы для LLM, поскольку пошаговый формат устраняет необходимость в интенсивном игровом процессе. В результате результативность зависит в первую очередь от способности рассуждать. большая языковая модель. Наконец, хотя игры с битвами покемонов кажутся простыми, на самом деле все немного сложнее и очень стратегически. Опытный игрок не выбирает покемона для битвы случайным образом, а учитывает различные факторы, включая тип, характеристики, способности, виды, предметы, движения покемонов как на поле боя, так и за его пределами. Кроме того, в случайной битве покемоны выбираются случайным образом из более чем тысячи персонажей, каждый из которых имеет свой собственный набор уникальных персонажей, обладающих способностями к рассуждению и знаниями покемонов. 

ПОКЕЛМОН: Методология и архитектура

Общая структура и архитектура платформы POKELLMON показаны на следующем изображении. 

Во время каждого хода платформа POKELLMON использует предыдущие действия и соответствующую текстовую обратную связь для итеративного уточнения политики, а также дополняет информацию о текущем состоянии внешними знаниями, такими как эффекты способности/движения или отношения преимущества/слабости. Для информации, подаваемой в качестве входных данных, платформа POKELLMON независимо генерирует несколько действий, а затем выбирает наиболее последовательные из них в качестве окончательного результата. 

Обучение с подкреплением в контексте

Игроки и спортсмены-люди часто принимают решения не только на основе текущего состояния, но также учитывают обратную связь от предыдущих действий, а также опыт других игроков. Можно с уверенностью сказать, что положительная обратная связь — это то, что помогает игроку учиться на своих ошибках и удерживает его от повторения одной и той же ошибки снова и снова. Без надлежащей обратной связи агенты POKELLMON могут придерживаться одного и того же действия при ошибке, как показано на следующем рисунке. 

Как можно заметить, внутриигровой агент использует атаку на основе воды против персонажа-покемона, обладающего способностью «Сухая кожа», что позволяет ему свести на нет урон от атак на основе воды. Игра пытается предупредить пользователя, мигая на экране сообщением «Иммунитет», которое может побудить игрока-человека пересмотреть свои действия и изменить их, даже не зная о «Сухой коже». Однако оно не включено в описание состояния агента, в результате чего агент снова совершает ту же ошибку. 

Чтобы гарантировать, что агент POKELLMON учится на своих предыдущих ошибках, в платформе реализован подход обучения с подкреплением в контексте. Обучение с подкреплением — популярный подход в машинном обучении, который помогает разработчикам в политике уточнения, поскольку для оценки действий требуется числовое вознаграждение. С большие языковые модели обладают способностью интерпретировать и понимать язык, текстовые описания стали новой формой вознаграждения для студентов LLM. Включив текстовую обратную связь о предыдущих действиях, агент POKELLMON может итеративно и мгновенно уточнять свою политику, а именно обучение с подкреплением в контексте. Платформа POKELLMON развивает четыре типа обратной связи:

  1. Фактический урон, нанесенный атакой, определяется на основе разницы в HP за два последовательных хода. 
  2. Эффективность атакующих ходов. Обратная связь указывает на эффективность атаки с точки зрения отсутствия эффекта или иммунитета, неэффективности или сверхэффективности из-за эффектов способности/движения или преимущества типа. 
  3. Приоритетный порядок выполнения хода. Поскольку точные характеристики противостоящего персонажа-покемона недоступны, обратная связь в порядке приоритета дает приблизительную оценку скорости. 
  4. Фактический эффект выполненных ходов на противника. И атакующие движения, и статус могут привести к таким результатам, как восстановление HP, повышение характеристик или дебаффы, а также вызвать такие состояния, как замораживание, ожоги или отравление. 

Кроме того, использование подхода обучения с подкреплением в контексте приводит к значительному повышению производительности, как показано на следующем рисунке. 

По сравнению с исходной производительностью на GPT-4 процент побед возрастает почти на 10%, а боевой счет увеличивается почти на 13%. Более того, как показано на следующем рисунке, агент начинает анализировать и менять свои действия, если ходы, выполненные в предыдущих ходах, не смогли соответствовать ожиданиям. 

Генерация, дополненная знаниями или KAG

Хотя внедрение контекстного обучения с подкреплением в некоторой степени помогает при галлюцинациях, оно все равно может привести к фатальным последствиям до того, как агент получит обратную связь. Например, если агент решит сразиться с покемоном огненного типа с покемоном травяного типа, первый, скорее всего, победит, вероятно, за один ход. Чтобы еще больше уменьшить галлюцинации и улучшить способность агента принимать решения, структура POKELLMON реализует метод генерации дополненных знаний или подход KAG, метод, который использует внешние знания для Генерация дополнений

Теперь, когда модель генерирует 4 типа обратной связи, описанные выше, она аннотирует движения покемонов и информацию, позволяющую агенту самостоятельно сделать вывод о соотношении преимуществ типа. В попытке еще больше уменьшить галлюцинации, содержащиеся в рассуждениях, структура POKELLMON явно аннотирует преимущество типа и слабость противостоящего покемона, а также покемона агента с адекватными описаниями. Кроме того, сложно запомнить движения и способности покемонов с различными эффектами, тем более что их много. В следующей таблице показаны результаты генерации дополненных знаний. Стоит отметить, что благодаря реализации подхода дополненной генерации знаний фреймворк POKELLMON способен увеличить процент выигрышей примерно на 20% с существующих 36% до 55%. 

Кроме того, разработчики заметили, что когда агенту были предоставлены внешние знания о покемонах, он начал использовать специальные приемы в нужный момент, как показано на следующем изображении. 

Последовательное создание действий

Существующие модели демонстрируют, что внедрение подходов подсказки и рассуждения может улучшить способность LLM решать сложные задачи. Вместо того, чтобы генерировать одноразовое действие, платформа POKELLMON оценивает существующие стратегии подсказок, включая CoT или цепочку мыслей, ToT или дерево мысли и самосогласованность. В «Цепочке мыслей» агент сначала генерирует мысль, которая анализирует текущий сценарий боя, и выводит действие, обусловленное этой мыслью. Для обеспечения самосогласованности агент генерирует в три раза больше действий и выбирает результат, получивший максимальное количество голосов. Наконец, для подхода «Древо мысли» платформа генерирует три действия, как и в подходе самосогласованности, но выбирает то, которое она считает лучшим, после самостоятельной оценки их всех. В следующей таблице обобщены характеристики подходов к подсказкам. 

На каждый ход выполняется только одно действие, а это означает, что даже если агент решит переключиться, а противник решит атаковать, включивший покемон понесет урон. Обычно агент решает переключиться, потому что он хочет переключить покемона, находящегося вне боя, с преимуществом по типу, и, таким образом, включающий покемон может выдержать урон, поскольку он устойчив к типу движений противостоящего покемона. Однако, как указано выше, для агента с рассуждениями ЦТ, даже если мощный противостоящий покемон заставляет различные ротации, он действует несовместимо с миссией, потому что он может захотеть переключиться не на покемона, а на нескольких покемонов и обратно, что мы называем паническое переключение. Паническое переключение исключает возможность сделать ход и, следовательно, приводит к поражению. 

ПОКЕЛМОН: Результаты и эксперименты

Прежде чем обсуждать результаты, нам важно понять обстановку боя. В начале хода среда получает от сервера сообщение-запрос действия и в конце ответит на это сообщение, которое также содержит результат выполнения последнего хода. 

  1. Сначала анализируется сообщение и обновляются локальные переменные состояния, 2. затем преобразуются переменные состояния в текст. Текстовое описание состоит в основном из четырех частей: 1. Информация о собственной команде, которая содержит атрибуты покемонов на поле и за его пределами (не используется).
  2. Информация о команде противника, которая содержит атрибуты покемонов противника на поле и за его пределами (некоторая информация неизвестна).
  3. Информация о поле боя, включая погоду, опасности входа и местность.
  4. Историческая информация журнала ходов, которая содержит предыдущие действия обоих покемонов и хранится в очереди журналов. LLM принимают преобразованное состояние в качестве действий ввода и вывода для следующего шага. Затем действие отправляется на сервер и выполняется одновременно с действием, выполняемым человеком.

Битва против игроков-людей

Следующая таблица иллюстрирует эффективность агента POKELLMON против игроков-людей. 

Как можно заметить, агент POKELLMON обеспечивает производительность, сравнимую с игроками рейтингового уровня, которые имеют более высокий процент побед по сравнению с приглашенным игроком, а также имеют большой боевой опыт. 

Анализ боевых навыков

Система POKELLMON редко ошибается при выборе эффективного хода и переключается на другого подходящего покемона благодаря стратегии генерации дополненных знаний. 

Как показано в приведенном выше примере, агент использует только одного покемона, чтобы победить всю команду противника, поскольку он может выбирать разные атакующие приемы, те, которые наиболее эффективны для противника в данной ситуации. Более того, структура POKELLMON также демонстрирует человеческую стратегию истощения. У некоторых покемонов есть «Токсичный» прием, который может наносить дополнительный урон на каждом ходу, а прием «Восстановление» позволяет ему восстановить HP. Воспользовавшись этим, агент сначала отравляет противостоящего покемона и использует прием «Восстановление», чтобы не потерять сознание. 

Заключение

В этой статье мы говорили о POKELLMON, подходе, который позволяет большим языковым моделям автономно играть в битвы покемонов против людей. POKELLMON стремится стать первым в мире воплощенным агентом, который достигает человеческого уровня в тактических играх, подобно тому, который наблюдался в битвах покемонов. Платформа POKELLMON представляет три ключевые стратегии: обучение с подкреплением в контексте, которое использует текстовую обратную связь в качестве «награды» для итеративного уточнения политики генерации действий без обучения, генерацию с дополненными знаниями, которая извлекает внешние знания для борьбы с галлюцинациями и обеспечивает действия агента. своевременно и правильно, а также генерацию последовательных действий, которая предотвращает проблему паники при столкновении с сильными противниками. 

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.