заглушки POKELLMON: агент паритету для покемонів з LLM - Unite.AI
Зв'язатися з нами

Штучний Інтелект

POKELLMON: агент з людським рівнем для битв покемонів з LLM

mm

опублікований

 on

POKELLMON: агент з людським рівнем для битв покемонів з LLM

Великі мовні моделі та Generative AI продемонстрували безпрецедентний успіх у широкому спектрі завдань обробки природної мови. Після завоювання сфери НЛП наступним завданням для дослідників GenAI та LLM є дослідження того, як великі мовні моделі можуть діяти автономно в реальному світі з розширеним розривом між поколіннями від тексту до дії, таким чином представляючи важливу парадигму в пошуку загального штучного інтелекту. . Онлайн-ігри вважаються підходящою основою тестування для розробки агентів із втіленою моделлю великої мови, які взаємодіють із візуальним середовищем так, як це робила б людина. 

Наприклад, у популярній онлайн-грі-симуляторі Minecraft можна залучати агентів, які приймають рішення, щоб допомагати гравцям досліджувати світ, а також розвивати навички створення інструментів і вирішення завдань. Ще один приклад взаємодії LLM-агентів із візуальним середовищем можна побачити в іншій онлайн-грі The Sims, де агенти продемонстрували надзвичайний успіх у соціальних взаємодіях і демонструють поведінку, схожу на людей. Проте, порівняно з існуючими іграми, тактичні бойові ігри можуть виявитися кращим вибором для порівняння здатності великих мовних моделей грати у віртуальні ігри. Основна причина, чому тактичні ігри є кращим тестом, полягає в тому, що швидкість виграшу можна виміряти безпосередньо, а послідовні суперники, включаючи гравців-людей і штучний інтелект, завжди доступні. 

Грунтуючись на тому ж, POKELLMON прагне стати першим у світі втіленим агентом, який досягає продуктивності на рівні людини в тактичних іграх, подібних до тих, що спостерігаються в боях з покемонами. У своїй основі структура POKELLMON включає три основні стратегії.

  1. Навчання підкріплення в контексті, яке миттєво використовує текстовий зворотний зв’язок, отриманий під час битв, для повторного вдосконалення політики. 
  2. Генерація, доповнена знаннями, яка отримує зовнішні знання для протидії галюцинаціям, дозволяючи агенту діяти належним чином і тоді, коли це необхідно. 
  3. Генерація послідовних дій для мінімізації ситуації паніки, коли агент стикається з сильним гравцем і хоче уникнути зустрічі з ним. 

Ця стаття має на меті детально висвітлити фреймворк POKELLMON, і ми досліджуємо механізм, методологію, архітектуру фреймворку разом із його порівнянням із сучасними фреймворками. Ми також поговоримо про те, як фреймворк POKELLMON демонструє дивовижні людські бойові стратегії та здатність своєчасно приймати рішення, досягаючи поважного показника виграшу майже в 50%. Тож почнемо.

POKELLMON: Агент із людського паритету з LLM для битв з покемонами

Зростання можливостей і ефективності великих мовних моделей і фреймворків генеративного штучного інтелекту за останні кілька років було просто дивовижним, особливо щодо завдань NLP. Нещодавно розробники та дослідники штучного інтелекту працювали над тим, як зробити Generative AI та LLM більш помітними в сценаріях реального світу, маючи можливість діяти автономно у фізичному світі. Щоб досягти такої автономної продуктивності у фізичних і реальних ситуаціях, дослідники та розробники вважають ігри відповідним випробувальним майданчиком для розробки агентів на базі LLM із здатністю взаємодіяти з віртуальним середовищем у спосіб, який нагадує поведінку людини. 

Раніше розробники намагалися розробити агентів на основі LLM у віртуальних іграх-симуляторах, таких як Minecraft і Sims, хоча вважається, що тактичні ігри, такі як Pokemon, можуть бути кращим вибором для розробки цих агентів. Битви з покемонами дозволяють розробникам оцінити здатність тренера битися у відомих іграх про покемонів і пропонують ряд переваг перед іншими тактичними іграми. Оскільки простори дій і станів є дискретними, їх можна перевести в текст без будь-яких втрат. Наступний малюнок ілюструє типову битву з покемонами, де гравця просять створити дію, яку потрібно виконати на кожному ході, враховуючи поточний стан покемонів з кожної сторони. Користувачі мають можливість вибирати з п’яти різних покемонів, і всього в просторі дії є чотири ходи. Крім того, гра допомагає зменшити навантаження на час і вартість висновків для LLM, оскільки покроковий формат усуває вимогу до інтенсивного ігрового процесу. У результаті результативність залежить насамперед від здатності міркувати велика модель мови. Нарешті, хоча бойові ігри з покемонами здаються простими, насправді все дещо складніше та надзвичайно стратегічне. Досвідчений гравець не вибирає покемона для бою випадковим чином, а бере до уваги різні фактори, включаючи тип, статистику, здібності, види, предмети, рухи покемонів як на полі бою, так і поза ним. Крім того, у випадковій битві покемони вибираються випадковим чином із групи з понад тисячі персонажів, кожен зі своїм власним набором окремих персонажів із здатністю міркувати та знаннями про покемонів. 

POKELLMON : Методологія та архітектура

Загальна структура та архітектура фреймворку POKELLMON проілюстрована на наступному зображенні. 

Під час кожного ходу структура POKELLMON використовує попередні дії та відповідний текстовий зворотний зв’язок, щоб ітераційно вдосконалювати політику разом із доповненням інформації про поточний стан зовнішніми знаннями, як-от ефекти здібностей/переміщень або співвідношення переваг/слабкостей. Для інформації, наданої як вхідні дані, структура POKELLMON генерує кілька дій незалежно, а потім вибирає найбільш послідовні з них як кінцевий результат. 

Навчання з підкріпленням у контексті

Людські гравці та спортсмени часто приймають рішення не лише на основі поточного стану, але вони також розмірковують про зворотний зв’язок від попередніх дій, а також досвід інших гравців. Можна з упевненістю сказати, що позитивний відгук допомагає гравцеві вчитися на своїх помилках і утримує його від повторення тієї ж помилки знову і знову. Без відповідного зворотного зв’язку агенти POKELLMON можуть виконувати ту саму дію помилки, як показано на наступному малюнку. 

Як можна помітити, ігровий агент використовує рух на основі води проти персонажа покемона, який має здатність «Суха шкіра», що дозволяє йому звести нанівець шкоду від атак на основі води. Гра намагається попередити користувача, висвітлюючи на екрані повідомлення «Immune», яке може спонукати гравця-людину переглянути свої дії та змінити їх, навіть не знаючи про «Dry Skin». Однак це не включено в опис стану для агента, в результаті чого агент повторює ту саму помилку. 

Щоб гарантувати, що агент POKELLMON вчиться на своїх попередніх помилках, структура реалізує підхід In-Context Reinforcement Learning. Навчання з підкріпленням є популярним підходом у машинному навчанні, і воно допомагає розробникам у вдосконаленні політики, оскільки вимагає числових винагород для оцінки дій. Оскільки великі мовні моделі мати здатність інтерпретувати та розуміти мову, текстові описи з’явилися як нова форма винагороди для LLM. Включаючи текстові відгуки від попередніх дій, агент POKELLMON може ітеративно та миттєво вдосконалювати свою політику, а саме навчання підкріплення в контексті. Структура POKELLMON розробляє чотири типи зворотного зв’язку,

  1. Фактична шкода, заподіяна ходом атаки на основі різниці в здоров’ї протягом двох послідовних ходів. 
  2. Ефективність атакуючих ходів. Відгуки вказують на ефективність атаки з точки зору відсутності ефекту або імунітету, неефективності чи надефективності через ефекти здібностей/рухів або перевагу типу. 
  3. Черговість виконання ходу. Оскільки точні статистичні дані для протилежного персонажа Покемона недоступні, зворотний зв’язок щодо порядку пріоритету дає приблизну оцінку швидкості. 
  4. Фактичний вплив виконаних ходів на суперника. І ходи атаки, і статус можуть призвести до таких результатів, як відновлення здоров’я, підвищення характеристик або дебафів, спричинити такі стани, як заморожування, опіки чи отрута. 

Крім того, використання підходу In-Context Reinforcement Learning призводить до значного підвищення продуктивності, як показано на наступному малюнку. 

Порівняно з початковою продуктивністю на GPT-4, коефіцієнт виграшу зріс майже на 10%, а також майже на 13% підвищення результатів у бою. Крім того, як показано на наступному малюнку, агент починає аналізувати та змінювати свою дію, якщо ходи, виконані в попередніх рухах, не відповідають очікуванням. 

Генерація з доповненням до знань або KAG

Незважаючи на те, що впровадження In-Context Reinforcement Learning певною мірою допомагає при галюцинаціях, воно все одно може призвести до фатальних наслідків до того, як агент отримає зворотний зв’язок. Наприклад, якщо агент вирішить битися проти покемона вогняного типу з покемоном трав’яного типу, перший, ймовірно, переможе за один хід. Щоб ще більше зменшити галюцинації та покращити здатність агента приймати рішення, структура POKELLMON реалізує доповнене знаннями генерацію або підхід KAG, техніку, яка використовує зовнішні знання для збільшити покоління

Тепер, коли модель генерує 4 типи зворотного зв’язку, про які йшлося вище, вона коментує рухи покемонів та інформацію, що дозволяє агенту самостійно зробити висновок про співвідношення переваг типу. У спробі зменшити галюцинації, що містяться в міркуваннях, структура POKELLMON чітко коментує перевагу типу та слабкість покемона-супротивника, а також покемона агента з відповідними описами. Крім того, складно запам’ятати рухи та здібності з різними ефектами покемонів, особливо тому, що їх багато. Наступна таблиця демонструє результати генерації доповнених знань. Варто зазначити, що завдяки застосуванню підходу доповненої генерації знань фреймворк POKELLMON здатний підвищити показник виграшу приблизно на 20% з існуючих 36% до 55%. 

Крім того, розробники помітили, що коли агент отримав зовнішні знання про покемонів, він почав використовувати спеціальні рухи в потрібний час, як показано на наступному зображенні. 

Генерація послідовних дій

Існуючі моделі демонструють, що впровадження підходів підказки та аргументації може підвищити здатність LLM-ів вирішувати складні завдання. Замість того, щоб генерувати одноразову дію, структура POKELLMON оцінює існуючі стратегії підказок, включаючи CoT або Chain of Thought, ToT або Tree of Thought і Self Consistency. Для Chain of Thought агент спочатку генерує думку, яка аналізує поточний сценарій бою, і виводить дію, зумовлену думкою. Для самоузгодженості агент генерує три дії та вибирає результат, який отримав максимальну кількість голосів. Нарешті, для підходу «Дерево думок» фреймворк генерує три дії, як і в підході самоузгодженості, але вибирає ту, яку вважає найкращою, після їх самостійної оцінки. У наведеній нижче таблиці підсумовано ефективність підказок. 

Існує лише одна дія для кожного ходу, а це означає, що навіть якщо агент вирішить змінитися, а супротивник вирішить атакувати, покемон, який перемикається, отримає пошкодження. Зазвичай агент вирішує змінити тип, оскільки він хоче змінити типову перевагу на покемона, що не знаходиться в бою, і, таким чином, покемон, який перемикається, може витримати пошкодження, оскільки він був типово стійким до рухів протилежного покемона. Однак, як і вище, для агента з міркуваннями CoT, навіть якщо потужний протиборчий покемон змушує різні ротації, він діє несумісно з місією, тому що він може захотіти перемикатися не на покемона, а на кількох покемонів і назад, що ми називаємо панічне перемикання. Панічне перемикання усуває шанси зробити ходи, а отже, і поразки. 

POKELLMON: результати та експерименти

Перш ніж обговорювати результати, нам важливо зрозуміти бойове середовище. На початку ходу середовище отримує повідомлення із запитом на дію від сервера та відповідає на це повідомлення в кінці, яке також містить результат виконання з останнього ходу. 

  1. Спочатку аналізує повідомлення та оновлює локальні змінні стану, 2. потім перетворює змінні стану в текст. Текстовий опис складається з чотирьох частин: 1. Інформація про власну команду, яка містить атрибути покемонів у полі та поза ним (не використовуються).
  2. Інформація про команду суперника, яка містить атрибути покемонів суперника на полі та поза ним (деяка інформація невідома).
  3. Інформація про поле бою, яка включає погоду, небезпеки входу та місцевість.
  4. Історична інформація журналу ходу, яка містить попередні дії обох покемонів і зберігається в черзі журналу. LLM приймають трансльований стан як вхідні та вихідні дії для наступного кроку. Потім дія надсилається на сервер і виконується одночасно з дією, яку виконує людина.

Битва проти гравців-людей

У наступній таблиці показано продуктивність агента POKELLMON проти гравців-людей. 

Як можна помітити, агент POKELLMON забезпечує продуктивність, порівнянну з гравцями зі сходів, які мають вищий коефіцієнт виграшу порівняно з запрошеним гравцем, а також мають великий бойовий досвід. 

Аналіз бойових навичок

Фреймворк POKELLMON рідко помиляється при виборі ефективного ходу і перемикається на іншого підходящого покемона завдяки стратегії Knowledge Augmented Generation. 

Як показано у наведеному вище прикладі, агент використовує лише одного покемона, щоб перемогти всю команду супротивника, оскільки він може вибирати різні рухи атаки, найбільш ефективні для опонента в цій ситуації. Крім того, структура POKELLMON також демонструє людську стратегію виснаження. Деякі покемони мають «Токсичний» хід, який може завдати додаткової шкоди за кожен хід, тоді як хід «Відновлення» дозволяє відновити HP. Скориставшись тим же, агент спочатку отруює покемона-супротивника і використовує рух «Відновлення», щоб запобігти непритомності. 

Заключні думки

У цій статті ми говорили про POKELLMON, підхід, який дозволяє великим мовним моделям автономно грати в битви з покемонами проти людей. POKELLMON прагне стати першим у світі втіленим агентом, який досягає продуктивності на рівні людини в тактичних іграх, подібних до тих, що спостерігаються в боях з покемонами. Фреймворк POKELLMON представляє три ключові стратегії: In-Context Reinforcement Learning, який використовує текстовий зворотний зв’язок як «нагороду» для ітеративного вдосконалення політики генерації дій без навчання, Knowledge-Augmented Generation, що отримує зовнішні знання для боротьби з галюцинаціями та забезпечує дію агента. своєчасно й належним чином, а також послідовне генерування дій, яке запобігає проблемі перемикання паніки при зустрічі з потужними супротивниками. 

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.