peň POKELLMON: Agent ľudskej parity pre bitky Pokémonov s LLM - Unite.AI
Spojte sa s nami

Umelá inteligencia

POKELLMON: Agent ľudskej parity pre bitky Pokémonov s LLM

mm

uverejnené

 on

POKELLMON: Agent ľudskej parity pre bitky Pokémonov s LLM

Veľké jazykové modely a generatívna AI preukázali bezprecedentný úspech v širokej škále úloh spracovania prirodzeného jazyka. Po dobytí oblasti NLP je ďalšou výzvou pre výskumníkov GenAI a LLM preskúmať, ako môžu veľké jazykové modely fungovať autonómne v reálnom svete s rozšírenou generačnou medzerou od textu k akcii, čo predstavuje významnú paradigmu v úsilí o umelú všeobecnú inteligenciu. . Online hry sa považujú za vhodný testovací základ na vývoj veľkých jazykových modelov stelesnených agentov, ktorí interagujú s vizuálnym prostredím spôsobom, ktorý by robil človek. 

Napríklad v populárnej online simulačnej hre Minecraft môžu byť agenti na rozhodovanie zamestnaní, aby pomohli hráčom pri objavovaní sveta spolu s rozvojom zručností na výrobu nástrojov a riešenie úloh. Ďalší príklad interakcie agentov LLM s vizuálnym prostredím možno zažiť v inej online hre The Sims, kde agenti preukázali pozoruhodný úspech v sociálnych interakciách a prejavujú správanie, ktoré sa podobá ľuďom. V porovnaní s existujúcimi hrami sa však taktické bojové hry môžu ukázať ako lepšia voľba na porovnanie schopnosti veľkých jazykových modelov hrať virtuálne hry. Hlavným dôvodom, prečo sú taktické hry lepším benchmarkom, je to, že miera výhry sa dá merať priamo a vždy sú k dispozícii konzistentní súperi vrátane ľudských hráčov a AI. 

Stavajúc na tom istom, POKELLMON, má za cieľ byť prvým stelesneným agentom na svete, ktorý dosahuje výkon na ľudskej úrovni v taktických hrách, podobný tomu, ktorý bol svedkom v bitkách Pokémonov. Vo svojom jadre rámec POKELLMON zahŕňa tri hlavné stratégie.

  1. In-kontextové posilňovanie učenia, ktoré okamžite využíva textovú spätnú väzbu odvodenú z bitiek na iteratívne spresnenie politiky. 
  2. Generácia rozšírená o znalosti, ktorá získava externé znalosti na boj proti halucináciám a umožňuje agentovi konať správne a vtedy, keď je to potrebné. 
  3. Konzistentné generovanie akcií na minimalizáciu situácie paniky, keď agent narazí na silného hráča a chce sa mu vyhnúť. 

Tento článok si kladie za cieľ pokryť rámec POKELLMON do hĺbky a skúmame mechanizmus, metodológiu, architektúru rámca spolu s jeho porovnaním s najnovšími rámcami. Povieme si tiež o tom, ako framework POKELLMON demonštruje pozoruhodné bojové stratégie podobné ľuďom a schopnosti rozhodovania v čase, pričom dosahuje úctyhodnú mieru výhier takmer 50%. Tak poďme na to.

POKELLMON: Agent ľudskej parity s LLM pre bitky Pokémonov

Nárast schopností a efektívnosti veľkých jazykových modelov a generatívnych rámcov AI za posledných niekoľko rokov bol len úžasný, najmä pri úlohách NLP. V poslednej dobe vývojári a výskumníci AI pracujú na spôsoboch, ako urobiť generatívnu AI a LLM výraznejšie v scenároch reálneho sveta so schopnosťou konať autonómne vo fyzickom svete. Na dosiahnutie tohto autonómneho výkonu vo fyzických situáciách a situáciách v reálnom svete považujú výskumníci a vývojári hry za vhodné testovacie prostredie na vývoj agentov stelesnených LLM so schopnosťou interagovať s virtuálnym prostredím spôsobom, ktorý sa podobá ľudskému správaniu. 

Predtým sa vývojári pokúšali vyvinúť agentov stelesnených LLM vo virtuálnych simulačných hrách, ako sú Minecraft a Sims, hoci sa verí, že taktické hry ako Pokemon by mohli byť lepšou voľbou na vývoj týchto agentov. Pokémon bitky umožňujú vývojárom zhodnotiť schopnosť trénera bojovať v známych Pokémonoch a ponúkajú niekoľko výhod oproti iným taktickým hrám. Keďže akčné a stavové priestory sú diskrétne, môžu byť preložené do textu bez straty. Nasledujúci obrázok ilustruje typickú bitku Pokémonov, kde je hráč požiadaný, aby vygeneroval akciu, ktorú má vykonať v každom kole vzhľadom na aktuálny stav Pokémona z každej strany. Používatelia majú možnosť vybrať si z piatich rôznych Pokémonov a celkovo sú štyri pohyby v akčnom priestore. Okrem toho hra pomáha pri zmierňovaní stresu z času a nákladov na odvodenie pre LLM, pretože ťahový formát eliminuje požiadavku na intenzívne hranie. Výsledkom je, že výkon závisí predovšetkým od rozumovej schopnosti veľký jazykový model. Nakoniec, hoci sa bojové hry Pokémon zdajú byť jednoduché, veci sú v skutočnosti o niečo zložitejšie a vysoko strategické. Skúsený hráč si pokémona do boja nevyberá náhodne, ale berie do úvahy rôzne faktory vrátane typu, štatistík, schopností, druhov, predmetov, pohybov pokémonov na bojisku aj mimo neho. Okrem toho sa v náhodnej bitke pokémoni vyberajú náhodne zo skupiny viac ako tisíc postáv, z ktorých každá má svoj vlastný súbor odlišných postáv so schopnosťou uvažovania a znalosťami Pokémonov. 

POKELLMON : Metodológia a architektúra

Celkový rámec a architektúra frameworku POKELLMON je znázornená na nasledujúcom obrázku. 

Počas každého kola používa rámec POKELLMON predchádzajúce akcie a zodpovedajúcu spätnú väzbu založenú na texte na opakované spresnenie politiky spolu s rozšírením informácií o aktuálnom stave o externé znalosti, ako sú schopnosť/efekt pohybu alebo vzťah výhoda/slabosť. Pre informácie zadané ako vstup, framework POKELLMON generuje viacero akcií nezávisle a potom vyberie tie najkonzistentnejšie ako konečný výstup. 

In-Context Upevňovacie vzdelávanie

Ľudskí hráči a športovci sa často rozhodujú nielen na základe aktuálneho stavu, ale reflektujú aj na spätnú väzbu z predchádzajúcich akcií ako aj na skúsenosti iných hráčov. Dalo by sa s istotou povedať, že pozitívna spätná väzba je to, čo pomáha hráčovi poučiť sa zo svojich chýb a bráni im robiť tú istú chybu znova a znova. Bez náležitej spätnej väzby sa môžu agenti POKELLMON držať pri rovnakej chybovej akcii, ako je znázornené na nasledujúcom obrázku. 

Ako je možné vidieť, agent v hre používa vodný pohyb proti postave Pokémona, ktorá má schopnosť „suchá koža“, čo jej umožňuje anulovať poškodenie pri útokoch na vodnej báze. Hra sa snaží upozorniť používateľa blikaním správy „Immune“ na obrazovke, ktorá môže ľudského hráča vyzvať, aby prehodnotil svoje kroky a zmenil ich, a to aj bez toho, aby vedel o „suchej pokožke“. Nie je však zahrnutá v popise stavu pre agenta, čo vedie k tomu, že agent znova urobí rovnakú chybu. 

Aby sa zabezpečilo, že sa agent POKELLMON poučí zo svojich predchádzajúcich chýb, framework implementuje prístup In-Context Reinforcement Learning. Posilňovacie učenie je populárny prístup v strojovom učení a pomáha vývojárom s politikou zdokonaľovania, pretože vyžaduje číselné odmeny na vyhodnotenie akcií. Od r veľké jazykové modely majú schopnosť interpretovať a porozumieť jazyku, textové popisy sa objavili ako nová forma odmeny pre LLM. Zahrnutím textovej spätnej väzby z predchádzajúcich akcií je agent POKELLMON schopný iteratívne a okamžite vylepšiť svoju politiku, konkrétne In-Context Reinforcement Learning. Rámec POKELLMON rozvíja štyri typy spätnej väzby,

  1. Skutočné poškodenie spôsobené útočným pohybom na základe rozdielu v HP počas dvoch po sebe nasledujúcich ťahov. 
  2. Účinnosť útočných ťahov. Spätná väzba naznačuje účinnosť útoku v zmysle toho, že nemá žiadny účinok alebo je imúnny, neúčinný alebo super účinný kvôli efektom schopnosti/pohybu alebo typovej výhode. 
  3. Prioritné poradie na vykonanie ťahu. Keďže presné štatistiky pre postavu protivníka Pokémona nie sú k dispozícii, spätná väzba poradia priority poskytuje hrubý odhad rýchlosti. 
  4. Skutočný účinok vykonaných ťahov na súpera. Útočné pohyby a stav môžu viesť k výsledkom, ako je obnovenie HP, zvýšenie alebo debuffovanie štatistík, spôsobenie podmienok ako zmrazenie, popáleniny alebo otrava. 

Okrem toho použitie prístupu In-Context Reinforcement Learning vedie k výraznému zvýšeniu výkonnosti, ako je znázornené na nasledujúcom obrázku. 

V porovnaní s pôvodným výkonom na GPT-4 sa miera výhier zvýši o takmer 10% spolu s takmer 13% zvýšením skóre boja. Okrem toho, ako je znázornené na nasledujúcom obrázku, agent začne analyzovať a meniť svoju činnosť, ak ťahy vykonané v predchádzajúcich ťahoch neboli schopné zodpovedať očakávaniam. 

Knowledge-Augmented Generation alebo KAG

Hoci implementácia In-Context Reinforcement Learning do určitej miery pomáha s halucináciami, môže to mať fatálne následky skôr, ako agent dostane spätnú väzbu. Napríklad, ak sa agent rozhodne bojovať proti ohnivému Pokémonovi s Pokémonom trávového typu, ten prvý pravdepodobne vyhrá pravdepodobne v jednom kole. Na ďalšie zníženie halucinácií a zlepšenie rozhodovacej schopnosti agenta implementuje rámec POKELLMON metódu Knowledge-Augmented Generation alebo KAG, techniku, ktorá využíva externé znalosti na rozšírená generácia

Teraz, keď model generuje 4 typy spätnej väzby diskutované vyššie, anotuje pohyby Pokémona a informácie, ktoré agentovi umožňujú samostatne odvodiť vzťah typovej výhody. V snahe znížiť halucinácie obsiahnuté v uvažovaní ďalej rámec POKELLMON explicitne anotuje typovú výhodu a slabosť súperovho Pokémona a agentovho Pokémona s primeranými popismi. Okrem toho je náročné zapamätať si pohyby a schopnosti s odlišnými účinkami Pokémonov, najmä preto, že ich je veľa. Nasledujúca tabuľka ukazuje výsledky generovania rozšírených znalostí. Stojí za zmienku, že implementáciou prístupu Knowledge Augmented Generation je rámec POKELLMON schopný zvýšiť mieru výhry o približne 20 % z existujúcich 36 % na 55 %. 

Okrem toho vývojári zistili, že keď agent dostal externé znalosti o Pokémonoch, začal v správnom čase používať špeciálne pohyby, ako ukazuje nasledujúci obrázok. 

Generovanie konzistentných akcií

Existujúce modely ukazujú, že implementácia prístupov nabádania a uvažovania môže zlepšiť schopnosť LLM riešiť zložité úlohy. Namiesto generovania jednorazovej akcie rámec POKELLMON vyhodnocuje existujúce stratégie nabádania vrátane CoT alebo Chain of Thought, ToT alebo Tree of Thought a Self Consistency. V prípade Chain of Thought agent najprv vygeneruje myšlienku, ktorá analyzuje aktuálny scenár bitky a vytvorí akciu podmienenú myšlienkou. Pre vlastnú konzistenciu agent vygeneruje trikrát akcie a vyberie výstup, ktorý získal maximálny počet hlasov. Nakoniec, pre prístup Tree of Thought, rámec generuje tri akcie rovnako ako v prístupe vlastnej konzistencie, ale vyberie si tú, ktorú považuje za najlepšiu po tom, čo ich všetky vyhodnotí sám. Nasledujúca tabuľka sumarizuje výkonnosť prístupov nabádania. 

Pre každé kolo existuje len jedna akcia, čo znamená, že aj keď sa agent rozhodne prepnúť a súper sa rozhodne zaútočiť, prepínajúci sa Pokémon utrpí poškodenie. Za normálnych okolností sa agent rozhodne pre zmenu, pretože chce typovo výhodnejšie vypnúť bojového Pokémona, a teda zapnutie Pokémona môže utrpieť poškodenie, pretože bol typovo odolný voči pohybom protivníka. Avšak, ako je uvedené vyššie, pre agenta s CoT uvažovaním, aj keď mocný nepriateľský Pokémon núti rôzne rotácie, koná v rozpore s misiou, pretože možno nebude chcieť prepnúť na Pokémona, ale niekoľko Pokémonov a späť, čo nazývame panické prepínanie. Panické prepínanie eliminuje šance na ťahy, a tým aj porážky. 

POKELLMON: Výsledky a experimenty

Predtým, než budeme diskutovať o výsledkoch, je pre nás nevyhnutné porozumieť bojovému prostrediu. Na začiatku kola dostane prostredie zo servera správu s požiadavkou akcie a na konci odpovie na túto správu, ktorá obsahuje aj výsledok vykonania z posledného kola. 

  1. Najprv analyzuje správu a aktualizuje lokálne stavové premenné, 2. potom prevedie stavové premenné do textu. Textový popis má najmä štyri časti: 1. Informácie o vlastnom tíme, ktoré obsahujú atribúty Pokémon v poli a mimo poľa (nepoužité).
  2. Informácie o súperovom tíme, ktoré obsahujú atribúty súperových Pokémonov v poli a mimo ihriska (niektoré informácie nie sú známe).
  3. Informácie o bojisku, ktoré zahŕňajú počasie, vstupné riziká a terén.
  4. Historické informácie o protokole ťahov, ktoré obsahujú predchádzajúce akcie oboch Pokémonov a sú uložené vo fronte protokolov. LLM berú preložený stav ako vstupné a výstupné akcie pre ďalší krok. Akcia sa potom odošle na server a vykoná sa v rovnakom čase ako akcia vykonaná človekom.

Boj proti ľudským hráčom

Nasledujúca tabuľka ilustruje výkon agenta POKELLMON proti ľudským hráčom. 

Ako možno pozorovať, agent POKELLMON podáva výkon porovnateľný s hráčmi v rebríčku, ktorí majú vyššiu mieru výhier v porovnaní s pozvaným hráčom a zároveň majú bohaté skúsenosti s bojom. 

Analýza bojových schopností

Rámec POKELLMON zriedka robí chybu pri výbere efektívneho ťahu a prepne na iného vhodného Pokémona vďaka stratégii Knowledge Augmented Generation. 

Ako je uvedené vo vyššie uvedenom príklade, agent používa iba jedného Pokémona na porazenie celého súperovho tímu, pretože si môže vybrať rôzne útočné ťahy, tie, ktoré sú v danej situácii pre súpera najefektívnejšie. Okrem toho rámec POKELLMON tiež vykazuje stratégiu opotrebovania podobnú ľuďom. Niektorí pokémoni majú „toxický“ pohyb, ktorý môže spôsobiť ďalšie poškodenie v každom kole, zatiaľ čo pohyb „Obnoviť“ mu umožňuje získať späť svoje HP. Využijúc to isté, agent najprv otrávi nepriateľského Pokémona a použije ťah Recover, aby zabránil tomu, aby omdlel. 

Záverečné myšlienky

V tomto článku sme hovorili o POKELLMON, prístupe, ktorý umožňuje veľkým jazykovým modelom hrať bitky Pokémonov proti ľuďom autonómne. POKELLMON si kladie za cieľ byť prvým stelesneným agentom na svete, ktorý dosahuje výkon na ľudskej úrovni v taktických hrách, podobný tomu, ktorý bol svedkom v bitkách Pokémonov. Rámec POKELLMON zavádza tri kľúčové stratégie: In-Context Reinforcement Learning, ktorý využíva textovú spätnú väzbu ako „odmenu“ na iteratívne zdokonaľovanie politiky generovania akcie bez tréningu, Knowledge-Augmented Generation, ktorá získava externé znalosti na boj proti halucináciám a zabezpečuje, aby agent konal včas a správne a generovanie konzistentných akcií, ktoré zabraňuje problémom s panickým prepínaním pri stretnutí so silnými protivníkmi. 

"Povolaním inžinier, srdcom spisovateľ." Kunal je technický spisovateľ s hlbokou láskou a porozumením AI a ML, ktorý sa venuje zjednodušovaniu zložitých konceptov v týchto oblastiach prostredníctvom svojej pútavej a informatívnej dokumentácie.