csonk POKELLMON: Emberpárti ügynök pokémon-csatákhoz LLM-ekkel - Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

POKELLMON: Emberpárti ügynök pokémon-csatákhoz LLM-ekkel

mm

Közzététel:

 on

POKELLMON: Emberpárti ügynök pokémon-csatákhoz LLM-ekkel

A nagy nyelvi modellek és a generatív mesterséges intelligencia példátlan sikert mutattak a természetes nyelvi feldolgozási feladatok széles skálájában. Az NLP terület meghódítása után a GenAI és az LLM kutatói számára a következő kihívás annak feltárása, hogy a nagy nyelvi modellek hogyan tudnak autonóm módon működni a valós világban a szövegtől a cselekvésig terjedő generációs szakadékkal, így jelentős paradigmát képviselve a mesterséges általános intelligencia kutatásában. . Az online játékokat megfelelő tesztalapnak tekintik a nagy nyelvi modellben megtestesült ágensek kifejlesztéséhez, amelyek úgy kölcsönhatásba lépnek a vizuális környezettel, ahogyan azt egy ember tenné. 

Például egy népszerű online szimulációs játékban, a Minecraftban döntéshozó ügynökök is segítik a játékosokat a világ felfedezésében, valamint fejlesztik az eszközök készítéséhez és a feladatok megoldásához szükséges készségeket. Egy másik példa az LLM-ügynökök vizuális környezettel való interakciójára egy másik online játékban, a The Sims-ben tapasztalható, ahol az ügynökök figyelemre méltó sikereket értek el a társadalmi interakciókban, és emberhez hasonló viselkedést tanúsítanak. A meglévő játékokkal összehasonlítva azonban a taktikai harci játékok jobb választásnak bizonyulhatnak a nagy nyelvi modellek virtuális játékokkal való képességének összehasonlítására. Az elsődleges ok, amiért a taktikai játékok jobb mércét jelentenek, az az, hogy a nyerési arány közvetlenül mérhető, és állandó ellenfelek, köztük emberi játékosok és mesterséges intelligencia mindig rendelkezésre állnak. 

Ugyanerre építve a POKELLMON célja, hogy a világ első megtestesült ügynöke legyen, aki emberi szintű teljesítményt ér el a taktikai játékokon, hasonlóan ahhoz, amit a Pokemon-csatákban láthattunk. Lényegében a POKELLMON keretrendszer három fő stratégiát foglal magában.

  1. Kontextuson belüli megerősítő tanulás, amely azonnal felhasználja a csaták során kapott szöveges visszajelzéseket az irányelv iteratív finomításához. 
  2. Tudással kiegészített generáció, amely külső tudást kér le a hallucinációk ellen, lehetővé téve az ügynök számára, hogy megfelelően és akkor tudjon cselekedni, amikor arra szükség van. 
  3. Következetes akciógenerálás a pánikváltási helyzet minimalizálására, amikor az ügynök erős játékossal találkozik, és el akarja kerülni, hogy szembesüljön velük. 

Ennek a cikknek a célja a POKELLMON keretrendszer részletes bemutatása, és feltárjuk a keretrendszer mechanizmusát, módszertanát, architektúráját, valamint összehasonlítását a legkorszerűbb keretrendszerekkel. Szó lesz arról is, hogy a POKELLMON keretrendszer figyelemreméltó emberszerű harci stratégiákat és időbeni döntéshozatali képességeket mutat be, és tekintélyes, közel 50%-os győzelmi arányt ér el. Tehát kezdjük.

POKELLMON: Emberi paritásügynök az LLM-mel a Pokémon-csatákhoz

A Large Language Models és a Generative AI keretrendszerek képességeinek és hatékonyságának növekedése az elmúlt néhány évben csak csodálatos volt, különösen az NLP feladatok terén. A közelmúltban a fejlesztők és az AI-kutatók azon dolgoznak, hogy a generatív mesterséges intelligencia és az LLM-ek a valós világban is kiemelkedőbbé váljanak, és képesek legyenek önállóan cselekedni a fizikai világban. Ennek az autonóm teljesítménynek a fizikai és valós helyzetekben való eléréséhez a kutatók és a fejlesztők a játékokat megfelelő tesztágynak tekintik az LLM-ben megtestesült ágensek fejlesztésére, amelyek képesek az emberi viselkedéshez hasonló módon kölcsönhatásba lépni a virtuális környezettel. 

Korábban a fejlesztők megpróbáltak LLM-t megtestesítő ügynököket fejleszteni olyan virtuális szimulációs játékokon, mint a Minecraft és a Sims, bár úgy gondolják, hogy az olyan taktikai játékok, mint a Pokemon, jobb választás lehet ezen ügynökök fejlesztésére. A Pokemon-csaták lehetővé teszik a fejlesztők számára, hogy értékeljék az edző képességét, hogy jól ismert Pokemon-játékokban harcoljon, és számos előnyt kínál a többi taktikai játékkal szemben. Mivel az akció- és állapotterek diszkrétek, veszteség nélkül lefordítható szöveggé. A következő ábra egy tipikus Pokemon-csatát mutat be, ahol a játékost arra kérik, hogy minden körben hajtson végre egy akciót, figyelembe véve a Pokemon aktuális állapotát mindkét oldalról. A felhasználók öt különböző Pokemon közül választhatnak, és összesen négy lépés van az akcióterületen. Ezenkívül a játék segít enyhíteni a következtetési idő és a következtetési költségek okozta stresszt az LLM-ek számára, mivel a körökre osztott formátum kiküszöböli az intenzív játékmenet követelményét. Ennek eredményeként a teljesítmény elsősorban az érvelési képességétől függ nagy nyelvi modell. Végül, bár a Pokemon-csatajátékok egyszerűnek tűnnek, a valóságban a dolgok egy kicsit összetettebbek és nagyon stratégiaiak. Egy tapasztalt játékos nem véletlenszerűen választ ki egy Pokemont a csatához, hanem különféle tényezőket vesz figyelembe, beleértve a Pokemonok típusát, statisztikáit, képességeit, fajait, tárgyait, mozgásait a csatatéren és azon kívül egyaránt. Ezenkívül egy véletlenszerű csatában a Pokemonokat véletlenszerűen választják ki egy több mint ezer karakterből álló készletből, mindegyik saját karakterkészlettel, érvelési képességgel és Pokemon ismeretekkel. 

POKELLMON: Módszertan és építészet

A POKELLMON keretrendszer általános keretrendszerét és architektúráját a következő kép szemlélteti. 

A POKELLMON keretrendszer minden egyes forduló során a korábbi műveleteket és a hozzá tartozó szöveges visszacsatolást használja fel a házirend iteratív finomításához, valamint az aktuális állapotinformációk külső tudással, például képesség/mozgás effektusokkal vagy előny/gyenge kapcsolattal történő kiegészítésére. A bemenetként megadott információkhoz a POKELLMON keretrendszer több műveletet generál egymástól függetlenül, majd a legkonzisztensebbeket választja ki végső kimenetként. 

Kontextusban megerősítő tanulás

Az emberi játékosok és sportolók gyakran nem csak az aktuális állapot alapján döntenek, hanem reflektálnak a korábbi akciók visszajelzéseire és más játékosok tapasztalataira is. Nyugodtan mondhatjuk, hogy a pozitív visszajelzés az, ami segít a játékosnak tanulni a hibáiból, és megakadályozza, hogy újra és újra elkövesse ugyanazt a hibát. Megfelelő visszacsatolás nélkül a POKELLMON ügynökök ugyanahhoz a hibaművelethez ragaszkodhatnak, amint az a következő ábrán látható. 

Mint látható, a játékon belüli ügynök egy vízalapú mozdulatot alkalmaz egy Pokemon karakter ellen, aki rendelkezik a „Dry Skin” képességgel, lehetővé téve, hogy semmisítse meg a vízalapú támadásokkal szembeni sebzést. A játék megpróbálja figyelmeztetni a felhasználót az „Immune” üzenet felvillantásával a képernyőn, amely arra késztetheti az emberi játékost, hogy gondolja át a tetteit, és változtassa meg azokat, még akkor is, ha nem ismeri a „Száraz bőrt”. Ez azonban nem szerepel az ügynök állapotleírásában, így az ügynök ismét elköveti ugyanazt a hibát. 

Annak biztosítására, hogy a POKELLMON ügynök tanuljon korábbi hibáiból, a keretrendszer az In-Context Reforcement Learning megközelítést alkalmazza. A megerősítő tanulás népszerű megközelítés a gépi tanulásban, és segít a fejlesztőknek a finomítási politikában, mivel számszerű jutalmakat igényel a műveletek értékeléséhez. Mivel nagy nyelvi modellek képesek értelmezni és megérteni a nyelvet, a szövegalapú leírások új jutalomként jelentek meg az LLM-ek számára. Az előző műveletekből származó szöveges visszajelzések felvételével a POKELLMON ügynök iteratívan és azonnal finomítani tudja a szabályzatát, nevezetesen az In-Context Reforcement Learning-et. A POKELLMON keretrendszer négyféle visszacsatolást fejleszt ki,

  1. A támadás által okozott tényleges sebzés a két egymást követő kör HP különbsége alapján. 
  2. A támadási mozdulatok hatékonysága. A visszacsatolás a támadás hatékonyságát jelzi, ha nincs hatása, vagy immunis, hatástalan vagy szuperhatékony a képesség/mozgás effektusok vagy típuselőny miatt. 
  3. A lépés végrehajtásának prioritási sorrendje. Mivel az ellentétes Pokemon karakter pontos statisztikái nem állnak rendelkezésre, a prioritási sorrend visszajelzése hozzávetőleges becslést ad a sebességről. 
  4. A végrehajtott lépések tényleges hatása az ellenfélre. Mind a támadás, mind a státusz olyan eredményeket eredményezhet, mint a HP helyreállítása, a stat boost vagy a debuffok, valamint olyan körülményeket okozhat, mint a fagyás, égési sérülések vagy mérgezés. 

Ezen túlmenően az In-Context Reforcement Learning megközelítés alkalmazása jelentős teljesítménynövekedést eredményez, amint azt a következő ábra mutatja. 

Ha összehasonlítjuk a GPT-4 eredeti teljesítményével, a győzelmi arány közel 10%-kal nő, és a csata pontszáma közel 13%-kal nő. Továbbá, ahogy az alábbi ábrán is látható, az ügynök elkezdi elemezni és megváltoztatni a cselekvését, ha az előző lépésekben végrehajtott lépések nem feleltek meg az elvárásoknak. 

Tudásbővített Generáció vagy KAG

Bár az In-Context Reforcement Learning megvalósítása bizonyos mértékig segít a hallucinációkban, még mindig végzetes következményekkel járhat, mielőtt az ügynök megkapja a visszajelzést. Például, ha az ügynök úgy dönt, hogy egy tűz típusú Pokemon ellen harcol egy fű típusú Pokemonnal, valószínűleg az előbbi nyer egy körben. A hallucinációk további csökkentése és az ügynök döntéshozatali képességének javítása érdekében a POKELLMON keretrendszer a Knowledge-Augmented Generation vagy a KAG megközelítést valósítja meg, egy olyan technikát, amely külső tudást alkalmaz növeli a generációt

Most, amikor a modell létrehozza a fent tárgyalt 4 típusú visszacsatolást, megjegyzésekkel látja el a Pokemon mozdulatokat és információkat, lehetővé téve az ügynök számára, hogy önállóan következtessen a típuselőny kapcsolatára. Az érvelésben rejlő hallucinációk további csökkentése érdekében a POKELLMON keretrendszer megfelelő leírásokkal kifejezetten megjegyzi a szemben álló Pokemon és az ügynök Pokemon típuselőnyét és gyengeségét. Ezenkívül kihívást jelent megjegyezni a Pokemonok eltérő hatású mozdulatait és képességeit, különösen azért, mert rengeteg van belőlük. Az alábbi táblázat a tudásbővített generálás eredményeit mutatja be. Érdemes megjegyezni, hogy a Knowledge Augmented Generation megközelítés megvalósításával a POKELLMON keretrendszer a jelenlegi 20%-ról 36%-ra képes körülbelül 55%-kal növelni a nyerési arányt. 

Továbbá a fejlesztők megfigyelték, hogy amikor az ügynököt külső tudással látták el a Pokemonokról, a megfelelő időben kezdett speciális mozdulatokat alkalmazni, amint az a következő képen is látható. 

Következetes akciógenerálás

A meglévő modellek azt mutatják, hogy a felszólító és érvelési megközelítések alkalmazása javíthatja az LLM-ek képességét az összetett feladatok megoldásában. Ahelyett, hogy egyszeri műveletet generálna, a POKELLMON keretrendszer kiértékeli a meglévő felszólító stratégiákat, beleértve a CoT-t vagy a gondolatláncot, a ToT-t vagy a gondolatfát és az önkonzisztenciát. A Gondolatlánc esetében az ügynök először egy gondolatot generál, amely elemzi az aktuális csataforgatókönyvet, és a gondolattól függő cselekvést hajt végre. Az önkonzisztencia esetén az ügynök háromszoros műveletet generál, és kiválasztja azt a kimenetet, amelyik a legtöbb szavazatot kapta. Végül a Gondolatfa megközelítéshez a keretrendszer három cselekvést generál, csakúgy, mint az önkonzisztencia megközelítésben, de mindegyiket önmagában értékelve kiválasztja a legjobbnak ítélt. Az alábbi táblázat összefoglalja a felszólító megközelítések teljesítményét. 

Minden körben csak egyetlen akció van, ami azt jelenti, hogy még ha az ügynök úgy dönt, hogy vált, és az ellenfél úgy dönt, hogy támad, a bekapcsoló Pokémon vállalja a sebzést. Az ügynök általában azért dönt a váltás mellett, mert típuselőnyösen szeretne váltani egy harcon kívüli Pokémont, így a bekapcsoló Pokémon elviselheti a sérülést, mivel típusellenálló volt a szemben álló Pokémon mozdulataival szemben. Azonban, ahogy fentebb, a CoT érveléssel rendelkező ügynök esetében, még ha az erős, ellentétes Pokémon különféle forgatásokra kényszerít is, ez a küldetéssel összeegyeztethetetlenül cselekszik, mert lehet, hogy nem a Pokémonra akar átváltani, hanem több Pokémonra és vissza, amit mi úgy nevezünk. pánik váltás. A pánikváltás kiküszöböli a lépések lehetőségét, és ezáltal a vereségeket. 

POKELLMON: Eredmények és kísérletek

Mielőtt az eredményeket megvitatnánk, elengedhetetlen, hogy megértsük a harci környezetet. Egy kör elején a környezet akció-kérés üzenetet kap a szervertől, és a végén válaszol erre az üzenetre, amely tartalmazza az utolsó kör végrehajtási eredményét is. 

  1. Először elemzi az üzenetet és frissíti a helyi állapotváltozókat, majd 2. lefordítja az állapotváltozókat szöveggé. A szöveges leírás alapvetően négy részből áll: 1. Saját csapat információ, amely tartalmazza a Pokémon in-the-field és off-the-field (nem használt) attribútumait.
  2. Az ellenfél csapatának információi, amelyek az ellenfél Pokémon attribútumait tartalmazzák a pályán és a pályán kívül (egyes információk nem ismertek).
  3. Harctéri információk, amelyek magukban foglalják az időjárást, a belépési veszélyeket és a terepet.
  4. Történelmi fordulónapló információk, amelyek mindkét Pokémon korábbi műveleteit tartalmazzák, és egy naplósorban tárolódnak. Az LLM-ek a lefordított állapotot bemeneti és kimeneti műveletként veszik fel a következő lépéshez. A művelet ezután elküldésre kerül a szervernek, és az ember által végrehajtott művelettel egy időben hajtódik végre.

Harc emberi játékosok ellen

A következő táblázat szemlélteti a POKELLMON ügynök emberi játékosokkal szembeni teljesítményét. 

Amint látható, a POKELLMON ügynök a ladder játékosokéhoz hasonló teljesítményt nyújt, akiknek magasabb a nyerési aránya, mint egy meghívott játékos, és kiterjedt harci tapasztalattal rendelkeznek. 

Harci készségelemzés

A POKELLMON keretrendszer ritkán hibázik a hatékony lépés megválasztásakor, és a Knowledge Augmented Generation stratégiának köszönhetően másik megfelelő Pokemonra vált. 

Ahogy a fenti példában is látható, az ügynök csak egy Pokémont használ a teljes ellenfél csapatának legyőzésére, mivel képes különböző támadólépéseket választani, azokat, amelyek az adott helyzetben a leghatékonyabbak az ellenfél számára. Ezenkívül a POKELLMON keretrendszer emberhez hasonló kopási stratégiát is mutat. Egyes Pokemonok „mérgező” mozdulattal rendelkeznek, amely további sebzést okozhat minden körben, míg a „Recover” lépés lehetővé teszi a HP visszaszerzését. Ugyanezt kihasználva az ügynök először megmérgezi az ellenfél Pokémont, és a Recover mozdulattal megakadályozza, hogy elájuljon. 

Záró gondolatok

Ebben a cikkben a POKELLMON-ról beszéltünk, egy olyan megközelítésről, amely lehetővé teszi, hogy a nagy nyelvi modellek autonóm módon játsszanak Pokémon-csatákat emberek ellen. A POKELLMON célja, hogy a világ első megtestesült ügynöke legyen, aki emberi szintű teljesítményt ér el a taktikai játékokon, hasonlóan ahhoz, amit a Pokemon-csatákban láthattunk. A POKELLMON keretrendszer három kulcsfontosságú stratégiát vezet be: In-Context Reforcement Learning, amely a szöveges visszacsatolást „jutalmaként” használja fel, hogy iteratív módon finomítsa a cselekvésgenerálási politikát képzés nélkül, a tudás-bővített generáció, amely külső tudást nyer le a hallucinációk leküzdésére és biztosítja az ügynök cselekvését. időben és megfelelően, valamint a konzisztens akciógenerálást, amely megakadályozza a pánikváltási problémát, amikor erős ellenfelekkel találkozik. 

"Szakmailag mérnök, szívből író". Kunal egy műszaki író, aki mélyen szereti és érti az AI-t és az ML-t, és elkötelezett a komplex fogalmak egyszerűsítése ezeken a területeken lebilincselő és informatív dokumentációi révén.