ciot POKELLMON: Un agent de paritate umană pentru luptele Pokemon cu LLM - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

POKELLMON: Un agent de paritate umană pentru luptele Pokemon cu LLM-uri

mm

Publicat

 on

POKELLMON: Un agent de paritate umană pentru luptele Pokemon cu LLM-uri

Modelele de limbaj mari și IA generativă au demonstrat un succes fără precedent într-o gamă largă de sarcini de procesare a limbajului natural. După cucerirea domeniului NLP, următoarea provocare pentru cercetătorii GenAI și LLM este să exploreze modul în care modelele mari de limbaj pot acționa autonom în lumea reală cu un decalaj extins de generație de la text la acțiune, reprezentând astfel o paradigmă semnificativă în urmărirea Inteligenței Generale Artificiale. . Jocurile online sunt considerate a fi o bază de testare adecvată pentru a dezvolta agenți încorporați în model de limbaj mari care interacționează cu mediul vizual într-un mod în care un om ar face-o. 

De exemplu, într-un joc popular de simulare online Minecraft, agenții de luare a deciziilor pot fi angajați pentru a ajuta jucătorii să exploreze lumea, împreună cu dezvoltarea abilităților pentru realizarea de instrumente și rezolvarea sarcinilor. Un alt exemplu de agenți LLM care interacționează cu mediul vizual poate fi experimentat într-un alt joc online, The Sims, în care agenții au demonstrat un succes remarcabil în interacțiunile sociale și prezintă un comportament care seamănă cu oamenii. Cu toate acestea, în comparație cu jocurile existente, jocurile de luptă tactică s-ar putea dovedi a fi o alegere mai bună pentru a evalua capacitatea modelelor mari de limbaj de a juca jocuri virtuale. Motivul principal pentru care jocurile tactice reprezintă un punct de referință mai bun este că rata de câștig poate fi măsurată direct, iar adversarii consecvenți, inclusiv jucătorii umani și IA, sunt întotdeauna disponibili. 

Bazându-se pe același lucru, POKELLMON își propune să fie primul agent întruchipat din lume care realizează performanțe la nivel uman în jocurile tactice, similare cu cea observată în luptele Pokemon. La bază, cadrul POKELLMON încorporează trei strategii principale.

  1. Învățare de consolidare în context care consumă instantaneu feedback bazat pe text derivat din lupte pentru a rafina politica în mod iterativ. 
  2. Generarea sporită de cunoștințe care recuperează cunoștințele externe pentru a contracara halucinațiile, permițând agentului să acționeze corect și atunci când este necesar. 
  3. Generarea de acțiuni consecvente pentru a minimiza situația de schimbare de panică atunci când agentul întâlnește un jucător puternic și dorește să evite să se confrunte cu el. 

Acest articol își propune să acopere cadrul POKELLMON în profunzime și explorăm mecanismul, metodologia, arhitectura cadrului împreună cu compararea acestuia cu cadrele de ultimă generație. Vom vorbi, de asemenea, despre modul în care cadrul POKELLMON demonstrează strategii de luptă remarcabile asemănătoare oamenilor și abilități de luare a deciziilor în timp, atingând o rată de câștig respectabilă de aproape 50%. Asadar, haideti sa începem.

POKELLMON: Un agent de paritate umană cu LLM pentru luptele Pokemon

Creșterea capacităților și eficienței modelelor de limbaj mari și a cadrelor AI generative în ultimii câțiva ani nu a fost decât minunată, în special în sarcinile NLP. Recent, dezvoltatorii și cercetătorii AI au lucrat la modalități de a face AI generativă și LLM-urile mai proeminente în scenariile din lumea reală, cu capacitatea de a acționa autonom în lumea fizică. Pentru a obține această performanță autonomă în situații fizice și reale, cercetătorii și dezvoltatorii consideră că jocurile sunt un banc de testare potrivit pentru a dezvolta agenți încorporați în LLM cu capacitatea de a interacționa cu mediul virtual într-un mod care seamănă cu comportamentul uman. 

Anterior, dezvoltatorii au încercat să dezvolte agenți încorporați în LLM pe jocuri de simulare virtuale precum Minecraft și Sims, deși se crede că jocurile tactice precum Pokemon ar putea fi o alegere mai bună pentru a dezvolta acești agenți. Bătăliile Pokemon le permite dezvoltatorilor să evalueze capacitatea antrenorului de a lupta în jocurile Pokemon bine-cunoscute și oferă mai multe avantaje față de alte jocuri tactice. Deoarece spațiile de acțiune și de stare sunt discrete, acestea pot fi traduse în text fără nicio pierdere. Următoarea figură ilustrează o luptă tipică cu Pokemon, în care jucătorului i se cere să genereze o acțiune de efectuat la fiecare tură, având în vedere starea actuală a Pokemonului din fiecare parte. Utilizatorii au opțiunea de a alege dintre cinci Pokemoni diferiți și există un total de patru mișcări în spațiul de acțiune. În plus, jocul ajută la atenuarea stresului asupra timpului de inferență și a costurilor de inferență pentru LLM, deoarece formatul pe turn elimină necesitatea unui joc intens. Ca rezultat, performanța depinde în primul rând de capacitatea de raționament a model de limbaj mare. În cele din urmă, deși jocurile de luptă Pokemon par a fi simple, lucrurile sunt puțin mai complexe în realitate și extrem de strategice. Un jucător cu experiență nu selectează aleatoriu un Pokemon pentru luptă, ci ia în considerare diverși factori, inclusiv tipul, statisticile, abilitățile, speciile, obiectele, mișcările Pokemonilor, atât pe câmpul de luptă, cât și în afara acestuia. În plus, într-o luptă aleatorie, Pokemonii sunt selectați aleatoriu dintr-un grup de peste o mie de personaje, fiecare având propriul set de personaje distincte, cu abilități de raționament și cunoștințe Pokemon. 

POKELLMON: Metodologie și arhitectură

Cadrul general și arhitectura cadrului POKELLMON sunt ilustrate în imaginea următoare. 

În timpul fiecărei ture, cadrul POKELLMON utilizează acțiunile anterioare și feedback-ul corespunzător bazat pe text pentru a rafina politica în mod iterativ, împreună cu creșterea informațiilor despre starea curentă cu cunoștințe externe, cum ar fi efectele abilitate/mușcare sau relația avantaj/slăbiciune. Pentru informațiile date ca intrare, cadrul POKELLMON generează mai multe acțiuni în mod independent și apoi le selectează pe cele mai consistente ca rezultat final. 

Învățare de consolidare în context

Jucătorii umani și sportivii iau adesea decizii nu numai pe baza stării actuale, ci reflectă și asupra feedback-ului din acțiunile anterioare, precum și asupra experiențelor altor jucători. Ar fi sigur să spunem că feedback-ul pozitiv este ceea ce ajută un jucător să învețe din greșelile sale și îl împiedică să facă aceeași greșeală din nou și din nou. Fără feedback adecvat, agenții POKELLMON s-ar putea menține la aceeași acțiune de eroare, așa cum este demonstrat în figura următoare. 

După cum se poate observa, agentul din joc folosește o mișcare pe bază de apă împotriva unui personaj Pokemon care are abilitatea „Piele uscată”, permițându-i să anuleze daunele împotriva atacurilor pe bază de apă. Jocul încearcă să alerteze utilizatorul prin afișarea intermitent a mesajului „Imun” pe ecran, care ar putea determina un jucător uman să-și reconsidere acțiunile și să le schimbe, chiar și fără a ști despre „Piele uscată”. Cu toate acestea, nu este inclus în descrierea de stat pentru agent, rezultând din nou agentul să facă aceeași greșeală. 

Pentru a se asigura că agentul POKELLMON învață din greșelile sale anterioare, cadrul implementează abordarea de învățare prin consolidare în context. Învățarea prin consolidare este o abordare populară în învățarea automată și ajută dezvoltatorii cu politica de rafinare, deoarece necesită recompense numerice pentru evaluarea acțiunilor. De cand modele lingvistice mari au capacitatea de a interpreta și înțelege limbajul, descrierile bazate pe text au apărut ca o nouă formă de recompensă pentru LLM. Prin includerea feedback-ului bazat pe text de la acțiunile anterioare, agentul POKELLMON este capabil să-și perfecționeze iterativ și instantaneu politica, și anume Învățarea de consolidare în context. Cadrul POKELLMON dezvoltă patru tipuri de feedback,

  1. Daunele reale cauzate de o mișcare de atac pe baza diferenței de HP pe două ture consecutive. 
  2. Eficacitatea mișcărilor de atac. Feedback-ul indică eficacitatea atacului în ceea ce privește lipsa de efect sau imun, ineficient sau super-eficient datorită efectelor de abilitate/mușcare sau avantaj de tip. 
  3. Ordinea de prioritate pentru executarea unei mișcări. Deoarece statisticile precise pentru personajul opus Pokemon nu sunt disponibile, feedback-ul privind ordinea de prioritate oferă o estimare aproximativă a vitezei. 
  4. Efectul real al mișcărilor executate asupra adversarului. Atât mișcările de atac, cât și statutul pot avea ca rezultat rezultate cum ar fi recuperarea HP, creșterea statisticilor sau debuff-uri, provocând condiții precum îngheț, arsuri sau otravă. 

În plus, utilizarea abordării învățării prin consolidare în context are ca rezultat o creștere semnificativă a performanței, așa cum este demonstrat în figura următoare. 

Când este pusă împotriva performanței inițiale pe GPT-4, rata de câștig crește cu aproape 10%, împreună cu o creștere de aproape 13% a scorului de luptă. Mai mult, așa cum se demonstrează în figura următoare, agentul începe să-și analizeze și să-și schimbe acțiunea dacă mișcările executate în mișcările anterioare nu au fost capabile să corespundă așteptărilor. 

Generație crescută cu cunoștințe sau KAG

Deși implementarea învățării prin consolidare în context ajută într-o anumită măsură cu halucinațiile, poate avea totuși consecințe fatale înainte ca agentul să primească feedback-ul. De exemplu, dacă agentul decide să lupte împotriva unui Pokemon de tip foc cu un Pokemon de tip iarbă, cel dintâi este probabil să câștige într-o singură tură. Pentru a reduce și mai mult halucinațiile și pentru a îmbunătăți capacitatea de luare a deciziilor a agentului, cadrul POKELLMON implementează abordarea Knowledge-Augmented Generation sau KAG, o tehnică care utilizează cunoștințe externe pentru spori generația

Acum, când modelul generează cele 4 tipuri de feedback discutate mai sus, adnotă mișcările și informațiile Pokemon, permițând agentului să deducă singur relația de tip avantaj. În încercarea de a reduce mai mult halucinațiile conținute în raționament, cadrul POKELLMON adnotă în mod explicit avantajul tip și slăbiciunea Pokemonului opus și Pokemonul agentului cu descrieri adecvate. În plus, este o provocare să memorezi mișcările și abilitățile cu efecte distincte ale Pokemonilor, mai ales că există o mulțime de ele. Următorul tabel demonstrează rezultatele generării de cunoștințe augmentate. Merită remarcat faptul că, prin implementarea abordării Knowledge Augmented Generation, cadrul POKELLMON este capabil să crească rata de câștig cu aproximativ 20% de la 36% la 55%. 

Mai mult, dezvoltatorii au observat că atunci când agentul a primit cunoștințe externe despre Pokemons, a început să folosească mișcări speciale la momentul potrivit, așa cum se demonstrează în imaginea următoare. 

Generarea de acțiuni consistente

Modelele existente demonstrează că implementarea abordărilor de motivare și raționament poate îmbunătăți capacitatea LLM-urilor de a rezolva sarcini complexe. În loc să genereze o acțiune unică, cadrul POKELLMON evaluează strategiile de stimulare existente, inclusiv CoT sau Chain of Thought, ToT sau Tree of Thought și Self Consistency. Pentru Chain of Thought, agentul generează inițial un gând care analizează scenariul actual de luptă și emite o acțiune condiționată de gând. Pentru Self Consistency, agentul generează de trei ori mai multe acțiuni și selectează rezultatul care a primit numărul maxim de voturi. În cele din urmă, pentru abordarea Arborele Gândirii, cadrul generează trei acțiuni la fel ca în abordarea auto-consecvenței, dar o alege pe cea pe care o consideră cea mai bună după ce le evaluează pe toate de la sine. Următorul tabel rezumă performanța abordărilor prompting. 

Există doar o singură acțiune pentru fiecare tură, ceea ce implică faptul că, chiar dacă agentul decide să schimbe, iar adversarul decide să atace, Pokémonul care a trecut va suferi daune. În mod normal, agentul decide să schimbe pentru că dorește să comute în avantaj de tip un Pokémon din luptă și, astfel, Pokémonul care a trecut poate suferi daune, deoarece a fost rezistent la tip la mișcările Pokémonului advers. Cu toate acestea, ca mai sus, pentru agentul cu raționament CoT, chiar dacă puternicul Pokémon advers forțează diverse rotații, acesta acționează în mod inconsecvent cu misiunea, deoarece s-ar putea să nu vrea să treacă la Pokemon, ci mai mulți Pokémon și înapoi, pe care îi numim. comutare de panică. Comutarea în panică elimină șansele de a face mișcări și, astfel, înfrângeri. 

POKELLMON: Rezultate și experimente

Înainte de a discuta rezultatele, este esențial pentru noi să înțelegem mediul de luptă. La începutul unei ture, mediul primește un mesaj de acțiune-cerere de la server și va răspunde la acest mesaj la sfârșit, care conține și rezultatul execuției din ultima tură. 

  1. Mai întâi analizează mesajul și actualizează variabilele de stare locale, 2. apoi traduce variabilele de stare în text. Descrierea textului are în principal patru părți: 1. Informații despre propria echipă, care conțin atributele Pokémonului în teren și în afara terenului (nefolosit).
  2. Informații despre echipa adversarului, care conține atributele Pokémonului adversar în teren și în afara terenului (unele informații sunt necunoscute).
  3. Informații despre câmpul de luptă, care includ vremea, pericolele de intrare și terenul.
  4. Informații istorice din jurnalul de turnare, care conține acțiunile anterioare ale ambelor Pokémon și sunt stocate într-o coadă de jurnal. LLM-urile iau starea tradusă ca acțiuni de intrare și de ieșire pentru pasul următor. Acțiunea este apoi trimisă la server și executată în același timp cu acțiunea făcută de om.

Luptă împotriva jucătorilor umani

Următorul tabel ilustrează performanța agentului POKELLMON împotriva jucătorilor umani. 

După cum se poate observa, agentul POKELLMON oferă performanțe comparabile cu jucătorii ladder care au o rată de câștig mai mare în comparație cu un jucător invitat, împreună cu o experiență vastă de luptă. 

Analiza aptitudinilor de luptă

Cadrul POKELLMON face rareori o greșeală la alegerea mișcării eficiente și trece la un alt Pokemon potrivit datorită strategiei Knowledge Augmented Generation. 

După cum se arată în exemplul de mai sus, agentul folosește un singur Pokemon pentru a învinge întreaga echipă adversă, deoarece este capabil să aleagă diferite mișcări de atac, cele care sunt cele mai eficiente pentru adversarul în acea situație. În plus, cadrul POKELLMON prezintă și o strategie de uzură asemănătoare omului. Unii Pokemoni au o mișcare „Toxica” care poate provoca daune suplimentare la fiecare tură, în timp ce mișcarea „Recuperare” îi permite să-și recupereze HP. Profitând de același lucru, agentul otrăvește mai întâi Pokemonul advers și folosește mișcarea Recuperare pentru a se împiedica să leșine. 

Gânduri finale

În acest articol, am vorbit despre POKELLMON, o abordare care permite modelelor mari de limbaj să joace în mod autonom luptele Pokemon împotriva oamenilor. POKELLMON, își propune să fie primul agent întruchipat din lume care atinge performanțe la nivel uman în jocurile tactice, similare cu cea observată în luptele Pokemon. Cadrul POKELLMON introduce trei strategii cheie: Învățare prin consolidare în context, care consumă feedback-ul bazat pe text ca „recompensă” pentru a perfecționa iterativ politica de generare a acțiunii fără instruire, Generarea crescută cu cunoștințe care recuperează cunoștințele externe pentru a combate halucinația și asigură actul agentului. în timp util și în mod corespunzător și generarea de acțiuni consistente care previne problema comutării în panică atunci când întâlnești adversari puternici. 

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.