Kunstig intelligens
POKELLMON: En agent med menneske-lignende evner til Pokémon-kampe med LLM’er
Store sprogmodeller og generative AI har demonstreret en udenfor sammenligning succes på en bred vifte af opgaver inden for behandling af naturligt sprog. Efter at have erobret feltet for NLP, er den næste udfordring for GenAI- og LLM-forskere at udforske, hvordan store sprogmodeller kan handle selvstændigt i den virkelige verden med en udvidet generationsafstand fra tekst til handling, hvilket repræsenterer en betydelig paradigmændring i jagten på kunstig almen intelligens. Online-spil anses for at være en passende testgrund til at udvikle store sprogmodeller, der kan interagere med den visuelle omgivelse på en måde, der ligner menneskers.
For eksempel i det populære online-simulationspil Minecraft kan beslutningsagenter anvendes til at hjælpe spillere med at udforske verden samt udvikle færdigheder til at lave værktøjer og løse opgaver. Et andet eksempel på LLM-agenter, der interagerer med den visuelle omgivelse, kan opleves i online-spillet The Sims, hvor agenter har demonstreret bemærkelsesværdig succes i sociale interaktioner og udviser adfærd, der ligner menneskers. Men i forhold til eksisterende spil kan taktiske kampspil måske være et bedre valg til at benchmarkere evnen hos store sprogmodeller til at spille virtuelle spil. Den primære årsag til, at taktiske spil er et bedre benchmark, er, at sejrsprocenten kan måles direkte, og der er altid tilgængelige og konsekvente modstandere, herunder menneskespillere og AI.
Bygget på dette, har POKELLMON til formål at være verdens første inkarnerede agent, der opnår menneske-lignende præstationer på taktiske spil, lignende dem, der ses i Pokémon-kampe. I sin kerne inkorporerer POKELLMON-rammen tre hovedstrategier.
- In-context forstærkningslæring, der forbruger tekstbaseret feedback, der er afledt fra kampe øjeblikkeligt for at raffinere politikken iterativt.
- Viden-forstærket generering, der henter ekstern viden for at modgå hallucinationer, hvilket giver agenterne mulighed for at handle ordentligt og når det er nødvendigt.
- Konsekvent handlingsgenerering for at minimere panikskift-situationen, når agenterne møder en stærk spiller og ønsker at undgå at møde dem.
Denne artikel har til formål at dække POKELLMON-rammen i dybden, og vi udforsker mekanismen, metoden, arkitekturen i rammen samt sammenligningen med tilstands kunst-rammer. Vi vil også tale om, hvordan POKELLMON-rammen demonstrerer bemærkelsesværdige menneske-lignende kampstrategier og beslutningsevner i realtid, og opnår en respektabel sejrsprocent på næsten 50%. Så lad os komme i gang.
POKELLMON: En agent med menneske-lignende evner med LLM til Pokémon-kampe
Væksten i evnerne og effektiviteten hos store sprogmodeller og generative AI-rammer i de seneste år har været intet mindre end vidunderligt, især på NLP-opgaver. Nyligt har udviklere og AI-forskere arbejdet på måder at gøre Generative AI og LLM’er mere fremtrædende i virkelige scenarier med evnen til at handle selvstændigt i den fysiske verden. For at opnå denne selvstændige præstation i fysiske og virkelige situationer anses spil for at være en passende testgrund til at udvikle LLM-inkarnerede agenter med evnen til at interagere med den visuelle omgivelse på en måde, der ligner menneskers.
Tidligere har udviklere forsøgt at udvikle LLM-inkarnerede agenter på virtuelle simulations-spil som Minecraft og Sims, selv om det anses for, at taktiske spil som Pokémon måske er et bedre valg til at udvikle disse agenter. Pokémon-kampe giver udviklerne mulighed for at evaluere en træners evne til at kæmpe i kendte Pokémon-spil og tilbyder flere fordele i forhold til andre taktiske spil. Da handlings- og tilstandsrummene er diskrete, kan de oversættes til tekst uden nogen tab. Følgende figur illustrerer en typisk Pokémon-kamp, hvor spilleren bedes om at generere en handling til at udføre ved hver omgang, givet den nuværende tilstand af Pokémon fra hver side. Brugerne har mulighed for at vælge mellem fem forskellige Pokémon, og der er i alt fire trin i handlingsrummet. Desuden hjælper spillet med at lette presset på slutnings-tiden og slutnings-omkostningerne for LLM’er, da den runde-baserede format eliminerer behovet for intensiv gameplay. Som resultat er præstationen afhængig primært af den store sprogmodels resonans-evne. Endelig, selv om Pokémon-kampspil synes simple, er tingene lidt mere komplekse i virkeligheden og højst strategiske. En erfaren spiller vælger ikke tilfældigt en Pokémon til kampen, men tager forskellige faktorer i betragtning, herunder type, statistik, evner, arter, genstande, trin af Pokémon, både på og uden for slagmarken.

POKELLMON: Metode og arkitektur
Den samlede ramme og arkitektur af POKELLMON-rammen er illustreret i følgende billed.

Under hver omgang bruger POKELLMON-rammen tidligere handlinger og den tilsvarende tekstbaserede feedback til at raffinere politikken iterativt samt til at supplere den nuværende tilstands-information med ekstern viden, som f.eks. evne/bevægelses-effekter eller fordel/svagheds-forhold. For information, der er givet som input, genererer POKELLMON-rammen multiple handlinger uafhængigt og vælger derefter de mest konsekvente som den endelige output.
In-context forstærkningslæring
Menneskespillere og atleter tager ofte beslutninger, ikke kun på baggrund af den nuværende tilstand, men de reflekterer også over feedback fra tidligere handlinger samt erfaringer fra andre spillere. Det ville være sikkert at sige, at positivt feedback er, hvad der hjælper en spiller med at lære af sine fejl, og forhindrer dem i at gentage de samme fejl igen og igen. Uden ordentligt feedback kan POKELLMON-agenterne fastholde den samme fejl-handling, som demonstreret i følgende figur.

Som det kan observeres, bruger spil-agenter en vand-baseret bevægelse mod en Pokémon-karakter, der har “Dry Skin”-evnen, hvilket giver den mulighed for at nullificere skaden fra vand-baserede angreb. Spillet forsøger at advare brugeren ved at flash “Immune”-meddelelsen på skærmen, hvilket måske kan få en menneskespiller til at overveje sine handlinger og ændre dem, selv uden at kende til “Dry Skin”. Men det er ikke inkluderet i tilstandsbeskrivelsen for agenterne, hvilket resulterer i, at agenterne gentager den samme fejl igen.
For at sikre, at POKELLMON-agenterne lærer af deres tidligere fejl, implementerer POKELLMON-rammen In-Context Forstærkningslæring-tilgangen. Forstærkningslæring er en populær tilgang i maskinlæring, og det hjælper udviklere med at raffinere politik, da det kræver numeriske belønninger for at evaluere handlinger. Da store sprogmodeller har evnen til at fortolke og forstå sprog, er tekstbaserede beskrivelser blevet en ny form for belønning for LLM’er. Ved at inkludere tekstbaseret feedback fra tidligere handlinger kan POKELLMON-agenterne iterativt og øjeblikkeligt raffinere deres politik, nemlig In-Context Forstærkningslæring. POKELLMON-rammen udvikler fire typer feedback,
- Den faktiske skade, der er forårsaget af en angrebsbevægelse på baggrund af forskellen i HP over to på hinanden følgende omgange.
- Effektiviteten af angrebsbevægelser. Feedback indikerer effektiviteten af angrebet i form af ingen effekt eller immun, ineffektiv eller super-effektiv på grund af evne/bevægelses-effekter eller type-fordel.
- Prioritetsorden for udførelse af en bevægelse. Da den præcise statistik for den modstående Pokémon-karakter ikke er tilgængelig, giver prioritetsorden-feedback en omtrentlig vurdering af hastighed.
- Den faktiske effekt af de udførte bevægelser på modstanderen. Både angrebsbevægelser og status kan resultere i resultater som f.eks. genoprettelse af HP, statistik-forbedring eller svaghed, påføring af tilstande som f.eks. frysende, brændende eller forgiftning.

Desuden resulterer brugen af In-Context Forstærkningslæring-tilgangen i en betydelig forbedring af præstation, som demonstreret i følgende figur.

Når det stilles op mod den oprindelige præstation på GPT-4, stiger sejrsprocenten med næsten 10% samt en næsten 13% forbedring af kamp-scoren. Desuden, som demonstreret i følgende figur, begynder agenterne at analysere og ændre deres handling, hvis bevægelserne, der blev udført i tidligere omgange, ikke kunne matche forventningerne.

Viden-forstærket generering eller KAG
Selv om implementeringen af In-Context Forstærkningslæring hjælper med hallucinationer til en vis udstrækning, kan det stadig resultere i fatale konsekvenser, før agenterne modtager feedback. For eksempel, hvis agenterne beslutter at kæmpe mod en ild-type Pokémon med en græs-type Pokémon, er den sidstnævnte sandsynligvis at vinde i sandsynligvis en enkelt omgang. For at reducere hallucinationer yderligere og forbedre beslutningsevnen hos agenterne, implementerer POKELLMON-rammen Viden-forstærket Generering- eller KAG-tilgangen, en teknik, der anvender ekstern viden til at forstærke generering.
Nu, når modellen genererer de fire typer feedback, der er nævnt ovenfor, annoterer den Pokémon-bevægelser og -information, hvilket giver agenterne mulighed for at slutte type-forhold på egen hånd. I et forsøg på at reducere hallucinationer i resonans yderligere, annoterer POKELLMON-rammen explicit type-fordel og -svaghed hos den modstående Pokémon og agenterne, med passende beskrivelser. Desuden er det vanskeligt at huske bevægelser og evner med distinkte effekter af Pokémon, især da der er mange af dem. Følgende tabel demonstrerer resultaterne af viden-forstærket generering. Det er værd at bemærke, at ved at implementere Viden-forstærket Generering-tilgangen kan POKELLMON-rammen øge sejrsprocenten med omkring 20% fra eksisterende 36% til 55%.

Desuden observerede udviklerne, at når agenterne blev givet ekstern viden om Pokémon, begyndte de at bruge speciale-bevægelser på det rigtige tidspunkt, som demonstreret i følgende billede.

Konsekvent handlingsgenerering
Eksisterende modeller demonstrerer, at implementering af prompting- og resonans-tilgange kan forbedre LLM’ernes evne til at løse komplekse opgaver. I stedet for at generere en enkelt-handling, evaluerer POKELLMON-rammen eksisterende prompting-strategier, herunder CoT eller Chain of Thought, ToT eller Tree of Thought, og Selv-Konsistens. For Chain of Thought genererer agenterne først en tanke, der analyserer den nuværende kamp-situation, og udgiver en handling, der er betinget af tanken. For Selv-Konsistens genererer agenterne tre gange handlinger og vælger output, der har modtaget det maksimale antal stemmer. Endelig for Tree of Thought-tilgangen genererer rammen tre handlinger, ligesom i selv-konsistens-tilgangen, men vælger den, den selv betragter som den bedste efter at have evalueret dem alle. Følgende tabel summerer præstationen af prompting-tilgange.

Der er kun en enkelt handling for hver omgang, hvilket betyder, at selv om agenterne beslutter at skifte, og modstanderen beslutter at angribe, vil skift-ind-Pokémon tage skaden. Normalt beslutter agenterne at skifte, fordi de ønsker at type-fordele-skifte en af-bane-Pokémon, og derfor kan skift-ind-Pokémonen holde skaden, da den var type-resistent over for modstanderens bevægelser. Men som ovenfor, for agenterne med CoT-resonans, selv om den kraftfulde modstander tvinger forskellige rotationer, handler den inkonsistent med missionen, fordi den måske ikke ønsker at skifte-ind til Pokémon, men flere Pokémon og tilbage, hvilket vi kalder panik-skift. Panik-skift eliminerer chancerne for at udføre bevægelser og resulterer derfor i nederlag.
POKELLMON: Resultater og eksperimenter
Før vi diskuterer resultaterne, er det essentiel for os at forstå kamp-miljøet. Ved starten af en omgang modtager miljøet en handling-anmodning-besked fra serveren og vil svare på denne besked ved afslutningen, hvilket også indeholder udførelses-resultatet fra den sidste omgang.
- Først parser beskeden og opdaterer lokale tilstands-variabler, 2. derefter oversætter tilstands-variablerne til tekst. Tekst-beskrivelsen har primært fire dele: 1. Egen holds-information, der indeholder attributter af Pokémon på banen og udenfor banen (ubrugt).
- Modstander-holds-information, der indeholder attributter af modstander-Pokémon på banen og udenfor banen (nogen information er ukendt).
- Slagmarks-information, der inkluderer vejr, indgangs-fare og terræn.
- Historisk omgangs-log-information, der indeholder tidligere handlinger af både Pokémon og er gemt i en log-kø. LLM’er tager den oversatte tilstand som input og udgiver handlinger for det næste trin. Handlingen sendes derefter til serveren og udføres på samme tid som handlingen udført af mennesket.
Kamp mod menneskespillere
Følgende tabel illustrerer præstationen af POKELLMON-agenterne mod menneskespillere.

Som det kan observeres, leverer POKELLMON-agenterne en præstation, der er sammenlignelig med ladder-spillere, der har en højere sejrsprocent, når sammenlignet med en inviteret spiller samt har omfattende kamp-erfaring.
Kamp-færdigheds-analyse
POKELLMON-rammen gør sjældent fejl ved at vælge den effektive bevægelse og skifter til en anden passende Pokémon takket være Viden-forstærket Generering-strategien.

Som vist i ovenstående eksempel, bruger agenterne kun en enkelt Pokémon til at besejre hele modstander-holdet, da de er i stand til at vælge forskellige angrebs-bevægelser, dem der er mest effektive for modstanderen i den pågældende situation. Desuden udviser POKELLMON-rammen også en menneske-lignende udmatnings-strategi. Nogle Pokémon har en “Toxic”-bevægelse, der kan påføre ekstra skade ved hver omgang, mens “Recover”-bevægelsen giver dem mulighed for at genoprette deres HP. Agenterne udnytter dette ved først at forgifte den modstående Pokémon og derefter bruge Recover-bevægelsen til at forhindre, at de selv besvimer.

Afsluttende tanker
I denne artikel har vi talt om POKELLMON, en tilgang, der giver store sprogmodeller mulighed for at spille Pokémon-kampe mod mennesker selvstændigt. POKELLMON har til formål at være verdens første inkarnerede agent, der opnår menneske-lignende præstationer på taktiske spil, lignende dem, der ses i Pokémon-kampe. POKELLMON-rammen introducerer tre nøgle-strategier: In-Context Forstærkningslæring, der forbruger tekstbaseret feedback som “belønning” for at raffinere handling-genererings-politikken iterativt uden træning, Viden-forstærket Generering, der henter ekstern viden for at bekæmpe hallucination og sikrer, at agenterne handler tilbage og ordentligt, og Konsekvent Handlingsgenerering, der forhindrer panik-skift-problemet, når agenterne møder kraftfulde modstandere.












