Connect with us

Kunstig intelligens

POKELLMON: En agent for menneske-lignende nivå for Pokémon-kamper med LLM

mm
POKELLMON: A Human-Parity Agent for Pokemon Battles with LLMs

Store språkmodeller og generative AI har demonstrert utenfor sammenligning suksess på en rekke naturlige språkbehandlingsoppgaver. Etter å ha erobret NLP-feltet, er den neste utfordringen for GenAI- og LLM-forskere å utforske hvordan store språkmodeller kan handle selvstendig i den virkelige verden med en utvidet genereringsgap fra tekst til handling, og dermed representerer en betydelig paradigme i jakten på kunstig generell intelligens. Online-spill anses å være et egnet testgrunnlag for å utvikle store språkmodell-emboderte agenter som samhandler med den visuelle omgivelsen på en måte som en menneske ville gjøre. 

For eksempel, i et populært online-simuleringsspill som Minecraft, kan beslutningsagenter bli anvendt for å assistere spillere i å utforske verden samt utvikle ferdigheter for å lage verktøy og løse oppgaver. Et annet eksempel på LLM-agenter som samhandler med den visuelle omgivelsen, kan oppleves i et annet online-spill, The Sims, hvor agenter har demonstrert bemerkelsesverdig suksess i sosiale interaksjoner og utstiller atferd som ligner mennesker. Men, sammenlignet med eksisterende spill, kan taktiske kampspill vise seg å være et bedre valg for å benchmarkere evnen til store språkmodeller til å spille virtuelle spill. Den primære grunnen til at taktiske spill gjør et bedre benchmark, er fordi seiersprosenten kan måles direkte, og konsistente motstandere, inkludert menneskelige spillere og AI, er alltid tilgjengelige. 

Bygget på samme, POKELLMON, har som mål å være verdens første emboderte agent som oppnår menneske-lignende nivå på taktiske spill, lignende det som er vitnet i Pokémon-kamper. I kjernen, inkorporerer POKELLMON-rammeverket tre hovedstrategier.

  1. In-context forsterkingslæring som forbruker tekstbasert tilbakemelding fra kamper øyeblikkelig for å raffinere politikken iterativt. 
  2. Kunnskapsforsterket generering som henter ekstern kunnskap for å motvirke hallucinasjoner, og muliggjør at agenten handler riktig og når det er nødvendig. 
  3. Konsistent handlingsgenerering for å minimere panikkbyttingssituasjonen når agenten møter en sterk spiller, og ønsker å unngå å møte dem. 

Denne artikkelen har som mål å dekke POKELLMON-rammeverket i dybden, og vi utforsker mekanismen, metodologien, arkitekturen til rammeverket samt sammenligningen med state of the art-rammeverk. Vi vil også snakke om hvordan POKELLMON-rammeverket demonstrerer bemerkelsesverdig menneske-lignende kampstrategier, og i-tid beslutningsevner, og oppnår en respektabel seiersprosent på nære 50%. Så la oss begynne.

POKELLMON: En agent for menneske-lignende nivå med LLM for Pokémon-kamper

Veksten i evnene og effektiviteten til store språkmodeller og generative AI-rammeverk de siste årene, har vært ikke mindre enn vidunderlig, særlig på NLP-oppgaver. Nylig har utviklere og AI-forskere arbeidet med måter å gjøre generative AI og LLM mer fremtredende i virkelige scenarioer med evnen til å handle selvstendig i den fysiske verden. For å oppnå denne selvstendige ytelsen i fysiske og virkelige situasjoner, anses spill å være et egnet testgrunnlag for å utvikle LLM-emboderte agenter med evnen til å samhandle med den visuelle omgivelsen på en måte som ligner menneskelig atferd. 

Tidligere har utviklere prøvd å utvikle LLM-emboderte agenter på virtuelle simuleringspill som Minecraft og Sims, selv om det anses at taktiske spill som Pokémon kan være et bedre valg for å utvikle disse agentene. Pokémon-kamper muliggjør at utviklerne kan evaluere en treneres evne til å kjempe i kjente Pokémon-spill, og tilbyr flere fordeler sammenlignet med andre taktiske spill. Ettersom handling- og tilstandrommene er diskrete, kan de oversettes til tekst uten noen tap. Følgende figur illustrerer en typisk Pokémon-kamp hvor spilleren blir bedt om å generere en handling for å utføre ved hver tur gitt den nåværende tilstanden til Pokémon fra hver side. Brukerne har mulighet til å velge fra fem forskjellige Pokémon og det er totalt fire bevegelser i handlingrommet. Videre hjelper spillet med å lettet stressen på slutningstiden og slutningkostnadene for LLM, siden tur-basert format eliminerer kravet til intensiv spill. Som resultat, er ytelsen avhengig primært av resonanseevnen til store språkmodeller. Til slutt, selv om Pokémon-kampspillene ser enkle ut, er ting litt mer komplekse i virkeligheten og høyt strategiske. En erfaren spiller velger ikke tilfeldig en Pokémon for kampen, men tar flere faktorer i betraktning, inkludert type, statistikk, evner, arter, gjenstander, bevegelser til Pokémon, både på og utenfor slagmarken. Videre, i en tilfeldig kamp, blir Pokémon valgt tilfeldig fra en gruppe på over tusen karakterer, hver med sine egne distinkte karakterer med resonanseevne og Pokémon-kunnskap. 

POKELLMON : Metodologi og arkitektur

Det totale rammeverket og arkitekturen til POKELLMON-rammeverket er illustrert i følgende bilde. 

Under hver tur, bruker POKELLMON-rammeverket tidligere handlinger og tilhørende tekstbasert tilbakemelding for å raffinere politikken iterativt samt å supplere den nåværende tilstandsinformasjonen med ekstern kunnskap som evne/move-effekter eller fordel/svakhetsforhold. For informasjon som gis som innputt, genererer POKELLMON-rammeverket flere handlinger uavhengig, og velger deretter de mest konsistente som sluttfinalt utgang. 

In-Context Forsterkingslæring

Menneskelige spillere og idrettsutøvere tar ofte beslutninger ikke bare basert på den nåværende tilstanden, men de reflekterer også over tilbakemeldingen fra tidligere handlinger samt erfaringene til andre spillere. Det ville være trygt å si at positiv tilbakemelding er det som hjelper en spiller å lære fra feilene sine, og hindrer dem fra å gjøre samme feil om og om igjen. Uten riktig tilbakemelding, kan POKELLMON-agenter bli fast i samme feilhandling, som demonstrert i følgende figur. 

Som det kan observeres, bruker spillagenten en vannbasert bevegelse mot en Pokémon-karakter som har “Dry Skin”-evnen, som tillater den å nullifisere skaden mot vannbaserte angrep. Spillet prøver å varsle brukeren ved å blinke “Immune”-meldingen på skjermen, som kan få en menneskelig spiller til å omgjøre sine handlinger, og endre dem, selv uten å vite om “Dry Skin”. Men, det er ikke inkludert i tilstandsbeskrivelsen for agenten, med følge at agenten gjør samme feil igjen. 

For å sikre at POKELLMON-agenten lærer fra sine tidligere feil, implementerer rammeverket In-Context Forsterkingslæring-tilnærmingen. Forsterkingslæring er en populær tilnærming i maskinlæring, og det hjelper utviklere med å raffinere politikken siden det krever numeriske belønninger for å evaluere handlinger. Ettersom store språkmodeller har evnen til å tolke og forstå språk, har tekstbaserte beskrivelser oppstått som en ny form for belønning for LLM. Ved å inkludere tekstbasert tilbakemelding fra tidligere handlinger, er POKELLMON-agenten i stand til å iterativt og øyeblikkelig raffinere sin politikk, nemlig In-Context Forsterkingslæring. POKELLMON-rammeverket utvikler fire typer tilbakemelding,

  1. Den faktiske skaden forårsaket av en angrepsbevegelse basert på forskjellen i HP over to påfølgende turer. 
  2. Effektiviteten til angrepsbevegelser. Tilbakemeldingen indikerer effektiviteten til angrepet i form av å ha ingen effekt eller immun, ineffektiv eller super-effektiv på grunn av evne/move-effekter eller typefordel. 
  3. Prioritetsrekkefølgen for å utføre en bevegelse. Ettersom den nøyaktige statistikken for motstander-Pokémon-karakteren ikke er tilgjengelig, gir prioritetsrekkefølgen tilbakemelding en omtrentlig anslag av hastighet. 
  4. Den faktiske effekten av bevegelsene som ble utført på motstanderen. Både angrepsbevegelser og status kan resultere i resultater som å gjenopprette HP, stat-boost eller debuff, påføre tilstander som frysing, brenn eller forgiftning. 

Videre resulterer bruken av In-Context Forsterkingslæring-tilnærmingen i en betydelig forbedring av ytelsen, som demonstrert i følgende figur. 

Når det stilles mot den opprinnelige ytelsen på GPT-4, øker seiersprosenten med nesten 10% samt en økning på nesten 13% i kampscoren. Videre, som demonstrert i følgende figur, begynner agenten å analysere og endre sin handling hvis bevegelsene som ble utført i tidligere bevegelser ikke kunne møte forventningene. 

Kunnskapsforsterket generering eller KAG

Selv om implementering av In-Context Forsterkingslæring hjelper med hallucinasjoner til en viss grad, kan det fortsatt resultere i fatale konsekvenser før agenten mottar tilbakemeldingen. For eksempel, hvis agenten bestemmer seg for å kjempe mot en ild-type Pokémon med en gress-type Pokémon, er det sannsynlig at den førstnevnte vil vinne i muligens bare en tur. For å redusere hallucinasjoner videre og forbedre beslutningsevnen til agenten, implementerer POKELLMON-rammeverket Kunnskapsforsterket generering eller KAG-tilnærmingen, en teknikk som anvender ekstern kunnskap for å forsterke generering

Nå, når modellen genererer de fire typene tilbakemelding som diskutert ovenfor, annoterer den Pokémon-bevegelser og informasjon som tillater agenten å slutte typefordelsforholdet på egen hånd. I et forsøk på å redusere hallucinasjonen i resonnering videre, annoterer POKELLMON-rammeverket eksplisitt typefordel og svakheter til motstander-Pokémon og agentens Pokémon med passende beskrivelser. Videre er det utfordrende å huske bevegelser og evner med distinkte effekter av Pokémon, særlig siden det finnes mange av dem. Følgende tabell demonstrerer resultater av kunnskapsforsterket generering. Det er verdt å merke seg at ved å implementere Kunnskapsforsterket generering-tilnærmingen, er POKELLMON-rammeverket i stand til å øke seiersprosenten med omtrent 20% fra eksisterende 36% til 55%. 

Videre observerte utviklerne at når agenten ble gitt ekstern kunnskap om Pokémon, begynte den å bruke spesielle bevegelser på riktig tid, som demonstrert i følgende bilde. 

Konsistent handlingsgenerering

Eksisterende modeller demonstrerer at implementering av prompting- og resonneringstilnærminger kan forbedre LLM-egenskapene til å løse komplekse oppgaver. I stedet for å generere en enkelt handling, evaluerer POKELLMON-rammeverket eksisterende prompting-strategier, inkludert CoT eller Chain of Thought, ToT eller Tree of Thought, og Self Consistency. For Chain of Thought, genererer agenten først en tanke som analyserer den nåværende kampscenariet og utsteder en handling betinget av tanken. For Self Consistency, genererer agenten tre ganger handlinger og velger utgangen som har mottatt maksimum antall stemmer. Til slutt, for Tree of Thought-tilnærmingen, genererer rammeverket tre handlinger, lik i self-consistency-tilnærmingen, men velger den ene den selv anser som beste etter å ha evaluert dem alle selv. Følgende tabell summerer ytelsen til prompting-tilnærminger. 

Det finnes bare en enkelt handling for hver tur, som innebærer at selv om agenten bestemmer seg for å bytte, og motstanderen bestemmer seg for å angripe, vil bytte-Pokémon tåle skaden. Vanligvis bestemmer agenten seg for å bytte fordi den ønsker å typefordel-bytte en av-bane-Pokémon og derfor kan bytte-Pokémon tåle skaden, siden den var type-motstand til motstander-Pokémonens bevegelser. Men, som ovenfor, for agenten med CoT-resonnering, selv om den kraftige motstanderen tvinger flere rotasjoner, handler den inkonsistent med oppdraget, fordi den kanskje ikke ønsker å bytte inn til Pokémon, men flere Pokémon og tilbake, som vi betegner som panikkbytting. Panikkbytting eliminerer sjansen til å utføre bevegelser og dermed nederlag. 

POKELLMON : Resultater og eksperimenter

Før vi diskuterer resultater, er det essensielt for oss å forstå kampmiljøet. Ved starten av en tur, mottar miljøet en handling-forespørsel-melding fra serveren og vil svare på denne meldingen ved slutten, som også inneholder utførelsesresultatet fra den siste turen. 

  1. Først parser meldingen og oppdaterer lokale tilstandsvariabler, 2. deretter oversetter tilstandsvariablene til tekst. Tekstbeskrivelsen har hovedsakelig fire deler: 1. Egen laginformasjon, som inneholder attributtene til Pokémon på banen og utenfor banen (ubrukte).
  2. Motstanderlaginformasjon, som inneholder attributtene til motstander-Pokémon på banen og utenfor banen (noen informasjon er ukjent).
  3. Slagmarkinformasjon, som inkluderer vær, inngangsfarer og terreng.
  4. Historisk turslogg-informasjon, som inneholder tidligere handlinger til både Pokémon og lagres i en logg-kø. LLM tar oversatt tilstand som innputt og utsteder handlinger for neste steg. Handlingen sendes deretter til serveren og utføres samtidig som handlingen gjort av mennesket.

Kamp mot menneskelige spillere

Følgende tabell illustrerer ytelsen til POKELLMON-agenten mot menneskelige spillere. 

Som det kan observeres, leverer POKELLMON-agenten en ytelse som er sammenlignbar med ladder-spillere som har en høyere seiersprosent når sammenlignet med en invitert spiller samt har omfattende kamp-erfaring. 

Kampferdighet-analyse

POKELLMON-rammeverket gjør sjelden en feil ved å velge den effektive bevegelsen og bytter til en annen passende Pokémon takket være Kunnskapsforsterket generering-strategien. 

Som vist i ovenfor, bruker agenten bare en Pokémon for å beseire hele motstanderlaget siden den er i stand til å velge forskjellige angrepsbevegelser, de som er mest effektive for motstanderen i den situasjonen. Videre utstiller POKELLMON-rammeverket også en menneske-lignende utmattelsesstrategi. Noen Pokémon har en “Toxic”-bevegelse som kan påføre ekstra skade ved hver tur, mens “Recover”-bevegelsen tillater den å gjenopprette sin HP. Ved å dra nytte av dette, forgifter agenten først motstander-Pokémon og bruker deretter Recover-bevegelsen for å forhindre seg selv fra å svime. 

Slutt-tanker

I denne artikkelen har vi talt om POKELLMON, en tilnærming som muliggjør at store språkmodeller kan spille Pokémon-kamper mot mennesker selvstendig. POKELLMON har som mål å være verdens første emboderte agent som oppnår menneske-lignende nivå på taktiske spill, lignende det som er vitnet i Pokémon-kamper. POKELLMON-rammeverket introduserer tre nøkkelstrategier: In-Context Forsterkingslæring som forbruker tekstbasert tilbakemelding som “belønning” for å iterativt raffinere handlingsgenereringspolitikken uten trening, Kunnskapsforsterket generering som henter ekstern kunnskap for å motvirke hallucinasjoner og sikrer at agenten handler riktig og når det er nødvendig, og Konsistent handlingsgenerering som forhindrer panikkbytting-problemet når den møter kraftige motstandere. 

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.