Connect with us

POKELLMON: Een menselijke-pariteit-agent voor Pokémon-gevechten met LLM’s

Kunstmatige intelligentie

POKELLMON: Een menselijke-pariteit-agent voor Pokémon-gevechten met LLM’s

mm
POKELLMON: A Human-Parity Agent for Pokemon Battles with LLMs

Grote taalmodellen en generatieve AI hebben ongekende successen behaald op een breed scala aan natuurlijke taalverwerkingstaken. Na het veroveren van het NLP-veld, is de volgende uitdaging voor GenAI- en LLM-onderzoekers om te onderzoeken hoe grote taalmodellen autonoom kunnen handelen in de echte wereld met een verlengde generatiekloof van tekst naar actie, waardoor het een significant paradigma vormt in de zoektocht naar kunstmatige algemene intelligentie. Online games worden beschouwd als een geschikte testbasis voor het ontwikkelen van grote taalmodel-geïncorporeerde agenten die interactie hebben met de visuele omgeving op een manier die een mens zou doen.

Bijvoorbeeld, in een populaire online simulatiespel zoals Minecraft, kunnen beslissingsagenten worden ingezet om spelers te helpen bij het verkennen van de wereld en het ontwikkelen van vaardigheden voor het maken van gereedschap en het oplossen van taken. Een ander voorbeeld van LLM-agenten die interactie hebben met de visuele omgeving, is te zien in een ander online spel, The Sims, waar agenten opmerkelijk succes hebben geboekt in sociale interacties en gedrag vertonen dat lijkt op dat van mensen. Echter, in vergelijking met bestaande spellen, kunnen tactische gevechtsspelletjes een betere keuze zijn om de mogelijkheid van grote taalmodellen te testen om virtuele spellen te spelen. De belangrijkste reden waarom tactische spellen een betere benchmark vormen, is omdat de winst kan worden gemeten en consistente tegenstanders, waaronder menselijke spelers en AI, altijd beschikbaar zijn.

Op basis van hetzelfde, streeft POKELLMON ernaar om ‘s werelds eerste geïncorporeerde agent te zijn die menselijke prestaties bereikt op tactische spellen, vergelijkbaar met die in Pokémon-gevechten. In zijn kern, omvat het POKELLMON-kader drie belangrijke strategieën.

  1. In-context versterking van het leren dat tekstgebaseerde feedback consumeert, afgeleid van gevechten, om het beleid iteratief te verfijnen.
  2. Kennis-verrijkte generatie die externe kennis ophaalt om hallucinaties te bestrijden, waardoor de agent op het juiste moment en wanneer nodig kan handelen.
  3. Consistente actiegeneratie om de paniekschakelingssituatie te minimaliseren wanneer de agent een sterke speler tegenkomt en deze wil vermijden.

Dit artikel heeft als doel het POKELLMON-kader in detail te behandelen en we onderzoeken de mechanisme, de methodologie, de architectuur van het kader, evenals de vergelijking met state-of-the-art-kaders. We zullen ook praten over hoe het POKELLMON-kader opmerkelijke menselijke-achtige gevechtsstrategieën en beslissingsvermogens in real-time vertoont, en een respectabele winst van bijna 50% behaalt. Laten we beginnen.

POKELLMON: Een menselijke-pariteit-agent met LLM voor Pokémon-gevechten

De groei in de mogelijkheden en efficiëntie van grote taalmodellen en generatieve AI-kaders in de afgelopen jaren is niets minder dan geweldig, vooral op NLP-taken. Onlangs hebben ontwikkelaars en AI-onderzoekers gewerkt aan manieren om generatieve AI en LLM’s meer prominent te maken in real-world scenario’s met de mogelijkheid om autonoom te handelen in de fysieke wereld. Om deze autonome prestaties in fysieke en real-world situaties te bereiken, beschouwen onderzoekers en ontwikkelaars games als een geschikte testbasis voor het ontwikkelen van LLM-geïncorporeerde agenten die interactie hebben met de visuele omgeving op een manier die lijkt op die van mensen.

… (rest of the translation remains the same, following the exact same structure and formatting as the original)

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.