Tekoäly

POKELLMON: Ihmispariteettiagentti pokemon-taisteluihin LLM:ien kanssa

Julkaistu

4 viikkoa sitten

Huhtikuu 11, 2024

POKELLMON: Ihmispariteettiagentti pokemon-taisteluihin LLM:ien kanssa

Suuret kielimallit ja generatiivinen tekoäly ovat osoittaneet ennennäkemättömän menestyksen monissa luonnollisen kielen käsittelytehtävissä. NLP-kentän valloittamisen jälkeen GenAI- ja LLM-tutkijoille seuraava haaste on tutkia, kuinka suuret kielimallit voivat toimia itsenäisesti todellisessa maailmassa pidentäen sukupolvien välistä kuilua tekstistä toimintaan, mikä edustaa merkittävää paradigmaa yleisen tekoälyn tavoittelussa. . Verkkopelejä pidetään sopivana testiperustana kehittää suuria kielimalliin sisältyviä agentteja, jotka ovat vuorovaikutuksessa visuaalisen ympäristön kanssa ihmisen tavoin.

Esimerkiksi suositussa online-simulaatiopelissä Minecraftissa päätöksentekoagentteja voidaan käyttää auttamaan pelaajia maailmaan tutustumisessa sekä kehittämään taitoja työkalujen tekemiseen ja tehtävien ratkaisemiseen. Toinen esimerkki LLM-agenttien vuorovaikutuksesta visuaalisen ympäristön kanssa voidaan kokea toisessa online-pelissä, The Simsissä, jossa agentit ovat osoittaneet huomattavaa menestystä sosiaalisessa vuorovaikutuksessa ja osoittaneet käyttäytymistä, joka muistuttaa ihmisiä. Kuitenkin verrattuna olemassa oleviin peleihin, taktiset taistelupelit saattavat osoittautua paremmaksi vaihtoehdoksi suurten kielimallien kykyä pelata virtuaalipelejä. Ensisijainen syy siihen, miksi taktiset pelit ovat parempi vertailukohta, on se, että voittoprosentti voidaan mitata suoraan, ja johdonmukaisia vastustajia, mukaan lukien ihmispelaajat ja tekoäly, on aina saatavilla.

Samaan pohjaan perustuva POKELLMON pyrkii olemaan maailman ensimmäinen ruumiillistuva agentti, joka saavuttaa ihmistason suorituskyvyn taktisissa peleissä, joka on samanlainen kuin Pokemon-taisteluissa. POKELLMON-kehyksen ytimessä on kolme päästrategiaa.

Kontekstin sisäinen vahvistusoppiminen, joka käyttää taisteluista saatua tekstipohjaista palautetta välittömästi tarkentamaan käytäntöä iteratiivisesti.
Tiedolla täydennetty sukupolvi, joka hakee ulkoista tietoa hallusinaatioiden torjumiseksi, jolloin agentti voi toimia oikein ja silloin, kun sitä tarvitaan.
Johdonmukainen toimintojen luominen minimoimaan paniikkivaihtotilanteen, kun agentti törmää vahvaan pelaajaan ja haluaa välttää kohtaamisen.

Tämän artikkelin tarkoituksena on kattaa POKELLMON-kehys perusteellisesti, ja tutkimme puitteiden mekanismia, metodologiaa, arkkitehtuuria sekä sen vertailua uusimpien kehysten kanssa. Puhumme myös siitä, kuinka POKELLMON-kehys osoittaa merkittäviä ihmismäisiä taistelustrategioita ja oikea-aikaisia päätöksentekokykyjä saavuttaen kunnioitettavan, lähes 50 %:n voittoprosentin. Joten aloitetaan.

POKELLMON: Ihmispariteettiagentti LLM:n kanssa Pokemon-taisteluihin

Suurten kielimallien ja generatiivisten tekoälykehysten ominaisuuksien ja tehokkuuden kasvu viime vuosina on ollut vain ihmeellistä, etenkin NLP-tehtävissä. Viime aikoina kehittäjät ja tekoälytutkijat ovat työstäneet tapoja tehdä generatiivisista tekoälyistä ja LLM:istä näkyvämpiä reaalimaailman skenaarioissa, jotta ne voivat toimia itsenäisesti fyysisessä maailmassa. Tämän itsenäisen suorituskyvyn saavuttamiseksi fyysisissa ja todellisissa tilanteissa tutkijat ja kehittäjät pitävät pelejä sopivana testialustana kehittää LLM-kehittynyttä agenttia, jolla on kyky olla vuorovaikutuksessa virtuaaliympäristön kanssa tavalla, joka muistuttaa ihmisen käyttäytymistä.

Aiemmin kehittäjät ovat yrittäneet kehittää LLM:n sisältämiä agentteja virtuaalisiin simulaatiopeleihin, kuten Minecraftiin ja Simsiin, vaikka uskotaan, että taktiset pelit, kuten Pokemon, voisivat olla parempi valinta näiden agenttien kehittämiseen. Pokemon-taistelujen avulla kehittäjät voivat arvioida valmentajan kykyä taistella tunnetuissa Pokemon-peleissä ja tarjoaa useita etuja muihin taktisiin peleihin verrattuna. Koska toiminta- ja tila-avaruudet ovat erillisiä, se voidaan kääntää tekstiksi ilman menetyksiä. Seuraava kuva havainnollistaa tyypillistä Pokemon-taistelua, jossa pelaajaa pyydetään luomaan toiminto jokaisella vuorollaan, kun otetaan huomioon Pokemonin nykyinen tila kummaltakin puolelta. Käyttäjillä on mahdollisuus valita viidestä eri Pokemonista ja toimintatilassa on yhteensä neljä liikettä. Lisäksi peli auttaa lievittämään päättelyaikaan ja päättelykustannuksiin kohdistuvaa stressiä LLM:ille, koska vuoropohjainen muoto eliminoi vaatimuksen intensiivisestä pelaamisesta. Tämän seurauksena suorituskyky riippuu ensisijaisesti päättelykyvystä suuri kielimalli. Lopuksi, vaikka Pokemon-taistelupelit näyttävät yksinkertaisilta, asiat ovat todellisuudessa hieman monimutkaisempia ja erittäin strategisia. Kokenut pelaaja ei valitse satunnaisesti Pokemonia taisteluun, vaan ottaa huomioon erilaiset tekijät, kuten tyypin, tilastot, kyvyt, lajit, esineet ja Pokemonien liikkeet sekä taistelukentällä että sen ulkopuolella. Lisäksi satunnaisessa taistelussa Pokemonit valitaan satunnaisesti yli tuhannen hahmon joukosta, joista jokaisella on omat hahmonsa, joilla on päättelykyky ja Pokemon-tieto.

POKELLMON: Metodologia ja arkkitehtuuri

POKELLMON-kehyksen yleinen kehys ja arkkitehtuuri on havainnollistettu seuraavassa kuvassa.

Jokaisen käännöksen aikana POKELLMON-kehys käyttää aiempia toimintoja ja sitä vastaavaa tekstipohjaista palautetta tarkentamaan käytäntöä iteratiivisesti sekä täydentämään nykyistä tilatietoa ulkopuolisella tiedolla, kuten kyky/liike-efektit tai etu/heikkous-suhde. Syötteenä annetuille tiedoille POKELLMON-kehys luo useita toimintoja itsenäisesti ja valitsee sitten johdonmukaisimmat lopulliseksi tuotokseksi.

Kontekstin sisäinen vahvistusoppiminen

Ihmispelaajat ja urheilijat eivät usein tee päätöksiä pelkästään nykytilanteen perusteella, vaan he pohtivat myös aikaisempien toimien palautetta sekä muiden pelaajien kokemuksia. Olisi turvallista sanoa, että positiivinen palaute auttaa pelaajaa oppimaan virheistään ja estää häntä tekemästä samaa virhettä yhä uudelleen ja uudelleen. Ilman asianmukaista palautetta POKELLMON-agentit saattavat tarttua samaan virhetoimintoon, kuten seuraavassa kuvassa näkyy.

Kuten voidaan havaita, pelin sisäinen agentti käyttää vesipohjaista liikettä Pokemon-hahmoa vastaan, jolla on "Dry Skin" -ominaisuus, jolloin se voi mitätöidä vesipohjaisten hyökkäysten aiheuttamat vahingot. Peli yrittää varoittaa käyttäjää vilkuttamalla näytöllä viestiä "Immune", joka saattaa saada ihmispelaajan harkitsemaan toimintaansa uudelleen ja muuttamaan niitä, vaikka hän ei tietäisikään "Kuivasta ihosta". Se ei kuitenkaan sisälly agentin tilankuvaukseen, minkä seurauksena agentti tekee saman virheen uudelleen.

Sen varmistamiseksi, että POKELLMON-agentti oppii aikaisemmista virheistään, viitekehys toteuttaa In-Context Reforcement Learning -lähestymistavan. Vahvistusoppiminen on suosittu lähestymistapa koneoppimisessa, ja se auttaa kehittäjiä tarkennuskäytännöissä, koska se vaatii numeerisia palkkioita toimintojen arvioimiseksi. Siitä asti kun suuria kielimalleja joilla on kyky tulkita ja ymmärtää kieltä, tekstipohjaiset kuvaukset ovat nousseet uutena palkkiona LLM:ille. Sisällyttämällä tekstipohjaisen palautteen aikaisemmista toimista, POKELLMON-agentti pystyy iteratiivisesti ja välittömästi tarkentamaan käytäntöään, nimittäin In-Context Reforcement Learning -oppimista. POKELLMON-kehys kehittää neljän tyyppistä palautetta,

Hyökkäyksen aiheuttama todellinen vahinko liikkuu kahden peräkkäisen kierroksen HP-eron perusteella.
Hyökkäysliikkeiden tehokkuus. Palaute osoittaa hyökkäyksen tehokkuuden vaikutuksen puuttumisen tai immuunijärjestelmän, tehottoman tai supertehokkaan kyky-/liikevaikutusten tai tyyppiedun vuoksi.
Siirron suorittamisen prioriteettijärjestys. Koska vastakkaisen Pokemon-hahmon tarkkoja tilastoja ei ole saatavilla, prioriteettijärjestyksen palaute antaa karkean arvion nopeudesta.
Tehtyjen liikkeiden todellinen vaikutus vastustajaan. Sekä hyökkäysliikkeet että tila voivat johtaa tuloksiin, kuten HP:n palautumiseen, tilaston tehostukseen tai debuffeihin, olosuhteisiin, kuten jäätymiseen, palovammoihin tai myrkytykseen.

Lisäksi In-Context Reforcement Learning -lähestymistavan käyttö parantaa suorituskykyä merkittävästi, kuten seuraavasta kuvasta ilmenee.

Kun verrataan GPT-4:n alkuperäistä suorituskykyä, voittoprosentti nousee lähes 10 % ja taistelupistemäärä kasvaa lähes 13 %. Lisäksi, kuten seuraavasta kuvasta näkyy, agentti alkaa analysoida ja muuttaa toimintaansa, jos edellisissä liikkeissä suoritetut liikkeet eivät vastanneet odotuksia.

Knowledge-Augmented Generation eli KAG

Vaikka In-Context Reforcement Learningin toteuttaminen auttaa jossain määrin hallusinaatioissa, se voi silti johtaa kohtalokkaisiin seurauksiin ennen kuin agentti saa palautteen. Jos agentti esimerkiksi päättää taistella tulityyppistä Pokemonia vastaan ruohotyyppisellä Pokemonilla, edellinen voittaa todennäköisesti yhdellä kierroksella. Vähentääkseen hallusinaatioita entisestään ja parantaakseen agentin päätöksentekokykyä POKELLMON-kehys toteuttaa Knowledge-Augmented Generation tai KAG-lähestymistavan, tekniikan, joka käyttää ulkopuolista tietoa lisätä sukupolvea.

Nyt, kun malli luo neljää edellä käsiteltyä palautetyyppiä, se merkitsee Pokemon-liikkeet ja tiedot, joiden avulla agentti voi päätellä tyypin etusuhteen itse. Pyrkiessään vähentämään päättelyyn sisältyviä hallusinaatioita edelleen, POKELLMON-kehys ilmaisee selkeästi vastakkaisen Pokemonin ja agentin Pokemonin tyyppiedun ja heikkouden riittävin kuvauksin. Lisäksi on haastavaa muistaa Pokemonien liikkeet ja kyvyt, joilla on selkeä vaikutus, varsinkin kun niitä on paljon. Seuraava taulukko havainnollistaa tiedon lisätyn generoinnin tuloksia. On syytä huomata, että ottamalla käyttöön Knowledge Augmented Generation -lähestymistavan, POKELLMON-kehys pystyy nostamaan voittoprosenttia noin 4 % nykyisestä 20 %:sta 36 %:iin.

Lisäksi kehittäjät havaitsivat, että kun agentille annettiin ulkopuolista tietoa Pokemoneista, se alkoi käyttää erikoisliikkeitä oikeaan aikaan, kuten seuraavasta kuvasta näkyy.

Johdonmukaisen toiminnan sukupolvi

Nykyiset mallit osoittavat, että kehotus- ja päättelymenetelmien toteuttaminen voi parantaa LLM:n kykyä ratkaista monimutkaisia tehtäviä. Kertaluonteisen toiminnon luomisen sijaan POKELLMON-kehys arvioi olemassa olevia kehotusstrategioita, kuten CoT tai Ajatusketju, ToT tai Ajatuspuu ja Self Consistency. Ajatusketjussa agentti luo aluksi ajatuksen, joka analysoi nykyisen taisteluskenaarion ja tulostaa ajatukseen perustuvan toiminnan. Self Consistency -kohdassa agentti luo kolme kertaa toiminnot ja valitsee tulosteen, joka on saanut suurimman määrän ääniä. Lopuksi, Tree of Thought -lähestymistavassa viitekehys luo kolme toimenpidettä aivan kuten itsejohdonmukaisuuslähestymistavassakin, mutta valitsee ne kaikki arvioituaan itse parhaaksi. Seuraavassa taulukossa on yhteenveto kehotusmenetelmien tehokkuudesta.

Jokaisessa vuorossa on vain yksi toiminto, mikä tarkoittaa, että vaikka agentti päättäisi vaihtaa ja vastustaja päättäisi hyökätä, vaihtava Pokémon ottaa vahingon. Normaalisti agentti päättää vaihtaa, koska se haluaa vaihtaa tyyppietua taistelusta poikki Pokémonin, ja siten sisään vaihtava Pokémon voi kärsiä vahingosta, koska se oli tyyppikestävä vastakkaisen Pokémonin liikkeille. Kuitenkin, kuten edellä, CoT-päättelyä käyttävälle agentille, vaikka voimakas vastustava Pokémon pakottaisikin erilaisia kierroksia, se toimii ristiriidassa tehtävän kanssa, koska se ei ehkä halua vaihtaa Pokémoniin vaan useisiin Pokémoniin ja takaisin, joita me kutsumme. paniikkivaihto. Paniikkivaihto eliminoi mahdollisuudet tehdä liikkeitä ja siten tappioita.

POKELLMON: Tulokset ja kokeet

Ennen kuin keskustelemme tuloksista, meidän on tärkeää ymmärtää taisteluympäristö. Käännön alussa ympäristö vastaanottaa palvelimelta toimintapyyntöviestin ja vastaa tähän viestiin lopussa, joka sisältää myös viimeisen kierroksen suoritustuloksen.

Ensin jäsentää viestin ja päivittää paikalliset tilamuuttujat 2. sitten kääntää tilamuuttujat tekstiksi. Tekstikuvauksessa on pääosin neljä osaa: 1. Omat tiimitiedot, jotka sisältävät Pokémonin attribuutit kentällä ja kentän ulkopuolella (käyttämätön).
Vastustajajoukkueen tiedot, jotka sisältävät vastustajan Pokémonin ominaisuudet kentällä ja kentän ulkopuolella (jotkin tiedot ovat tuntemattomia).
Taistelukentän tiedot, jotka sisältävät sään, maahantulovaarat ja maaston.
Historialliset vuorolokitiedot, jotka sisältävät sekä Pokémonien aikaisemmat toiminnot ja jotka on tallennettu lokijonoon. LLM:t ottavat käännetyn tilan syöttö- ja lähtötoimintoina seuraavaa vaihetta varten. Toiminto lähetetään sitten palvelimelle ja suoritetaan samaan aikaan kuin ihmisen tekemä toiminto.

Taistelu ihmispelaajia vastaan

Seuraava taulukko havainnollistaa POKELLMON-agentin suorituskykyä ihmispelaajia vastaan.

Kuten voidaan havaita, POKELLMON-agentti tarjoaa suorituskykyä, joka on verrattavissa ladder-pelaajiin, joilla on korkeampi voittoprosentti verrattuna kutsuttuun pelaajaan ja joilla on laaja taistelukokemus.

Taistelutaitojen analyysi

POKELLMON-kehys tekee harvoin virheen valitessaan tehokkaan liikkeen ja vaihtaa toiseen sopivaan Pokemoniin Knowledge Augmented Generation -strategian ansiosta.

Kuten yllä olevassa esimerkissä näkyy, agentti käyttää vain yhtä Pokemonia voittaakseen koko vastustajajoukkueen, koska se pystyy valitsemaan erilaisia hyökkäysliikkeitä, jotka ovat tehokkaimpia vastustajalle kyseisessä tilanteessa. Lisäksi POKELLMON-kehyksessä on myös ihmisen kaltainen kulumisstrategia. Joillakin Pokemoneilla on "myrkyllinen" liike, joka voi aiheuttaa lisävaurioita jokaisella käännöksellä, kun taas "Palauta"-liike antaa sen palauttaa HP:n. Hyödyntämällä samaa agentti myrkyttää ensin vastustajan Pokemonin ja käyttää Recover-liikettä estääkseen itseään pyörtymästä.

Loppuajatukset

Tässä artikkelissa olemme puhuneet POKELLMONista, lähestymistavasta, jonka avulla suuret kielimallit voivat pelata Pokemon-taisteluja ihmisiä vastaan itsenäisesti. POKELLMON, tavoitteena on olla maailman ensimmäinen ruumiillistuva agentti, joka saavuttaa ihmistason suorituskyvyn taktisissa peleissä, samankaltaisen kuin Pokemon-taisteluissa. POKELLMON-kehys esittelee kolme keskeistä strategiaa: In-Context Reforcement Learning, joka kuluttaa tekstipohjaisen palautteen "palkkiona" jalostaa iteratiivisesti toiminnan luomispolitiikkaa ilman koulutusta, Knowledge-Augmented Generation, joka hakee ulkoista tietoa hallusinaatioiden torjumiseksi ja varmistaa agentin toiminnan. oikea-aikaisesti ja oikein, ja johdonmukaisen toiminnan sukupolvi, joka estää paniikkikytkennän, kun kohtaat voimakkaita vastustajia.

Liittyvät aiheet:Tietokoneen visio Hienosäätö LLM generatiivinen ai OTK Pokellmon

Seuraavaksi

Mullistava tekoäly Applen ReALM:n avulla: The Future of Intelligent Assistant

Älä missaa

Meta julkistaa seuraavan sukupolven tekoälyharjoittelupiirin, joka lupaa nopeampaa suorituskykyä

Kunal Kejriwal

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.