Tekoäly

Tekoälytutkijat luovat videopelien pelaamiseen tarkoitetun mallin, joka pystyy muistamaan aiemmat tapahtumat

Published February 27, 2021

Updated April 28, 2026

Daniel Nelson

Uberin tekoälylaboratorion tutkijaryhmä on kehittänyt äskettäin järjestelmän tekoälyalgoritmeja, jotka suorittivat paremmin sekä ihmispelaajia että muita tekoälyjärjestelmiä perinteisissä Atari-videopeleissä. Tutkijoiden kehittämä tekoälyjärjestelmä pystyy muistamaan aikaisemmin onnistuneita strategioita ja luomaan uusia strategioita siitä, mitä on toiminut aiemmin. Tutkimuksen tutkijaryhmä uskoo, että heidän kehittämänsä algoritmit ovat sovellettavissa muihin teknisiin aloihin, kuten kieliprosessointiin ja robottiikkaan.

Tyypillinen menetelmä tekoälyjärjestelmien luomiseen, jotka pystyvät pelaamaan videopelien, on käyttää vahvistusoppimisalgoritmi. Vahvistusoppimisalgoritmit oppivat, miten suorittaa tehtävä tutkimalla mahdollisten toimien joukkoa, ja jokaisen toiminnan jälkeen niille annetaan jonkinlainen vahvistus (palkkio tai rangaistus). Ajan myötä tekoälymalli oppii, mitkä toimet johtavat suurempiin palkkioihin, ja se suorittaa näitä toimia todennäköisemmin. Valitettavasti vahvistusoppimismallit kohtaavat ongelmia, kun ne kohtaavat tietopisteitä, jotka eivät ole yhdenmukaisia muiden kanssa tietojoukossa.

Tutkijaryhmän mukaan syy siihen, että heidän lähestymistapaansa ei ollut aiemmin tarkasteltu muiden tekoälytutkijoiden toimesta, on se, että strategia poikkeaa “sisäisestä motivaatiosta” käytetystä vahvistusoppimisessa. Ongelma sisäisessä motivaatiossa on, että malli voi olla altis “unohtamiselle” mahdollisesti palkitseville alueille, jotka ansaitsevat edelleen tutkimista. Tätä ilmiötä kutsutaan “irtautumiseksi”. Seurauksena siitä, kun malli kohtaa odottamattomia tietoja, se saattaa unohtaa alueet, jotka pitäisi edelleen tutkia.

TechXploren mukaan tutkijaryhmä pyrki luomaan oppimismallin, joka on joustavampi ja pystyy reagoimaan odottamattomiin tietoihin. Tutkijat ratkaisivat tämän ongelman esittelemällä algoritmin, joka pystyy muistamaan kaikki toimet, jotka edellinen mallin versio suoritti, kun se yritti ratkaista ongelman. Kun tekoälymalli kohtaa tietopisteen, joka ei ole yhdenmukainen sille, mitä se on oppinut tähän asti, malli tarkistaa muistikarttansa. Malli tunnistaa, mitkä strategiat onnistuivat ja epäonnistuivat, ja valitsee strategiat asianmukaisesti.

Kun pelaamassa videopeliä, malli kerää pelin ruudunkaappauksia siitä, miten se pelaa, luoden lokin toimistaan. Kuvat ryhmitellään yhdessä niiden samankaltaisuuden perusteella, muodostaen selkeät ajankohdat, joihin malli voi viitata. Algoritmi voi käyttää lokitettuja kuvia palataksesi mielenkiintoiseen ajankohtaan ja jatkaa siitä tutkimista. Kun malli havaitsee, että se häviää, se viittaa takaisin otetuista ruudunkaappauksista ja kokeilee toisenlaista strategiaa.

BBC:n selityksen mukaan on myös ongelma vaarallisten tilanteiden käsittely tekoälyagentille, joka pelaa peliä. Jos agentti törmää vaaraan, joka voi tappaa sen, se estäisi sen palaamasta alueille, jotka ansaitsevat enemmän tutkimista, ongelmaa kutsutaan “junausongelmaksi”. Tekoälymalli käsittelee junausongelmat erillisen prosessin kautta siitä, jota käytetään vanhojen alueiden tutkimisen edistämiseen.

Tutkijaryhmä antoi mallin pelata 55 Atari-peliä. Nämä pelit ovat yleisesti käytetty tekoälymallien suorituskyvyn mittaukseen, mutta tutkijat lisäsivät twistin malliinsa. Tutkijat esittivät pelille lisäsääntöjä, joissa mallia kehotettiin olemaan saavuttamatta vain mahdollisimman korkeaa pisteytystä, vaan yrittämään saavuttaa jokaisella kerralla vielä korkeamman pisteytyksen. Kun mallin suorituskyvyn tuloksia analysoitiin, tutkijat totesivat, että heidän tekoälyjärjestelmänsä suoritti paremmin kuin muut tekoälyt peleissä noin 85 prosentissa tapauksista. Tekoäly suoriutui erityisen hyvin pelistä Montezuma’s Revenge, joka on platforminpeli, jossa pelaaja välttelee vaaroja ja kerää aarteita. Peli rikkoi ennätyksen ihmispelaajalle ja myös saavutti korkeamman pisteytyksen kuin mikään muu tekoälyjärjestelmä on saavuttanut.

Uberin tekoälytutkijoiden mukaan tutkijaryhmän käyttämät strategiat ovat sovellettavissa teollisuuksiin kuten robottiikkaan. Robotit hyötyvät kyvystä muistaa, mitkä toimet ovat onnistuneita, mitkä eivät ole toimineet ja mitkä eivät ole vielä kokeiltu.

Daniel Nelson

Blogger ja ohjelmoija, jolla on erityisalat Machine Learning ja Deep Learning -aiheissa. Daniel toivoo pystyvänsä auttamaan muita käyttämään tekoälyn voimaa sosiaaliseen hyvään.

Unite.AI

Tekoälytutkijat luovat videopelien pelaamiseen tarkoitetun mallin, joka pystyy muistamaan aiemmat tapahtumat

You may like