Tekoäly
DeepMindin uusi tekoäly pystyy oppimaan pelin säännöt pelatessaan

Alphabetin tytäryhtiö DeepMind on kehittänyt äskettäin tekoälyjärjestelmän, joka pystyy oppimaan pelin säännöt pelatessaan. Vaikka DeepMind on luonut vaikuttavia tekoälymalleja, jotka voivat hallita pelejä kuten shakki, shogi, go ja videopelit aikaisemmin, nämä mallit on annettava pelin säännöt etukäteen. Täten DeepMindin uusi tekoäly edustaa merkittävää parannusta aiempiin tekoälyalgoritmeihin, jotka oppivat pelaamaan pelejä vahvistusoppimisen kautta.
Tekoälyjärjestelmä – MuZero
DeepMind on yksityiskohtaisesti selittänyt, miten heidän uusi tekoälyjärjestelmänsä toimii äskettäin julkaistussa Nature-lehden artikkelissa. Uusi tekoäly, joka on nimeltään MuZero, pystyy oppimaan pelin säännöt pelatessaan “look-ahead search” -periaatteen ansiosta. Kuten Engadget on raportoinut, MuZero käyttää look-ahead search -periaatetta määrittääkseen, mitkä liikkeet tulisi suorittaa vastustajien todennäköisimpien vastausten perusteella.
Kun otetaan huomioon kaikki mahdolliset liikkeet, jotka voidaan tehdä peleissä kuten shakissa, MuZero pystyy priorisoimaan liikkeet ja karsiutumaan vain todennäköisimpiin ja merkittävimpiin liikkeisiin. MuZero oppii sekä onnistuneista että epäonnistuneista manöuvreista. Sen sijaan, että mallinnettaisiin kaikkia mahdollisia tekijöitä, MuZero ottaa huomioon vain ne tekijät, jotka ovat merkittävimpiä ja vaikuttavimpiä päätöksenteon kannalta. MuZero tiivistää moninaiset potentiaaliset muuttujat ja edustaa niitä puuhakuisessa haku-algoritmilla. Mahdollisuudet puussa yhdistetään oppimalla mallilla, joka perustuu testiympäristön ominaisuuksiin. Look-ahead search suoritetaan sen jälkeen, kun ympäristön merkittävimmät ominaisuudet on tunnistettu.
Lopullisen päätöksen tekemiseksi otetaan huomioon kolme tekijää.
MuZero ottaa huomioon edellisen valinnan tuloksen, sen kulloisen aseman ja mahdolliset seuraavat toimet. Tämä lähestymistapa voittaa aiemmin DeepMindin käyttämät lähestymistavat, mukaan lukien peruslook-ahead search ja puumallit. MuZero osoittautui vähintään yhtä hyväksi shakissa, shogissa ja gossa kuin AlphaZero, ja kun se pelasi Ms. Pac-Man -peliä, MuZero pystyi tarkastelemaan vain noin kuusi tai seitsemän liikettä kerrallaan. Huolimatta tästä rajoituksesta, tekoäly suoriutui edelleen hyvin. DeepMind kokeili myös MuZero:n kykyjä rajoittamalla simulaatioiden määrää, jonka jälkeen se joutui sitoutumaan liikkeeseen. Yleensä, mitä enemmän ohjelmalle annettiin aikaa tarkastella mahdollisia liikkeitä, sitä paremmin se suoriutui.
DeepMindin pää tutkimussientifiko, David Silver, selitti TechXplorelle, että MuZero on ensimmäinen tekoälymalli, joka pystyy luomaan oman edustansa ympäristön säännöistä ja käyttämään sitä suunnittelemaan toimia.
“Ensimmäistä kertaa meillä on järjestelmä, joka pystyy luomaan oman ymmärryksensä siitä, miten maailma toimii, ja käyttämään sitä ymmärrystä tällaisen sofistikoituun look-ahead-suunnitteluun, jonka olet aiemmin nähnyt peleissä kuten shakissa,” Silver sanoi. “(MuZero) voi aloittaa tyhjästä ja vain kokeilemalla ja virheiden kautta, sekä löytää ympäristön säännöt ja käyttää niitä saavuttaaksesi tällaisen yli-ihmisen suorituskyvyn.”
Mahdolliset sovellukset
Tekoäly, joka pystyy todella oppimaan tehtävän rajoitukset ja toimimaan niiden puitteissa, on laaja valikoima mahdollisia sovelluksia. MuZero voidaan käyttää tehtäviin kuten videopakkaukseen, joka on historiallisesti ollut vaikea automatisoida tekoälyllä, johtuen monista eri videomuodoista ja pakkauksista. MuZero pystyi saavuttamaan noin 5 %:n pakkauksen parantamisen. Tämä voi olla vaikutuksia Googleen ja YouTubeen isännöityjen videoiden suurelle määrälle. Videoiden lisäksi DeepMind tutkii myös käyttämistä samaa MuZero-tekniikkaa proteiinirakenteen suunnittelussa ja robotti-ohjelmoinnissa.
Professori Wendy Hall, tietojenkäsittelytieteen professori Southamptonin yliopistossa, sanoo, että MuZero edustaa “merkittävää askelta eteenpäin” vahvistusoppimisen algoritmeille. Hall on kuitenkin huolissaan, että algoritmit voivat olla väärinkäytössä. Esimerkiksi Yhdysvaltain ilmavoimat on jo maininnut varhaisia tutkimuspaperi MuZero:sta luodakseen tekoälyjärjestelmän, joka pystyy laukaisemaan ohjuksia U-2-vakoilukoneista. Tämä on huolimatta siitä, että DeepMindin tutkijat ovat ilmaisseet vastustavansa algoritmien käyttämistä mihinkään tappavaan aseeseen ja allekirjoittaneet Lethal Autonomous Weapons Pledge -julistuksen, jossa väitetään, että kaikki tappava teknologia tulisi pysyä ihmisen hallinnassa.
Silver selitti, että DeepMind on katse eteenpäin, tavoitteena kehittää algoritmeja, jotka ovat yhtä voimakkaita ja monipuolisia kuin aivot. Ensimmäinen askel luomiseen monipuolisia ja joustavia algoritmeja on ymmärtää, mitä tarkoittaa järjestelmän älykkyys, ja älykkyys on kytköksissä kykyyn havaita monimutkaisten ympäristöjen mallit ja säännöt.












