Tekoäly
Tekoäly Kamppailee Minecraftin Hallitsemisesta Imitaatio-opimisen Kautta

Edellisten kuukausien aikana Microsoft ja muut koneoppimiseen tutkivia yrityksiä haastoivat tekoälykehittäjien tiimejä luomaan tekoälyjärjestelmä, joka voisi pelata Minecraftia ja löytää timantin pelin sisällä. BBC:n mukaan, vaikka tekoälyalustat ovat onnistuneet hallitsemaan shakin ja gon, se on kamppaillut tehtävän hallitsemisessa Minecraftissa.
Microsoftin Minecraft-pohjainen tekoälyhaaste oli nimeltään MineRL, ja kilpailun tulokset julkaistiin virallisesti vastaan NeurIPS-konferenssissa. Kilpailun tarkoituksena oli kouluttaa tekoäly “imitaatio-opimisen” lähestymistavalla. Imitaatio-opiminen on menetelmä, jossa tekoäly koulutetaan havainnoinnin avulla. Imitaatio-opimisen tarkoituksena on antaa tekoälyjärjestelmille mahdollisuus oppia toimia seuraamalla ihmisten toimia, oppimalla havainnoinnin kautta. Imitaatio-opiminen on verrattuna vahvistusopimiseen paljon vähemmän laskennallinen ja tehokkaampi tapa kouluttaa tekoälyä.
Vahvistusopiminen vaatii usein monia voimakkaita tietokoneita, jotka on kytketty yhteen, ja satoja tai tuhansia tunteja koulutusta, jotta se voisi olla tehokas tehtävässä. Sen sijaan tekoäly, joka on koulutettu imitaatio-opimismenetelmällä, voidaan kouluttaa paljon nopeammin, koska tekoälyllä on jo valmiiksi tietynlainen tietämys, jonka ihmiset ovat sen edeltäjinä luoneet.
Imitaatio-opimisella on käytännön sovelluksia tekoälyn koulutuksessa, jossa tekoäly ei voi turvallisesti tutkia, kunnes se on oppinut oikeat toimintatavat. Tällaisia tilanteita ovat esimerkiksi itseohjautuvan ajoneuvon koulutus, jossa autoa ei voida antaa vapaasti liikkua kadulla, kunnes se on oppinut toimimaan halutulla tavalla. Ihmisen esittäjän datan käyttäminen ajoneuvon koulutukseen voisi tehdä prosessin nopeammaksi ja turvallisemmaksi.
Timantin löytäminen Minecraftissa vaatii useiden askelten suorittamista peräkkäin, kuten puiden kaataminen työkalujen valmistamiseksi, luolasten tutkiminen, joissa timantit sijaitsevat, ja itse timantin löytäminen luolasta. Vaikka tehtävä on monimutkainen, ihmiselle, joka on tuttu peliin, pitäisi olla mahdollista löytää timantti noin 20 minuutissa.
Yli 660 erilaista tekoälyagenttia osallistui kilpailuun, mutta yksikään niistä ei onnistunut löytämään timanttia. Kilpailuun tarjotut koulutusdatat koostuivat yli 60 miljoonasta pelikehyksestä, jotka oli kerätty useilta ihmispuhujilta. Timanttien sijainnit ovat satunnaisia, kun peli aloitetaan, joten tämä tarkoittaa, että tekoälyt eivät voi yksinkertaisesti etsiä sieltä, missä ihmiset löysivät timantit. Toisin sanoen, tekoälyjen on muodostettava ymmärrys siitä, miten käsitteet, kuten työkalujen valmistaminen, työkalujen käyttäminen, tutkiminen ja resurssien löytäminen, liittyvät toisiinsa.
Vaikka yksikään tekoälyagentti ei onnistunut löytämään timanttia, kilpailun järjestäjätiimi oli silti tyytyväinen kilpailun tuloksiin, ja siitä oli paljon opittavaa kokeen kautta. Tekoälytiimien tekemä tutkimus voi auttaa edistämään tekoälyalan kehitystä ja löytämään vaihtoehtoja vahvistusopimisstrategioille.
Vahvistusopiminen antaa usein paremman suorituskyvyn kuin imitaatio-opiminen, ja yksi merkittävä vahvistusopimisen menestys on DeepMindin AlphaGo. Kuitenkin, kuten aiemmin mainittiin, vahvistusopiminen vaatii massiivisia laskentaresursseja, mikä rajoittaa sen käyttöä organisaatioissa, jotka eivät voi maksaa suuria tietokoneita.
William Guss, Carnegie Mellonin yliopiston PhD-opiskelija ja kilpailun pääjärjestäjä, selitti BBC:lle, että MineRL-kilpailun tarkoituksena oli tutkia vaihtoehtoja laskennallisesti raskaille tekoälyjärjestelmille. Guss sanoi:
“…Massiivisten laskentaresurssien heittäminen ongelmien päälle ei välttämättä ole oikea tapa edistää alan kehitystä… Se toimii suoraan demokraattisen pääsyn rajoittamiseen näihin vahvistusopimisjärjestelmiin ja jättää kyvyn kouluttaa agenteja monimutkaisiin ympäristöihin yrityksille, joilla on laaja laskentakapasiteetti.”


