Connect with us

AI 101

Mikä on Meta-oppiminen?

mm

Mikä on Meta-oppiminen?

Yksi nopeimmin kasvavista koneoppimisen tutkimusalueista on meta-oppimisen alue. Meta-oppiminen, koneoppimisen kontekstissa, on koneoppimisalgoritmien käyttö muiden koneoppimismallien kouluttamiseen ja optimointiin. Koska meta-oppiminen on yhä suositumpaa ja kehitetään yhä enemmän meta-oppimistekniikoita, on hyödyllistä ymmärtää, mitä meta-oppiminen on ja miten sitä voidaan soveltaa. Tarkastellaan meta-oppimisen taustoja, meta-oppimisen tyypit, sekä joitain tapoja, joilla meta-oppiminen voidaan soveltaa.

Termi meta-oppiminen keksittiin Donald Maudsleyn toimesta kuvaamaan prosessia, jossa ihmiset alkavat muokata sitä, mitä he oppivat, tulemalla “yhä enemmän hallitsemaan havaintojen, kysymyksen, oppimisen ja kasvun tapoja, joita he ovat sisäistäneet”. Myöhemmin kognitiiviset tutkijat ja psykologit kuvasivat meta-oppimisen “oppimiseksi oppimisen”.

Koneoppimisen versiossa meta-oppimisesta yleinen “oppimisen oppiminen” -idea sovelletaan tekoälyjärjestelmiin. Tekoälyssä meta-oppiminen on tekoälykoneen kyky oppia suorittamaan erilaisia monimutkaisia tehtäviä, soveltamalla periaatteita, joita se on oppinut yhden tehtävän suorittamiseen, muihin tehtäviin. Tekoälyjärjestelmien on yleensä opittava suorittamaan tehtävä opettelemalla useita pieniä alitehtäviä. Tämä koulutus voi kestää kauan, ja tekoälyagentit eivät helposti siirrä tietoa, jonka ne ovat oppineet yhdestä tehtävästä toiseen. Meta-oppimismallien ja -tekniikoiden luominen voi auttaa tekoälyä oppimaan yleistämään oppimismenetelmiä ja hankkimaan uusia taitoja nopeammin.

Meta-oppimisen tyypit

Optimoi meta-oppiminen

Meta-oppimista käytetään usein olemassa olevan neuroverkon suorituskyvyn optimointiin. Optimoi meta-oppimismenetelmät toimivat yleensä säätämällä toisen neuroverkon hyperparametrejä parantamaan perusneuroverkon suorituskykyä. Tuloksena on, että kohdeneuroverkko tulisi parantamaan tehtävän suorittamista, jolle se on koulutettu. Yksi esimerkki meta-oppimisen optimoijasta on verkon käyttäminen gradientin laskeutumisen tulosten parantamiseen.

Pieni-otoksen meta-oppiminen

Pieni-otoksen meta-oppiminen on lähestymistapa, jossa syvä neuroverkko suunnitellaan, joka pystyy yleistämään koulutusaineistoista näkemättömiin aineistoihin. Pieni-otoksen luokittelun esimerkki on samanlainen kuin normaali luokittelutehtävä, mutta sen sijaan, että data-näytteet ovat koko aineistoa. Malli koulutetaan useille eri oppimistehtäville/aineistoille ja sitten se optimoidaan huipputulokselle useille koulutustehtäville ja näkemättömille aineistoille. Tässä lähestymistavassa yksi koulutusnäyte jaetaan useisiin luokkiin. Tämä tarkoittaa, että jokainen koulutusnäyte/aineisto voi koostua kahdesta luokasta, yhteensä 4-otoksen 2-luokan luokittelutehtävä.

Pieni-otoksen oppimisessa ajatus on, että yksittäiset koulutusnäytteet ovat vähäisiä, ja verkko voi oppia tunnistamaan objekteja nähtyään vain muutaman kuvan. Tämä on samanlaista kuin lapsen oppiminen erottamaan objekteja nähtyään vain muutaman kuvan. Tätä lähestymistapaa on käytetty luomaan tekniikoita, kuten yhden otoksen generatiiviset mallit ja muistiin perustuvat neuroverkot.

Mitta meta-oppiminen

Mitta-pohjainen meta-oppiminen on neuroverkkojen käyttö mittaamiseen, onko mitta toimii tehokkaasti ja onko verkko tai verkkomalli saavuttanut kohdemitan. Mitta meta-oppiminen on samanlainen kuin pieni-otoksen oppiminen, jossa vain muutamia esimerkkejä käytetään verkkojen kouluttamiseen ja oppimiseen mittatilasta. Sama mittaa käytetään eri alueilla, ja jos verkkomallit poikkeavat mittaustuloksista, ne katsotaan epäonnistuneiksi.

Toistuva malli meta-oppiminen

Toistuva malli meta-oppiminen on meta-oppimistekniikoiden soveltaminen toistuviin neuroverkkoihin ja samankaltaisiin pitkän lyhyen muistin verkkoihin. Tämä tekniikka toimii kouluttamalla toistuva neuroverkko oppimaan aineiston järjestyksessä ja sitten käyttämällä koulutettua mallia toisen oppijan perustana. Meta-oppimisen periytyminen mahdollistaa nopean aloittamisen ja suppenevan, mutta edelleen päivitettävissä olevan uusille tilanteille.

Miten meta-oppiminen toimii?

Meta-oppimisen tarkka tapa vaihtelee mallin ja tehtävän luonteen mukaan. Yleensä kuitenkin meta-oppimistehtävä käyttää ensimmäisen verkon parametreja toisen verkon/optimoinnin parametreiksi.

Meta-oppimisessa on kaksi koulutusprosessia. Meta-oppimismalli koulutetaan yleensä useiden perusmallin koulutusaskelten jälkeen. Perusmallin eteenpäin, taaksepäin ja optimointiaskelten jälkeen, jotka kouluttavat perusmallia, suoritetaan eteenpäin koulutuspassi optimoimismallille. Esimerkiksi perusmallin kolmen tai neljän koulutusaskelen jälkeen lasketaan meta-tappio. Meta-tappion laskemisen jälkeen lasketaan gradientit kullekin meta-parametrille. Tämän jälkeen meta-parametrit optimoijassa päivitetään.

Yksi mahdollisuus meta-tappion laskemiseen on suorittaa perusmallin eteenpäin koulutuspassi ja yhdistää jo laskettuja tappioita. Meta-optimoija voi olla toinenkin meta-oppuja, vaikka jossain vaiheessa on käytettävä diskreettiä optimoijaa, kuten ADAM tai SGD.

Monet syvät oppimismallit voivat sisältää satoja tuhansia tai jopa miljoonia parametreja. Meta-oppimisen luominen, jolla on täysin uusi joukko parametreja, olisi laskennallisesti kallista, ja tästä syystä käytetään taktiikkaa, jota kutsutaan koordinaattien jakamiseksi. Koordinaattien jakaminen käyttää meta-oppimista/optimointia siten, että se oppii yhden parametrin perusmallista ja sitten vain kloonaa tämän parametrin kaikkien muiden parametrejen tilalle. Tuloksena on, että optimoijan parametreja ei riipu mallin parametreista.

Blogger ja ohjelmoija, jolla on erityisalat Machine Learning ja Deep Learning -aiheissa. Daniel toivoo pystyvänsä auttamaan muita käyttämään tekoälyn voimaa sosiaaliseen hyvään.