Connect with us

Tekoäly

DeepMind ja Google Brain pyrkivät luomaan menetelmiä, joilla voidaan parantaa vahvistusoppimisen tehokkuutta

mm

Vahvistusoppimisjärjestelmät voivat olla voimakkaita ja kestäviä, ja ne kykenevät suorittamaan erittäin monimutkaisia tehtäviä tuhansien koulutusjaksojen kautta. Vaikka vahvistusoppimisalgoritmit kykenevät mahdollistamaan sofistikoitunutta ja toisinaan yllättävää käyttäytymistä, ne vaativat koulutukseen paljon aikaa ja suuria määriä dataa. Nämä tekijät tekevät vahvistusoppimismenetelmistä melko tehokkaita, ja viime aikoina Alphabetin DeepMind- ja Google Brain -tutkimusryhmät ovat pyrkineet löytämään tehokkaampia menetelmiä vahvistusoppimisjärjestelmien luomiseksi.

Kuten VentureBeat raportoi, yhdistynyt tutkimusryhmä esitti äskettäin menetelmiä, joilla voidaan tehostaa vahvistusoppimisen koulutusta. Yksi ehdotetuista parannuksista oli algoritmi, joka kutsutaan Adaptive Behavior Policy Sharing (ABPS):ksi, kun taas toinen oli Universal Value Function Approximators (UVFA) -kehys. ABPS sallii AI-välineiden jakaa kokemuksiaan sopeutuvasti, kun taas UVFA sallii näiden välineiden tutkia samanaikaisesti ohjattuja tutkimuspolitiikkoja.

ABPS on tarkoitettu nopeuttamaan hyperparametrien mukauttamista mallin koulutuksen aikana. ABPS tekee optimaalisten hyperparametrien löytämisen nopeammaksi sallimalla useiden eri agenttien, joilla on eri hyperparametrit, jakaa käyttäytymispolitiikkaansa. Tarkemmin sanottuna ABPS sallii vahvistusoppimisagenttien valita toimintoja, jotka ovat hyväksyttyjä, ja myöhemmin ne saavat palkkion ja havainnon seuraavan tilan mukaan.

AI-vahvistusagentit koulutetaan eri hyperparametrien yhdistelmillä, kuten hidastusnopeudella ja oppimisnopeudella. Kun malli koulutetaan, tavoitteena on, että malli supistuu hyperparametrien yhdistelmään, joka antaa sille parhaimman suorituskyvyn, ja tässä tapauksessa myös parantaa datatehokkuutta. Tehokkuus kasvaa kouluttamalla useita agenteja samanaikaisesti ja valitsemalla ainoastaan yhden agentin käyttäytymistä seuraavassa aikavaiheessa. Käyttäytymispolitiikka, jota kohde-agentti käyttää, käytetään toimintojen näyttelemiseen. Siirtymät kirjataan jaettuun tilaan, ja tätä tilaa arvioidaan jatkuvasti, jotta politiikan valintaa ei tarvitse tehdä liian usein. Koulutuksen lopussa valitaan agenttien joukko, ja parhaimmin suorittavat agentit valitaan lopulliseen käyttöön.

UVFA:n osalta se pyrkii ratkaisemaan yhteen yleisistä ongelmista vahvistusoppimisessa, jossa heikosti vahvistetut agentit eivät usein opi tehtäviä. UVFA pyrkii ratkaisemaan ongelman opettamalla agentin oppimaan erillisen joukon hyödyntämis- ja tutkimuspolitiikkoja samanaikaisesti. Tehtävien erottaminen luo kehyksen, joka sallii tutkimuspolitiikkojen jatkaa ympäristön tutkimista, kun taas hyödyntämispolitiikat pyrkivät maksimoimaan palkkion nykyiselle tehtävälle. UVFA:n tutkimuspolitiikat toimivat perusrakenteena, joka parantaa jatkuvasti, vaikka luonnollisia palkkioita ei löydy. Tällaisessa tilanteessa funktio, joka vastaa intrinsic palkkioita, approksimoidaan, mikä ohjaa agenteja tutkimaan kaikki tilat ympäristössä, vaikka ne usein palaavat tuttuihin tiloihin.

Kuten VentureBeat selitti, kun UVFA-kehys on käytössä, järjestelmän intrinsic palkkiot annetaan suoraan agentille syötteinä. Agentti pitää kirjaa kaikkien syötteiden (kuten palkkioiden, toimintojen ja tilan) edustasta annetun jakson aikana. Tuloksena on, että palkkio säilyy ajan myötä, ja agentin politiikka on ainakin jossain määrin informoitu siitä aina.

Tämä saavutetaan “jakson uutuus” – ja “elämänmittainen uutuus” -moduulin avulla. Ensimmäisen moduulin tehtävä on pitää nykyistä, jaksoittaista muistia ja kartoittaa nykyisiä löytöjä mainittuun edustukseen, jotta agentti voi määrittää intrinsic jakso-palkkion koulutuksen jokaiselle vaiheelle. Sen jälkeen tila, joka on liitetty nykyiseen havaintoon, lisätään muistiin. Samaan aikaan elämänmittainen uutuusmoduuli vastaa siitä, kuinka usein agentti tutkii useiden jaksojen aikana.

Alphabetin/Google-tiimien mukaan uudet koulutustekniikat ovat jo osoittaneet potentiaalia merkittävälle parannukselle vahvistusoppimisjärjestelmän koulutuksessa. UVFA kykeni kaksinkertaistamaan joitain perusagenttien suorituskykyä, jotka pelasivat eri Atari-pelejä. Samaan aikaan ABPS kykeni parantamaan suorituskykyä joissain samoissa Atari-peleissä, vähentämällä vaihtelua parhaimmin suorittavien agenttien keskuudessa noin 25 %. UVFA-koulutusohjelma kykeni saavuttamaan korkean pisteytyksen Pitfall-pelissä ilman mitään ihmisten suunnittelemia ominaisuuksia tai demoja.

Blogger ja ohjelmoija, jolla on erityisalat Machine Learning ja Deep Learning -aiheissa. Daniel toivoo pystyvänsä auttamaan muita käyttämään tekoälyn voimaa sosiaaliseen hyvään.