Tekoäly
DeepMind Raportoi Uuden Menetelmän Kouluttamiseen Vahvistusoppimisen AI: n Turvallisesti

Vahvistusoppiminen on lupaava kehityssuunta tekoälyssä, joka tuottaa tekoälyä, joka pystyy käsittelemään erittäin monimutkaisia tehtäviä. Vahvistusoppimisalgoritmeja käytetään muun muassa mobiilien robotti-järjestelmien ja itseohjautuvien autojen luomisessa. Kuitenkin vahvistusoppimisen koulutuksen vuoksi ne voivat joskus ilmentää outoja ja odottamattomia käyttäytymisiä. Nämä käyttäytymiset voivat olla vaarallisia, ja tekoälytutkijat viittaavat tähän ongelmaan “turvallisen tutkimisen” ongelmana, jossa tekoäly jää kiinni turvattomien tilojen tutkimisessa.
Google:n tekoälytutkimuslaboratorio DeepMind julkaisi äskettäin tutkimuksen, jossa esitettiin uusia menetelmiä turvallisen tutkimisen ongelman ratkaisemiseksi ja vahvistusoppimisen tekoälyn kouluttamiseksi turvallisemmin. DeepMindin ehdottama menetelmä korjaa myös palkkion hakkeroinnin tai palkkion kriteerien löytämisen.
DeepMindin uusi menetelmä käyttää kahta eri järjestelmää, joilla ohjataan tekoälyn käyttäytymistä tilanteissa, joissa voi ilmetä turvaton käyttäytyminen. DeepMindin koulutustekniikassa käytettävät kaksi järjestelmää ovat generatiivinen malli ja eteenpäin suuntautuva dynaaminen malli. Molemmat mallit on koulutettu monenlaisilla tiedoilla, kuten turvallisuusasiantuntijoiden esittämillä esimerkeillä ja täysin satunnaisilla ajoneuvon reiteillä. Tiedot on merkitty ylläpitäjän antamilla palkintorahoilla, ja tekoälyagentti oppii käyttäytymismalleja, jotka mahdollistavat suurimman palkinnon keräämisen. Turvattomat tilat on myös merkitty, ja kun malli on onnistuneesti ennustanut palkintoja ja turvattomia tiloja, se otetaan käyttöön kohdistettujen toimien suorittamiseen.
Tutkimusryhmä selittää tutkimuksessa, että ideana on luoda mahdollisia käyttäytymisiä alusta alkaen, ehdottaa toivottuja käyttäytymisiä ja tehdä nämä hypoteettiset skenaariot mahdollisimman informatiivisiksi välttäen samalla suoraa häiriötä oppimisympäristössä. DeepMind-tiimi viittaa tähän lähestymistapaan ReQueST:na, eli palkinnon kyselysynteesinä reitin optimoinnin kautta.
ReQueST pystyy johtamaan neljään eri käyttäytymistyyppiin. Ensimmäinen käyttäytymistyyppi pyrkii maksimoimaan epävarmuutta yhdistelmäpalkintomalleissa. Toisaalta käyttäytymistyypit kaksi ja kolme pyrkivät sekä minimoihin että maksimoimaan ennustettuja palkintoja. Ennustettuja palkintoja minimoidaan löytääkseen käyttäytymisiä, joita malli voi väärin ennustaa. Toisaalta ennustettua palkintoa maksimoidaan löytääkseen käyttäytymismerkit, jotka omistavat korkeimman informaatioarvon. Lopulta neljäs käyttäytymistyyppi pyrkii maksimoimaan reittien uudisuutta, jotta malli jatkaa tutkimista palkintorahoista riippumatta.
Kun malli on saavuttanut toivottavan palkinnon keräämisen, suunnitteluenttiä käytetään päätöksentekoon oppimien palkintojen perusteella. Tämä malliprediktivistinen ohjaus sallii agenttien oppia välttämään turvattomia tiloja käyttäen dynaamista mallia ja ennustamalla mahdollisia seurauksia, toisin kuin algoritmit, jotka oppivat pelkästään kokeilemalla ja virheiden kautta.
Kuten VentureBeat raportoi, DeepMind-tutkijat uskovat, että heidän projekti on ensimmäinen vahvistusoppimisen järjestelmä, joka pystyy oppimaan hallitussa, turvallisessa muodossa:
“Meidän tietämyksemme mukaan ReQueST on ensimmäinen palkintamallinnus, joka turvallisesti oppii turvattomista tiloista ja skaalautuu kouluttamaan neurverkkojen palkintamalleja ympäristöissä, joissa on korkean dimensionaaliset, jatkuvat tilat. Tähän asti olemme vain osoittaneet ReQueST:n tehokkuuden simuloituissa domeeneissa, joissa on suhteellisen yksinkertainen dynamiikka. Yksi tulevan työn suunta on testata ReQueST: ää 3D-domeeneissa, joissa on realistisempi fysiikka ja muut agentit, jotka toimivat ympäristössä.”












