tynkä Mitä vahvistusoppiminen on? - Unite.AI
Liity verkostomme!

AI 101

Mitä vahvistusoppiminen on?

mm
Päivitetty on

Mitä vahvistusoppiminen on?

Yksinkertaisesti sanottuna vahvistusoppiminen on koneoppimistekniikka, joka sisältää tekoälyagentin koulutuksen toistamalla toimintoja ja niihin liittyviä palkintoja. Vahvistusoppimisagentti kokeilee ympäristössä, ryhtyy toimiin ja palkitaan, kun oikeita toimia tehdään. Ajan myötä agentti oppii tekemään toimia, jotka maksimoivat sen palkkion. Tämä on vahvistusoppimisen nopea määritelmä, mutta vahvistavan oppimisen taustalla olevien käsitteiden tarkastelu tarkemmin auttaa sinua ymmärtämään sitä paremmin ja intuitiivisemmin.

Termi "vahvistusoppiminen" on mukautettu käsitteestä " vahvistusta psykologiassa. Tästä syystä katsotaanpa hetki vahvistaaksemme psykologisen käsitteen ymmärtäminen. Psykologisessa merkityksessä termi vahvistaminen viittaa johonkin, joka lisää todennäköisyyttä, että tietty vastaus/toiminto tapahtuu. Tämä vahvistamisen käsite on psykologi BF Skinnerin alun perin ehdottaman operanttiehdottelun teorian keskeinen ajatus. Tässä yhteydessä vahvistaminen on kaikkea, mikä saa tietyn käyttäytymisen esiintymistiheyden lisääntymään. Jos ajattelemme mahdollista vahvistusta ihmisille, nämä voivat olla esimerkiksi ylistystä, palkankorotusta, karkkia ja hauskoja aktiviteetteja.

Perinteisessä psykologisessa mielessä vahvistusta on kahta tyyppiä. On positiivista vahvistusta ja negatiivista vahvistusta. Positiivinen vahvistaminen on jotain, joka lisää käyttäytymistä, kuten koiran herkkua, kun se käyttäytyy hyvin. Negatiivinen vahvistaminen sisältää ärsykkeen poistamisen, joka saa aikaan käyttäytymisen, kuten kovien äänien sulkemisen houkuttelemaan kissaa.

Positiivinen ja negatiivinen vahvistus

Positiivinen vahvistus lisää käyttäytymisen taajuutta, kun taas negatiivinen vahvistaminen vähentää taajuutta. Yleensä positiivinen vahvistus on yleisin vahvistustyyppi, jota käytetään vahvistusoppimisessa, koska se auttaa malleja maksimoimaan suorituskyvyn tietyssä tehtävässä. Sen lisäksi, että positiivinen vahvistus saa mallin tekemään kestävämpiä muutoksia, joista voi tulla johdonmukaisia ​​malleja ja jotka säilyvät pitkiä aikoja.

Sitä vastoin, vaikka negatiivinen vahvistus myös tekee käyttäytymisestä todennäköisemmin, sitä käytetään vähimmäissuorituskykystandardin ylläpitämiseen mallin maksimaalisen suorituskyvyn saavuttamisen sijaan. Negatiivinen vahvistaminen vahvistusoppimisessa voi auttaa varmistamaan, että malli pysyy poissa ei-toivotuista toimista, mutta se ei voi saada mallia tutkimaan haluttuja toimia.

Vahvistusagentin kouluttaminen

Kun vahvistusoppimisagentti on koulutettu, on neljä eri ainesosaa or toteaa käytetään koulutuksessa: alkutilat (State 0), uusi tila (State 1), toimet ja palkinnot.

Kuvittele, että koulutamme vahvistusagenttia pelaamaan tasohyppelyvideopeliä, jossa tekoälyn tavoitteena on päästä tason loppuun liikkumalla näytön poikki. Pelin alkutila piirretään ympäristöstä, eli pelin ensimmäinen kehys analysoidaan ja annetaan mallille. Näiden tietojen perusteella mallin on päätettävä toimenpiteestä.

Harjoittelun alkuvaiheessa nämä toimet ovat satunnaisia, mutta mallin vahvistuessa tietyt toiminnot yleistyvät. Kun toiminto on suoritettu, pelin ympäristö päivitetään ja uusi tila tai kehys luodaan. Jos agentin tekemä toiminta tuotti toivotun tuloksen, oletetaan tässä tapauksessa, että agentti on edelleen elossa eikä vihollinen ole osunut siihen, agentille annetaan jonkin verran palkkiota ja se tekee todennäköisemmin samoin tulevaisuus.

Tämä perusjärjestelmä on jatkuvasti silmukka, joka tapahtuu uudestaan ​​​​ja uudestaan, ja joka kerta, kun agentti yrittää oppia hieman enemmän ja maksimoida palkkionsa.

Episodiset vs jatkuvat tehtävät

Vahvistusoppimistehtävät voidaan tyypillisesti sijoittaa johonkin kahdesta eri kategoriasta: episodiset tehtävät ja jatkuvat tehtävät.

Episodiset tehtävät suorittavat oppimis-/koulutussilmukan ja parantavat suorituskykyään, kunnes jotkin loppukriteerit täyttyvät ja koulutus lopetetaan. Pelissä tämä saattaa saavuttaa tason lopun tai joutua vaaraan, kuten piikkeihin. Sitä vastoin jatkuvilla tehtävillä ei ole lopetusehtoja, ja ne jatkuvat käytännössä ikuisesti, kunnes insinööri päättää lopettaa koulutuksen.

Monte Carlo vs ajallinen ero

On kaksi ensisijaista tapaa oppia tai kouluttaa vahvistava oppimisagentti. Sisään Monte Carlon lähestymistapa, palkinnot toimitetaan agentille (sen pistemäärä päivitetään) vasta koulutusjakson lopussa. Toisin sanoen malli oppii suorituskyvyn vasta, kun lopetusehto osuu. Se voi sitten käyttää näitä tietoja päivittääkseen ja seuraavan harjoituskierroksen alkaessa vastaa uusien tietojen mukaisesti.

- ajallinen ero menetelmä poikkeaa Monte Carlo -menetelmästä siinä, että arvon arvio eli pistearvio päivitetään harjoitusjakson aikana. Kun malli etenee seuraavaan vaiheeseen, arvot päivitetään.

Tutkimus vs hyväksikäyttö

Vahvistusoppimisagentin kouluttaminen on tasapainoilua, joka sisältää kahden eri mittaustuloksen tasapainottamisen: tutkimisen ja hyödyntämisen.

Tutkimuksella kerätään lisää tietoa ympäröivästä ympäristöstä, kun taas etsinnässä käytetään ympäristöstä jo tunnettua tietoa ansaitakseen palkintopisteitä. Jos agentti vain tutkii eikä koskaan hyödynnä ympäristöä, haluttuja toimia ei koskaan suoriteta. Toisaalta, jos agentti vain hyödyntää eikä koskaan tutki, agentti oppii suorittamaan vain yhden toiminnon eikä löydä muita mahdollisia palkkioiden ansaitsemisstrategioita. Siksi etsinnän ja hyödyntämisen tasapainottaminen on kriittistä luotaessa vahvistusoppimisagenttia.

Käytä tapauksia vahvistavaan oppimiseen

Vahvistusoppimista voidaan käyttää monissa eri rooleissa ja se soveltuu parhaiten sovelluksiin, joissa tehtävät vaativat automatisointia.

Teollisuusrobottien suorittamien tehtävien automatisointi on yksi alue, jolla vahvistusoppiminen on hyödyllistä. Vahvistusoppimista voidaan käyttää myös ongelmiin, kuten tekstin louhintaan, jolloin luodaan malleja, jotka pystyvät tiivistämään pitkiä tekstikappaleita. Tutkijat kokeilevat myös vahvistusoppimisen käyttöä terveydenhuollon alalla, jolloin vahvistusaineet hoitavat esimerkiksi hoitopolitiikan optimoinnin. Vahvistusoppimisen avulla voitaisiin myös räätälöidä oppimateriaalia opiskelijoille.

Yhteenveto vahvistusoppimisesta

Vahvistusoppiminen on tehokas keino tekoälyagenttien rakentamiseen, joka voi johtaa vaikuttaviin ja joskus yllättäviin tuloksiin. Agentin kouluttaminen vahvistusoppimisen avulla voi olla monimutkaista ja vaikeaa, koska se vaatii monia koulutusiteraatioita ja herkän tasapainon tutkimisen/hyödyntämisen dikotomiassa. Vahvistusoppimisen avulla luotu agentti voi kuitenkin onnistuessaan suorittaa monimutkaisia ​​tehtäviä monissa erilaisissa ympäristöissä.

Bloggaaja ja ohjelmoija erikoisaloilla Koneen oppiminen ja Deep Learning aiheita. Daniel toivoo voivansa auttaa muita käyttämään tekoälyn voimaa yhteiskunnalliseen hyvään.