AI 101

Kaj je okrepitveno učenje?

Posodobljeno on Junij 5, 2021

Kaj je okrepitveno učenje?

Preprosto povedano, ojačitveno učenje je tehnika strojnega učenja, ki vključuje usposabljanje agenta umetne inteligence s ponavljanjem dejanj in s tem povezanih nagrad. Ojačitveni učni agent eksperimentira v okolju, izvaja dejanja in je nagrajen, ko so izvedeni pravilni ukrepi. Čez čas agent se nauči izvajati dejanja, ki bodo povečala njegovo nagrado. To je kratka definicija učenja s krepitvijo, toda če si podrobneje ogledate koncepte, ki stojijo za učenjem s krepitvijo, boste to lažje in bolj intuitivno razumeli.

Izraz »učenje s krepitvijo« je prirejen iz koncepta okrepitev v psihologiji. Zato si vzemimo trenutek za razumevanje psihološkega koncepta okrepitve. V psihološkem smislu se izraz okrepitev nanaša na nekaj, kar poveča verjetnost, da bo prišlo do določenega odziva/dejanja. Ta koncept ojačitve je osrednja ideja teorije operantnega pogojevanja, ki jo je prvotno predlagal psiholog BF Skinner. V tem kontekstu je okrepitev vse, kar povzroči povečanje pogostosti določenega vedenja. Če pomislimo na možno okrepitev za ljudi, so to lahko stvari, kot so pohvale, povišica v službi, sladkarije in zabavne dejavnosti.

V tradicionalnem, psihološkem smislu obstajata dve vrsti okrepitve. Obstaja pozitivna okrepitev in negativna okrepitev. Pozitivna okrepitev je dodatek nečesa za izboljšanje vedenja, na primer dajanje vašemu psu priboljška, ko se lepo obnaša. Negativna okrepitev vključuje odstranitev dražljaja, da izzovemo vedenje, kot je izključitev glasnih zvokov, da bi pregnali plašljivo mačko.

Pozitivna in negativna okrepitev

Pozitivna okrepitev poveča pogostost vedenja, medtem ko negativna okrepitev zmanjša pogostost. Na splošno je pozitivna okrepitev najpogostejša vrsta okrepitve, ki se uporablja pri učenju s krepitvijo, saj pomaga modelom povečati učinkovitost pri dani nalogi. Ne le to, ampak pozitivna okrepitev vodi model k bolj trajnostnim spremembam, spremembam, ki lahko postanejo dosledni vzorci in trajajo dolgo časa.

V nasprotju s tem, medtem ko negativna okrepitev tudi poveča verjetnost, da se bo neko vedenje pojavilo, se uporablja za vzdrževanje minimalnega standarda uspešnosti, namesto da bi dosegli največjo zmogljivost modela. Negativna okrepitev pri učenju z okrepitvijo lahko pomaga zagotoviti, da se model drži stran od nezaželenih dejanj, vendar ne more zares prisiliti modela, da razišče želena dejanja.

Usposabljanje ojačitvenega agenta

Ko je agent za krepitveno učenje usposobljen, obstajajo štiri različne sestavine or države uporabljeno pri usposabljanju: začetna stanja (Stanje 0), novo stanje (Stanje 1), dejanja in nagrade.

Predstavljajte si, da usposabljamo okrepitvenega agenta za igranje platformske videoigre, kjer je cilj umetne inteligence priti do konca stopnje s premikanjem desno po zaslonu. Začetno stanje igre je črpano iz okolja, kar pomeni, da je prvi okvir igre analiziran in predan modelu. Na podlagi teh informacij se mora model odločiti za dejanje.

V začetnih fazah usposabljanja so ta dejanja naključna, ko pa se model okrepi, bodo nekatera dejanja postala pogostejša. Po izvedbi dejanja se okolje igre posodobi in ustvari se novo stanje ali okvir. Če je dejanje, ki ga je izvedel agent, prineslo želeni rezultat, v tem primeru recimo, da je agent še vedno živ in ga sovražnik ni zadel, agent prejme nekaj nagrade in bolj verjetno je, da bo storil enako v prihodnost.

Ta osnovni sistem je nenehno v zanki, dogaja se znova in znova in vsakič, ko se agent poskuša naučiti malo več in povečati svojo nagrado.

Epizodične v primerjavi z neprekinjenimi nalogami

Naloge za krepitev učenja se običajno lahko uvrstijo v eno od dveh različnih kategorij: epizodne naloge in stalne naloge.

Epizodične naloge bodo izvajale zanko učenja/usposabljanja in izboljševale svojo uspešnost, dokler niso izpolnjena nekatera končna merila in se usposabljanje konča. V igri je to morda doseganje konca ravni ali padec v nevarnost, kot so konice. Nasprotno pa nenehne naloge nimajo meril za prekinitev, v bistvu nadaljujejo z usposabljanjem za vedno, dokler se inženir ne odloči končati z usposabljanjem.

Monte Carlo proti časovni razliki

Obstajata dva primarna načina učenja ali usposabljanja agenta za krepitev učenja. notri pristop Monte Carlo, so nagrade dostavljene agentu (njegov rezultat je posodobljen) šele na koncu epizode usposabljanja. Povedano drugače, šele ko je izpolnjen pogoj za prekinitev, se model nauči, kako dobro je deloval. Te informacije lahko nato uporabi za posodobitev in ko se začne naslednji krog usposabljanja, se bo odzval v skladu z novimi informacijami.

O metoda časovne razlike se od metode Monte Carlo razlikuje po tem, da se ocena vrednosti ali ocena rezultata posodablja med potekom vadbene epizode. Ko model napreduje v naslednji časovni korak, se vrednosti posodobijo.

Raziskovanje proti izkoriščanju

Usposabljanje agenta za krepitev učenja je dejanje uravnoteženja, ki vključuje uravnoteženje dveh različnih metrik: raziskovanja in izkoriščanja.

Raziskovanje je dejanje zbiranja več informacij o okoliškem okolju, medtem ko raziskovanje uporablja že znane informacije o okolju za pridobivanje nagradnih točk. Če agent samo raziskuje in nikoli ne izkorišča okolja, želena dejanja ne bodo nikoli izvedena. Po drugi strani pa, če agent samo izkorišča in nikoli ne raziskuje, se bo agent naučil izvajati le eno dejanje in ne bo odkril drugih možnih strategij pridobivanja nagrad. Zato je ravnotežje med raziskovanjem in izkoriščanjem ključnega pomena pri ustvarjanju agenta za krepitev učenja.

Primeri uporabe za krepitveno učenje

Učenje s krepitvijo se lahko uporablja v najrazličnejših vlogah in je najbolj primerno za aplikacije, kjer naloge zahtevajo avtomatizacijo.

Avtomatizacija nalog, ki jih bodo izvajali industrijski roboti, je eno od področij, kjer se učenje s krepitvijo izkaže za koristno. Okrepljeno učenje se lahko uporablja tudi za težave, kot je rudarjenje besedila, ustvarjanje modelov, ki lahko povzamejo dolga telesa besedila. Raziskovalci prav tako eksperimentirajo z uporabo podpornega učenja na področju zdravstvenega varstva, pri čemer okrepitveni agenti opravljajo dela, kot je optimizacija politik zdravljenja. Učenje s krepitvijo bi lahko uporabili tudi za prilagajanje učnega gradiva za učence.

Povzetek okrepljenega učenja

Okrepljeno učenje je zmogljiva metoda konstruiranja agentov AI, ki lahko vodi do impresivnih in včasih presenetljivih rezultatov. Usposabljanje agenta z učenjem z okrepitvijo je lahko zapleteno in težko, saj zahteva veliko ponovitev usposabljanja in občutljivo ravnovesje dihotomije raziskovanje/izkoriščanje. Če pa je uspešen, lahko agent, ustvarjen z učenjem okrepitve, izvaja kompleksne naloge v najrazličnejših okoljih.

Sorodne teme:101

Up Next

Kaj je drevo odločitev?

Ne zamudite

Kaj je globoko učenje?

Daniel Nelson

Bloger in programer s posebnostmi v strojno učenje in Globoko učenje teme. Daniel upa, da bo drugim pomagal uporabiti moč umetne inteligence za družbeno dobro.

Unite.AI

Kaj je okrepitveno učenje?

AI 101

Kaj je okrepitveno učenje?

Kazalo vsebine

Kaj je okrepitveno učenje?

Pozitivna in negativna okrepitev

Usposabljanje ojačitvenega agenta

Epizodične v primerjavi z neprekinjenimi nalogami

Monte Carlo proti časovni razliki

Raziskovanje proti izkoriščanju

Primeri uporabe za krepitveno učenje

Povzetek okrepljenega učenja

Unite.AI

Kaj je okrepitveno učenje?

Kazalo vsebine

Kaj je okrepitveno učenje?

Pozitivna in negativna okrepitev

Usposabljanje ojačitvenega agenta

Epizodične v primerjavi z neprekinjenimi nalogami

Monte Carlo proti časovni razliki

Raziskovanje proti izkoriščanju

Primeri uporabe za krepitveno učenje

Povzetek okrepljenega učenja

Morda vam bo všeč