AI 101

Što je učenje s potkrepljenjem?

Ažurirano on Lipnja 5, 2021

Što je učenje s potkrepljenjem?

Pojednostavljeno rečeno, učenje s pojačanjem je tehnika strojnog učenja koja uključuje obuku agenta umjetne inteligencije kroz ponavljanje radnji i povezanih nagrada. Agent za učenje s pojačanjem eksperimentira u okruženju, poduzima radnje i biva nagrađen kada se poduzmu ispravne radnje. S vremenom agent uči poduzimati radnje koje će maksimizirati njegovu nagradu. To je kratka definicija učenja s potkrepljenjem, ali bliži pogled na koncepte iza učenja s potkrepljenjem pomoći će vam da steknete bolje, intuitivnije razumijevanje toga.

Izraz "učenje s potkrepljenjem" prilagođen je konceptu pojačanje u psihologiji. Iz tog razloga, uzmimo trenutak da razumijemo psihološki koncept potkrepljenja. U psihološkom smislu, izraz potkrepljenje odnosi se na nešto što povećava vjerojatnost da će se određeni odgovor/radnja dogoditi. Ovaj koncept potkrepljenja središnja je ideja teorije operantnog uvjetovanja, koju je prvobitno predložio psiholog BF Skinner. U ovom kontekstu, potkrepljenje je sve što uzrokuje povećanje učestalosti određenog ponašanja. Ako razmišljamo o mogućem potkrepljenju za ljude, to mogu biti stvari poput pohvale, povišice na poslu, slatkiša i zabavnih aktivnosti.

U tradicionalnom, psihološkom smislu, postoje dvije vrste potkrepljenja. Postoji pozitivno i negativno potkrepljenje. Pozitivno potkrepljenje je dodatak nečega za poboljšanje ponašanja, poput davanja poslastice vašem psu kada se dobro ponaša. Negativno potkrepljenje uključuje uklanjanje podražaja kako bi se izazvalo ponašanje, poput isključivanja glasnih zvukova kako bi se izmamila plašljiva mačka.

Pozitivno i negativno potkrepljenje

Pozitivno potkrepljenje povećava učestalost ponašanja dok negativno potkrepljenje smanjuje učestalost. Općenito, pozitivno potkrepljenje najčešći je tip potkrepljenja koji se koristi u učenju s potkrepljenjem jer pomaže modelima da maksimiziraju izvedbu na određenom zadatku. I ne samo to, već pozitivno potkrepljenje navodi model da napravi održivije promjene, promjene koje mogu postati konzistentni obrasci i trajati dugo vremena.

Nasuprot tome, dok negativno potkrepljenje također čini vjerojatnijim pojavljivanje ponašanja, ono se koristi za održavanje minimalnog standarda izvedbe umjesto postizanja maksimalne izvedbe modela. Negativno potkrepljenje u učenju s potkrepljenjem može pomoći osigurati da se model drži podalje od nepoželjnih radnji, ali ne može natjerati model da istražuje željene radnje.

Obuka agenta za pojačanje

Kada je agent učenja s pojačanjem obučen, postoje četiri različita sastojka or države korišteni u obuci: početna stanja (Stanje 0), novo stanje (Stanje 1), akcije i nagrade.

Zamislite da obučavamo agenta za pojačanje da igra platformsku videoigru u kojoj je cilj umjetne inteligencije doći do kraja razine pomicanjem desno preko ekrana. Početno stanje igre izvlači se iz okruženja, što znači da se prvi okvir igre analizira i daje modelu. Na temelju tih informacija model mora odlučiti o akciji.

Tijekom početnih faza obuke, ove radnje su nasumične, ali kako se model pojačava, određene radnje će postati češće. Nakon poduzimanja radnje okruženje igre se ažurira i stvara se novo stanje ili okvir. Ako je radnja koju je poduzeo agent proizvela željeni rezultat, recimo u ovom slučaju da je agent još uvijek živ i da ga neprijatelj nije pogodio, neka nagrada se daje agentu i veća je vjerojatnost da će učiniti isto u budućnost.

Ovaj osnovni sustav je stalno u petlji, događa se iznova i iznova, i svaki put agent pokušava naučiti nešto više i maksimalno povećati svoju nagradu.

Epizodni naspram kontinuiranih zadataka

Zadaci učenja za potvrđivanje obično se mogu smjestiti u jednu od dvije različite kategorije: epizodne zadatke i kontinuirane zadatke.

Epizodni zadaci izvršit će petlju učenja/obuke i poboljšati svoju izvedbu sve dok se ne ispune neki krajnji kriteriji i obuka ne završi. U igri to može biti dolazak do kraja razine ili upadanje u opasnost poput šiljaka. Nasuprot tome, trajni zadaci nemaju kriterije za prekid, u biti nastavljaju trenirati zauvijek sve dok inženjer ne odluči prekinuti obuku.

Monte Carlo protiv vremenske razlike

Postoje dva primarna načina učenja ili treniranja agenta učenja s potkrepljenjem. U Monte Carlo pristup, nagrade se dostavljaju agentu (njegov se rezultat ažurira) tek na kraju epizode obuke. Drugim riječima, tek kada se postigne uvjet prekida, model uči koliko je dobro radio. Zatim može koristiti te informacije za ažuriranje i kada započne sljedeća runda obuke, reagirat će u skladu s novim informacijama.

Korištenje električnih romobila ističe metoda vremenske razlike razlikuje se od Monte Carlo metode po tome što se procjena vrijednosti ili procjena rezultata ažurira tijekom epizode treninga. Nakon što model prijeđe na sljedeći vremenski korak, vrijednosti se ažuriraju.

Istraživanje protiv iskorištavanja

Obuka agenta za učenje s pojačanjem je čin balansiranja, koji uključuje balansiranje dviju različitih metrika: istraživanja i iskorištavanja.

Istraživanje je čin prikupljanja više informacija o okolnom okolišu, dok istraživanje koristi već poznate informacije o okolišu kako bi se zaradili nagradni bodovi. Ako agent samo istražuje, a nikad ne iskorištava okolinu, željene radnje nikada neće biti izvedene. S druge strane, ako agent samo iskorištava, a nikad ne istražuje, agent će naučiti izvesti samo jednu akciju i neće otkriti druge moguće strategije zarađivanja nagrada. Stoga je balansiranje istraživanja i iskorištavanja ključno pri stvaranju agenta za učenje s pojačanjem.

Koristite slučajeve za potkrepljujuće učenje

Učenje s pojačanjem može se koristiti u raznim ulogama, a najprikladnije je za aplikacije u kojima zadaci zahtijevaju automatizaciju.

Automatizacija zadataka koje trebaju obavljati industrijski roboti jedno je područje u kojem se učenje potvrđivanjem pokazalo korisnim. Učenje s pojačanjem također se može koristiti za probleme kao što je rudarenje teksta, stvaranje modela koji mogu sažeti duge dijelove teksta. Istraživači također eksperimentiraju s korištenjem potkrepljujućeg učenja u području zdravstvene skrbi, s potkrepljujućim agentima koji se bave poslovima poput optimizacije politika liječenja. Učenje s pojačanjem također se može koristiti za prilagodbu obrazovnog materijala za učenike.

Sažetak učenja s potkrepljenjem

Učenje s pojačanjem moćna je metoda konstruiranja AI agenata koja može dovesti do impresivnih i ponekad iznenađujućih rezultata. Obuka agenta putem učenja s pojačanjem može biti složena i teška, budući da je potrebno mnogo ponavljanja obuke i delikatna ravnoteža dihotomije istraživanje/iskorištavanje. Međutim, ako je uspješan, agent stvoren s učenjem s pojačanjem može izvršavati složene zadatke u velikom broju različitih okruženja.

Srodne teme:101

Sljedeći

Što je stablo odlučivanja?

Ne propustite

Što je duboko učenje?

Daniel Nelson

Bloger i programer sa specijalnošću u Strojno učenje i Duboko učenje temama. Daniel se nada pomoći drugima da iskoriste snagu umjetne inteligencije za društveno dobro.

Ujedinite se.AI

Što je učenje s potkrepljenjem?

AI 101

Što je učenje s potkrepljenjem?

Sadržaj

Što je učenje s potkrepljenjem?

Pozitivno i negativno potkrepljenje

Obuka agenta za pojačanje

Epizodni naspram kontinuiranih zadataka

Monte Carlo protiv vremenske razlike

Istraživanje protiv iskorištavanja

Koristite slučajeve za potkrepljujuće učenje

Sažetak učenja s potkrepljenjem

Ujedinite se.AI

Što je učenje s potkrepljenjem?

Sadržaj

Što je učenje s potkrepljenjem?

Pozitivno i negativno potkrepljenje

Obuka agenta za pojačanje

Epizodni naspram kontinuiranih zadataka

Monte Carlo protiv vremenske razlike

Istraživanje protiv iskorištavanja

Koristite slučajeve za potkrepljujuće učenje

Sažetak učenja s potkrepljenjem

Svibanj vam se sviđa