stub Hva er forsterkende læring? - Unite.AI
Kontakt med oss

AI 101

Hva er forsterkende læring?

mm
oppdatert on

Hva er forsterkende læring?

Enkelt sagt er forsterkende læring en maskinlæringsteknikk som innebærer å trene en kunstig intelligensagent gjennom repetisjon av handlinger og tilhørende belønninger. En forsterkende læringsagent eksperimenterer i et miljø, tar handlinger og blir belønnet når de riktige handlingene blir tatt. Over tid, agenten lærer å ta de handlingene som vil maksimere belønningen. Det er en rask definisjon av forsterkende læring, men å se nærmere på konseptene bak forsterkende læring vil hjelpe deg å få en bedre og mer intuitiv forståelse av det.

Begrepet "forsterkende læring" er tilpasset fra begrepet forsterkning i psykologi. Av den grunn, la oss ta et øyeblikk for å forstå det psykologiske konseptet forsterkning. I psykologisk forstand refererer begrepet forsterkning til noe som øker sannsynligheten for at en bestemt respons/handling vil inntreffe. Dette begrepet forsterkning er en sentral idé i teorien om operant kondisjonering, opprinnelig foreslått av psykologen BF Skinner. I denne sammenheng er forsterkning alt som gjør at frekvensen av en gitt atferd øker. Hvis vi tenker på mulig forsterkning for mennesker, kan dette være ting som ros, høyning på jobben, godteri og morsomme aktiviteter.

I tradisjonell, psykologisk forstand er det to typer forsterkning. Det er positiv forsterkning og negativ forsterkning. Positiv forsterkning er å legge til noe for å øke en atferd, som å gi hunden en godbit når den oppfører seg vel. Negativ forsterkning innebærer å fjerne en stimulans for å fremkalle en atferd, som å stenge av høye lyder for å lokke ut en skrånende katt.

Positiv og negativ forsterkning

Positiv forsterkning øker frekvensen av en atferd mens negativ forsterkning reduserer frekvensen. Generelt er positiv forsterkning den vanligste typen forsterkning som brukes i forsterkende læring, da den hjelper modeller med å maksimere ytelsen på en gitt oppgave. Ikke bare det, men positiv forsterkning fører til at modellen gjør mer bærekraftige endringer, endringer som kan bli konsistente mønstre og vedvare i lange perioder.

I motsetning til dette, mens negativ forsterkning også gjør det mer sannsynlig at en atferd oppstår, brukes den for å opprettholde en minimum ytelsesstandard i stedet for å nå en modells maksimale ytelse. Negativ forsterkning i forsterkende læring kan bidra til å sikre at en modell holdes unna uønskede handlinger, men den kan egentlig ikke få en modell til å utforske ønskede handlinger.

Trening av en forsterkningsagent

Når en forsterkende læringsagent er opplært, det er fire forskjellige ingredienser or stater brukt i opplæringen: starttilstander (State 0), ny tilstand (State 1), handlinger og belønninger.

Tenk deg at vi trener en forsterkningsagent til å spille et plattformspill der AI-ens mål er å komme til slutten av nivået ved å bevege seg rett over skjermen. Den opprinnelige tilstanden til spillet er hentet fra miljøet, noe som betyr at den første rammen av spillet blir analysert og gitt til modellen. Basert på denne informasjonen må modellen ta stilling til en handling.

Under de innledende fasene av treningen er disse handlingene tilfeldige, men etter hvert som modellen forsterkes, vil visse handlinger bli mer vanlig. Etter at handlingen er utført, oppdateres spillets miljø og en ny tilstand eller ramme opprettes. Hvis handlingen utført av agenten ga et ønskelig resultat, la oss i dette tilfellet si at agenten fortsatt er i live og ikke har blitt truffet av en fiende, en belønning gis til agenten og det blir mer sannsynlig at han gjør det samme i fremtiden.

Dette grunnleggende systemet går hele tiden i loop, skjer igjen og igjen, og hver gang prøver agenten å lære litt mer og maksimere belønningen.

Episodiske vs kontinuerlige oppgaver

Forsterkende læringsoppgaver kan vanligvis plasseres i en av to forskjellige kategorier: episodiske oppgaver og kontinuerlige oppgaver.

Episodiske oppgaver vil gjennomføre lærings-/treningssløyfen og forbedre ytelsen deres inntil noen sluttkriterier er oppfylt og opplæringen avsluttes. I et spill kan dette være å nå slutten av nivået eller falle inn i en fare som pigger. Derimot har kontinuerlige oppgaver ingen avslutningskriterier, og fortsetter i hovedsak å trene for alltid til ingeniøren velger å avslutte opplæringen.

Monte Carlo vs tidsforskjell

Det er to primære måter å lære, eller trene, en forsterkende læringsagent på. I Monte Carlo-tilnærmingen, belønninger leveres til agenten (poengsummen oppdateres) først på slutten av treningsepisoden. For å si det på en annen måte, først når termineringsbetingelsen er truffet, lærer modellen hvor godt den presterte. Den kan deretter bruke denne informasjonen til å oppdatere og når neste treningsrunde startes vil den svare i samsvar med den nye informasjonen.

De tidsforskjellsmetode skiller seg fra Monte Carlo-metoden ved at verdiestimeringen, eller poengberegningen, oppdateres i løpet av treningsepisoden. Når modellen går videre til neste tidstrinn, oppdateres verdiene.

Utforskning vs utnyttelse

Å trene en forsterkende læringsagent er en balansegang, som involverer balansering av to forskjellige beregninger: utforskning og utnyttelse.

Utforskning er handlingen med å samle inn mer informasjon om det omkringliggende miljøet, mens utforskning bruker informasjonen som allerede er kjent om miljøet for å tjene belønningspoeng. Hvis en agent kun utforsker og aldri utnytter miljøet, vil de ønskede handlingene aldri bli utført. På den annen side, hvis agenten bare utnytter og aldri utforsker, vil agenten bare lære å utføre én handling og vil ikke oppdage andre mulige strategier for å tjene belønninger. Derfor er det avgjørende å balansere utforskning og utnyttelse når man oppretter en forsterkende læringsagent.

Bruk tilfeller for forsterkende læring

Forsterkende læring kan brukes i en lang rekke roller, og den er best egnet for applikasjoner der oppgaver krever automatisering.

Automatisering av oppgaver som skal utføres av industriroboter er et område hvor forsterkende læring viser seg nyttig. Forsterkende læring kan også brukes til problemer som tekstutvinning, og skaper modeller som er i stand til å oppsummere lange tekster. Forskere eksperimenterer også med å bruke forsterkende læring i helsevesenet, med forsterkende agenter som håndterer jobber som optimalisering av behandlingspolitikk. Forsterkende læring kan også brukes til å tilpasse undervisningsmateriell for elever.

Sammendrag av forsterkende læring

Forsterkende læring er en kraftig metode for å konstruere AI-agenter som kan føre til imponerende og noen ganger overraskende resultater. Å trene en agent gjennom forsterkende læring kan være komplekst og vanskelig, ettersom det krever mange treningsiterasjoner og en delikat balanse mellom utforske/utnytt-dikotomien. Men hvis det lykkes, kan en agent opprettet med forsterkende læring utføre komplekse oppgaver under en rekke forskjellige miljøer.

Blogger og programmerer med spesialiteter innen Maskinlæring og Dyp læring emner. Daniel håper å hjelpe andre å bruke kraften til AI til sosialt gode.