stub Hva er Deep Reinforcement Learning? - Unite.AI
Kontakt med oss

AI 101

Hva er Deep Reinforcement Learning?

mm
oppdatert on

Hva er Deep Reinforcement Learning?

Sammen med uovervåket maskinlæring og overvåket læring, er en annen vanlig form for AI-skaping forsterkende læring. Utover vanlig forsterkende læring, dyp forsterkning læring kan føre til forbløffende imponerende resultater, takket være det faktum at den kombinerer de beste aspektene ved både dyp læring og forsterkende læring. La oss ta en titt på nøyaktig hvordan dyp forsterkende læring fungerer.

Før vi dykker inn i dyp forsterkende læring, kan det være en god idé å oppdatere oss på hvor regelmessig forsterkning læring virker. I forsterkende læring er målorienterte algoritmer designet gjennom en prosess med prøving og feiling, og optimaliserer for handlingen som fører til det beste resultatet/handlingen som får mest "belønning". Når forsterkende læringsalgoritmer trenes, får de "belønninger" eller "straff" som påvirker hvilke handlinger de vil ta i fremtiden. Algoritmer prøver å finne et sett med handlinger som vil gi systemet mest belønning, og balansere både umiddelbare og fremtidige belønninger.

Forsterkningslæringsalgoritmer er veldig kraftige fordi de kan brukes på nesten alle oppgaver, og kan fleksibelt og dynamisk lære fra et miljø og oppdage mulige handlinger.

Oversikt over Deep Reinforcement Learning

Foto: Megajuice via Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Når det gjelder dyp forsterkende læring, er miljøet typisk representert med bilder. Et bilde er en fangst av miljøet på et bestemt tidspunkt. Agenten må analysere bildene og trekke ut relevant informasjon fra dem, ved å bruke informasjonen til å informere om hvilke tiltak de bør ta. Dypforsterkende læring utføres vanligvis med en av to forskjellige teknikker: verdibasert læring og policybasert læring.

Verdibaserte læringsteknikker bruker algoritmer og arkitekturer som konvolusjonelle nevrale nettverk og Deep-Q-Networks. Disse algoritmene fungerer ved å konvertere bildet til gråtoner og beskjære unødvendige deler av bildet. Etterpå gjennomgår bildet forskjellige konvolusjoner og sammenslåingsoperasjoner, og trekker ut de mest relevante delene av bildet. De viktige delene av bildet brukes så til å beregne Q-verdien for de ulike handlingene agenten kan gjøre. Q-verdier brukes til å bestemme det beste handlingsforløpet for agenten. Etter at de første Q-verdiene er beregnet, utføres tilbakepropagering for at de mest nøyaktige Q-verdiene skal kunne bestemmes.

Policybaserte metoder brukes når antallet mulige handlinger agenten kan utføre er ekstremt høyt, noe som vanligvis er tilfellet i virkelige scenarier. Situasjoner som disse krever en annen tilnærming fordi det ikke er pragmatisk å beregne Q-verdiene for alle de enkelte handlingene. Policybaserte tilnærminger fungerer uten å beregne funksjonsverdier for individuelle handlinger. I stedet vedtar de retningslinjer ved å lære policyen direkte, ofte gjennom teknikker som kalles policygradienter.

Politiske gradienter fungerer ved å motta en tilstand og beregne sannsynligheter for handlinger basert på agentens tidligere erfaringer. Den mest sannsynlige handlingen velges deretter. Denne prosessen gjentas til slutten av evalueringsperioden og belønningene gis til agenten. Etter at belønningene har blitt behandlet med agenten, oppdateres nettverkets parametere med backpropagation.

Hva er Q-Learning?

Fordi Q-læring er en så stor del av den dype forsterkende læringsprosessen, la oss bruke litt tid på å virkelig forstå hvordan Q-læringssystemet fungerer.

Markov -avgjørelsesprosessen

En markov beslutningsprosess. Foto: waldoalvarez via Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

For at en AI-agent skal utføre en rekke oppgaver og nå et mål, må agenten være i stand til å håndtere en sekvens av tilstander og hendelser. Agenten vil begynne i én tilstand, og det må ta en rekke handlinger for å nå en slutttilstand, og det kan være et enormt antall tilstander mellom begynnelses- og slutttilstanden. Lagring av informasjon om hver stat er upraktisk eller umulig, så systemet må finne en måte å bevare akkurat den mest relevante statlige informasjonen. Dette oppnås ved bruk av en Markov beslutningsprosess, som bevarer bare informasjonen om gjeldende tilstand og forrige tilstand. Hver stat følger en Markov-egenskap, som sporer hvordan agenten endrer seg fra forrige tilstand til gjeldende tilstand.

Deep Q-Learning

Når modellen har tilgang til informasjon om læringsmiljøets tilstander, kan Q-verdier beregnes. Q-verdiene er den totale belønningen som gis til agenten på slutten av en sekvens av handlinger.

Q-verdiene beregnes med en rekke belønninger. Det er en umiddelbar belønning, beregnet på gjeldende tilstand og avhengig av gjeldende handling. Q-verdien for den påfølgende tilstanden beregnes også, sammen med Q-verdien for tilstanden etter det, og så videre til alle Q-verdiene for de forskjellige tilstandene er beregnet. Det er også en Gamma-parameter som brukes til å kontrollere hvor mye vekt fremtidige belønninger har på agentens handlinger. Retningslinjer beregnes vanligvis ved å initialisere Q-verdier tilfeldig og la modellen konvergere mot de optimale Q-verdiene i løpet av treningen.

Dype Q-nettverk

Et av de grunnleggende problemene med bruk av Q-læring for forsterkende læring er at mengden minne som kreves for å lagre data raskt utvides etter hvert som antall tilstander øker. Deep Q Networks løser dette problemet ved å kombinere nevrale nettverksmodeller med Q-verdier, slik at en agent kan lære av erfaring og gjøre rimelige gjetninger om de beste handlingene å ta. Med dyp Q-læring estimeres Q-verdifunksjonene med nevrale nettverk. Det nevrale nettverket tar tilstanden inn som inngangsdata, og nettverket sender ut Q-verdi for alle de forskjellige mulige handlingene agenten kan ta.

Dyp Q-læring oppnås ved å lagre alle tidligere erfaringer i minnet, beregne maksimale utganger for Q-nettverket, og deretter bruke en tapsfunksjon for å beregne forskjellen mellom nåværende verdier og de teoretisk høyest mulige verdiene.

Dyp forsterkende læring vs dyp læring

En viktig forskjell mellom dyp forsterkende læring og vanlig dyp læring er at når det gjelder førstnevnte, endres inputene stadig, noe som ikke er tilfelle i tradisjonell dyp læring. Hvordan kan læringsmodellen redegjøre for input og output som stadig skifter?

I hovedsak, for å ta hensyn til divergensen mellom predikerte verdier og målverdier, kan to nevrale nettverk brukes i stedet for ett. Det ene nettverket estimerer målverdiene, mens det andre nettverket er ansvarlig for spådommene. Parametrene til målnettverket oppdateres etter hvert som modellen lærer, etter at et valgt antall treningsiterasjoner har passert. Utgangene til de respektive nettverkene blir deretter koblet sammen for å bestemme forskjellen.

Politikkbasert læring

Politikkbasert læring tilnærminger fungerer annerledes enn Q-verdibaserte tilnærminger. Mens Q-verdi-tilnærminger skaper en verdifunksjon som forutsier belønning for stater og handlinger, bestemmer policybaserte metoder en policy som vil kartlegge stater til handlinger. Med andre ord er policyfunksjonen som velger for handlinger direkte optimalisert uten hensyn til verdifunksjonen.

Politikk gradienter

En policy for dyp forsterkende læring faller inn i en av to kategorier: stokastisk eller deterministisk. En deterministisk policy er en der stater er kartlagt til handlinger, noe som betyr at når policyen gis informasjon om en stat, returneres en handling. I mellomtiden returnerer stokastiske retningslinjer en sannsynlighetsfordeling for handlinger i stedet for en enkelt, diskret handling.

Deterministiske retningslinjer brukes når det ikke er usikkerhet om resultatene av handlingene som kan tas. Med andre ord, når miljøet i seg selv er deterministisk. Derimot er stokastiske politikkutganger passende for miljøer der utfallet av handlinger er usikkert. Vanligvis involverer scenarier for forsterkende læring en viss grad av usikkerhet, så stokastiske retningslinjer brukes.

Politiske gradienttilnærminger har noen fordeler fremfor Q-læringsmetoder, i tillegg til noen ulemper. Når det gjelder fordeler, konvergerer policybaserte metoder til optimale parametere raskere og mer pålitelig. Policygradienten kan bare følges til de beste parameterne er bestemt, mens med verdibaserte metoder kan små endringer i estimerte handlingsverdier føre til store endringer i handlinger og tilhørende parametere.

Politiske gradienter fungerer også bedre for høydimensjonale handlingsrom. Når det er et ekstremt høyt antall mulige handlinger å ta, blir dyp Q-læring upraktisk fordi den må tildele en poengsum til alle mulige handlinger for alle tidstrinn, noe som kan være umulig beregningsmessig. Men med policybaserte metoder justeres parameterne over tid og antallet mulige beste parametere krymper raskt etter hvert som modellen konvergerer.

Politiske gradienter er også i stand til å implementere stokastiske retningslinjer, i motsetning til verdibaserte retningslinjer. Fordi stokastiske retningslinjer produserer en sannsynlighetsfordeling, trenger ikke en avveining mellom leting og utnyttelse å bli implementert.

Når det gjelder ulemper, er den største ulempen med policygradienter at de kan sette seg fast mens de søker etter optimale parametere, og fokuserer kun på et smalt, lokalt sett med optimale verdier i stedet for de globale optimale verdiene.

Policy Score-funksjon

Retningslinjene som brukes for å optimalisere en modells ytelsesmål for å maksimere en poengsumfunksjon – J(θ). Hvis J(θ) er et mål på hvor god politikken vår er for å nå ønsket mål, kan vi finne verdiene til "θ” som gir oss den beste politikken. Først må vi beregne en forventet politisk belønning. Vi anslår den politiske belønningen slik at vi har et mål, noe å optimalisere mot. Policy Score-funksjonen er hvordan vi beregner den forventede policybelønningen, og det er forskjellige Policy Score-funksjoner som brukes ofte, for eksempel: startverdier for episodiske miljøer, gjennomsnittsverdien for kontinuerlige miljøer og gjennomsnittlig belønning per tidstrinn.

Policy Gradient Ascent

Gradient ascent har som mål å flytte parametrene til de er på stedet der poengsummen er høyest. Foto: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Etter at ønsket Policy Score-funksjon er brukt, og en forventet policybelønning er beregnet, kan vi finne en verdi for parameteren "θ” som maksimerer poengsumfunksjonen. For å maksimere poengsumfunksjonen J(θ), en teknikk kalt "gradient stigning" benyttes. Gradientstigning ligner i konseptet gradientnedstigning i dyp læring, men vi optimerer for den bratteste økningen i stedet for reduksjon. Dette er fordi poengsummen vår ikke er "feil", som i mange dyplæringsproblemer. Poengsummen vår er noe vi ønsker å maksimere. Et uttrykk kalt Policy Gradient Theorem brukes til å estimere gradienten med hensyn til policy "θ".

Sammendrag av dyp forsterkningslæring

Oppsummert kombinerer dyp forsterkende læring aspekter ved forsterkende læring og dype nevrale nettverk. Dyp forsterkende læring gjøres med to forskjellige teknikker: Deep Q-learning og policy gradienter.

Deep Q-learning-metoder tar sikte på å forutsi hvilke belønninger som vil følge visse handlinger utført i en gitt tilstand, mens policygradient-tilnærminger tar sikte på å optimalisere handlingsrommet ved å forutsi handlingene i seg selv. Politikkbaserte tilnærminger til dyp forsterkende læring er enten deterministiske eller stokastiske. Deterministiske retningslinjer kartlegger tilstander direkte til handlinger mens stokastiske retningslinjer produserer sannsynlighetsfordelinger for handlinger.

Blogger og programmerer med spesialiteter innen Maskinlæring og Dyp læring emner. Daniel håper å hjelpe andre å bruke kraften til AI til sosialt gode.