AI 101

Hvad er Deep Reinforcement Learning?

Opdateret on August 2, 2021

Hvad er Deep Reinforcement Learning?

Sammen med uovervåget maskinlæring og overvåget læring er en anden almindelig form for AI-skabelse forstærkningslæring. Ud over almindelig forstærkningslæring, dyb forstærkende læring kan føre til forbløffende imponerende resultater, takket være det faktum, at det kombinerer de bedste aspekter af både deep learning og forstærkende læring. Lad os tage et kig på præcis, hvordan dyb forstærkningslæring fungerer.

Før vi dykker ned i dyb forstærkningslæring, kan det være en god idé at genopfriske os selv i, hvor regelmæssigt forstærkning læring arbejder. I forstærkende læring er målorienterede algoritmer designet gennem en proces med trial and error, der optimerer til den handling, der fører til det bedste resultat/den handling, der opnår mest "belønning". Når forstærkende læringsalgoritmer trænes, får de "belønninger" eller "straffe", der påvirker, hvilke handlinger de vil tage i fremtiden. Algoritmer forsøger at finde et sæt handlinger, der vil give systemet den største belønning, og balancere både umiddelbare og fremtidige belønninger.

Forstærkende læringsalgoritmer er meget kraftfulde, fordi de kan anvendes til næsten enhver opgave, idet de er i stand til fleksibelt og dynamisk at lære af et miljø og opdage mulige handlinger.

Oversigt over Deep Reinforcement Learning

Foto: Megajuice via Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Når det kommer til dyb forstærkende læring, er miljøet typisk repræsenteret med billeder. Et billede er en optagelse af miljøet på et bestemt tidspunkt. Agenten skal analysere billederne og udtrække relevant information fra dem, ved at bruge informationen til at informere om, hvilken handling de skal foretage sig. Dyb forstærkende læring udføres typisk med en af to forskellige teknikker: værdibaseret læring og politikbaseret læring.

Værdibaserede læringsteknikker gør brug af algoritmer og arkitekturer som f.eks. konvolutionelle neurale netværk og Deep-Q-Netværk. Disse algoritmer fungerer ved at konvertere billedet til gråtoner og beskære unødvendige dele af billedet. Bagefter gennemgår billedet forskellige foldninger og sammenlægningsoperationer, hvorved de mest relevante dele af billedet udtrækkes. De vigtige dele af billedet bruges derefter til at beregne Q-værdien for de forskellige handlinger, agenten kan foretage. Q-værdier bruges til at bestemme den bedste fremgangsmåde for agenten. Efter at de indledende Q-værdier er beregnet, udføres tilbagepropagering for at de mest nøjagtige Q-værdier kan bestemmes.

Politikbaserede metoder bruges, når antallet af mulige handlinger, som agenten kan udføre, er ekstremt højt, hvilket typisk er tilfældet i scenarier i den virkelige verden. Situationer som disse kræver en anden tilgang, fordi det ikke er pragmatisk at beregne Q-værdierne for alle de enkelte handlinger. Politikbaserede tilgange fungerer uden beregning af funktionsværdier for individuelle handlinger. I stedet vedtager de politikker ved at lære politikken direkte, ofte gennem teknikker kaldet Policy Gradients.

Politikgradienter fungerer ved at modtage en tilstand og beregne sandsynligheder for handlinger baseret på agentens tidligere erfaringer. Derefter vælges den mest sandsynlige handling. Denne proces gentages indtil slutningen af evalueringsperioden, og belønningen gives til agenten. Efter at belønningerne er blevet behandlet med agenten, opdateres netværkets parametre med backpropagation.

Hvad er Q-Learning?

Fordi Q-læring er så stor en del af den dybe forstærkende læringsproces, lad os tage lidt tid til virkelig at forstå, hvordan Q-learning-systemet fungerer.

Markov-beslutningsprocessen

En markov beslutningsproces. Foto: waldoalvarez via Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

For at en AI-agent kan udføre en række opgaver og nå et mål, skal agenten være i stand til at håndtere en sekvens af tilstande og begivenheder. Agenten vil begynde i én tilstand, og den skal tage en række handlinger for at nå en sluttilstand, og der kan eksistere et enormt antal tilstande mellem begyndelses- og sluttilstanden. Lagring af information om hver stat er upraktisk eller umulig, så systemet skal finde en måde at bevare netop den mest relevante statsinformation. Dette opnås ved brug af en Markovs beslutningsproces, som kun bevarer oplysningerne vedrørende den aktuelle tilstand og den tidligere tilstand. Hver stat følger en Markov-egenskab, som sporer, hvordan agenten ændrer sig fra den tidligere tilstand til den nuværende tilstand.

Dyb Q-læring

Når modellen har adgang til information om læringsmiljøets tilstande, kan Q-værdier beregnes. Q-værdierne er den samlede belønning, der gives til agenten i slutningen af en sekvens af handlinger.

Q-værdierne beregnes med en række belønninger. Der er en øjeblikkelig belønning, beregnet på den aktuelle tilstand og afhængig af den aktuelle handling. Q-værdien for den efterfølgende tilstand beregnes også sammen med Q-værdien for tilstanden derefter, og så videre, indtil alle Q-værdier for de forskellige tilstande er blevet beregnet. Der er også en Gamma-parameter, der bruges til at kontrollere, hvor meget vægt fremtidige belønninger har på agentens handlinger. Politikker beregnes typisk ved tilfældigt at initialisere Q-værdier og lade modellen konvergere mod de optimale Q-værdier i løbet af træningen.

Dybe Q-netværk

Et af de grundlæggende problemer, der involverer brugen af Q-learning for forstærkende læring er, at mængden af hukommelse, der kræves til at lagre data, hurtigt udvides i takt med, at antallet af tilstande stiger. Deep Q Networks løser dette problem ved at kombinere neurale netværksmodeller med Q-værdier, hvilket gør det muligt for en agent at lære af erfaring og foretage rimelige gæt om de bedste handlinger at tage. Med dyb Q-læring estimeres Q-værdi funktionerne med neurale netværk. Det neurale netværk tager tilstanden ind som inputdata, og netværket udsender Q-værdi for alle de forskellige mulige handlinger, agenten kan tage.

Dyb Q-læring opnås ved at gemme alle tidligere oplevelser i hukommelsen, beregne maksimale output for Q-netværket og derefter bruge en tabsfunktion til at beregne forskellen mellem aktuelle værdier og de teoretisk højest mulige værdier.

Deep Reinforcement Learning vs Deep Learning

En vigtig forskel mellem dyb forstærkende læring og almindelig dyb læring er, at i førstnævntes tilfælde ændrer inputs sig konstant, hvilket ikke er tilfældet i traditionel dyb læring. Hvordan kan læringsmodellen redegøre for input og output, der konstant skifter?

I det væsentlige, for at tage højde for divergensen mellem forudsagte værdier og målværdier, kan to neurale netværk bruges i stedet for ét. Det ene netværk estimerer målværdierne, mens det andet netværk er ansvarlig for forudsigelserne. Målnetværkets parametre opdateres, efterhånden som modellen lærer, efter et valgt antal træningsiterationer er bestået. Udgangene fra de respektive netværk forbindes derefter for at bestemme forskellen.

Politikbaseret læring

Politikbaseret læring tilgange fungerer anderledes end Q-værdi baserede tilgange. Mens Q-værdi tilgange skaber en værdifunktion, der forudsiger belønninger for stater og handlinger, bestemmer politikbaserede metoder en politik, der vil kortlægge stater til handlinger. Med andre ord er policyfunktionen, der udvælger til handlinger, direkte optimeret uden hensyntagen til værdifunktionen.

Politik gradienter

En politik for dyb forstærkende læring falder i en af to kategorier: stokastisk eller deterministisk. En deterministisk politik er en, hvor stater er kortlagt til handlinger, hvilket betyder, at når politikken gives information om en stat, returneres en handling. I mellemtiden returnerer stokastiske politikker en sandsynlighedsfordeling for handlinger i stedet for en enkelt, diskret handling.

Deterministiske politikker bruges, når der ikke er usikkerhed om resultaterne af de handlinger, der kan tages. Med andre ord, når selve miljøet er deterministisk. I modsætning hertil er stokastiske politiske output passende for miljøer, hvor resultatet af handlinger er usikkert. Forstærkende læringsscenarier involverer typisk en vis grad af usikkerhed, så der anvendes stokastiske politikker.

Politikgradienttilgange har nogle få fordele i forhold til Q-learning-tilgange, såvel som nogle ulemper. Med hensyn til fordele konvergerer politikbaserede metoder hurtigere og mere pålideligt om optimale parametre. Politikgradienten kan blot følges, indtil de bedste parametre er fastlagt, hvorimod små ændringer i estimerede handlingsværdier med værdibaserede metoder kan føre til store ændringer i handlinger og de tilhørende parametre.

Politikgradienter fungerer også bedre for højdimensionelle handlingsrum. Når der er et ekstremt stort antal mulige handlinger at tage, bliver dyb Q-læring upraktisk, fordi den skal tildele en score til enhver mulig handling for alle tidstrin, hvilket kan være umuligt udregningsmæssigt. Men med politikbaserede metoder justeres parametrene over tid, og antallet af mulige bedste parametre skrumper hurtigt efterhånden som modellen konvergerer.

Politikgradienter er også i stand til at implementere stokastiske politikker i modsætning til værdibaserede politikker. Fordi stokastiske politikker producerer en sandsynlighedsfordeling, er det ikke nødvendigt at implementere en udforskning/udnyttelsesafvejning.

Med hensyn til ulemper er den største ulempe ved policy-gradienter, at de kan hænge fast, mens de søger efter optimale parametre, idet de kun fokuserer på et snævert, lokalt sæt af optimale værdier i stedet for de globale optimale værdier.

Policy Score funktion

Politikkerne, der bruges til at optimere en models præstationsmål for at maksimere en scorefunktion – J(θ). Hvis J(θ) er et mål for, hvor god vores politik er til at nå det ønskede mål, kan vi finde værdierne af "θ”, der giver os den bedste politik. Først skal vi beregne en forventet politisk belønning. Vi anslår den politiske belønning, så vi har et mål, noget at optimere hen imod. Policy Score-funktionen er, hvordan vi beregner den forventede policy-belønning, og der er forskellige Policy Score-funktioner, som er almindeligt anvendte, såsom: startværdier for episodiske miljøer, den gennemsnitlige værdi for kontinuerlige miljøer og den gennemsnitlige belønning pr. tidstrin.

Politik Gradient Ascent

Gradient opstigning har til formål at flytte parametrene, indtil de er på det sted, hvor scoren er højest. Foto: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Efter at den ønskede Policy Score-funktion er brugt, og en forventet policy-belønning er beregnet, kan vi finde en værdi for parameteren "θ” som maksimerer scorefunktionen. For at maksimere scorefunktionen J(θ), en teknik kaldet "gradient opstigning" anvendes. Gradient opstigning ligner i konceptet gradient nedstigning i dyb læring, men vi optimerer for den stejleste stigning i stedet for at falde. Dette skyldes, at vores score ikke er "fejl", som i mange deep learning-problemer. Vores score er noget, vi ønsker at maksimere. Et udtryk kaldet Policy Gradient Theorem bruges til at estimere gradienten med hensyn til politik "θ".

Resumé af Deep Reinforcement Learning

Sammenfattende kombinerer dyb forstærkningslæring aspekter af forstærkningslæring og dybe neurale netværk. Dyb forstærkende læring udføres med to forskellige teknikker: Deep Q-learning og politiske gradienter.

Deep Q-learning-metoder har til formål at forudsige, hvilke belønninger, der vil følge bestemte handlinger, der tages i en given tilstand, mens politiske gradienttilgange sigter mod at optimere handlingsrummet, forudsige selve handlingerne. Politikbaserede tilgange til dyb forstærkende læring er enten deterministisk eller stokastisk af natur. Deterministiske politikker kortlægger tilstande direkte til handlinger, mens stokastiske politikker producerer sandsynlighedsfordelinger for handlinger.

Næste

Hvad er fødereret læring?

Gå ikke glip af

Hvad er Bayes sætning?

Daniel Nelson

Blogger og programmør med speciale i Maskinelæring , Deep Learning emner. Daniel håber at kunne hjælpe andre med at bruge AI's kraft til socialt gode.