stub Hvad er forstærkende læring? - Unite.AI
Følg os

AI 101

Hvad er forstærkende læring?

mm
Opdateret on

Hvad er forstærkende læring?

Forenklet sagt er forstærkningslæring en maskinlæringsteknik, der involverer træning af en kunstig intelligensagent gennem gentagelse af handlinger og tilhørende belønninger. En forstærkende læringsagent eksperimenterer i et miljø, tager handlinger og bliver belønnet, når de korrekte handlinger udføres. Over tid, agenten lærer at tage de handlinger, der vil maksimere sin belønning. Det er en hurtig definition af forstærkningslæring, men at se nærmere på begreberne bag forstærkningslæring vil hjælpe dig med at få en bedre og mere intuitiv forståelse af det.

Udtrykket "forstærkende læring" er tilpasset fra begrebet forstærkning i psykologi. Af den grund, lad os tage et øjeblik på at forstå det psykologiske koncept for forstærkning. I psykologisk forstand refererer begrebet forstærkning til noget, der øger sandsynligheden for, at en bestemt reaktion/handling vil forekomme. Dette begreb om forstærkning er en central idé i teorien om operant konditionering, som oprindeligt blev foreslået af psykologen BF Skinner. I denne sammenhæng er forstærkning alt, hvad der får frekvensen af ​​en given adfærd til at stige. Hvis vi tænker på mulig forstærkning for mennesker, kan det være ting som ros, lønforhøjelse på arbejdet, slik og sjove aktiviteter.

I traditionel, psykologisk forstand er der to typer forstærkning. Der er positiv forstærkning og negativ forstærkning. Positiv forstærkning er tilføjelsen af ​​noget for at øge en adfærd, som at give din hund en godbid, når den er velopdragen. Negativ forstærkning indebærer at fjerne en stimulus for at fremkalde en adfærd, som at lukke høje lyde for at lokke en skæv kat ud.

Positiv og negativ forstærkning

Positiv forstærkning øger frekvensen af ​​en adfærd, mens negativ forstærkning reducerer frekvensen. Generelt er positiv forstærkning den mest almindelige form for forstærkning, der bruges i forstærkningslæring, da det hjælper modeller med at maksimere ydeevnen på en given opgave. Ikke kun det, men positiv forstærkning får modellen til at foretage mere bæredygtige ændringer, ændringer som kan blive konsistente mønstre og vare ved i lange perioder.

I modsætning hertil, mens negativ forstærkning også gør en adfærd mere sandsynlig, bruges den til at opretholde en minimumspræstationsstandard i stedet for at nå en models maksimale ydeevne. Negativ forstærkning i forstærkningslæring kan hjælpe med at sikre, at en model holdes væk fra uønskede handlinger, men den kan ikke rigtig få en model til at udforske ønskede handlinger.

Uddannelse af en forstærkningsagent

Når en forstærkningslæringsagent er uddannet, der er fire forskellige ingredienser or stater brugt i træningen: starttilstande (tilstand 0), ny tilstand (tilstand 1), handlinger og belønninger.

Forestil dig, at vi træner en forstærkningsagent til at spille et platformsvideospil, hvor AI'ens mål er at komme til slutningen af ​​niveauet ved at bevæge dig hen over skærmen. Spillets indledende tilstand er hentet fra omgivelserne, hvilket betyder, at spillets første frame analyseres og gives til modellen. Ud fra disse oplysninger skal modellen tage stilling til en handling.

I løbet af de indledende faser af træningen er disse handlinger tilfældige, men efterhånden som modellen forstærkes, vil visse handlinger blive mere almindelige. Efter handlingen er udført, opdateres spillets miljø, og en ny tilstand eller ramme oprettes. Hvis handlingen udført af agenten gav et ønskeligt resultat, lad os i dette tilfælde sige, at agenten stadig er i live og ikke er blevet ramt af en fjende, gives der en belønning til agenten, og det bliver mere sandsynligt, at den gør det samme i fremtiden.

Dette grundlæggende system er konstant sløjfet, sker igen og igen, og hver gang forsøger agenten at lære lidt mere og maksimere sin belønning.

Episodiske vs kontinuerlige opgaver

Forstærkende læringsopgaver kan typisk placeres i en af ​​to forskellige kategorier: episodiske opgaver og løbende opgaver.

Episodiske opgaver vil udføre lærings-/træningsløkken og forbedre deres præstationer, indtil nogle slutkriterier er opfyldt, og træningen afsluttes. I et spil kan dette være at nå slutningen af ​​niveauet eller falde i en fare som spidser. I modsætning hertil har kontinuerlige opgaver ingen afslutningskriterier, idet de i det væsentlige fortsætter med at træne for evigt, indtil ingeniøren vælger at afslutte uddannelsen.

Monte Carlo vs Temporal Difference

Der er to primære måder at lære eller træne en forstærkende læringsagent på. I Monte Carlo tilgangen, belønninger leveres til agenten (dens score opdateres) først i slutningen af ​​træningsepisoden. For at sige det på en anden måde, først når opsigelsesbetingelsen er ramt, lærer modellen, hvor godt den klarede sig. Den kan derefter bruge denne information til at opdatere, og når den næste træningsrunde startes, vil den reagere i overensstemmelse med de nye oplysninger.

tidsforskel metode adskiller sig fra Monte Carlo-metoden ved, at værdiestimeringen, eller scoreestimationen, opdateres i løbet af træningsepisoden. Når modellen går videre til næste tidstrin, opdateres værdierne.

Udforskning vs Udnyttelse

Træning af en forstærkende læringsagent er en balancegang, der involverer afvejning af to forskellige metrikker: udforskning og udnyttelse.

Udforskning er handlingen med at indsamle mere information om det omgivende miljø, mens udforskning bruger den information, der allerede er kendt om miljøet, til at optjene belønningspoint. Hvis en agent kun udforsker og aldrig udnytter miljøet, vil de ønskede handlinger aldrig blive udført. På den anden side, hvis agenten kun udnytter og aldrig udforsker, vil agenten kun lære at udføre én handling og vil ikke opdage andre mulige strategier til at tjene belønninger. Derfor er det afgørende at balancere udforskning og udnyttelse, når man skaber en forstærkende læringsagent.

Use Cases til forstærkningslæring

Forstærkende læring kan bruges i en lang række roller, og den er bedst egnet til applikationer, hvor opgaver kræver automatisering.

Automatisering af opgaver, der skal udføres af industrirobotter, er et område, hvor forstærkningslæring viser sig nyttig. Forstærkende læring kan også bruges til problemer som tekstmining, hvilket skaber modeller, der er i stand til at opsummere lange tekster. Forskere eksperimenterer også med at bruge forstærkende læring inden for sundhedsområdet, hvor forstærkningsmidler varetager jobs som optimering af behandlingspolitikker. Forstærkende læring kunne også bruges til at tilpasse undervisningsmateriale til elever.

Sammenfatning af forstærkningslæring

Forstærkningslæring er en kraftfuld metode til at konstruere AI-agenter, der kan føre til imponerende og nogle gange overraskende resultater. Træning af en agent gennem forstærkende læring kan være kompleks og vanskelig, da det kræver mange træningsgentagelser og en delikat balance mellem udforske/udnytte dikotomien. Men hvis det lykkes, kan en agent skabt med forstærkningslæring udføre komplekse opgaver under en lang række forskellige miljøer.

Blogger og programmør med speciale i Maskinelæring , Deep Learning emner. Daniel håber at kunne hjælpe andre med at bruge AI's kraft til socialt gode.