stub DeepMind og Google Brain Aim lager metoder for å forbedre effektiviteten av forsterkende læring - Unite.AI
Kontakt med oss

Kunstig intelligens

DeepMind og Google Brain Aim lager metoder for å forbedre effektiviteten av forsterkende læring

mm
oppdatert on

Forsterkende læringssystemer kan være kraftige og robuste, i stand til å utføre ekstremt komplekse oppgaver gjennom tusenvis av iterasjoner med trening. Mens forsterkende læringsalgoritmer er i stand til å muliggjøre sofistikert og til tider overraskende oppførsel, tar de lang tid å trene og krever enorme mengder data. Disse faktorene gjør teknikker for forsterkning læring ganske ineffektive, og nylig har forskningsteam fra Alphabet DeepMind og Google Brain forsøkt å finne mer effektive metoder for å lage forsterkende læringssystemer.

Som rapportert av VentureBeat, foreslo den kombinerte forskergruppen nylig metoder for å gjøre trening for forsterkning mer effektiv. En av de foreslåtte forbedringene var en algoritme kalt Adaptive Behavior Policy Sharing (ABPS), mens den andre var et rammeverk kalt Universal Value Function Approximators (UVFA). ABPS lar grupper av AI-agenter dele sine tilpasset utvalgte erfaringer, mens UVFA lar disse AI-en samtidig undersøke rettet utforskningspolitikk.

ABPS er ment å fremskynde tilpasningen av hyperparametre ved opplæring av en modell. ABPS gjør det raskere å finne de optimale hyperparametrene ved å la flere forskjellige agenter med forskjellige hyperparametre dele sine atferdspolitiske erfaringer. For å være mer presis lar ABPS agenter for forsterkende læring velge handlinger fra de handlingene som en policy har ansett som ok, og etterpå tildeles den en belønning og observasjon basert på følgende tilstand.

AI-forsterkningsmidler trenes med ulike kombinasjoner av mulige hyperparametre, som forfallshastighet og læringshastighet. Når man trener en modell, er målet at modellen konvergerer på kombinasjonen av hyperparametre som gir den best ytelse, og i dette tilfellet de som også forbedrer dataeffektiviteten. Effektiviteten økes ved å trene mange agenter på en gang og velge atferden til bare én agent som skal distribueres i neste tidstrinn. Policyen som målagenten har, brukes til å prøve handlinger. Overgangene logges deretter innenfor et delt område, og dette området blir kontinuerlig evaluert slik at policyvalg ikke trenger å skje så ofte. På slutten av opplæringen velges et ensemble av agenter og de beste agentene velges ut til å gjennomgå endelig distribusjon.

Når det gjelder UVFA, forsøker den å håndtere et av de vanlige problemene med forsterkende læring, at svakt forsterkede agenter ofte ikke lærer oppgaver. UVFA forsøker å løse problemet ved å la agenten lære et eget sett med utnyttelses- og utforskningspolicyer samtidig. Å separere oppgavene skaper et rammeverk som lar den utforskende policyen fortsette å utforske miljøet mens utnyttelsespolitikken fortsetter å prøve å maksimere belønningen for den nåværende oppgaven. De utforskende retningslinjene til UVFA fungerer som en grunnlinjearkitektur som vil fortsette å forbedre seg selv om det ikke finnes noen naturlige belønninger. I en slik tilstand tilnærmes en funksjon som tilsvarer iboende belønninger, noe som presser agentene til å utforske alle tilstander i et miljø, selv om de ofte vender tilbake til kjente tilstander.

Som VentureBeat forklarte, når UVFA-rammeverket er i spill, gis systemets iboende belønninger direkte til agenten som input. Agenten holder deretter styr på en representasjon av alle input (som belønninger, handling og tilstand) i løpet av en gitt episode. Resultatet er at belønningen blir bevart over tid og agentens policy er i det minste noe informert av den til enhver tid.

Dette oppnås ved bruk av en "episodisk nyhet" og en "livslang nyhet" modul. Funksjonen til den første modulen er å holde det nåværende, episodiske minnet og kartlegge de nåværende funnene til den tidligere nevnte representasjonen, slik at agenten kan bestemme en iboende episodisk belønning for hvert trinn i treningen. Etterpå blir tilstanden knyttet til den nåværende observasjonen lagt til i minnet. I mellomtiden er den livslange nyhetsmodulen ansvarlig for å påvirke hvor ofte agenten utforsker i løpet av mange episoder.

I følge Alphabet/Google-teamene har de nye treningsteknikkene allerede vist potensialet for betydelig forbedring mens de trener et forsterkende læringssystem. UVFA var i stand til å doble ytelsen til noen av baseagentene som spilte forskjellige Atari-spill. I mellomtiden var ABPS i stand til å øke ytelsen på noen av de samme Atari-spillene, og redusere variasjonen blant de beste agentene med omtrent 25 %. Den UVFA-trente algoritmen var i stand til å oppnå en høy poengsum i Pitfall av seg selv, og manglet noen konstruerte funksjoner i menneskelige demoer.