Kunstig intelligens
DeepMind og Google Brain har som mål å lage metoder for å forbedre effektiviteten til forsterkingslæring

Forsterkingslæringsystemer kan være kraftfulle og robuste, og kan utføre ekstremt komplekse oppgaver gjennom tusenvis av iterasjoner av trening. Mens forsterkingslæring-algoritmer kan muliggjøre sofistikerte og av og til overraskende atferd, tar de lang tid å trene og krever store mengder data. Disse faktorene gjør at forsterkingslæringsteknikkene blir ganske ineffektive, og nylig har forskningsteam fra Alphabet DeepMind og Google Brain forsøkt å finne mer effektive metoder for å lage forsterkingslæringsystemer.
Som rapportert av VentureBeat, foreslo det kombinerte forskningsteamet nylig metoder for å gjøre forsterkingslæringstreningsprosessen mer effektiv. En av de foreslåtte forbedringene var en algoritme kalt Adaptive Behavior Policy Sharing (ABPS), mens den andre var et rammeverk kalt Universal Value Function Approximators (UVFA). ABPS lar grupper av AI-agenter dele sine adaptivt valgte erfaringer, mens UVFA lar disse AI-agenter samtidig undersøke rettet utforskningspolitikk.
ABPS er ment å påskynde tilpasningen av hyperparametere når man trener en modell. ABPS gjør det raskere å finne de optimale hyperparameterne ved å la flere forskjellige agenter med forskjellige hyperparametere dele sine atferdspolitikkerfaringer. For å være mer presis, lar ABPS forsterkingslæringagenter velge handlinger fra de handlingene som en politikk har funnet å være i orden, og deretter blir det gitt en belønning og observasjon basert på den påfølgende tilstanden.
AI-forsterkingsagenter trenes med forskjellige kombinasjoner av mulige hyperparametere, som nedbrytningshastighet og læringshastighet. Når man trener en modell, er målet at modellen konvergerer mot kombinasjonen av hyperparametere som gir den beste ytelsen, og i dette tilfelle også forbedrer dataeffektiviteten. Effektiviteten økes ved å trene mange agenter samtidig og velge atferden til bare én agent som skal deployeres under den neste tidssteget. Politikken som målagenter har, brukes til å sampel handlinger. Overgangene logges deretter i et delt rom, og dette rommet vurderes konstant, slik at politikksvalg ikke trenger å skje like ofte. Ved slutten av treningsprosessen, velges en ensemble av agenter, og de beste agentene velges for å gjennomgå endelig deployering.
I forhold til UVFA, forsøker det å håndtere ett av de vanlige problemene med forsterkingslæring, nemlig at svakt forsterkede agenter ofte ikke lærer oppgaver. UVFA forsøker å løse problemet ved å la agenten lære en separat sett av utnyttings- og utforskningspolitikker samtidig. Å skille oppgavene skaper et rammeverk som lar utforskningspolitikkene fortsette å utforske miljøet mens utnyttingspolitikkene fortsetter å prøve å maksimere belønningen for den nåværende oppgaven. Utforskningspolitikkene til UVFA tjener som en basisarkitektur som vil fortsette å forbedre seg selv, selv om det ikke finnes noen naturlige belønninger. I en slik situasjon, approksimeres en funksjon som tilsvarer intrinsiske belønninger, som driver agentene til å utforske alle tilstander i en miljø, selv om de ofte returnerer til kjente tilstander.
Som VentureBeat forklarte, når UVFA-rammeverket er i spill, gis de intrinsiske belønningene i systemet direkte til agenten som inndata. Agenten holder deretter spor av en representasjon av alle inndata (slik som belønninger, handlinger og tilstand) under en gitt episode. Resultatet er at belønningen bevares over tid, og agentens politikk er i alle fall delvis informert av den hele tiden.
Dette oppnås med hjelp av en “episodisk nysgjerrighet” og en “livslang nysgjerrighet”-modul. Funksjonen til den første modulen er å holde den nåværende, episodiske minnet og kartlegge de nåværende funnene til den ovennevnte representasjonen, og lar agenten bestemme en intrinsisk episodisk belønning for hver trinn i treningsprosessen. Deretter legges tilstanden som er knyttet til den nåværende observasjonen, til minnet. Samtidig er livslang nysgjerrighet-modulen ansvarlig for å påvirke hvor ofte agenten utforsker over flere episoder.
Ifølge Alphabet/Google-teamene, har de nye treningsmetodene allerede vist potensialet for betydelig forbedring under treningsprosessen for et forsterkingslæringsystem. UVFA var i stand til å doble ytelsen til noen av basisagentene som spilte forskjellige Atari-spill. Samtidig var ABPS i stand til å øke ytelsen på noen av de samme Atari-spillene, og redusere variasjonen blant de beste agentene med omtrent 25%. UVFA-treningsalgoritmen var i stand til å oppnå høy score i Pitfall på egen hånd, uten noen konstruerte funksjoner fra menneskelige demonstrasjoner.












