Connect with us

Kunstmatige intelligentie

DeepMind en Google Brain hebben als doel methoden te creëren om de efficiëntie van reinforcement learning te verbeteren

mm

Reinforcement learning-systemen kunnen krachtig en robuust zijn, in staat om extreem complexe taken uit te voeren door duizenden iteraties van training. Terwijl reinforcement learning-algoritmen in staat zijn om geavanceerd en soms verrassend gedrag mogelijk te maken, doen ze er lang over om te trainen en vereisen ze enorme hoeveelheden gegevens. Deze factoren maken reinforcement learning-technieken vrij inefficiënt, en onlangs hebben onderzoeksteams van Alphabet DeepMind en Google Brain geprobeerd om efficiëntere methoden te vinden voor het creëren van reinforcement learning-systemen.

Zoals gerapporteerd door VentureBeat, heeft de gecombineerde onderzoeksgroep onlangs methoden voorgesteld om de training van reinforcement learning efficiënter te maken. Een van de voorgestelde verbeteringen was een algoritme genaamd Adaptive Behavior Policy Sharing (ABPS), terwijl de andere een framework was genaamd Universal Value Function Approximators (UVFA). ABPS laat pools van AI-agents hun adaptief geselecteerde ervaringen delen, terwijl UVFA hen tegelijkertijd laat onderzoeken gerichte exploratiebeleidsregels.

ABPS is bedoeld om de aanpassing van hyperparameters tijdens het trainen van een model te versnellen. ABPS maakt het vinden van de optimale hyperparameters sneller door meerdere agents met verschillende hyperparameters toe te staan hun beleidservaringen te delen. Om precies te zijn, laat ABPS reinforcement learning-agents acties selecteren uit acties die een beleid heeft goedgekeurd en vervolgens wordt een beloning en observatie toegekend op basis van de volgende staat.

AI-reinforcement-agents worden getraind met verschillende combinaties van mogelijke hyperparameters, zoals verouderingsgraad en leersnelheid. Wanneer een model wordt getraind, is het doel dat het model convergeert naar de combinatie van hyperparameters die het de beste prestaties geeft, en in dit geval ook de gegevensefficiëntie verbetert. De efficiëntie wordt verhoogd door meerdere agents tegelijk te trainen en het gedrag van slechts één agent te selecteren voor implementatie tijdens de volgende tijdstap. Het beleid dat de doelagent heeft, wordt gebruikt om acties te selecteren. De overgangen worden vervolgens geregistreerd in een gedeelde ruimte, en deze ruimte wordt constant geëvalueerd zodat beleidsselectie niet zo vaak hoeft plaats te vinden. Aan het einde van de training wordt een ensemble van agents geselecteerd en worden de top-presterende agents geselecteerd voor definitieve implementatie.

Wat betreft UVFA, probeert het een van de veelvoorkomende problemen van reinforcement learning aan te pakken, namelijk dat zwak versterkte agents vaak taken niet leren. UVFA probeert dit probleem op te lossen door de agent te laten leren van een aparte set van exploitatie- en exploratiebeleidsregels tegelijk. Het scheiden van de taken creëert een framework dat de exploratiebeleidsregels toestaat om de omgeving te blijven verkennen, terwijl de exploitatiebeleidsregels proberen de beloning voor de huidige taak te maximaliseren. De exploratiebeleidsregels van UVFA dienen als een basisarchitectuur die blijft verbeteren, zelfs als er geen natuurlijke beloningen worden gevonden. In een dergelijke situatie wordt een functie die overeenkomt met intrinsieke beloningen, benaderd, die de agents aanzet om alle staten in een omgeving te verkennen, zelfs als ze vaak terugkeren naar vertrouwde staten.

Zoals VentureBeat uitgelegd, wanneer het UVFA-framework in werking is, worden de intrinsieke beloningen van het systeem rechtstreeks aan de agent gegeven als invoer. De agent houdt vervolgens een weergave van alle invoer (zoals beloningen, acties en staten) tijdens een bepaalde episode bij. Het resultaat is dat de beloning over tijd wordt behouden en het beleid van de agent minstens enigszins wordt geïnformeerd door het op alle momenten.

Dit wordt bereikt met behulp van een “episodische nieuwheid” en een “levenslange nieuwheid” module. De functie van de eerste module is om het huidige, episodische geheugen te behouden en de huidige bevindingen te koppelen aan de eerder genoemde weergave, waardoor de agent een intrinsieke episodische beloning kan bepalen voor elke stap van de training. Vervolgens wordt de staat die is gekoppeld aan de huidige observatie, toegevoegd aan het geheugen. Ondertussen is de levenslange nieuwheidmodule verantwoordelijk voor het beïnvloeden van hoe vaak de agent verkent over een lange periode.

Volgens de Alphabet/Google-teams hebben de nieuwe trainingsmethoden al het potentieel voor een aanzienlijke verbetering getoond bij het trainen van een reinforcement learning-systeem. UVFA was in staat om de prestaties van sommige van de basisagents die verschillende Atari-spellen speelden, te verdubbelen. Ondertussen was ABPS in staat om de prestaties op sommige van dezelfde Atari-spellen te verbeteren, door de variantie onder de top-presterende agents met ongeveer 25% te verlagen. Het UVFA-getrainde algoritme was in staat om een hoge score in Pitfall te behalen zonder enige door de mens ontworpen functies of demos.

Blogger en programmeur met specialisaties in Machine Learning en Deep Learning onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor het sociale goede.