Artificial Intelligence

DeepMind en Google Brain Aim creëren methoden om de efficiëntie van Reinforcement Learning te verbeteren

Bijgewerkt on 9 december 2022

Reinforcement-leersystemen kunnen krachtig en robuust zijn, in staat om extreem complexe taken uit te voeren door middel van duizenden iteraties van training. Hoewel algoritmen voor het leren van bekrachtiging in staat zijn om geavanceerd en soms verrassend gedrag mogelijk te maken, duurt het lang om ze te trainen en hebben ze enorme hoeveelheden gegevens nodig. Deze factoren maken leertechnieken voor versterking nogal inefficiënt, en onlangs hebben onderzoeksteams van Alphabet DeepMind en Google Brain geprobeerd efficiëntere methoden te vinden om leersystemen voor leersystemen te creëren.

Dat meldt VentureBeat, heeft de gecombineerde onderzoeksgroep onlangs methoden voorgesteld om de training van versterkend leren efficiënter te maken. Een van de voorgestelde verbeteringen was een algoritme met de naam Adaptive Behavior Policy Sharing (ABPS), terwijl de andere een raamwerk was met de naam Universal Value Function Approximators (UVFA). Met ABPS kunnen pools van AI-agenten hun adaptief geselecteerde ervaringen delen, terwijl UVFA die AI tegelijkertijd gericht onderzoeksbeleid laat onderzoeken.

ABPS is bedoeld om de aanpassing van hyperparameters te versnellen bij het trainen van een model. ABPS maakt het vinden van de optimale hyperparameters sneller door verschillende agenten met verschillende hyperparameters toe te staan hun ervaringen met gedragsbeleid te delen. Om preciezer te zijn, ABPS laat leermiddelen voor versterking acties selecteren uit die acties die een beleid als oké heeft beschouwd en daarna wordt een beloning en observatie toegekend op basis van de volgende status.

AI-versterkingsagenten worden getraind met verschillende combinaties van mogelijke hyperparameters, zoals vervalsnelheid en leersnelheid. Bij het trainen van een model is het doel dat het model convergeert naar de combinatie van hyperparameters die het de beste prestaties geeft, en in dit geval degene die ook de gegevensefficiëntie verbeteren. De efficiëntie wordt verhoogd door veel agenten tegelijk te trainen en het gedrag van slechts één agent te kiezen die tijdens de volgende tijdstap wordt ingezet. Het beleid dat de doelwitagent heeft, wordt gebruikt om voorbeelden van acties te nemen. De overgangen worden vervolgens gelogd in een gedeelde ruimte, en deze ruimte wordt voortdurend geëvalueerd, zodat er minder vaak beleidsselectie hoeft plaats te vinden. Aan het einde van de training wordt een ensemble van agenten gekozen en worden de best presterende agenten geselecteerd om de definitieve inzet te ondergaan.

In termen van UVFA probeert het om te gaan met een van de veelvoorkomende problemen van leerversterking, namelijk dat zwak versterkte agenten vaak geen taken leren. UVFA probeert het probleem op te lossen door de agent tegelijkertijd een aparte set exploitatie- en exploratiebeleid te laten leren. Door de taken te scheiden, ontstaat er een raamwerk waardoor het verkennende beleid de omgeving kan blijven verkennen, terwijl het exploitatiebeleid blijft proberen de beloning voor de huidige taak te maximaliseren. Het verkennende beleid van UVFA dient als basisarchitectuur die zal blijven verbeteren, zelfs als er geen natuurlijke beloningen worden gevonden. In een dergelijke toestand wordt een functie benaderd die overeenkomt met intrinsieke beloningen, wat de agenten ertoe aanzet om alle toestanden in een omgeving te verkennen, zelfs als ze vaak terugkeren naar vertrouwde toestanden.

Zoals VentureBeat heeft uitgelegd, wanneer het UVFA-framework in het spel is, worden de intrinsieke beloningen van het systeem rechtstreeks aan de agent gegeven als invoer. De agent houdt vervolgens een weergave bij van alle invoer (zoals beloningen, actie en status) tijdens een bepaalde aflevering. Het resultaat is dat de beloning in de loop van de tijd behouden blijft en dat het beleid van de agent er te allen tijde op zijn minst enigszins door wordt geïnformeerd.

Dit wordt bereikt met behulp van een "episodische nieuwigheid" en een "levenslange nieuwigheid" module. De functie van de eerste module is om het huidige, episodische geheugen vast te houden en de huidige bevindingen toe te wijzen aan de eerder genoemde representatie, zodat de agent een intrinsieke episodische beloning kan bepalen voor elke trainingsstap. Daarna wordt de toestand gekoppeld aan de huidige waarneming toegevoegd aan het geheugen. Ondertussen is de levenslange nieuwigheidsmodule verantwoordelijk voor het beïnvloeden van hoe vaak de agent in de loop van vele afleveringen onderzoekt.

Volgens de Alphabet/Google-teams hebben de nieuwe trainingstechnieken al het potentieel voor substantiële verbetering aangetoond bij het trainen van een leersysteem voor versterking. UVFA was in staat om de prestaties te verdubbelen van enkele van de basisagenten die verschillende Atari-spellen speelden. Ondertussen was ABPS in staat om de prestaties van enkele van dezelfde Atari-spellen te verbeteren, waardoor de variantie tussen de best presterende agenten met ongeveer 25% afnam. Het UVFA-getrainde algoritme was in staat om zelf een hoge score in Pitfall te behalen, zonder technische kenmerken van menselijke demo's.

Gerelateerde onderwerpen:DeepMind Google Brain versterking van leren

Algoritme voor kunstmatige intelligentie dat wordt gebruikt om de landbouwopbrengst te voorspellen

Mis het niet

Diep leren gebruikt om ziektegerelateerde genen te vinden

Daniël Nelson

Blogger en programmeur met specialiteiten in Machine leren en Diepe leren onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor maatschappelijk welzijn.