Connect with us

Kunstig intelligens

DeepMind og Google Brain sigter mod at skabe metoder til at forbedre effektiviteten af forstærkninglæring

mm

Forstærkninglæringsystemer kan være kraftfulde og robuste og kan udføre ekstremt komplekse opgaver gennem tusinder af iterationer af træning. Mens forstærkninglæringsalgoritmer kan aktivere sofistikerede og lejlighedsvis overraskende adfærd, tager de lang tid at træne og kræver enorme mængder data. Disse faktorer gør forstærkninglæringsteknikker ret ineffektive, og nyligt har forskningshold fra Alphabet DeepMind og Google Brain forsøgt at finde mere effektive metoder til at skabe forstærkninglæringsystemer.

Som rapporteret af VentureBeat, foreslog det kombinerede forskningshold nyligt metoder til at gøre forstærkninglæringstræning mere effektiv. En af de foreslåede forbedringer var en algoritme kaldet Adaptive Behavior Policy Sharing (ABPS), mens den anden var et framework kaldet Universal Value Function Approximators (UVFA). ABPS låter pools af AI-agenter dele deres adaptivt valgte erfaringer, mens UVFA låter disse AI samtidig undersøge rettede eksplorationspolitikker.

ABPS er beregnet til at fremskynde tilpasningen af hyperparametre, når man træner en model. ABPS gør det hurtigere at finde de optimale hyperparametre ved at låte flere forskellige agenter med forskellige hyperparametre dele deres adfærds politik erfaringer. For at være mere præcis, låter ABPS forstærkninglæringsagenter vælge handlinger fra de handlinger, som en politik har vurderet som acceptabel, og herefter gives en belønning og observation baseret på den efterfølgende tilstand.

AI-forstærkningagenter trænes med forskellige kombinationer af mulige hyperparametre, som f.eks. decay rate og learning rate. Når man træner en model, er målet, at modellen konvergerer på den kombination af hyperparametre, der giver den bedste præstation, og i dette tilfælde også forbedrer dataeffektiviteten. Effektiviteten øges ved at træne mange agenter på én gang og vælge adfærden af kun én agent til at blive udleveret under den næste tidsstep. Den politik, som målagenten har, bruges til at sample handlinger. Overgangene logges herefter inden for et delt rum, og dette rum evalueres konstant, så politikvalg ikke behøver at ske så ofte. Til sidst vælges en ensemble af agenter, og de bedst præsterende agenter vælges til at undergå endelig udlevering.

I forhold til UVFA, forsøger det at løse et af de almindelige problemer med forstærkninglæring, nemlig at svagt forstærkede agenter ofte ikke lærer opgaver. UVFA forsøger at løse problemet ved at låte agenten lære en separat sæt af udnyttelses- og eksplorationspolitikker på samme tid. Adskillelsen af opgaver skaber et framework, der låter eksplorationspolitikkerne fortsætte med at udforske miljøet, mens udnyttelsespolitikkerne fortsætter med at forsøge at maksimere belønningen for den nuværende opgave. Eksplorationspolitikkerne i UVFA fungerer som en baseline-arkitektur, der vil fortsætte med at forbedre sig, selv om der ikke findes naturlige belønninger. I en sådan situation approximeres en funktion, der svarer til intrinsiske belønninger, hvilket driver agenterne til at udforske alle tilstande i et miljø, selv om de ofte vender tilbage til kendte tilstande.

Som VentureBeat forklarede, når UVFA-frameworket er i spil, gives de intrinsiske belønninger i systemet direkte til agenten som input. Agenten holder herefter styr på en repræsentation af alle input (såsom belønninger, handlinger og tilstand) under en given episode. Resultatet er, at belønningen bevares over tid, og agentens politik er i hvert fald noget informeret af den på alle tidspunkter.

Dette opnås med brug af en “episodisk nytænkning” og en “livsvarig nytænkning”-modul. Funktionen af den første modul er at holde den aktuelle, episodiske hukommelse og kortlægge de aktuelle fund til den førnævnte repræsentation, så agenten kan bestemme en intrinsisk episodisk belønning for hvert træningsstep. Herefter føjes den tilstandslinked med den aktuelle observation til hukommelsen. Imens er den livsvarige nytænkning-modul ansvarlig for at påvirke, hvor ofte agenten udforsker over længere tid.

Ifølge Alphabet/Google-holdene har de nye træningsteknikker allerede demonstreret potentialet for betydelig forbedring, mens man træner et forstærkninglæringsystem. UVFA kunne fordoble præstationen af nogle af de basisagenter, der spillede forskellige Atari-spil. Imens kunne ABPS forbedre præstationen på nogle af de samme Atari-spil, reducerer variansen blandt de bedst præsterende agenter med ca. 25%. UVFA-trænet algoritme kunne opnå et højt score i Pitfall på egen hånd, uden nogen konstruerede funktioner af menneskelige demos.

Blogger og programmør med specialer i Machine Learning og Deep Learning emner. Daniel håber at hjælpe andre med at bruge AI's kraft til sociale formål.