Artificiell intelligens

DeepMind och Google Brain syftar till att skapa metoder för att förbättra effektiviteten i förstärkt inlärning

Publicerad 19 februari 2020

Uppdaterad 25 maj 2026

Daniel Nelson

Förstärkt inlärningssystem kan vara kraftfulla och robusta, kapabla att utföra extremt komplexa uppgifter genom tusentals iterationer av träning. Medan förstärkt inlärningsalgoritmer kan möjliggöra sofistikerat och ibland förvånande beteende, tar de lång tid att träna och kräver stora mängder data. Dessa faktorer gör förstärkt inlärningstekniker ganska ineffektiva, och nyligen har forskargrupper från Alphabet DeepMind och Google Brain försökt hitta mer effektiva metoder för att skapa förstärkt inlärningssystem.

Enligt VentureBeat föreslog den kombinerade forskargruppen nyligen metoder för att göra förstärkt inlärningsträning mer effektiv. En av de föreslagna förbättringarna var en algoritm som kallades Adaptiv beteendepolicysdelning (ABPS), medan den andra var ett ramverk som kallades Universella värdefunktionapproximatorer (UVFA). ABPS låter pooler av AI-agenter dela sina adaptivt valda upplevelser, medan UVFA låter dessa AI samtidigt undersöka riktade utforskningspolicys.

ABPS är avsett att påskynda anpassningen av hyperparametrar när man tränar en modell. ABPS gör det snabbare att hitta de optimala hyperparametrarna genom att tillåta flera olika agenter med olika hyperparametrar att dela sina beteendepolicyupplevelser. Mer exakt låter ABPS förstärkt inlärningsagenter välja handlingar från de handlingar som en policy har bedömt som acceptabla och därefter ges en belöning och observation baserat på den följande tillståndet.

AI-förstärkningsagenter tränas med olika kombinationer av möjliga hyperparametrar, som t.ex. nedgångshastighet och inlärningshastighet. När man tränar en modell är målet att modellen konvergerar till den kombination av hyperparametrar som ger den bästa prestationen, och i detta fall också förbättrar dataeffektiviteten. Effektiviteten ökas genom att träna många agenter samtidigt och välja beteendet hos endast en agent att distribueras under nästa tidssteg. Policyn som målagenter har används för att sampla handlingar. Övergångarna loggas sedan i ett delat utrymme, och detta utrymme utvärderas ständigt så att policyvalet inte behöver ske så ofta. I slutet av träningen väljs en ensemble av agenter och de bäst presterande agenterna väljs för slutlig distribution.

I fråga om UVFA försöker det lösa ett vanligt problem med förstärkt inlärning, att svagt förstärkta agenter ofta inte lär sig uppgifter. UVFA försöker lösa problemet genom att låta agenten lära sig en separat uppsättning exploaterings- och utforskningspolicys samtidigt. Att separera uppgifterna skapar ett ramverk som tillåter de utforskande politikerna att fortsätta utforska miljön medan de exploaterande politikerna fortsätter att försöka maximera belöningen för den aktuella uppgiften. De utforskande politikerna i UVFA fungerar som en basarkitektur som kommer att fortsätta förbättras även om det inte finns några naturliga belöningar som upptäcks. I ett sådant tillstånd approximeras en funktion som motsvarar intrinsiska belöningar, vilket driver agenterna att utforska alla tillstånd i en miljö, även om de ofta återvänder till bekanta tillstånd.

Som VentureBeat förklarade när UVFA-ramverket är i bruk, ges de intrinsiska belöningarna i systemet direkt till agenten som indata. Agenten håller sedan reda på en representation av alla indata (såsom belöningar, handling och tillstånd) under en given episod. Resultatet är att belöningen bevaras över tiden och agentens policy är åtminstone delvis informerad av den hela tiden.

Detta uppnås med hjälp av en “episodisk nyhet” och en “livslång nyhet”-modul. Den första modulens funktion är att hålla den aktuella, episodiska minnet och kartlägga de aktuella resultaten till den tidigare nämnda representationen, vilket låter agenten bestämma en intrinsisk episodisk belöning för varje träningssteg. Därefter läggs tillståndet som är länkat till den aktuella observationen till minnet. Samtidigt är den livslånga nyhetsmodulen ansvarig för att påverka hur ofta agenten utforskar under många episoder.

Enligt Alphabet/Google-lagen har de nya träningsmetoderna redan visat potential för betydande förbättringar under träning av ett förstärkt inlärningssystem. UVFA kunde fördubbla prestationen hos vissa av de grundläggande agenterna som spelade olika Atari-spel. Samtidigt kunde ABPS förbättra prestationen på vissa av samma Atari-spel, minska variansen bland de bäst presterande agenterna med cirka 25%. UVFA-träningsalgoritmen kunde uppnå ett högt poäng i Pitfall på egen hand, utan några konstruerade funktioner från humandemos.

Daniel Nelson

Blogger och programmerare med specialområden inom Machine Learning och Deep Learning ämnen. Daniel hoppas på att hjälpa andra att använda kraften från AI för socialt väl.

Unite.AI

DeepMind och Google Brain syftar till att skapa metoder för att förbättra effektiviteten i förstärkt inlärning

You may like