Inteligență artificială
DeepMind și Google Brain Își Propun să Creeze Metode pentru Îmbunătățirea Eficienței Învățării prin Întărire

Sistemele de învățare prin întărire pot fi puternice și robuste, capabile să execute sarcini extrem de complexe prin mii de iterații de antrenament. În timp ce algoritmii de învățare prin întărire sunt capabili să permită comportamente sofisticate și, ocazional, surprinzătoare, acestea necesită mult timp pentru antrenament și cer cantități uriașe de date. Acești factori fac ca tehnicile de învățare prin întărire să fie destul de ineficiente, iar recent, echipele de cercetare de la Alphabet DeepMind și Google Brain s-au străduit să găsească metode mai eficiente de creare a sistemelor de învățare prin întărire.
După cum a raportat VentureBeat, grupul de cercetare combinat a propus recent metode pentru a face antrenamentul de învățare prin întărire mai eficient. Una dintre îmbunătățirile propuse a fost un algoritm numit Adaptive Behavior Policy Sharing (ABPS), iar cealaltă a fost un cadru numit Universal Value Function Approximators (UVFA). ABPS permite agenților AI să împărtășească experiențele selectate adaptiv, în timp ce UVFA permite agenților AI să investigheze simultan politici de explorare direcționate.
ABPS este destinat să accelereze personalizarea hiperparametrilor la antrenarea unui model. ABPS face găsirea hiperparametrilor optimi mai rapidă, permițând mai multor agenți diferiți cu hiperparametri diferiți să împărtășească experiențele politicii de comportament. Mai precis, ABPS permite agenților de învățare prin întărire să selecteze acțiuni din acțiunile pe care o politică le-a considerat acceptabile și, ulterior, primesc o recompensă și o observație bazate pe starea următoare.
Agenții de întărire AI sunt antrenați cu diverse combinații de hiperparametri posibili, cum ar fi rata de decădere și rata de învățare. La antrenarea unui model, scopul este ca modelul să converge către combinația de hiperparametri care îi oferă cea mai bună performanță, și, în acest caz, acei care îmbunătățesc, de asemenea, eficiența datelor. Eficiența este crescută prin antrenarea mai multor agenți în același timp și alegerea comportamentului a doar unui agent pentru a fi implementat în următoarea etapă de timp. Politica pe care agentul țintă o are este utilizată pentru a eșantiona acțiuni. Tranzițiile sunt apoi înregistrate într-un spațiu partajat, și acest spațiu este evaluat constant, astfel încât selectarea politicii nu trebuie să aibă loc atât de des. La sfârșitul antrenamentului, un ansamblu de agenți este ales, și agenții cu performanțe de top sunt selectați pentru a suferi implementarea finală.
În ceea ce privește UVFA, acesta încearcă să rezolve una dintre problemele comune ale învățării prin întărire, și anume faptul că agenții slab întăriți adesea nu învață sarcinile. UVFA încearcă să rezolve problema prin faptul că agentul învață un set separat de politici de exploatare și explorare în același timp. Separarea sarcinilor creează un cadru care permite politicilor de explorare să continue să exploreze mediul, în timp ce politicile de exploatare încearcă să maximizeze recompensa pentru sarcina curentă. Politicile de explorare ale UVFA servesc ca o arhitectură de bază care va continua să se îmbunătățească, chiar și atunci când nu există recompense naturale care să fie găsite. Într-o astfel de condiție, o funcție care corespunde recompenselor intrinseci este aproximată, ceea ce îi încurajează pe agenți să exploreze toate stările dintr-un mediu, chiar și atunci când se întorc adesea la stări familiare.
După cum a explicat VentureBeat, atunci când cadrul UVFA este în funcțiune, recompensele intrinseci ale sistemului sunt date direct agentului ca intrări. Agentul ține apoi evidența unei reprezentări a tuturor intrărilor (cum ar fi recompensele, acțiunile și starea) în timpul unui episod dat. Rezultatul este că recompensa este păstrată în timp, și politica agentului este cel puțin parțial informată de aceasta în orice moment.
Acest lucru se realizează prin utilizarea unui modul “noutate episodică” și a unui modul “noutate pe tot parcursul vieții”. Funcția primului modul este de a ține memoria episodică curentă și de a mapa constatările curente la reprezentarea menționată anterior, permițând agentului să determine o recompensă intrinsecă episodică pentru fiecare etapă de antrenament. Ulterior, starea legată de observația curentă este adăugată în memorie. Între timp, modulul de noutate pe tot parcursul vieții este responsabil pentru influențarea frecvenței cu care agentul explorează pe parcursul mai multor episoade.
Conform echipelor Alphabet/Google, noile tehnici de antrenament au demonstrat deja potențialul pentru o îmbunătățire substanțială în timpul antrenării unui sistem de învățare prin întărire. UVFA a fost capabil să dubleze performanța unora dintre agenții de bază care au jucat diverse jocuri Atari. Între timp, ABPS a fost capabil să crească performanța la unele dintre aceleași jocuri Atari, reducând varianța printre agenții cu performanțe de top cu aproximativ 25%. Algoritmul instruit UVFA a fost capabil să atingă un scor ridicat în Pitfall, fără a avea caracteristici inginerești de demo-uri umane.












