Intelligenza artificiale
DeepMind e Google Brain hanno come obiettivo creare metodi per migliorare l’efficienza dell’apprendimento per rinforzo

I sistemi di apprendimento per rinforzo possono essere potenti e robusti, in grado di eseguire compiti estremamente complessi attraverso migliaia di iterazioni di addestramento. Sebbene gli algoritmi di apprendimento per rinforzo siano in grado di abilitare comportamenti sofisticati e occasionalmente sorprendenti, richiedono molto tempo per l’addestramento e necessitano di grandi quantità di dati. Questi fattori rendono le tecniche di apprendimento per rinforzo piuttosto inefficienti, e di recente i team di ricerca di Alphabet DeepMind e Google Brain hanno cercato di trovare metodi più efficienti per la creazione di sistemi di apprendimento per rinforzo.
Come riportato da VentureBeat, il gruppo di ricerca combinato ha recentemente proposto metodi per rendere l’addestramento dell’apprendimento per rinforzo più efficiente. Uno dei miglioramenti proposti era un algoritmo chiamato Adaptive Behavior Policy Sharing (ABPS), mentre l’altro era un framework chiamato Universal Value Function Approximators (UVFA). ABPS consente a pool di agenti AI di condividere le loro esperienze selezionate in modo adattivo, mentre UVFA consente a questi agenti di investigare simultaneamente politiche di esplorazione dirette.
ABPS è destinato ad accelerare la personalizzazione degli iperparametri durante l’addestramento di un modello. ABPS rende più veloce la ricerca degli iperparametri ottimali consentendo a diversi agenti con diversi iperparametri di condividere le loro esperienze di politica di comportamento. Per essere più precisi, ABPS consente agli agenti di apprendimento per rinforzo di selezionare azioni da quelle azioni che una politica ha ritenuto accettabili e successivamente riceve una ricompensa e un’osservazione in base allo stato successivo.
Gli agenti di rinforzo AI vengono addestrati con varie combinazioni di possibili iperparametri, come il tasso di decadimento e il tasso di apprendimento. Quando si addestra un modello, l’obiettivo è che il modello converga sulla combinazione di iperparametri che gli fornisce le migliori prestazioni, e in questo caso anche quelle che migliorano l’efficienza dei dati. L’efficienza aumenta addestrando molti agenti contemporaneamente e scegliendo il comportamento di un solo agente da deployare durante il prossimo passo temporale. La politica che l’agente target ha viene utilizzata per campionare azioni. Le transizioni vengono registrate all’interno di uno spazio condiviso, e questo spazio viene costantemente valutato in modo che la selezione della politica non debba verificarsi così spesso. Alla fine dell’addestramento, viene scelto un ensemble di agenti e gli agenti con le migliori prestazioni vengono selezionati per l’ultima fase di deploy.
In termini di UVFA, esso tenta di affrontare uno dei problemi comuni dell’apprendimento per rinforzo, ovvero che gli agenti debolmente rinforzati spesso non apprendono i compiti. UVFA tenta di risolvere il problema facendo in modo che l’agente apprenda un insieme separato di politiche di sfruttamento e di esplorazione contemporaneamente. La separazione dei compiti crea un framework che consente alle politiche di esplorazione di continuare a esplorare l’ambiente mentre le politiche di sfruttamento continuano a cercare di massimizzare la ricompensa per il compito attuale. Le politiche di esplorazione di UVFA servono come architettura di base che continuerà a migliorare anche se non ci sono ricompense naturali che vengono trovate. In tale condizione, una funzione che corrisponde a ricompense intrinseche viene approssimata, che spinge gli agenti a esplorare tutti gli stati in un ambiente, anche se spesso ritornano a stati familiari.
Come spiegato da VentureBeat, quando il framework UVFA è in gioco, le ricompense intrinseche del sistema vengono date direttamente all’agente come input. L’agente tiene traccia di una rappresentazione di tutti gli input (come ricompense, azioni e stato) durante un episodio dato. Il risultato è che la ricompensa viene preservata nel tempo e la politica dell’agente è almeno in parte informata da essa in ogni momento.
Ciò viene realizzato con l’utilizzo di un modulo “novità episodica” e di un modulo “novità lunga vita”. La funzione del primo modulo è quella di mantenere la memoria episodica attuale e mappare le attuali scoperte sulla rappresentazione menzionata in precedenza, consentendo all’agente di determinare una ricompensa intrinseca episodica per ogni passo di addestramento. Successivamente, lo stato collegato all’osservazione attuale viene aggiunto alla memoria. Nel frattempo, il modulo di novità lunga vita è responsabile dell’influenza su quanto spesso l’agente esplora nel corso di molti episodi.
Secondo i team di Alphabet/Google, le nuove tecniche di addestramento hanno già dimostrato il potenziale per un miglioramento sostanziale durante l’addestramento di un sistema di apprendimento per rinforzo. UVFA è stato in grado di raddoppiare le prestazioni di alcuni degli agenti di base che hanno giocato a vari giochi Atari. Nel frattempo, ABPS è stato in grado di aumentare le prestazioni in alcuni degli stessi giochi Atari, diminuendo la varianza tra gli agenti con le migliori prestazioni di circa il 25%. L’algoritmo addestrato UVFA è stato in grado di raggiungere un punteggio alto in Pitfall da solo, senza alcuna caratteristica progettata di demo umane.












