Modelli e piattaforme di IA
DeepMind e Google Brain puntano a creare metodi per migliorare l’efficienza dell’apprendimento per rinforzo

I sistemi di apprendimento per rinforzo possono essere potenti e robusti, in grado di eseguire compiti estremamente complessi attraverso migliaia di iterazioni di addestramento. Sebbene gli algoritmi di apprendimento per rinforzo siano in grado di abilitare comportamenti sofisticati e occasionalmente sorprendenti, richiedono molto tempo per l’addestramento e necessitano di grandi quantità di dati. Questi fattori rendono le tecniche di apprendimento per rinforzo piuttosto inefficienti, e di recente i team di ricerca di Alphabet DeepMind e Google Brain hanno cercato di trovare metodi più efficienti per creare sistemi di apprendimento per rinforzo.
Come riportato da VentureBeat, il gruppo di ricerca congiunto ha recentemente proposto metodi per rendere l’addestramento dell’apprendimento per rinforzo più efficiente. Uno dei miglioramenti proposti era un algoritmo chiamato Adaptive Behavior Policy Sharing (ABPS), mentre l’altro era un framework chiamato Universal Value Function Approximators (UVFA). ABPS consente ai pool di agenti di intelligenza artificiale di condividere le loro esperienze selezionate in modo adattivo, mentre UVFA consente agli agenti di intelligenza artificiale di investigare contemporaneamente le politiche di esplorazione dirette.
ABPS è destinato ad accelerare la personalizzazione degli iperparametri durante l’addestramento di un modello. ABPS rende più veloce la ricerca degli iperparametri ottimali consentendo a più agenti con iperparametri diversi di condividere le loro esperienze di politica di comportamento. In altre parole, ABPS consente agli agenti di apprendimento per rinforzo di selezionare azioni da quelle azioni che una politica ha ritenuto accettabili e successivamente concede una ricompensa e un’osservazione in base allo stato successivo.
Gli agenti di rinforzo dell’intelligenza artificiale sono addestrati con varie combinazioni di iperparametri possibili, come il tasso di decadimento e il tasso di apprendimento. Quando si addestra un modello, l’obiettivo è che il modello converga sulla combinazione di iperparametri che gli fornisce le migliori prestazioni, e in questo caso anche quelle che migliorano l’efficienza dei dati. L’efficienza aumenta addestrando molti agenti contemporaneamente e scegliendo il comportamento di un solo agente da distribuire durante il prossimo passo temporale. La politica che l’agente bersaglio ha è utilizzata per campionare azioni. Le transizioni vengono quindi registrate all’interno di uno spazio condiviso, e questo spazio viene costantemente valutato in modo che la selezione della politica non debba verificarsi così spesso. Alla fine dell’addestramento, viene scelto un ensemble di agenti e gli agenti con le prestazioni migliori vengono selezionati per l’ultima distribuzione.
In termini di UVFA, esso tenta di affrontare uno dei problemi comuni dell’apprendimento per rinforzo, ovvero che gli agenti debolmente rinforzati spesso non imparano i compiti. UVFA tenta di risolvere il problema facendo in modo che l’agente impari un insieme separato di politiche di sfruttamento e di esplorazione contemporaneamente. La separazione dei compiti crea un framework che consente alle politiche esplorative di continuare a esplorare l’ambiente mentre le politiche di sfruttamento continuano a cercare di massimizzare la ricompensa per il compito corrente. Le politiche esplorative di UVFA servono come architettura di base che continuerà a migliorare anche se non ci sono ricompense naturali che vengono trovate. In tale condizione, una funzione che corrisponde a ricompense intrinseche viene approssimata, che spinge gli agenti a esplorare tutti gli stati in un ambiente, anche se spesso ritornano a stati familiari.
Come spiegato da VentureBeat, quando il framework UVFA è in gioco, le ricompense intrinseche del sistema vengono date direttamente all’agente come input. L’agente tiene traccia di una rappresentazione di tutti gli input (come ricompense, azioni e stato) durante un episodio dato. Il risultato è che la ricompensa viene preservata nel tempo e la politica dell’agente è almeno in parte informata da essa in ogni momento.
Questo viene realizzato mediante l’utilizzo di un modulo di “novità episodica” e di un modulo di “novità lunga vita”. La funzione del primo modulo è quella di mantenere la memoria episodica corrente e di mappare le scoperte correnti sulla rappresentazione menzionata in precedenza, consentendo all’agente di determinare una ricompensa intrinseca episodica per ogni passo di addestramento. Successivamente, lo stato collegato all’osservazione corrente viene aggiunto alla memoria. Nel frattempo, il modulo di novità lunga vita è responsabile dell’influenza su quanto spesso l’agente esplora nel corso di molti episodi.
Secondo i team di Alphabet/Google, le nuove tecniche di addestramento hanno già dimostrato il potenziale per un miglioramento sostanziale durante l’addestramento di un sistema di apprendimento per rinforzo. UVFA è stato in grado di raddoppiare le prestazioni di alcuni degli agenti di base che hanno giocato vari giochi Atari. Nel frattempo, ABPS è stato in grado di aumentare le prestazioni su alcuni degli stessi giochi Atari, diminuendo la varianza tra gli agenti con le prestazioni migliori di circa il 25%. L’algoritmo addestrato con UVFA è stato in grado di raggiungere un punteggio alto in Pitfall da solo, senza alcuna caratteristica ingegnerizzata di demo umane.












