IA 101
Che cos’è l’Apprendimento per Rinforzo?

Che cos’è l’Apprendimento per Rinforzo?
In poche parole, l’apprendimento per rinforzo è una tecnica di apprendimento automatico che prevede l’addestramento di un agente di intelligenza artificiale attraverso la ripetizione di azioni e ricompense associate. Un agente di apprendimento per rinforzo sperimenta in un ambiente, esegue azioni e viene ricompensato quando vengono eseguite azioni corrette. Nel tempo, l’agente impara a eseguire le azioni che massimizzeranno la sua ricompensa. Questa è una definizione rapida dell’apprendimento per rinforzo, ma un’analisi più approfondita dei concetti alla base dell’apprendimento per rinforzo aiuterà a ottenere una comprensione migliore e più intuitiva.
Il termine “apprendimento per rinforzo” deriva dal concetto di rinforzo in psicologia. Per questo motivo, prendiamo un momento per capire il concetto psicologico di rinforzo. In senso psicologico, il termine rinforzo si riferisce a qualcosa che aumenta la probabilità che una risposta/azione specifica si verifichi. Questo concetto di rinforzo è un’idea centrale della teoria del condizionamento operante, inizialmente proposta dallo psicologo B.F. Skinner. In questo contesto, il rinforzo è qualsiasi cosa che causi l’aumento della frequenza di un comportamento specifico. Se pensiamo a possibili rinforzi per gli esseri umani, questi possono essere cose come lodi, una promozione sul lavoro, caramelle e attività divertenti.
In senso tradizionale e psicologico, esistono due tipi di rinforzo. C’è il rinforzo positivo e il rinforzo negativo. Il rinforzo positivo consiste nell’aggiungere qualcosa per aumentare un comportamento, come dare un trattamento al proprio cane quando si comporta bene. Il rinforzo negativo implica la rimozione di uno stimolo per suscitare un comportamento, come spegnere rumori forti per convincere un gatto timido.
Rinforzo Positivo e Negativo
Il rinforzo positivo aumenta la frequenza di un comportamento, mentre il rinforzo negativo la diminuisce. In generale, il rinforzo positivo è il tipo più comune di rinforzo utilizzato nell’apprendimento per rinforzo, poiché aiuta i modelli a massimizzare le prestazioni in un compito specifico. Non solo, ma il rinforzo positivo porta il modello a fare cambiamenti più sostenibili, cambiamenti che possono diventare modelli coerenti e persistere per lunghi periodi di tempo.
Al contrario, mentre il rinforzo negativo rende anche più probabile che si verifichi un comportamento, viene utilizzato per mantenere uno standard di prestazione minimo piuttosto che raggiungere la massima prestazione del modello. Il rinforzo negativo nell’apprendimento per rinforzo può aiutare a garantire che un modello si mantenga lontano da azioni indesiderabili, ma non può realmente far esplorare al modello azioni desiderabili.
Addestramento di un Agente di Apprendimento per Rinforzo
Quando un agente di apprendimento per rinforzo viene addestrato, ci sono quattro ingredienti diversi o stati utilizzati nell’addestramento: stati iniziali (Stato 0), nuovo stato (Stato 1), azioni e ricompense.
Immagina di addestrare un agente di apprendimento per rinforzo per giocare a un videogioco a piattaforme in cui l’obiettivo dell’IA è raggiungere la fine del livello spostandosi a destra sullo schermo. Lo stato iniziale del gioco viene tratto dall’ambiente, ovvero il primo frame del gioco viene analizzato e dato al modello. Sulla base di queste informazioni, il modello deve decidere un’azione.
Durante le fasi iniziali dell’addestramento, queste azioni sono casuali, ma poiché il modello viene rinforzato, alcune azioni diventeranno più comuni. Dopo che l’azione viene eseguita, l’ambiente del gioco viene aggiornato e viene creato un nuovo stato o frame. Se l’azione eseguita dall’agente ha prodotto un risultato desiderabile, ad esempio in questo caso l’agente è ancora vivo e non è stato colpito da un nemico, viene data una ricompensa all’agente e diventa più probabile che lo faccia di nuovo in futuro.
Questo sistema di base viene costantemente ripetuto, avviene di nuovo e di nuovo, e ogni volta l’agente cerca di imparare un po’ di più e massimizzare la sua ricompensa.












