IA 101

Què és l'aprenentatge per reforç?

actualitzat on Juny 5, 2021

Què és l'aprenentatge per reforç?

En poques paraules, l'aprenentatge per reforç és una tècnica d'aprenentatge automàtic que implica entrenar un agent d'intel·ligència artificial mitjançant la repetició d'accions i recompenses associades. Un agent d'aprenentatge de reforç experimenta en un entorn, pren accions i és recompensat quan es prenen les accions correctes. Amb el temps, l'agent aprèn a prendre les accions que maximitzaran la seva recompensa. Aquesta és una definició ràpida de l'aprenentatge per reforç, però fer una ullada més de prop als conceptes que hi ha darrere de l'aprenentatge de reforç us ajudarà a obtenir-ne una comprensió millor i més intuïtiva.

El terme "aprenentatge de reforç" s'adapta del concepte de reforç en psicologia. Per això, dediquem un moment a comprendre el concepte psicològic de reforç. En el sentit psicològic, el terme reforç es refereix a quelcom que augmenta la probabilitat que es produeixi una resposta/acció particular. Aquest concepte de reforç és una idea central de la teoria del condicionament operant, proposada inicialment pel psicòleg BF Skinner. En aquest context, el reforç és qualsevol cosa que fa que augmenti la freqüència d'una determinada conducta. Si pensem en un possible reforç per als humans, aquestes poden ser coses com elogis, un augment a la feina, dolços i activitats divertides.

En el sentit tradicional, psicològic, hi ha dos tipus de reforç. Hi ha un reforç positiu i un reforç negatiu. El reforç positiu és l'addició d'alguna cosa per augmentar un comportament, com donar-li un regal al vostre gos quan es porta bé. El reforç negatiu implica l'eliminació d'un estímul per provocar un comportament, com ara apagar els sorolls forts per persuadir un gat esgarrifós.

Reforç positiu i negatiu

El reforç positiu augmenta la freqüència d'una conducta mentre que el reforç negatiu la disminueix. En general, el reforç positiu és el tipus de reforç més comú utilitzat en l'aprenentatge per reforç, ja que ajuda els models a maximitzar el rendiment en una tasca determinada. No només això, sinó que el reforç positiu fa que el model faci canvis més sostenibles, canvis que poden esdevenir patrons consistents i persistir durant llargs períodes de temps.

En canvi, mentre que el reforç negatiu també fa que es produeixi un comportament més probable, s'utilitza per mantenir un estàndard de rendiment mínim en lloc d'assolir el rendiment màxim d'un model. El reforç negatiu en l'aprenentatge per reforç pot ajudar a garantir que un model es mantingui allunyat d'accions indesitjables, però realment no pot fer que un model explori les accions desitjades.

Formació d'un agent de reforç

Quan es forma un agent d'aprenentatge de reforç, hi ha quatre ingredients diferents or estats utilitzats a la formació: estats inicials (Estat 0), estat nou (Estat 1), accions i recompenses.

Imagineu que estem entrenant un agent de reforç per jugar a un videojoc de plataformes on l'objectiu de l'IA és arribar al final del nivell movent-se directament per la pantalla. L'estat inicial del joc s'extreu de l'entorn, és a dir, el primer fotograma del joc s'analitza i es dóna al model. A partir d'aquesta informació, el model ha de decidir una acció.

Durant les fases inicials de formació, aquestes accions són aleatòries però a mesura que es va reforçant el model, determinades accions seran més habituals. Després de fer l'acció, s'actualitza l'entorn del joc i es crea un nou estat o marc. Si l'acció realitzada per l'agent va produir un resultat desitjable, diguem en aquest cas que l'agent encara és viu i no ha estat colpejat per un enemic, es dóna una recompensa a l'agent i és més probable que faci el mateix en el futur.

Aquest sistema bàsic es fa en bucle constantment, es repeteix una i altra vegada, i cada vegada l'agent intenta aprendre una mica més i maximitzar la seva recompensa.

Tasques episòdiques vs contínues

Les tasques d'aprenentatge de reforç normalment es poden col·locar en una d'aquestes dues categories diferents: tasques episòdiques i tasques contínues.

Les tasques episòdiques realitzaran el cicle d'aprenentatge/entrenament i milloraran el seu rendiment fins que es compleixin uns criteris finals i s'acabi la formació. En un joc, això pot ser arribar al final del nivell o caure en un perill com els pics. En canvi, les tasques contínues no tenen criteris de finalització, essencialment continuen formant-se per sempre fins que l'enginyer decideix finalitzar la formació.

Diferència de Montecarlo vs Temporal

Hi ha dues maneres principals d'aprendre, o entrenar, un agent d'aprenentatge de reforç. En l'enfocament de Montecarlo, les recompenses s'entreguen a l'agent (la seva puntuació s'actualitza) només al final de l'episodi d'entrenament. Per dir-ho d'una altra manera, només quan s'aconsegueix la condició de terminació, el model aprèn el bon rendiment que ha fet. Aleshores pot utilitzar aquesta informació per actualitzar i quan s'iniciï la següent ronda d'entrenament, respondrà d'acord amb la nova informació.

El mètode de diferència temporal difereix del mètode de Montecarlo en què l'estimació del valor, o l'estimació de la puntuació, s'actualitza durant el curs de l'episodi d'entrenament. Un cop el model avança al següent pas de temps, els valors s'actualitzen.

Exploració vs Explotació

Formar un agent d'aprenentatge de reforç és un acte d'equilibri, que implica l'equilibri de dues mètriques diferents: l'exploració i l'explotació.

L'exploració és l'acte de recollir més informació sobre l'entorn circumdant, mentre que l'exploració és utilitzar la informació ja coneguda sobre l'entorn per guanyar punts de recompensa. Si un agent només explora i mai no explota l'entorn, les accions desitjades no es realitzaran mai. D'altra banda, si l'agent només explota i mai explora, l'agent només aprendrà a dur a terme una acció i no descobrirà altres possibles estratègies per guanyar recompenses. Per tant, equilibrar l'exploració i l'explotació és fonamental a l'hora de crear un agent d'aprenentatge de reforç.

Casos d'ús per a l'aprenentatge de reforç

L'aprenentatge de reforç es pot utilitzar en una gran varietat de funcions i és més adequat per a aplicacions on les tasques requereixen automatització.

L'automatització de les tasques que han de realitzar els robots industrials és una àrea on l'aprenentatge de reforç resulta útil. L'aprenentatge de reforç també es pot utilitzar per a problemes com la mineria de text, creant models que siguin capaços de resumir cossos llargs de text. Els investigadors també estan experimentant amb l'ús de l'aprenentatge de reforç en l'àmbit sanitari, amb agents de reforç que gestionen feines com l'optimització de polítiques de tractament. L'aprenentatge de reforç també es podria utilitzar per personalitzar el material educatiu per als estudiants.

Resum de l'aprenentatge per reforç

L'aprenentatge per reforç és un mètode potent per construir agents d'IA que pot donar lloc a resultats impressionants i de vegades sorprenents. Entrenar un agent mitjançant l'aprenentatge de reforç pot ser complex i difícil, ja que requereix moltes iteracions d'entrenament i un delicat equilibri de la dicotomia exploració/explotació. Tanmateix, si té èxit, un agent creat amb aprenentatge de reforç pot dur a terme tasques complexes en una gran varietat d'entorns diferents.

Temes relacionats:101

Fins a la propera

Què és un arbre de decisions?

No et perdis

Què és l'aprenentatge profund?

Daniel Nelson

Blogger i programador amb especialitats en Aprenentatge automàtic i Aprenentatge profund temes. Daniel espera ajudar els altres a utilitzar el poder de la IA per al bé social.

Unite.AI

Què és l'aprenentatge per reforç?

IA 101

Què és l'aprenentatge per reforç?

Taula de continguts

Què és l'aprenentatge per reforç?

Reforç positiu i negatiu

Formació d'un agent de reforç

Tasques episòdiques vs contínues

Diferència de Montecarlo vs Temporal

Exploració vs Explotació

Casos d'ús per a l'aprenentatge de reforç

Resum de l'aprenentatge per reforç

Unite.AI

Què és l'aprenentatge per reforç?

Taula de continguts

Què és l'aprenentatge per reforç?

Reforç positiu i negatiu

Formació d'un agent de reforç

Tasques episòdiques vs contínues

Diferència de Montecarlo vs Temporal

Exploració vs Explotació

Casos d'ús per a l'aprenentatge de reforç

Resum de l'aprenentatge per reforç

Potser t'agradi