AI 101
Qu'est-ce que l'apprentissage par renforcement ?
Qu'est-ce que l'apprentissage par renforcement ?
En termes simples, lâapprentissage par renforcement est une technique dâapprentissage automatique qui consiste Ă former un agent dâintelligence artificielle par la rĂ©pĂ©tition dâactions et les rĂ©compenses associĂ©es. Un agent d'apprentissage par renforcement expĂ©rimente dans un environnement, prend des mesures et est rĂ©compensĂ© lorsque les actions correctes sont prises. Au fil du temps, l'agent apprend Ă prendre les mesures qui maximiseront sa rĂ©compense. C'est une dĂ©finition rapide de l'apprentissage par renforcement, mais examiner de plus prĂšs les concepts qui sous-tendent l'apprentissage par renforcement vous aidera Ă en acquĂ©rir une comprĂ©hension meilleure et plus intuitive.
Le terme « apprentissage par renforcement » est adaptĂ© du concept de renforcement en psychologie. Pour cette raison, prenons un moment pour comprendre le concept psychologique de renforcement. Au sens psychologique, le terme renforcement fait rĂ©fĂ©rence Ă quelque chose qui augmente la probabilitĂ© qu'une rĂ©ponse/action particuliĂšre se produise. Ce concept de renforcement est une idĂ©e centrale de la thĂ©orie du conditionnement opĂ©rant, initialement proposĂ©e par le psychologue BF Skinner. Dans ce contexte, le renforcement est tout ce qui fait augmenter la frĂ©quence d'un comportement donnĂ©. Si nous pensons Ă un renforcement possible pour les humains, cela peut ĂȘtre des choses comme des Ă©loges, une augmentation au travail, des bonbons et des activitĂ©s amusantes.
Au sens psychologique traditionnel, il existe deux types de renforcement. Il y a le renforcement positif et le renforcement négatif. Le renforcement positif est l'ajout de quelque chose pour augmenter un comportement, comme donner une friandise à votre chien lorsqu'il se comporte bien. Le renforcement négatif consiste à supprimer un stimulus pour provoquer un comportement, comme couper les bruits forts pour amadouer un chat capricieux.
Renforcement positif et négatif
Le renforcement positif augmente la fréquence d'un comportement tandis que le renforcement négatif diminue la fréquence. En général, le renforcement positif est le type de renforcement le plus couramment utilisé dans l'apprentissage par renforcement, car il aide les modÚles à maximiser les performances d'une tùche donnée. Non seulement cela, mais le renforcement positif conduit le modÚle à apporter des changements plus durables, des changements qui peuvent devenir des modÚles cohérents et persister pendant de longues périodes.
En revanche, alors que le renforcement négatif rend également un comportement plus susceptible de se produire, il est utilisé pour maintenir une norme de performance minimale plutÎt que pour atteindre la performance maximale d'un modÚle. Le renforcement négatif dans l'apprentissage par renforcement peut aider à s'assurer qu'un modÚle est tenu à l'écart des actions indésirables, mais il ne peut pas vraiment amener un modÚle à explorer les actions souhaitées.
Formation d'un agent de renfort
Lorsqu'un agent d'apprentissage par renforcement est formé, il y a quatre ingrédients différents or Etats utilisés dans la formation : états initiaux (Etat 0), nouvel état (Etat 1), actions et récompenses.
Imaginez que nous formons un agent de renforcement pour jouer Ă un jeu vidĂ©o de plateforme oĂč le but de l'IA est d'arriver Ă la fin du niveau en se dĂ©plaçant directement sur l'Ă©cran. L'Ă©tat initial du jeu est tirĂ© de l'environnement, ce qui signifie que la premiĂšre image du jeu est analysĂ©e et donnĂ©e au modĂšle. Sur la base de ces informations, le modĂšle doit dĂ©cider d'une action.
Pendant les phases initiales de formation, ces actions sont alĂ©atoires mais au fur et Ă mesure que le modĂšle se renforce, certaines actions deviendront plus courantes. Une fois l'action effectuĂ©e, l'environnement du jeu est mis Ă jour et un nouvel Ă©tat ou cadre est créé. Si l'action entreprise par l'agent a produit un rĂ©sultat souhaitable, disons dans ce cas que l'agent est toujours en vie et n'a pas Ă©tĂ© touchĂ© par un ennemi, une rĂ©compense est donnĂ©e Ă l'agent et il devient plus susceptible de faire de mĂȘme dans l'avenir.
Ce systÚme de base est constamment bouclé, se reproduisant encore et encore, et à chaque fois l'agent essaie d'en apprendre un peu plus et de maximiser sa récompense.
Tùches épisodiques vs continues
Les tĂąches d'apprentissage par renforcement peuvent gĂ©nĂ©ralement ĂȘtre classĂ©es dans l'une des deux catĂ©gories suivantes : tĂąches Ă©pisodiques et tĂąches continues.
Les tĂąches Ă©pisodiques effectueront la boucle d'apprentissage/formation et amĂ©lioreront leurs performances jusqu'Ă ce que certains critĂšres finaux soient remplis et que la formation soit terminĂ©e. Dans un jeu, cela peut ĂȘtre d'atteindre la fin du niveau ou de tomber dans un danger comme des pointes. En revanche, les tĂąches continues n'ont pas de critĂšres de fin, continuant essentiellement Ă former indĂ©finiment jusqu'Ă ce que l'ingĂ©nieur choisisse de mettre fin Ă la formation.
Monte Carlo vs différence temporelle
Il existe deux maniÚres principales d'apprendre ou de former un agent d'apprentissage par renforcement. Dans l'approche de Monte-Carlo, les récompenses ne sont remises à l'agent (son score est mis à jour) qu'à la fin de l'épisode d'entraßnement. En d'autres termes, ce n'est que lorsque la condition de terminaison est atteinte que le modÚle apprend ses performances. Il peut ensuite utiliser ces informations pour mettre à jour et lorsque le prochain cycle de formation est lancé, il répondra conformément aux nouvelles informations.
Les méthode de différence temporelle diffÚre de la méthode de Monte Carlo en ce que l'estimation de la valeur, ou l'estimation du score, est mise à jour au cours de l'épisode d'entraßnement. Une fois que le modÚle passe au pas de temps suivant, les valeurs sont mises à jour.
Exploration vs Exploitation
La formation d'un agent d'apprentissage par renforcement est un acte d'équilibre, impliquant l'équilibrage de deux métriques différentes : l'exploration et l'exploitation.
L'exploration est l'acte de collecter plus d'informations sur l'environnement environnant, tandis que l'exploration utilise les informations déjà connues sur l'environnement pour gagner des points de récompense. Si un agent explore et n'exploite jamais l'environnement, les actions souhaitées ne seront jamais réalisées. D'autre part, si l'agent exploite et n'explore jamais, l'agent n'apprendra à effectuer qu'une seule action et ne découvrira pas d'autres stratégies possibles pour gagner des récompenses. Par conséquent, il est essentiel d'équilibrer l'exploration et l'exploitation lors de la création d'un agent d'apprentissage par renforcement.
Cas d'utilisation pour l'apprentissage par renforcement
L'apprentissage par renforcement peut ĂȘtre utilisĂ© dans une grande variĂ©tĂ© de rĂŽles et convient mieux aux applications oĂč les tĂąches nĂ©cessitent une automatisation.
L'automatisation des tĂąches Ă effectuer par les robots industriels est un domaine oĂč l'apprentissage par renforcement s'avĂšre utile. L'apprentissage par renforcement peut Ă©galement ĂȘtre utilisĂ© pour des problĂšmes tels que l'exploration de texte, la crĂ©ation de modĂšles capables de rĂ©sumer de longs corps de texte. Les chercheurs expĂ©rimentent Ă©galement l'utilisation de l'apprentissage par renforcement dans le domaine de la santĂ©, avec des agents de renforcement chargĂ©s de tĂąches telles que l'optimisation des politiques de traitement. L'apprentissage par renforcement pourrait Ă©galement ĂȘtre utilisĂ© pour personnaliser le matĂ©riel pĂ©dagogique destinĂ© aux Ă©lĂšves.
Résumé de l'apprentissage par renforcement
L'apprentissage par renforcement est une mĂ©thode puissante de construction d'agents d'IA qui peut conduire Ă des rĂ©sultats impressionnants et parfois surprenants. La formation d'un agent par l'apprentissage par renforcement peut ĂȘtre complexe et difficile, car cela nĂ©cessite de nombreuses itĂ©rations de formation et un Ă©quilibre dĂ©licat de la dichotomie explorer/exploiter. Cependant, en cas de succĂšs, un agent créé avec l'apprentissage par renforcement peut effectuer des tĂąches complexes dans une grande variĂ©tĂ© d'environnements diffĂ©rents.