IA 101

Qu’est-ce que l’apprentissage par renforcement ?

Publié le 20 octobre 2019

Mis à jour le 25 mai 2026

Par

Daniel Nelson

Qu’est-ce que l’apprentissage par renforcement ?

En termes simples, l’apprentissage par renforcement est une technique d’apprentissage automatique qui consiste à entraîner un agent d’intelligence artificielle par la répétition d’actions et de récompenses associées. Un agent d’apprentissage par renforcement expérimente dans un environnement, prend des actions et reçoit des récompenses lorsqu’il prend les bonnes actions. Au fil du temps, l’agent apprend à prendre les actions qui maximiseront sa récompense. C’est une définition rapide de l’apprentissage par renforcement, mais examiner de plus près les concepts qui se cachent derrière l’apprentissage par renforcement vous aidera à mieux comprendre.

Le terme « apprentissage par renforcement » est adapté du concept de renforcement en psychologie. Pour cette raison, prenons un moment pour comprendre le concept psychologique de renforcement. Dans le sens psychologique, le terme renforcement fait référence à quelque chose qui augmente la probabilité qu’une réponse ou une action se produise. Ce concept de renforcement est une idée centrale de la théorie de l’apprentissage par conditionnement opérant, proposée à l’origine par le psychologue B.F. Skinner. Dans ce contexte, le renforcement est tout ce qui fait augmenter la fréquence d’un comportement donné. Si nous pensons aux renforcements possibles pour les humains, ceux-ci peuvent être des choses comme les éloges, une augmentation de salaire, des bonbons et des activités amusantes.

Il existe deux types de renforcement dans le sens traditionnel et psychologique. Il y a le renforcement positif et le renforcement négatif. Le renforcement positif est l’ajout de quelque chose pour augmenter un comportement, comme donner un traitement à votre chien lorsqu’il se comporte bien. Le renforcement négatif implique la suppression d’un stimulus pour éliciter un comportement, comme éteindre des bruits forts pour faire sortir un chat timide.

Renforcement positif et négatif

Le renforcement positif augmente la fréquence d’un comportement tandis que le renforcement négatif la diminue. En général, le renforcement positif est le type de renforcement le plus couramment utilisé dans l’apprentissage par renforcement, car il aide les modèles à maximiser les performances sur une tâche donnée. Non seulement cela, mais le renforcement positif conduit le modèle à apporter des changements plus durables, des changements qui peuvent devenir des modèles cohérents et persister pendant de longues périodes.

En revanche, même si le renforcement négatif rend également un comportement plus probable, il est utilisé pour maintenir un niveau de performance minimum plutôt que pour atteindre la performance maximale d’un modèle. Le renforcement négatif dans l’apprentissage par renforcement peut aider à s’assurer qu’un modèle est éloigné d’actions indésirables, mais il ne peut pas vraiment inciter un modèle à explorer des actions souhaitables.

Entraînement d’un agent de renforcement

Lorsqu’un agent d’apprentissage par renforcement est entraîné, il existe quatre ingrédients ou états utilisés dans l’entraînement : les états initiaux (État 0), le nouvel état (État 1), les actions et les récompenses.

Imaginez que nous entraînons un agent de renforcement pour jouer à un jeu de plateforme vidéo où l’objectif de l’IA est de parvenir à la fin du niveau en se déplaçant vers la droite à l’écran. L’état initial du jeu est tiré de l’environnement, ce qui signifie que le premier cadre du jeu est analysé et donné au modèle. Sur la base de ces informations, le modèle doit décider d’une action.

Pendant les premières phases de l’entraînement, ces actions sont aléatoires, mais à mesure que le modèle est renforcé, certaines actions deviennent plus courantes. Après que l’action est prise, l’environnement du jeu est mis à jour et un nouvel état ou cadre est créé. Si l’action prise par l’agent a produit un résultat souhaitable, disons dans ce cas que l’agent est toujours en vie et n’a pas été touché par un ennemi, une certaine récompense est donnée à l’agent et il est plus susceptible de le faire à l’avenir.

Ce système de base est constamment répété, se produisant encore et encore, et à chaque fois, l’agent essaie d’apprendre un peu plus et de maximiser sa récompense.

Tâches épisodiques et continues

Les tâches d’apprentissage par renforcement peuvent généralement être classées en deux catégories différentes : tâches épisodiques et tâches continues.

Les tâches épisodiques effectuent la boucle d’apprentissage/entraînement et améliorent leur performance jusqu’à ce que certains critères de fin soient remplis et que l’entraînement soit terminé. Dans un jeu, cela peut être d’atteindre la fin du niveau ou de tomber dans un piège comme des piques. En revanche, les tâches continues n’ont pas de critère de fin, continuant essentiellement à s’entraîner pour toujours jusqu’à ce que l’ingénieur choisisse de mettre fin à l’entraînement.

Monte Carlo et différence temporelle

Il existe deux principales façons d’apprendre, ou d’entraîner, un agent d’apprentissage par renforcement. Dans l’approche de Monte Carlo, les récompenses sont délivrées à l’agent (son score est mis à jour) uniquement à la fin de l’épisode d’entraînement. Pour le dire autrement, seul lorsque la condition de fin est atteinte, le modèle apprend à quel point il s’est bien comporté. Il peut alors utiliser ces informations pour mettre à jour et, lorsque le prochain cycle d’entraînement est lancé, il réagira en fonction des nouvelles informations.

La méthode de différence temporelle diffère de la méthode de Monte Carlo en ce que l’estimation de la valeur, ou l’estimation du score, est mise à jour au cours de l’épisode d’entraînement. Dès que le modèle passe à l’étape de temps suivante, les valeurs sont mises à jour.

Exploration et exploitation

L’entraînement d’un agent d’apprentissage par renforcement est un exercice d’équilibre, impliquant l’équilibre de deux métriques différentes : l’exploration et l’exploitation.

L’exploration est l’acte de collecter plus d’informations sur l’environnement qui entoure, tandis que l’exploitation consiste à utiliser les informations déjà connues sur l’environnement pour gagner des points de récompense. Si un agent n’explore qu’et ne profite jamais de l’environnement, les actions souhaitées ne seront jamais effectuées. D’un autre côté, si l’agent ne profite que de l’environnement et n’explore jamais, l’agent n’apprendra qu’à effectuer une seule action et ne découvrira pas d’autres stratégies possibles pour gagner des récompenses. Par conséquent, équilibrer l’exploration et l’exploitation est crucial lors de la création d’un agent d’apprentissage par renforcement.

Cas d’utilisation de l’apprentissage par renforcement

L’apprentissage par renforcement peut être utilisé dans une large gamme de rôles et est mieux adapté aux applications où les tâches nécessitent une automatisation.

L’automatisation des tâches à effectuer par des robots industriels est un domaine où l’apprentissage par renforcement se révèle utile. L’apprentissage par renforcement peut également être utilisé pour des problèmes tels que l’extraction de texte, la création de modèles capables de résumer de longs textes. Les chercheurs expérimentent également l’utilisation de l’apprentissage par renforcement dans le domaine de la santé, avec des agents de renforcement qui gèrent des tâches telles que l’optimisation des politiques de traitement. L’apprentissage par renforcement pourrait également être utilisé pour personnaliser les matériaux éducatifs pour les étudiants.

Résumé de l’apprentissage par renforcement

L’apprentissage par renforcement est une méthode puissante pour construire des agents d’IA qui peuvent conduire à des résultats impressionnants et parfois surprenants. Entraîner un agent par l’apprentissage par renforcement peut être complexe et difficile, car cela nécessite de nombreuses itérations d’entraînement et un équilibre délicat du dichotomie exploration/exploitation. Cependant, si cela est réussi, un agent créé avec l’apprentissage par renforcement peut effectuer des tâches complexes dans une large gamme d’environnements différents.

Daniel Nelson

Blogueur et programmeur avec des spécialités en Machine Learning et Deep Learning sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.

Unite.AI

Qu’est-ce que l’apprentissage par renforcement ?

Qu’est-ce que l’apprentissage par renforcement ?

Renforcement positif et négatif

Entraînement d’un agent de renforcement

Tâches épisodiques et continues

Monte Carlo et différence temporelle

Exploration et exploitation

Cas d’utilisation de l’apprentissage par renforcement

Résumé de l’apprentissage par renforcement

You may like