AI 101

Qu'est-ce que l'apprentissage par renforcement profond ?

Publié le 17 avril 2020

Le kit de préparation mis à jour 2 août 2021

Daniel Nelson

Qu'est-ce que l'apprentissage par renforcement profond ?

Outre l’apprentissage automatique non supervisé et l’apprentissage supervisé, l’apprentissage par renforcement est une autre forme courante de création d’IA. Au-delà de l'apprentissage par renforcement régulier, apprentissage par renforcement profond peut conduire à des résultats étonnamment impressionnants, grâce au fait qu’il combine les meilleurs aspects de l’apprentissage profond et de l’apprentissage par renforcement. Examinons précisément comment fonctionne l'apprentissage par renforcement profond.

Avant de plonger dans l'apprentissage par renforcement approfondi, il peut être judicieux de nous rafraîchir sur la régularité apprentissage par renforcement travaux. Dans l'apprentissage par renforcement, les algorithmes axés sur les objectifs sont conçus à travers un processus d'essais et d'erreurs, optimisant l'action qui mène au meilleur résultat/l'action qui rapporte le plus de « récompense ». Lorsque les algorithmes d'apprentissage par renforcement sont entraînés, ils reçoivent des « récompenses » ou des « punitions » qui influencent les actions qu'ils prendront à l'avenir. Les algorithmes essaient de trouver un ensemble d'actions qui fourniront au système le plus de récompenses, en équilibrant les récompenses immédiates et futures.

Les algorithmes d'apprentissage par renforcement sont très puissants car ils peuvent être appliqués à presque toutes les tâches, étant capables d'apprendre de manière flexible et dynamique à partir d'un environnement et de découvrir des actions possibles.

Présentation de l'apprentissage par renforcement profond

Photo : Megajuice via Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

En ce qui concerne l'apprentissage par renforcement profond, l'environnement est généralement représenté par des images. Une image est une capture de l'environnement à un moment donné. L'agent doit analyser les images et en extraire des informations pertinentes, en utilisant ces informations pour informer de l'action à entreprendre. L'apprentissage par renforcement profond est généralement effectué avec l'une des deux techniques suivantes : l'apprentissage basé sur les valeurs et l'apprentissage basé sur les politiques.

Les techniques d'apprentissage basé sur la valeur utilisent des algorithmes et des architectures tels que les réseaux de neurones convolutifs et les réseaux Deep-Q. Ces algorithmes convertissent l'image en niveaux de gris et suppriment les parties inutiles. L'image subit ensuite diverses convolutions et opérations de regroupement, permettant d'en extraire les parties les plus pertinentes. Ces parties importantes sont ensuite utilisées pour calculer la valeur Q des différentes actions possibles de l'agent. Ces valeurs Q permettent de déterminer la meilleure stratégie pour l'agent. Une fois les valeurs Q initiales calculées, une rétropropagation est effectuée afin de déterminer les valeurs Q les plus précises.

Les méthodes basées sur des politiques sont utilisées lorsque le nombre d'actions possibles que l'agent peut entreprendre est extrêmement élevé, ce qui est généralement le cas dans des scénarios réels. Des situations comme celles-ci nécessitent une approche différente car le calcul des valeurs Q pour toutes les actions individuelles n'est pas pragmatique. Les approches basées sur des politiques fonctionnent sans calculer les valeurs de fonction pour les actions individuelles. Au lieu de cela, ils adoptent des politiques en les apprenant directement, souvent grâce à des techniques appelées Policy Gradients.

Les gradients de politique fonctionnent en recevant un état et en calculant les probabilités d'actions en fonction des expériences antérieures de l'agent. L'action la plus probable est alors sélectionnée. Ce processus est répété jusqu'à la fin de la période d'évaluation et les récompenses sont remises à l'agent. Une fois les récompenses traitées avec l'agent, les paramètres du réseau sont mis à jour avec rétropropagation.

Qu'est-ce que le Q-Learning ?

Parce que Q-Learning est une partie si importante du processus d'apprentissage par renforcement profond, prenons un peu de temps pour vraiment comprendre comment fonctionne le système Q-learning.

Le processus décisionnel de Markov

Un processus de décision de Markov. Photo : waldoalvarez via Pixabay, licence Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Pour qu'un agent IA puisse effectuer une série de tâches et atteindre un objectif, l'agent doit être capable de gérer une séquence d'états et d'événements. L'agent commencera à un état et devra prendre une série d'actions pour atteindre un état final, et il peut y avoir un nombre considérable d'états existant entre les états de début et de fin. Stocker des informations concernant chaque état n'est pas pratique ou impossible, de sorte que le système doit trouver un moyen de conserver uniquement les informations d'état les plus pertinentes. Ceci est accompli grâce à l'utilisation d'un Processus de décision de Markov, qui conserve uniquement les informations concernant l'état actuel et l'état précédent. Chaque état suit une propriété de Markov, qui suit la façon dont l'agent passe de l'état précédent à l'état actuel.

Apprentissage Q approfondi

Une fois que le modèle a accès aux informations sur les états de l'environnement d'apprentissage, les valeurs Q peuvent être calculées. Les valeurs Q sont la récompense totale donnée à l'agent à la fin d'une séquence d'actions.

Les valeurs Q sont calculées avec une série de récompenses. Il y a une récompense immédiate, calculée à l'état actuel et en fonction de l'action en cours. La valeur Q pour l'état suivant est également calculée, ainsi que la valeur Q pour l'état suivant, et ainsi de suite jusqu'à ce que toutes les valeurs Q pour les différents états aient été calculées. Il existe également un paramètre Gamma qui est utilisé pour contrôler le poids des futures récompenses sur les actions de l'agent. Les politiques sont généralement calculées en initialisant de manière aléatoire les valeurs Q et en laissant le modèle converger vers les valeurs Q optimales au cours de la formation.

Réseaux Q profonds

L'un des problèmes fondamentaux concernant l'utilisation du Q-learning pour l'apprentissage par renforcement est que la quantité de mémoire nécessaire pour stocker les données augmente rapidement à mesure que le nombre d'états augmente. Les réseaux Deep Q résolvent ce problème en combinant des modèles de réseaux neuronaux avec des valeurs Q, permettant à un agent d'apprendre de l'expérience et de faire des suppositions raisonnables sur les meilleures actions à entreprendre. Avec le deep Q-learning, les fonctions de valeur Q sont estimées avec des réseaux de neurones. Le réseau de neurones prend l'état en tant que données d'entrée, et le réseau génère la valeur Q pour toutes les différentes actions possibles que l'agent pourrait entreprendre.

Le Deep Q-learning est accompli en stockant toutes les expériences passées en mémoire, en calculant les sorties maximales pour le réseau Q, puis en utilisant une fonction de perte pour calculer la différence entre les valeurs actuelles et les valeurs théoriques les plus élevées possibles.

Apprentissage par renforcement en profondeur vs apprentissage en profondeur

Une différence importante entre l'apprentissage par renforcement profond et l'apprentissage profond régulier est que dans le cas du premier, les entrées changent constamment, ce qui n'est pas le cas dans l'apprentissage profond traditionnel. Comment le modèle d'apprentissage peut-il tenir compte des entrées et des sorties qui changent constamment ?

Essentiellement, pour tenir compte de la divergence entre les valeurs prédites et les valeurs cibles, deux réseaux de neurones peuvent être utilisés au lieu d'un. Un réseau estime les valeurs cibles, tandis que l'autre réseau est responsable des prédictions. Les paramètres du réseau cible sont mis à jour au fur et à mesure que le modèle apprend, après qu'un nombre choisi d'itérations d'apprentissage se soit écoulé. Les sorties des réseaux respectifs sont ensuite réunies pour déterminer la différence.

Apprentissage basé sur des politiques

Apprentissage basé sur des politiques les approches fonctionnent différemment des approches basées sur la valeur Q. Alors que les approches de valeur Q créent une fonction de valeur qui prédit les récompenses pour les états et les actions, les méthodes basées sur des politiques déterminent une politique qui mappera les états aux actions. En d'autres termes, la fonction de politique qui sélectionne les actions est directement optimisée sans tenir compte de la fonction de valeur.

Gradients de politique

Une politique d'apprentissage par renforcement profond appartient à l'une des deux catégories suivantes : stochastique ou déterministe. Une politique déterministe est une politique dans laquelle les états sont mappés sur des actions, ce qui signifie que lorsque la politique reçoit des informations sur un état, une action est renvoyée. Pendant ce temps, les politiques stochastiques renvoient une distribution de probabilité pour les actions au lieu d'une seule action discrète.

Les politiques déterministes sont utilisées lorsqu'il n'y a aucune incertitude quant aux résultats des actions qui peuvent être prises. En d'autres termes, lorsque l'environnement lui-même est déterministe. En revanche, les extrants stochastiques des politiques conviennent aux environnements où le résultat des actions est incertain. En règle générale, les scénarios d'apprentissage par renforcement impliquent un certain degré d'incertitude, de sorte que des politiques stochastiques sont utilisées.

Les approches de gradient de politique présentent quelques avantages par rapport aux approches d'apprentissage Q, ainsi que certains inconvénients. En termes d'avantages, les méthodes basées sur des politiques convergent vers des paramètres optimaux plus rapidement et de manière plus fiable. Le gradient politique peut simplement être suivi jusqu'à ce que les meilleurs paramètres soient déterminés, alors qu'avec les méthodes basées sur la valeur, de petits changements dans les valeurs d'action estimées peuvent entraîner de grands changements dans les actions et leurs paramètres associés.

Les gradients de politique fonctionnent également mieux pour les espaces d'action de grande dimension. Lorsqu'il y a un nombre extrêmement élevé d'actions possibles à entreprendre, le Q-learning approfondi devient peu pratique car il doit attribuer un score à chaque action possible pour tous les pas de temps, ce qui peut être impossible en termes de calcul. Cependant, avec les méthodes basées sur des politiques, les paramètres sont ajustés au fil du temps et le nombre de meilleurs paramètres possibles diminue rapidement à mesure que le modèle converge.

Les gradients de politique sont également capables de mettre en œuvre des politiques stochastiques, contrairement aux politiques basées sur la valeur. Comme les politiques stochastiques produisent une distribution de probabilité, un compromis exploration/exploitation n'a pas besoin d'être mis en œuvre.

En termes d'inconvénients, le principal inconvénient des gradients de politique est qu'ils peuvent rester bloqués lors de la recherche de paramètres optimaux, en se concentrant uniquement sur un ensemble étroit et local de valeurs optimales au lieu des valeurs optimales globales.

Fonction de score de politique

Les politiques utilisées pour optimiser l'objectif de performance d'un modèle pour maximiser une fonction de score – J(θ). Si J(θ) est une mesure de la qualité de notre politique pour atteindre l'objectif souhaité, nous pouvons trouver les valeurs de "θ” qui nous donne la meilleure politique. Tout d'abord, nous devons calculer une récompense politique attendue. Nous estimons la récompense de la politique afin d'avoir un objectif, quelque chose vers lequel optimiser. La fonction de score de politique est la façon dont nous calculons la récompense de politique attendue, et il existe différentes fonctions de score de politique qui sont couramment utilisées, telles que : les valeurs de départ pour les environnements épisodiques, la valeur moyenne pour les environnements continus et la récompense moyenne par pas de temps.

Ascension du gradient politique

L'ascension du gradient vise à déplacer les paramètres jusqu'à ce qu'ils soient à l'endroit où le score est le plus élevé. Photo : domaine public (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Une fois la fonction de score de politique souhaitée utilisée et une récompense de politique attendue calculée, nous pouvons trouver une valeur pour le paramètre "θ” qui maximise la fonction de score. Afin de maximiser la fonction score J(θ), une technique appelée « ascension du gradient » est utilisée. L'ascension du gradient est similaire à la descente du gradient en apprentissage profond, mais nous optimisons pour la plus forte augmentation plutôt que pour la plus forte diminution. En effet, notre score n'est pas une « erreur », comme dans de nombreux problèmes d'apprentissage profond. Notre score est quelque chose que nous cherchons à maximiser. Une expression appelée théorème du gradient de politique est utilisée pour estimer le gradient par rapport à la politique.θ ».

Résumé de l'apprentissage par renforcement profond

En résumé, l'apprentissage par renforcement profond combine des aspects de l'apprentissage par renforcement et des réseaux de neurones profonds. L'apprentissage par renforcement profond se fait avec deux techniques différentes : l'apprentissage Q profond et les gradients de politique.

Les méthodes de Deep Q-learning visent à prédire quelles récompenses suivront certaines actions entreprises dans un état donné, tandis que les approches de gradient de politique visent à optimiser l'espace d'action, en prédisant les actions elles-mêmes. Les approches basées sur les politiques de l'apprentissage par renforcement profond sont de nature déterministe ou stochastique. Les politiques déterministes associent directement les états aux actions, tandis que les politiques stochastiques produisent des distributions de probabilité pour les actions.

Daniel Nelson

Blogueur et programmeur spécialisé dans Machine Learning et L'apprentissage en profondeur les sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.