Intelligence artificielle

EUREKA : Conception de récompenses au niveau humain via la programmation de grands modèles de langage

Publié le 21 novembre 2023

Mis à jour le 22 mai 2026

Par

Kunal Kejriwal

Avec les progrès réalisés par les grands modèles de langage ces dernières années, il n’est pas surprenant que ces cadres de modèles de langage excellent en tant que planificateurs sémantiques pour les tâches de prise de décision séquentielle de haut niveau. Cependant, les développeurs ont encore du mal à utiliser pleinement le potentiel de ces cadres de modèles de langage pour apprendre des tâches de manipulation complexes de bas niveau. Malgré leur efficacité, les grands modèles de langage actuels nécessitent une expertise importante dans le domaine et la matière pour apprendre même des compétences simples ou construire des invites textuelles, créant un fossé important entre leur performance et l’habileté humaine.

Pour combler ce fossé, des développeurs de Nvidia, CalTech, UPenn et d’autres ont introduit EUREKA, un algorithme de conception humaine alimenté par les grands modèles de langage. EUREKA vise à exploiter les capacités diverses des cadres de modèles de langage, notamment l’écriture de code, l’amélioration en contexte et la génération de contenu à zéro tir, pour effectuer une optimisation sans précédent des codes de récompense. Ces codes de récompense, combinés avec l’apprentissage par renforcement, permettent aux cadres de modèles de langage d’apprendre des compétences complexes ou d’effectuer des tâches de manipulation.

Dans cet article, nous allons examiner le cadre EUREKA du point de vue du développement, en explorant son architecture, son fonctionnement et les résultats qu’il obtient dans la génération de fonctions de récompense. Ces fonctions, selon les développeurs, surpassent celles générées par les humains. Nous allons également nous plonger dans la manière dont le cadre EUREKA ouvre la voie à une nouvelle approche de l’apprentissage par renforcement à l’aide de rétroactions humaines (RLHF) en permettant un apprentissage en contexte sans gradient. Commençons.

EUREKA : Introduction

Aujourd’hui, les cadres de modèles de langage de pointe comme GPT-3 et GPT-4 livrent des résultats exceptionnels lorsqu’ils servent de planificateurs sémantiques pour les tâches de prise de décision séquentielle de haut niveau, mais les développeurs cherchent encore des moyens d’améliorer leur performance lorsqu’il s’agit d’apprendre des tâches de manipulation de bas niveau comme la dextérité de rotation de stylo. De plus, les développeurs ont observé que l’apprentissage par renforcement peut être utilisé pour obtenir des résultats durables dans des conditions dextères et d’autres domaines, à condition que les fonctions de récompense soient soigneusement conçues par des concepteurs humains et que ces fonctions de récompense soient capables de fournir des signaux d’apprentissage pour les comportements favorables. Lorsqu’on les compare à des tâches d’apprentissage par renforcement du monde réel qui acceptent des récompenses rares, il est difficile pour le modèle d’apprendre les modèles, ce qui rend nécessaire la formation de ces récompenses pour fournir les signaux d’apprentissage incrémentiels. De plus, les fonctions de récompense, malgré leur importance, sont extrêmement difficiles à concevoir, et des conceptions sous-optimales de ces fonctions peuvent entraîner des comportements involontaires.

Pour relever ces défis et maximiser l’efficacité de ces jetons de récompense, le cadre EUREKA ou Évolution-driven Universal REward Kit pour Agent vise à apporter les contributions suivantes.

Atteindre des performances humaines pour la conception de fonctions de récompense.
Résoudre efficacement les tâches de manipulation sans utiliser l’ingénierie manuelle de récompense.
Générer des fonctions de récompense plus alignées sur l’humain et plus performantes en introduisant une nouvelle approche d’apprentissage en contexte sans gradient au lieu de la méthode traditionnelle de RLHF ou d’apprentissage par renforcement à l’aide de rétroactions humaines.

Il existe trois choix algorithmiques clés que les développeurs ont optés pour améliorer la généralité d’EUREKA : la recherche évolutionnaire, l’environnement en tant que contexte et la réflexion de récompense. Tout d’abord, le cadre EUREKA prend le code source de l’environnement en tant que contexte pour générer des fonctions de récompense exécutables dans un environnement à zéro tir. Ensuite, le cadre effectue une recherche évolutionnaire pour améliorer substantiellement la qualité de ses récompenses, propose des lots de candidats de récompense à chaque itération ou époque, et affine ceux qu’il juge les plus prometteurs. Dans la troisième et dernière étape, le cadre utilise l’approche de réflexion de récompense pour rendre l’amélioration en contexte des récompenses plus efficace, un processus qui aide finalement le cadre à permettre une édition de récompense ciblée et automatisée en utilisant un résumé textuel de la qualité de ces récompenses sur la base des statistiques de formation de politique. La figure suivante donne un aperçu de la manière dont le cadre EUREKA fonctionne, et dans la section à venir, nous allons discuter de l’architecture et du fonctionnement en plus de détails.

EUREKA : Architecture du modèle et paramètres du problème

L’objectif principal de la formation de récompense est de retourner une fonction de récompense formée ou curée pour une fonction de récompense de base, ce qui peut poser des difficultés lorsqu’elle est directement optimisée comme des récompenses rares. De plus, les concepteurs ne peuvent accéder à ces fonctions de récompense de base qu’en utilisant des requêtes, ce qui est la raison pour laquelle le cadre EUREKA opte pour la génération de récompense, un paramètre de synthèse de programme basé sur le RDP ou le problème de conception de récompense.

Le problème de conception de récompense ou RDP est un tuple qui contient un modèle de monde avec un espace d’état, un espace pour les fonctions de récompense, une fonction de transition et un espace d’action. Un algorithme d’apprentissage optimise ensuite les récompenses en générant une politique qui aboutit à un processus de conception de Markov, qui produit l’évolution scalaire de toute politique, et qui ne peut être accédé qu’en utilisant des requêtes de politique. L’objectif principal du RDP est de sortir une fonction de récompense de telle sorte que la politique puisse atteindre le score de fitness maximum. Dans le paramètre du problème d’EUREKA, les développeurs ont spécifié chaque composant du problème de conception de récompense en utilisant du code. De plus, pour une chaîne donnée qui spécifie les détails de la tâche, l’objectif principal du problème de génération de récompense est de générer un code de fonction de récompense pour maximiser le score de fitness.

En poursuivant, il y a trois composants algorithmiques fondamentaux dans le cadre EUREKA. Recherche évolutionnaire (proposition et raffinement itératif des candidats), environnement en tant que contexte (génération de récompenses exécutables dans un environnement à zéro tir), et réflexion de récompense (pour permettre une amélioration fine de la récompense). Le pseudo-code de l’algorithme est illustré dans l’image suivante.

Environnement en tant que contexte

Actuellement, les cadres de modèles de langage nécessitent des spécifications d’environnement en tant qu’entrées pour concevoir des récompenses, tandis que le cadre EUREKA propose d’alimenter directement le code source de l’environnement en tant que contexte, sans le code de récompense, permettant ainsi aux cadres de modèles de langage de prendre le modèle de monde en tant que contexte. L’approche suivie par EUREKA présente deux avantages majeurs. Premièrement, les cadres de modèles de langage pour la programmation sont formés sur des ensembles de code natifs écrits dans des langages de programmation existants comme C, C++, Python, Java, etc., ce qui est la raison fondamentale pour laquelle ils sont meilleurs pour produire des sorties de code lorsqu’ils sont autorisés à composer du code dans la syntaxe et le style sur lesquels ils ont été formés à l’origine. Deuxièmement, l’utilisation du code source de l’environnement révèle généralement les environnements impliqués sémantiquement, ainsi que les variables qui sont adaptées ou idéales pour une utilisation dans une tentative de sortie d’une fonction de récompense conforme à la tâche spécifiée. Sur la base de ces connaissances, le cadre EUREKA instruit le modèle de langage pour retourner un code Python exécutable directement avec l’aide de conseils de formatage et de conceptions de récompense génériques.

Recherche évolutionnaire

L’inclusion de la recherche évolutionnaire dans le cadre EUREKA vise à présenter une solution naturelle aux défis de sous-optimisation et aux erreurs qui se produisent lors de l’exécution, comme mentionné précédemment. À chaque itération ou époque, le cadre propose diverses sorties indépendantes du grand modèle de langage, et étant donné que les générations sont toutes i.i.d, il réduit exponentiellement la probabilité que les fonctions de récompense soient erronées au cours des itérations, étant donné que le nombre d’échantillons augmente à chaque époque.

Dans l’étape suivante, le cadre EUREKA utilise les fonctions de récompense exécutables de l’itération précédente pour effectuer une mutation de récompense en contexte, puis propose une nouvelle fonction de récompense améliorée sur la base d’une rétroaction textuelle. Le cadre EUREKA, combiné avec les capacités d’amélioration en contexte et de suivi d’instructions des grands modèles de langage, est capable de spécifier l’opérateur de mutation comme une invite textuelle et suggère une méthode pour utiliser le résumé textuel de la formation de politique pour modifier les codes de récompense existants.

Réflexion de récompense

Pour ancrer les mutations de récompense en contexte, il est essentiel d’évaluer la qualité des récompenses générées et, plus important encore, de les exprimer en mots, et le cadre EUREKA aborde cela en utilisant la stratégie simple de fournir des scores numériques en tant qu’évaluation de récompense. Lorsque la fonction de fitness de la tâche sert de mesure holistique pour la vérité de base, elle manque d’attribution de crédit et est incapable de fournir des informations précieuses sur la raison pour laquelle la fonction de récompense fonctionne ou ne fonctionne pas. Ainsi, dans une tentative de fournir un diagnostic de récompense plus ciblé et plus complexe, le cadre propose d’utiliser des rétroactions automatisées pour résumer la dynamique de formation de politique en texte. De plus, dans le programme de récompense, les fonctions de récompense dans le cadre EUREKA sont invitées à exposer leurs composants individuellement, ce qui permet au cadre de suivre les valeurs scalaires de chaque composant de récompense unique aux points de contrôle de politique pendant toute la phase de formation.

Bien que la procédure de fonction de récompense suivie par le cadre EUREKA soit simple à construire, elle est essentielle en raison de la nature algorithmique de l’optimisation des récompenses. Cela signifie que l’efficacité d’une fonction de récompense est directement influencée par le choix d’un algorithme d’apprentissage par renforcement, et qu’avec un changement de paramètres, la récompense peut se comporter différemment même avec le même optimiseur. Ainsi, le cadre EUREKA est capable d’éditer les dossiers plus efficacement et de manière plus sélective lors de la synthèse de fonctions de récompense qui sont en synergie améliorée avec l’algorithme d’apprentissage par renforcement.

Formation et référence

Il y a deux composants de formation majeurs du cadre EUREKA : Apprentissage de politique et Métriques d’évaluation de récompense.

Apprentissage de politique

Les fonctions de récompense finales pour chaque tâche individuelle sont optimisées à l’aide du même algorithme d’apprentissage par renforcement en utilisant le même ensemble de paramètres qui sont affinés pour faire fonctionner les récompenses conçues par l’humain.

Métriques d’évaluation de récompense

Étant donné que la métrique de tâche varie en termes d’échelle et de signification sémantique avec chaque tâche, le cadre EUREKA rapporte le score normalisé humain, une métrique qui fournit une mesure holistique pour que le cadre compare sa performance à celle des récompenses générées par l’expert humain conformément aux métriques de vérité de base.

En poursuivant, il y a trois références principales : L2R, Humain, et Sparse.

L2R

L2R est une solution de double étape de grand modèle de langage qui aide à générer des récompenses à partir de modèles. Tout d’abord, un cadre de modèle de langage remplit un modèle de langage naturel pour l’environnement et la tâche spécifiés dans un langage naturel, puis un deuxième cadre de modèle de langage convertit cette « description de mouvement » en un code qui écrit une fonction de récompense en appelant un ensemble de primitives d’API de récompense écrites manuellement.

Humain

La référence humaine est constituée des fonctions de récompense originales écrites par des chercheurs en apprentissage par renforcement, représentant ainsi les résultats de l’ingénierie de récompense humaine à un niveau sans précédent.

Sparse

La référence Sparse ressemble aux fonctions de fitness et est utilisée pour évaluer la qualité des récompenses générées par le cadre.

Résultats et issues

Pour analyser les performances du cadre EUREKA, nous allons l’évaluer sur différents paramètres, notamment sa performance par rapport aux récompenses humaines, l’amélioration des résultats au fil du temps, la génération de récompenses nouvelles, la possibilité d’amélioration ciblée, et le travail avec les rétroactions humaines.

EUREKA surpasse les récompenses humaines

La figure suivante illustre les résultats agrégés sur différents benchmarks, et comme on peut le voir clairement, le cadre EUREKA surpasse ou équivaut aux récompenses de niveau humain sur les tâches Dexterity et Issac. En comparaison, la référence L2R livre des performances similaires sur les tâches à faible dimension, mais lorsqu’il s’agit de tâches à haute dimension, l’écart de performance est considérable.

Amélioration constante au fil du temps

L’un des principaux points forts du cadre EUREKA est sa capacité à améliorer constamment et à renforcer ses performances au fil du temps, à chaque itération, et les résultats sont démontrés dans la figure ci-dessous.

Comme on peut le voir clairement, le cadre génère constamment de meilleures récompenses à chaque itération, et il améliore également et dépasse finalement les performances des récompenses humaines, grâce à son utilisation de l’approche de recherche évolutionnaire de récompense en contexte.

Génération de récompenses nouvelles

La nouveauté des récompenses du cadre EUREKA peut être évaluée en calculant la corrélation entre les récompenses humaines et EUREKA sur l’ensemble des tâches Issac. Ces corrélations sont ensuite tracées sur un graphique ou une carte contre les scores normalisés humains, chaque point sur le graphique représentant une récompense EUREKA individuelle pour chaque tâche. Comme on peut le voir clairement, le cadre EUREKA génère principalement des fonctions de récompense faiblement corrélées qui surpassent les fonctions de récompense humaines.

Amélioration ciblée

Pour évaluer l’importance de l’ajout de réflexion de récompense dans les rétroactions de récompense, les développeurs ont évalué une ablation, un cadre EUREKA sans réflexion de récompense qui réduit les invites de rétroaction à des valeurs de snapshot uniquement. Lors de l’exécution des tâches Issac, les développeurs ont observé qu’en l’absence de réflexion de récompense, le cadre EUREKA a connu une baisse d’environ 29 % du score normalisé moyen.

Travail avec les rétroactions humaines

Pour incorporer facilement une large gamme d’entrées pour générer des fonctions de récompense alignées sur l’humain et plus performantes, le cadre EUREKA, en plus de la conception de récompense automatisée, introduit une nouvelle approche d’apprentissage en contexte sans gradient pour l’apprentissage par renforcement à l’aide de rétroactions humaines, et il y a eu deux observations importantes.

EUREKA peut bénéficier et s’améliorer à partir des fonctions de récompense humaines.
L’utilisation de rétroactions humaines pour la réflexion de récompense induit un comportement aligné.

La figure ci-dessus montre comment le cadre EUREKA démontre une amélioration significative des performances et de l’efficacité en utilisant l’initialisation de récompense humaine, quelle que soit la qualité des récompenses humaines, suggérant que la qualité des récompenses de base n’a pas un impact significatif sur les capacités d’amélioration de récompense en contexte du cadre.

La figure ci-dessus illustre comment le cadre EUREKA peut non seulement induire des politiques plus alignées sur l’humain, mais également modifier les récompenses en incorporant les rétroactions humaines.

Pensées finales

Dans cet article, nous avons discuté d’EUREKA, un algorithme de conception humaine alimenté par les grands modèles de langage, qui tente d’exploiter les capacités diverses des cadres de modèles de langage, notamment l’écriture de code, les capacités d’amélioration en contexte et la génération de contenu à zéro tir, pour effectuer une optimisation sans précédent des codes de récompense. Le code de récompense, combiné avec l’apprentissage par renforcement, peut ensuite être utilisé par ces cadres pour apprendre des compétences complexes ou effectuer des tâches de manipulation. Sans intervention humaine ou ingénierie de prompte spécifique à la tâche, le cadre livre des capacités de génération de récompense de niveau humain sur une large gamme de tâches, et sa force majeure réside dans l’apprentissage de tâches complexes avec une approche d’apprentissage de curriculum.

Dans l’ensemble, les performances et la polyvalence substantielles du cadre EUREKA indiquent que le potentiel de combiner les algorithmes évolutionnaires avec les grands modèles de langage pourrait aboutir à une approche générale et scalable pour concevoir des récompenses, et cette connaissance pourrait être applicable à d’autres problèmes de recherche ouverte.

Kunal Kejriwal

Un ingénieur de profession, un écrivain de cœur. Kunal est un rédacteur technique avec une profonde affection et une compréhension de l'IA et du ML, dédié à simplifier les concepts complexes dans ces domaines grâce à sa documentation engageante et informative.