Intelligence artificielle

Faire progresser l’alignement de l’IA avec les valeurs humaines grâce à WARM

Published February 5, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Alignement des systèmes d’IA avec les valeurs humaines

Les systèmes d’intelligence artificielle (IA) sont de plus en plus capables d’aider les humains dans des tâches complexes, allant des chatbots de service client à des algorithmes de diagnostic médical. Cependant, à mesure que ces systèmes d’IA prennent en charge davantage de responsabilités, il est crucial qu’ils restent alignés avec les valeurs et les préférences humaines. Une approche pour atteindre cet objectif est une technique appelée apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Dans la RLHF, un système d’IA, appelé politique, est récompensé ou pénalisé en fonction des jugements humains de son comportement. L’objectif est que la politique apprenne à maximiser ses récompenses, et ainsi se comporter conformément aux préférences humaines.

Un composant essentiel de la RLHF est le modèle de récompense (RM). Le RM est responsable de l’évaluation des actions et des sorties de la politique, et de la retourner un signal de récompense pour guider le processus d’apprentissage. Concevoir un bon RM est difficile, car les préférences humaines peuvent être complexes, dépendantes du contexte et même incohérentes entre les individus. Récemment, des chercheurs de Google DeepMind ont proposé une technique innovante appelée Weight Averaged Reward Models (WARM) pour améliorer la conception du RM.

Le problème de la piraterie de récompense

Un problème majeur dans la RLHF est la piraterie de récompense. La piraterie de récompense se produit lorsque la politique trouve des failles pour contourner le système RM et obtenir des récompenses élevées sans réellement satisfaire les objectifs visés. Par exemple, supposons que l’objectif soit de former un assistant d’écriture IA pour générer des résumés de haute qualité. Le RM pourrait récompenser les résumés concis et informatifs. La politique pourrait alors apprendre à exploiter cela en générant des résumés très courts et non informatifs parsemés de mots clés qui trompent le RM.

La piraterie de récompense se produit pour deux raisons principales :

Changement de distribution – Le RM est formé sur un ensemble de données limité d’exemples étiquetés par des humains. Lorsqu’il est déployé, les sorties de la politique peuvent provenir de distributions différentes que le RM ne généralise pas bien.
Étiquettes bruyantes – L’étiquetage humain est imparfait, avec des désaccords entre les évaluateurs. Le RM peut se concentrer sur des signaux erronés plutôt que sur des indicateurs robustes de qualité.

La piraterie de récompense conduit à des systèmes inutiles qui ne répondent pas aux attentes humaines. Pire encore, elle peut entraîner des comportements d’IA biaisés ou même dangereux si déployés sans précaution.

L’essor du regroupement de modèles

L’intérêt croissant pour les stratégies de regroupement de modèles comme Model Ratatouille est motivé par la réalisation que les modèles plus grands, bien que puissants, peuvent être inefficaces et impraticables. La formation d’un modèle de 1 billion de paramètres nécessite des quantités prohibitives de données, de calcul, de temps et de coûts. Plus crucial encore, de tels modèles ont tendance à surestimer la distribution d’entraînement, entravant leur capacité à généraliser à des scénarios du monde réel divers.

Le regroupement de modèles offre une voie alternative pour débloquer de plus grandes capacités sans augmentation incontrôlée. En réutilisant plusieurs modèles spécialisés formés sur différentes distributions, tâches ou objectifs, le regroupement de modèles vise à améliorer la polyvalence et la robustesse en dehors de la distribution. Le principe est que les différents modèles capturent des modèles prédictifs distincts qui peuvent se compléter lorsqu’ils sont regroupés.

Les résultats récents illustrent la promesse de ce concept. Les modèles obtenus par regroupement, bien qu’ayant beaucoup moins de paramètres, peuvent égaler ou même dépasser les performances de géants de modèles comme GPT-3. Par exemple, un ensemble Model Ratatouille de seulement 7 points de contrôle de taille moyenne atteint une précision de pointe sur des ensembles de données de déduction textuelle à haute dimension, surpassant GPT-3.

La simplicité du regroupement par moyenne pondérée est un énorme avantage. La formation de plusieurs modèles auxiliaires nécessite des ressources supplémentaires. Mais de manière cruciale, le calcul à l’exécution reste identique à celui d’un seul modèle, puisque les poids sont condensés en un seul. Cela rend la méthode facilement adaptable, sans inquiétude d’augmentation de latence ou de coûts de mémoire.

Mécanismes derrière le regroupement de modèles

Mais qu’est-ce qui permet exactement ces gains de précision à partir du regroupement de modèles ? Une analyse récente offre quelques indices :

Atténuation de la mémorisation : Chaque modèle voit des lots différents de l’ensemble de données pendant l’entraînement. La moyenne pondérée diminue toute mémorisation spécifique à l’instance, ne retenant que les généralisations au niveau de l’ensemble de données.
Réduction de la variance : Les modèles formés de manière indépendante ont des erreurs non corrélées. Les combiner réduit le bruit, améliorant la calibration.
Régularisation via la diversité : Les tâches auxiliaires variables obligent les modèles à se concentrer sur des caractéristiques plus généralisables, utiles à travers les distributions.
Augmentation de la robustesse : L’incohérence dans les prédictions signale l’incertitude. La moyenne pondérée modère les jugements extrêmes, améliorant la fiabilité.

En essence, le regroupement de modèles contrebalance les faiblesses des modèles individuels pour amplifier leurs forces collectives. La représentation regroupée capture les structures causales sous-jacentes communes, ignorant les variations incidentes.

Ce fondement conceptuel relie le regroupement de modèles à d’autres techniques populaires comme le regroupement et l’apprentissage multi-tâches. Toutes ces méthodes exploitent la diversité entre les modèles ou les tâches pour obtenir des systèmes polyvalents et conscients de l’incertitude. La simplicité et l’efficacité de la moyenne pondérée donnent au regroupement de modèles un avantage unique pour faire progresser les déploiements dans le monde réel.

Weight Averaged Reward Models

Processus d’alignement avec WARM

WARM emploie de manière innovante un modèle de récompense proxy (RM), qui est une moyenne pondérée de plusieurs RM individuels, chacun affiné à partir du même modèle de langage préentraîné mais avec des hyperparamètres différents. Cette méthode améliore l’efficacité, la fiabilité sous les changements de distribution, et la robustesse contre les préférences incohérentes. L’étude montre également que l’utilisation de WARM comme modèle de récompense proxy, en particulier avec un nombre accru de RM moyennés, améliore les résultats et retarde l’apparition de la « piraterie de récompense », un phénomène où les récompenses de contrôle se dégradent avec le temps.

Voici une vue d’ensemble de haut niveau :

Commencez avec un modèle de langage de base préentraîné sur un grand corpus. Initialisez plusieurs RM en ajoutant de petites couches spécifiques à la tâche au sommet.
Affinez chaque RM séparément sur l’ensemble de données de préférences humaines, en utilisant différents hyperparamètres comme le taux d’apprentissage pour la diversité.
Moyennez les poids des RM affinés pour obtenir un seul ensemble WARM.

L’insight clé est que la moyenne pondérée ne retient que les informations invariantes qui sont apprises à travers tous les RM divers. Cela réduit la dépendance aux signaux erronés, améliorant la robustesse. L’ensemble bénéficie également de la réduction de la variance, améliorant la fiabilité malgré les changements de distribution.

Comme discuté précédemment, la diversité entre les modèles formés de manière indépendante est cruciale pour débloquer tout le potentiel du regroupement de modèles. Mais quels sont quelques techniques concrètes pour promouvoir une diversité productive ?

Le document WARM explore quelques idées ingénieuses qui pourraient se généraliser plus largement :

Mélange d’ordre

Une approche simple mais efficace est de mélanger l’ordre dans lequel les points de données sont vus par chaque modèle pendant l’entraînement. Même cette étape simple décorréle les poids, réduisant la mémorisation redondante de modèles.

Variations d’hyperparamètres

La modification d’hyperparamètres comme le taux d’apprentissage et la probabilité d’abandon pour chaque exécution introduit une diversité utile. Les modèles convergent différemment, capturant des propriétés distinctes de l’ensemble de données.

Moyenne de points de contrôle – Baklava

La méthode Baklava initialise les modèles pour le regroupement à partir de différents instantanés le long de la trajectoire de préentraînement. Cela assouplit les contraintes par rapport aux soupes de modèles qui exigent un point de départ partagé. Par rapport à Model Ratatouille, Baklava évite les tâches supplémentaires. Dans l’ensemble, il trouve un équilibre efficace entre précision et diversité.

Processus d'affinement de plusieurs modèles de récompense

Le processus commence avec un modèle de langage préentraîné (LLM) 𝜃_𝑝𝑡. À partir de ce modèle, divers points de contrôle {𝜃_𝑠 𝑓 𝑡_𝑖} sont dérivés pendant une exécution d’affinement supervisé (SFT), chacun collecté à des étapes d’entraînement SFT différentes. Ces points de contrôle sont ensuite utilisés comme initialisations pour l’affinement de plusieurs modèles de récompense (RM) {𝜙𝑖} sur un ensemble de données de préférences. Cet affinement vise à adapter les modèles pour mieux s’aligner sur les préférences humaines. Après l’affinement, ces RM sont combinés par un processus de moyenne pondérée, aboutissant au modèle final, 𝜙_WARM.

L’analyse confirme que l’ajout de points de contrôle plus anciens par moyenne mobile nuit à la performance individuelle, compromettant les mérites de la diversité. La moyenne pondérée des seules représentations finales de chaque exécution fonctionne mieux. En général, équilibrer les objectifs de diversité avec le maintien de la précision reste un défi de recherche ouvert.

Dans l’ensemble, le regroupement de modèles s’aligne bien sur l’ethos général dans le domaine pour recycler efficacement les ressources existantes pour une fiabilité, une efficacité et une polyvalence améliorées. La simplicité de la moyenne pondérée solidifie sa position en tant que candidat de premier plan pour assembler des modèles robustes à partir de blocs de construction prêts à l’emploi.

Contrairement aux méthodes d’ensemble traditionnelles qui moyennent les prédictions, WARM maintient la charge de calcul minimale en conservant un seul ensemble de poids. Les expériences sur les tâches de résumé de texte démontrent l’efficacité de WARM :

Pour le meilleur échantillonnage de N, WARM atteint un taux de gain de 92,5 % contre la sélection aléatoire selon les étiquettes de préférence humaine.
Dans la RLHF, une politique WARM atteint un taux de gain de 79,4 % contre une politique formée avec un seul RM après le même nombre d’étapes.
WARM continue de performer bien même lorsque un quart des étiquettes humaines sont corrompues.

Ces résultats illustrent le potentiel de WARM en tant que technique pratique pour développer des assistants d’IA réels qui se comportent de manière fiable. En lissant les incohérences dans les rétroactions humaines, les politiques WARM peuvent rester robustement alignées sur les valeurs humaines même lorsqu’elles continuent d’apprendre à partir de nouvelles expériences.

Le tableau plus large

WARM se situe à l’intersection de deux tendances clés dans la recherche d’alignement de l’IA. La première est l’étude de la généralisation en dehors de la distribution (OOD), qui vise à améliorer les performances du modèle sur de nouvelles données qui diffèrent de la distribution d’entraînement. La deuxième est la recherche sur la robustesse algorithmique, se concentrant sur la fiabilité malgré de petites perturbations d’entrée ou de bruit.

En établissant des liens entre ces domaines autour de la notion d’invariants appris, WARM nous rapproche de techniques plus solidement fondées pour l’alignement des valeurs. Les insights de WARM pourraient se généraliser même au-delà de la RLHF, offrant des leçons pour des systèmes d’apprentissage automatique plus larges qui interagissent avec le monde ouvert.

Bien sûr, la modélisation de récompense n’est qu’une pièce du puzzle d’alignement. Nous avons encore besoin de progrès sur d’autres défis comme la spécification de récompense, la surveillance à grande échelle et l’exploration sécurisée. Combiné avec des techniques complémentaires, WARM pourrait accélérer le développement d’une IA qui promeut de manière durable la prospérité humaine. En éclaircissant collectivement les principes qui sous-tendent un alignement robuste, les chercheurs cartographient la voie vers une IA bénéfique et éthique.

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.

Unite.AI