Intelligence Artificielle
Faire progresser l’alignement de l’IA sur les valeurs humaines grâce à WARM

Alignement des systèmes d'IA sur les valeurs humaines
Les systèmes d’intelligence artificielle (IA) sont de plus en plus capables d’assister les humains dans des tâches complexes, des chatbots du service client aux algorithmes de diagnostic médical. Cependant, à mesure que ces systèmes d’IA assument davantage de responsabilités, il est crucial qu’ils restent alignés sur les valeurs et préférences humaines. Une approche pour y parvenir consiste à utiliser une technique appelée apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Dans RLHF, un système d'IA, connu sous le nom de politique, est récompensé ou pénalisé en fonction des jugements humains sur son comportement. L’objectif est que la politique apprenne à maximiser ses récompenses et à se comporter ainsi selon les préférences humaines.
Le modèle de récompense (MR) est un élément essentiel du RLHF. Il est chargé d'évaluer les actions et les résultats de la politique, et de renvoyer un signal de récompense pour guider le processus d'apprentissage. Concevoir un MR performant est complexe, car les préférences humaines peuvent être complexes, dépendantes du contexte et même incohérentes d'un individu à l'autre. Récemment, des chercheurs de Google DeepMind ont proposé une technique innovante appelée Modèles de récompense pondérés (WARM) pour améliorer la conception des MR.
Le problème du piratage de récompenses
Un problème majeur dans RLHF est le piratage des récompenses. Le piratage des récompenses se produit lorsque la politique trouve des failles pour manipuler le système RM afin d'obtenir des récompenses élevées sans réellement satisfaire les objectifs visés. Par exemple, supposons que l’objectif soit de former un assistant de rédaction IA pour générer des résumés de haute qualité. Le RM pourrait récompenser des résumés concis et informatifs. La politique pourrait alors apprendre à exploiter cela en générant des résumés très courts et peu informatifs, parsemés de mots-clés qui trompent le RM.
Le piratage de récompenses se produit pour deux raisons principales :
- Changement de distribution – Le RM est entraîné sur un ensemble limité d'exemples étiquetés par des humains. Une fois déployé, les résultats de la politique peuvent provenir de différentes distributions auxquelles le RM ne se généralise pas bien.
- Des étiquettes bruyantes – L’étiquetage humain est imparfait, avec des désaccords entre évaluateurs. Le RM peut s’accrocher à des signaux parasites plutôt qu’à des indicateurs de qualité robustes.
Le piratage des récompenses conduit à des systèmes inutiles qui ne répondent pas aux attentes humaines. Pire encore, cela peut entraîner des comportements d’IA biaisés, voire dangereux s’ils sont déployés avec négligence.
L’essor de la fusion de modèles
L'intérêt croissant pour les stratégies de fusion de modèles comme le modèle Ratatouille est motivé par la prise de conscience que des modèles plus grands, bien que puissants, peuvent être inefficaces et peu pratiques. La formation d'un modèle comportant 1 XNUMX milliards de paramètres nécessite des quantités prohibitives de données, de calcul, de temps et de coût. Plus important encore, ces modèles ont tendance à être suradaptés à la répartition des formations, ce qui entrave leur capacité à se généraliser à divers scénarios du monde réel.
La fusion de modèles offre une voie alternative pour débloquer de plus grandes capacités sans mise à l’échelle incontrôlée. En réutilisant plusieurs modèles spécialisés formés sur différentes distributions, tâches ou objectifs, la fusion de modèles vise à améliorer la polyvalence et la robustesse hors distribution. Le principe est que différents modèles capturent des modèles prédictifs distincts qui peuvent se compléter lorsqu’ils sont fusionnés.
Des résultats récents illustrent la promesse de ce concept. Les modèles obtenus par fusion, bien qu'ayant beaucoup moins de paramètres, peuvent égaler, voire dépasser les performances de modèles géants comme le GPT-3. Par exemple, un ensemble Model Ratatouille composé de seulement 7 points de contrôle de taille moyenne atteint une précision de pointe sur des ensembles de données d'implication textuelle de grande dimension, surpassant GPT-3.
La simplicité de fusion par moyenne de poids est un énorme avantage. La formation de plusieurs modèles auxiliaires nécessite des ressources supplémentaires. Mais surtout, le calcul du temps d’inférence reste identique à un modèle unique, puisque les poids sont condensés en un seul. Cela rend la méthode facilement adaptable, sans soucis d’augmentation de la latence ou des coûts de mémoire.
Mécanismes derrière la fusion de modèles
Mais qu’est-ce qui permet exactement ces gains de précision grâce à la fusion de modèles ? Une analyse récente offre quelques indices :
- Atténuer la mémorisation : Chaque modèle voit différents lots mélangés de l'ensemble de données pendant l'entraînement. La moyenne diminue toute mémorisation spécifique à une instance, ne conservant que les généralisations au niveau de l'ensemble de données.
- Réduire l'écart: Les modèles formés indépendamment ont des erreurs non corrélées. Leur combinaison permet de faire la moyenne du bruit, améliorant ainsi l'étalonnage.
- Régularisation via la diversité: Des tâches auxiliaires variables obligent les modèles à s'accrocher à des fonctionnalités plus généralisables utiles dans toutes les distributions.
- Robustesse croissante: L'incohérence dans les prédictions signale une incertitude. La moyenne modère les jugements aberrants, améliorant ainsi la fiabilité.
Essentiellement, la fusion de modèles contrebalance les faiblesses des modèles individuels pour amplifier leurs forces collectives. La représentation fusionnée capture les structures causales sous-jacentes communes, ignorant les variations accidentelles.
Cette base conceptuelle relie la fusion de modèles à d'autres techniques populaires telles que l'assemblage et l'apprentissage multitâche. Toutes ces méthodes exploitent la diversité des modèles ou des tâches pour obtenir des systèmes polyvalents et sensibles aux incertitudes. La simplicité et l’efficacité de la moyenne de poids confèrent toutefois à la fusion de modèles un avantage unique pour faire progresser les déploiements dans le monde réel.
Modèles de récompense pondérés en moyenne
THERMIQUE L'étude utilise de manière innovante un modèle de récompense proxy (RM), qui est une moyenne pondérée de plusieurs RM individuels, chacun affiné à partir du même LLM pré-entraîné, mais avec des hyperparamètres variables. Cette méthode améliore l'efficacité, la fiabilité en cas de changements de distribution et la robustesse face aux préférences incohérentes. L'étude montre également que l'utilisation de WARM comme RM proxy, notamment avec un nombre accru de RM moyennés, améliore les résultats et retarde l'apparition du « piratage des récompenses », un phénomène où les récompenses de contrôle se dégradent au fil du temps.
Voici un aperçu de haut niveau :
- Commencez avec un modèle de langage de base pré-entraîné sur un grand corpus. Initialisez plusieurs RM en ajoutant de petites couches spécifiques à des tâches par-dessus.
- Affinez chaque RM séparément sur l'ensemble de données de préférences humaines, en utilisant différents hyperparamètres comme le taux d'apprentissage de la diversité.
- Faites la moyenne des poids des RM affinés pour obtenir un seul ensemble WARM.
L’idée clé est que la moyenne de poids conserve uniquement les informations invariantes apprises dans tous les divers MR. Cela réduit le recours aux signaux parasites, améliorant ainsi la robustesse. L'ensemble bénéficie également d'une réduction de la variance, améliorant ainsi la fiabilité malgré les changements de distribution.
Comme indiqué précédemment, la diversité des modèles formés indépendamment est cruciale pour libérer tout le potentiel de la fusion de modèles. Mais quelles sont les techniques concrètes pour promouvoir la diversité productive ?
L'article WARM explore quelques idées intelligentes qui pourraient être généralisées plus largement :
Commande de mélanges
Une approche triviale mais efficace consiste à modifier l'ordre dans lequel les points de données sont vus par chaque modèle pendant la formation. Même cette étape simple décorrèle les poids, réduisant ainsi la mémorisation redondante des modèles.
Variations des hyperparamètres
Ajuster les hyperparamètres tels que le taux d'apprentissage et la probabilité d'abandon pour chaque exécution introduit une diversité utile. Les modèles convergent différemment, capturant des propriétés distinctes de l'ensemble de données.
Moyenne des points de contrôle – Baklava
La méthode Baklava initialise des modèles pour fusionner à partir de différents instantanés le long de la même trajectoire de pré-entraînement. Cela assouplit les contraintes par rapport aux soupes modèles qui imposent un point de départ partagé. Par rapport au modèle ratatouille, Baklava évite des tâches supplémentaires. Dans l’ensemble, il établit un équilibre efficace entre précision et diversité.

Le processus commence par un grand modèle linguistique (LLM) pré-entraîné 𝜃_𝑝𝑡. À partir de ce modèle, divers points de contrôle {𝜃_𝑠 𝑓 𝑡_𝑖} sont dérivés lors d'une exécution de réglage fin supervisé (SFT), chacun collecté à différentes étapes de formation SFT. Ces points de contrôle sont ensuite utilisés comme initialisations pour affiner plusieurs modèles de récompense (RM) {𝜙𝑖} sur un ensemble de données de préférences. Ce réglage fin vise à adapter les modèles pour mieux s’aligner sur les préférences humaines. Après un réglage fin, ces RM sont combinés via un processus de moyenne de poids, aboutissant au modèle final, 𝜙_WARM.
L'analyse confirme que l'ajout de points de contrôle plus anciens par moyenne mobile nuit aux performances individuelles, compromettant les mérites de la diversité. La moyenne uniquement des représentations finales de chaque exécution donne de meilleurs résultats. En général, trouver un équilibre entre les objectifs de diversité et le maintien de la précision reste un défi de recherche ouvert.
Dans l’ensemble, la fusion de modèles s’aligne bien avec la philosophie générale du domaine consistant à recycler efficacement les ressources existantes pour une fiabilité, une efficacité et une polyvalence améliorées. La simplicité de la moyenne de poids renforce sa position en tant que candidat leader pour l'assemblage de modèles robustes à partir d'éléments de base facilement disponibles.
Contrairement aux méthodes d'assemblage traditionnelles qui font la moyenne des prédictions, WARM minimise la charge de calcul en conservant un seul ensemble de pondérations. Des expériences sur des tâches de résumé de texte démontrent l'efficacité de WARM :
- Pour l'échantillonnage au meilleur des N, WARM atteint un taux de victoire de 92.5 % contre une sélection aléatoire selon les étiquettes de préférences humaines.
- Dans RLHF, une politique WARM atteint un taux de victoire de 79.4 % par rapport à une politique formée avec un seul RM après le même nombre d'étapes.
- WARM continue de bien fonctionner même lorsqu'un quart des étiquettes humaines sont corrompues.
Ces résultats illustrent le potentiel de WARM comme technique pratique pour développer des assistants IA concrets et fiables. En corrigeant les incohérences dans les retours humains, les politiques WARM peuvent rester rigoureusement alignées sur les valeurs humaines, même si elles continuent d'apprendre de nouvelles expériences.
The Bigger Picture
WARM se situe à l’intersection de deux tendances clés dans la recherche sur l’alignement de l’IA. La première est l’étude de la généralisation hors distribution (OOD), qui vise à améliorer les performances du modèle sur de nouvelles données différentes de la distribution d’entraînement. Deuxièmement, la recherche sur la robustesse algorithmique, axée sur la fiabilité malgré de petites perturbations d'entrée ou du bruit.
En établissant des liens entre ces domaines autour de la notion d'invariances apprises, WARM nous amène vers des techniques plus rigoureusement fondées pour l'alignement des valeurs. Les connaissances de WARM pourraient même être généralisées au-delà du RLHF, fournissant des enseignements pour des systèmes d’apprentissage automatique plus larges qui interagissent avec le monde ouvert.
Bien entendu, la modélisation des récompenses n’est qu’une pièce du puzzle de l’alignement. Nous devons encore progresser sur d’autres défis tels que la spécification des récompenses, la surveillance évolutive et l’exploration sécurisée. Combiné à des techniques complémentaires, WARM pourrait accélérer le développement d’une IA favorisant durablement la prospérité humaine. En élucidant collectivement les principes qui sous-tendent un alignement solide, les chercheurs tracent la voie vers une IA bénéfique et éthique.