Intelligence artificielle

Optimisation des préférences directes : un guide complet

Published August 14, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Aligner les grands modèles de langage (LLM) sur les valeurs et les préférences humaines est un défi. Les méthodes traditionnelles, telles que l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF), ont ouvert la voie en intégrant les entrées humaines pour affiner les sorties du modèle. Cependant, le RLHF peut être complexe et gourmand en ressources, nécessitant une puissance de calcul et un traitement de données considérables. L’optimisation des préférences directes (DPO) émerge comme une approche nouvelle et plus simplifiée, offrant une alternative efficace à ces méthodes traditionnelles. En simplifiant le processus d’optimisation, la DPO ne réduit pas seulement la charge de calcul, mais améliore également la capacité du modèle à s’adapter rapidement aux préférences humaines

Dans ce guide, nous allons plonger dans la DPO, en explorant ses fondements, sa mise en œuvre et ses applications pratiques.

La nécessité d’aligner les préférences

Pour comprendre la DPO, il est essentiel de comprendre pourquoi aligner les LLM sur les préférences humaines est si important. Malgré leurs capacités impressionnantes, les LLM formés sur des ensembles de données vastes peuvent parfois produire des sorties qui sont incohérentes, biaisées ou non alignées sur les valeurs humaines. Ce désalignement peut se manifester de diverses manières :

Générer du contenu non sécurisé ou nuisible
Fournir des informations inexactes ou trompeuses
Présenter des biais présents dans les données de formation

Pour résoudre ces problèmes, les chercheurs ont développé des techniques pour affiner les LLM à l’aide de la rétroaction humaine. La méthode la plus éminente de ces approches a été le RLHF.

Comprendre le RLHF : le prédécesseur de la DPO

L’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) a été la méthode de choix pour aligner les LLM sur les préférences humaines. Décomposons le processus RLHF pour en comprendre les complexités :

a) Affinement supervisé (SFT) : Le processus commence par l’affinement d’un LLM pré-formé sur un ensemble de données de réponses de haute qualité. Cette étape aide le modèle à générer des sorties plus pertinentes et cohérentes pour la tâche ciblée.

b) Modélisation de la récompense : Un modèle de récompense distinct est formé pour prédire les préférences humaines. Cela implique :

Générer des paires de réponses pour des invites données
Faire évaluer par les humains la réponse qu’ils préfèrent
Former un modèle pour prédire ces préférences

c) Apprentissage par renforcement : Le LLM affiné est ensuite optimisé à l’aide de l’apprentissage par renforcement. Le modèle de récompense fournit une rétroaction, guidant le LLM pour générer des réponses qui s’alignent sur les préférences humaines.

Voici un pseudocode Python simplifié pour illustrer le processus RLHF :

Bien que le RLHF soit efficace, il présente plusieurs inconvénients :

Il nécessite la formation et la maintenance de plusieurs modèles (SFT, modèle de récompense et modèle optimisé par RL)
Le processus RL peut être instable et sensible aux hyperparamètres
Il est coûteux en termes de calcul, nécessitant de nombreuses passes avant et arrière à travers les modèles

Ces limites ont motivé la recherche de solutions plus simples et plus efficaces, conduisant au développement de la DPO.

Optimisation des préférences directes : concepts fondamentaux

Optimisation des préférences directes https://arxiv.org/abs/2305.18290

Cette image contraste deux approches distinctes pour aligner les sorties des LLM sur les préférences humaines : l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) et l’optimisation des préférences directes (DPO). Le RLHF s’appuie sur un modèle de récompense pour guider la politique du modèle de langage à travers des boucles de rétroaction itératives, tandis que la DPO optimise directement les sorties du modèle pour correspondre aux réponses préférées par les humains en utilisant des données de préférence. Cette comparaison met en évidence les forces et les applications potentielles de chaque méthode, fournissant des insights sur la façon dont les futurs LLM pourraient être formés pour mieux s’aligner sur les attentes humaines.

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.

Unite.AI

Optimisation des préférences directes : un guide complet

La nécessité d’aligner les préférences

Comprendre le RLHF : le prédécesseur de la DPO

Optimisation des préférences directes : concepts fondamentaux

You may like