Intelligence artificielle

Zéphyr : Distillation Directe de l’Alignement des LLM

Published November 29, 2023

Updated April 4, 2026

Kunal Kejriwal

La capacité et les performances des petits modèles de langage ouverts ont considérablement progressé ces dernières années, et nous avons été témoins de l’évolution des premiers modèles GPT-2 aux cadres LLM plus compacts, plus précis et plus efficaces qui utilisent une quantité considérablement plus importante de jetons que la quantité de jetons “optimale en termes de calcul” recommandée par les lois de mise à l’échelle de Chinchilla. De plus, les développeurs ont démontré que ces petits cadres LLM peuvent être formés davantage en utilisant une approche de dSFT ou de fine-tuning supervisé distillé basée sur des modèles propriétaires, qui utilise la sortie d’un modèle enseignant efficace comme données supervisées pour le modèle étudiant dans le but d’améliorer la précision.

Dans cet article, nous allons parler du cadre Zéphyr-7B, un état de l’art benchmark de chat pour les modèles à 7B de paramètres qui ne nécessite pas d’annotations humaines. L’objectif principal du cadre est de permettre aux développeurs de produire des modèles de langage plus petits qui sont alignés sur l’intention de l’utilisateur plus que jamais auparavant. Le cadre Zéphyr-7B non seulement examine l’application des approches actuelles pour les plus grands cadres LLM comme le dSFT, mais explore également la possibilité d’utiliser d’autres approches pour apprendre un modèle de chat avec une meilleure alignment avec l’intention de l’utilisateur. Nous allons plonger plus profondément dans le cadre Zéphyr, et explorer son architecture, son fonctionnement et ses résultats. Alors, commençons.

Zéphyr-7B : Introduction à la Distillation Directe de l’Alignement dans les Modèles de Langage

Comme mentionné précédemment, les modèles de langage ont progressé rapidement ces dernières années, des premiers cadres GPT-2 aux cadres GPT-4 et MiniGPT-5 LLM actuels qui, bien qu’ils soient très gourmands en jetons, sont maintenant plus précis et beaucoup plus efficaces. Un point fort de ces cadres LLM avancés est qu’ils incorporent une quantité considérablement plus importante de jetons que le nombre de jetons qui étaient considérés comme étant computationnellement optimaux sous les lois de mise à l’échelle de Chinchilla. De plus, les développeurs et les chercheurs travaillant sur les cadres LLM ont appris que ces petits cadres LLM peuvent être formés davantage en utilisant une approche de dSFT ou de fine-tuning supervisé distillé basée sur des modèles propriétaires, qui utilise la sortie d’un modèle enseignant efficace comme données supervisées pour le modèle étudiant dans le but d’améliorer la précision. La stratégie de distillation s’est avérée être un outil très efficace et utile pour maximiser le potentiel et les capacités des modèles ouverts sur une large gamme de tâches, bien qu’elle ne puisse pas encore reproduire les performances atteintes par le modèle enseignant. De plus, les utilisateurs ont souvent signalé que ces modèles affichent souvent un “désalignement d’intention”, ce qui signifie que les modèles ne se comportent pas de manière à être alignés sur les exigences des utilisateurs finals, ce qui conduit à des sorties incorrectes qui ne fournissent pas la bonne sortie ou les réponses aux entrées ou aux requêtes des utilisateurs.

L’alignement des intentions a toujours été un défi majeur pour les développeurs, avec des travaux récents axés sur le développement de benchmarks comme AlpacaEval et MT-Bench développés pour cibler le désalignement. La motivation pour développer le cadre Zéphyr peut être attribuée au problème de l’utilisation de la distillation pour aligner un petit cadre LLM ouvert entièrement, où la première étape consiste à utiliser un AIF ou une rétroaction artificielle pour obtenir des données de préférence à partir d’un ensemble du modèle enseignant, puis à appliquer directement l’optimisation de préférence distillée comme objectif d’apprentissage principal, une approche qui est appelée dDPO ou optimisation de politique de diffusion de débruitage. Le point fort de l’approche dDPO est qu’elle ne nécessite pas d’échantillonnage humain ou d’annotations, et réduit également le temps nécessaire pour former un modèle de langage. De plus, elle permet également aux développeurs de maximiser les récompenses de l’échantillon final en prêtant une attention particulière à la séquence des étapes de débruitage, du début à la fin, en d’autres termes, tout au long de son intégralité.

Les développeurs ont développé le cadre Zéphyr-7B pour valider cette approche, et à certains égards, il s’agit d’une version alignée du cadre Mistral-7B à l’état de l’art. Le cadre utilise d’abord le dSFT ou le fine-tuning supervisé distillé basé sur le jeu de données UltraChat, puis applique l’approche dDPO ou l’optimisation de politique de diffusion de débruitage sur les données de rétroaction. Les expériences indiquent que le cadre Zéphyr-7B avec 7 milliards de paramètres livre des résultats comparables à ceux livrés par des modèles de chat alignés avec des rétroactions humaines et plus de 70 milliards de paramètres. De plus, les expériences indiquent également que les résultats peuvent être améliorés à la fois en termes de benchmarks qui prennent en compte les capacités de conversation, ainsi que les benchmarks académiques standard, et que l’utilisation de l’apprentissage de préférence est cruciale pour atteindre les résultats souhaités.

La figure ci-dessus montre les performances de différents modèles de langage sur le benchmark MT-bench. Le cadre Zéphyr-7B formé en utilisant l’approche dDPO est comparé à des modèles de langage plus grands, propriétaires et ouverts, qui ont été formés en utilisant un apprentissage de renforcement supplémentaire et qui incluaient une grande quantité de rétroactions humaines. Comme on peut le voir clairement, malgré la différence considérable dans le nombre de paramètres que ces cadres utilisent, le cadre Zéphyr-7B livre des résultats comparables à la plupart d’entre eux et surpasse plusieurs cadres dans différents domaines.

Zéphyr-7B : Méthode, Fonctionnement et Architecture

L’objectif principal du cadre Zéphyr-7B est d’aider un modèle de langage ouvert à s’aligner le plus possible sur l’intention de l’utilisateur, et tout au long de son intégralité, le cadre Zéphyr-7B suppose avoir accès à un modèle enseignant important qui est interrogé à l’aide de la génération de prompts. Le cadre Zéphyr-7B suit une approche similaire à celle utilisée dans le cadre InstructGPT, et vise à générer un modèle étudiant efficace et précis.

La figure suivante montre brièvement les trois étapes principales impliquées dans le fonctionnement du cadre Zéphyr-7B.

dSFT pour la construction de jeux de données à grande échelle en utilisant un style d’auto-instruction.
Collecte de rétroactions artificielles en utilisant un ensemble de modèles de chat, suivie d’une binarisation de préférence et d’une notation par GPT-4.
dPO du modèle dSFT en utilisant les données de rétroaction.

dSFT ou Fine-Tuning Supervisé Distillé

Le cadre commence avec un modèle de langage brut qui doit d’abord être formé pour répondre aux prompts de l’utilisateur. Traditionnellement, la formation de ces cadres LLM pour répondre aux prompts de l’utilisateur est effectuée en utilisant le fine-tuning supervisé sur un jeu de données composé d’instructions de haute qualité et de leurs réponses correspondantes. Puisque le cadre Zéphyr-7B a accès à un modèle enseignant, le cadre peut générer des instructions et des réponses, et former le modèle directement sur ces instructions et réponses, et cette approche est appelée dSFT ou fine-tuning supervisé distillé. La figure suivante montre la distillation effectuée par le fine-tuning supervisé, où x représente un ensemble de prompts de démarrage construits avec l’objectif principal de représenter un ensemble diversifié de domaines thématiques, y représente la réponse échantillon, qui est affinée en utilisant une nouvelle instruction échantillon représentée par x1 et C représente le point final dans le jeu de données final.

Rétroaction Artificielle via les Préférences

Les rétroactions humaines sont utilisées pour attribuer des modèles de langage, car elles peuvent fournir les signaux supplémentaires nécessaires, et ces rétroactions humaines sont traditionnellement fournies via des préférences sur la qualité des réponses générées par les cadres LLM. Cependant, le cadre Zéphyr utilise des rétroactions artificielles à partir du modèle enseignant sur les sorties générées par d’autres modèles au lieu de rétroactions humaines à des fins de distillation. L’approche suivie par le cadre Zéphyr est influencée par celle utilisée par le cadre UltraFeedback, qui utilise le modèle enseignant pour fournir des préférences sur les sorties du modèle.

De manière similaire à l’approche de fine-tuning supervisé, elle commence avec un ensemble de prompts, où x représente chaque prompt individuel qui est ensuite alimenté dans une collection de quatre modèles comme Llama, Falcon, Claude, et plus, chacun générant une réponse de son propre cru. Ces réponses sont ensuite alimentées en tant qu’entrée pour le modèle enseignant comme GPT-3 ou GPT-4, et le modèle produit un score pour la réponse d’entrée. Après avoir collecté les scores de sortie, le modèle enregistre la réponse avec le score le plus élevé.

dDPO ou Optimisation de Politique de Diffusion de Débruitage Distillée

La dDPO est l’étape finale du cadre Zéphyr, et son objectif principal est d’affiner le modèle dSFT enseignant en maximisant la probabilité de classement de la réponse préférée dans un modèle de préférence déterminé par une fonction de récompense en utilisant le modèle de langage étudiant. L’étape précédente impliquant l’utilisation de rétroactions artificielles se concentre principalement sur l’utilisation de méthodes d’apprentissage de renforcement comme le PPO ou l’optimisation de politique proximale pour une optimisation maximale par rapport à la récompense générée. À cette étape, la récompense est d’abord formée, puis échantillonnée à partir de la politique actuelle pour calculer les mises à jour, et ainsi maximiser l’optimisation. La dDPO suit une approche similaire pour optimiser le modèle de préférence directement en utilisant les données statiques. L’objectif après avoir connecté la fonction de récompense au modèle de préférence peut être écrit comme

Zéphyr-7B : Expériences, Benchmarks et Résultats

Le cadre Zéphyr effectue ses expériences de fine-tuning sur le cadre Mistral-7B actuel qui livre des performances comparables à celles de modèles de langage plus grands sur une large gamme de tâches de traitement du langage naturel ou TAL.

Jeux de Données

Le cadre Zéphyr utilise deux jeux de données de dialogue qui ont été distillés à partir d’un mélange de modèles propriétaires et ouverts, qui se sont déjà avérés efficaces pour produire des modèles de chat efficaces.

UltraChat

UltraChat est un jeu de données d’auto-amélioration qui se compose d’environ 1,5 million de dialogues multi-tours sur 30 sujets, et 20 matériaux de texte générés par le cadre GPT-3.5-Turbo. Pour résoudre le problème de capitalisation incorrecte rencontré par le jeu de données UltraChat, le cadre applique une approche d’heuristique de vraie casse pour éliminer les erreurs grammaticales.

UltraFeedback

UltraFeedback est un jeu de données de prompts avec plus de 64 000 prompts, chacun ayant quatre réponses LLM individuelles. Le cadre Zéphyr utilise le score moyen le plus élevé obtenu à partir du jeu de données UltraFeedback pour construire des préférences binaires, et l’une des trois autres réponses LLM est rejetée de manière aléatoire.

Évaluation

Pour évaluer les performances du cadre Zéphyr, les développeurs ont opté pour deux benchmarks de chat, l’un à tour unique et l’autre à tours multiples, dans le but d’évaluer la capacité du modèle à suivre les instructions de l’utilisateur et à répondre en conséquence.

MT-Bench

Le benchmark d’évaluation MT-Bench se compose de 160 questions réparties sur 8 domaines de connaissance uniques, et sous le benchmark MT-Bench, le modèle doit répondre à une question initiale et fournir une réponse à la question de suivi.

AlpacaEval

AlpacaEval est un benchmark à tour unique sous lequel le modèle ou le cadre génère des réponses utilisateur à plus de 800 questions réparties sur différents sujets avec un focus principal sur l’utilité.

En plus de ces deux benchmarks principaux, le cadre Zéphyr-7B est également évalué sur le tableau de bord des modèles de langage ouverts pour les tâches de classification multiclass, ARC, HellaSwag, MMLU, et plus. De plus, quel que soit le benchmark sur lequel le cadre Zéphyr-7B est évalué, il est comparé à une gamme de modèles propriétaires et ouverts, avec leurs procédures d’alignement étant le seul facteur de différenciation.

Résultats

Voyons maintenant comment le cadre Zéphyr-7B se comporte et se compare aux modèles de langage actuels.

Mise en œuvre de l’approche dDPO améliore les capacités de chat

Le tableau suivant compare les performances du cadre Zéphyr-7B aux modèles de langage actuels sur les benchmarks AlpacaEval et MT-Bench.

Comme on peut le voir clairement, lorsqu’il est comparé aux modèles ouverts de 7B, le cadre Zéphyr-7B non seulement surpasse considérablement les modèles dSFT sur les deux benchmarks, mais définit également de nouvelles normes pour l’état de l’art. De plus, le cadre Zéphyr-7B parvient également à surpasser le cadre XWIN-LM-7B, qui est l’un des rares modèles formés sur l’approche dPPO ou l’optimisation de politique proximale distillée. De plus, les performances livrées par le cadre Zéphyr-7B sont comparables aux résultats livrés par des modèles de langage plus grands comme Llama2-Chat avec plus de 70 milliards de paramètres.

dDPO améliore les performances des tâches académiques

La figure suivante compare les performances du cadre Zéphyr-7B à une large gamme de cadres LLM ouverts et propriétaires.

Comme on peut le voir, le cadre Zéphyr-7B surpasse considérablement les cadres LLM avec 7B de paramètres, et l’écart entre ses performances et celles livrées par les meilleurs modèles dSFT est également notable. À mesure que le nombre de paramètres augmente, le cadre Zéphyr-7B est en retard, bien qu’il égale les performances livrées par les cadres avec 40 milliards de paramètres.

Optimisation de préférence

Dans la figure suivante, nous évaluons comment les différentes étapes suivies dans le processus d’alignement affectent les performances. Comme on peut l’observer, l’approche dDPO combinée avec le dSFT améliore considérablement les performances sur les deux jeux de données MT-Bench et AlpacaEval.

Enfin, dans la figure suivante, nous pouvons voir les précisions de test et de formation pendant la mise en œuvre de la dPO. Comme on peut le voir, l’approche dDPO n’affecte pas les performances du modèle sur les tâches en aval.

Conclusion

Dans cet article, nous avons parlé du cadre Zéphyr-7B basé sur le cadre Mistral-7B actuel qui vise à résoudre le défi actuel de distillation d’alignement d’un grand modèle de langage à un cadre préformé plus petit. L’objectif principal du cadre est de permettre aux développeurs de produire des modèles de langage plus petits qui sont alignés sur l’intention de l’utilisateur plus que jamais auparavant. Le cadre Zéphyr-7B non seulement examine l’application des approches actuelles pour les plus grands cadres LLM comme le dSFT, mais explore également la possibilité d’utiliser d’autres approches pour apprendre un modèle de chat avec une meilleure alignment avec l’intention de l’utilisateur.

Cependant, malgré les résultats prometteurs, le cadre Zéphyr-7B n’est pas parfait, et certains travaux doivent encore être effectués. L’une des limitations évidentes est l’utilisation du cadre GPT-4 pour évaluer les benchmarks MT-Bench et AlpacaEval, qui a souvent été biaisé vers les modèles qu’il distille lui-même. Cependant, le cadre Zéphyr-7B espère ouvrir la voie à l’exploration des capacités des modèles ouverts plus petits qui sont capables de s’aligner sur l’intention de l’utilisateur et les interactions.

Unite.AI