Intelligence artificielle

Zephyr-7B : Le LLM Hyper-Optimisé de HuggingFace Construit sur Mistral 7B

Published November 23, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Introduction

L’évolution des modèles de langage grand ouvert (LLM) a eu un impact significatif sur la communauté de recherche en intelligence artificielle, en particulier dans le développement de chatbots et d’applications similaires. Suite à la sortie de modèles comme LLaMA, il y a eu un regain de recherche sur le fine-tuning efficace, la gestion étendue des invites, la génération augmentée de récupération (RAG) et la quantification.

Le modèle LLaMA, par exemple, a marqué une nouvelle ère dans le fine-tuning et la contextualisation des invites, ouvrant la voie à des modèles ultérieurs comme MPT de MosaicML, RedPajama-INCITE de Together AI, Falcon de TII et Llama 2 de Meta. Chacun de ces modèles apporte des capacités uniques, améliorant ainsi la fonctionnalité et la portée globales des LLM.

Mistral AI, une startup de Paris fondée par d’anciens employés de Google DeepMind et Meta, s’est fait un nom avec son premier produit : Mistral 7B.

L’avantage de Mistral 7B réside dans son efficacité, offrant des capacités similaires ou améliorées par rapport à ses pairs comme Llama 2, mais avec une demande computationnelle moindre.

Spécifiquement conçu pour les tâches instructives, Mistral 7B Instruct brille sur des plateformes comme Hugging Face, où il dépasse d’autres modèles de la même taille et rivalise étroitement avec ceux ayant presque le double de paramètres.

En s’appuyant sur cela, Hugging Face a introduit Zephyr 7B Alpha, démontrant qu’un Mistral 7B fine-tuned peut en effet surpasser les capacités de modèles de chat beaucoup plus grands et, dans certaines tâches, rivaliser avec GPT-4. Le “Alpha” n’était que le début, car Zephyr 7B Beta a suivi peu après.

Cet article explorera comment Zephyr 7B tire parti de la puissance des modèles plus grands pour affiner sa capacité à répondre et à s’aligner sur les instructions humaines, un processus rendu possible grâce à la technique de distillation des connaissances. Cette méthode consiste à former des modèles plus petits sur les modèles complexes appris par les plus grands, réduisant ainsi les exigences de formation sans sacrifier les capacités de modélisation du langage. Nous allons nous plonger dans les détails de l’approche de distillation des connaissances de Hugging Face.

Distillation des connaissances

Une innovation clé dans le développement de modèles comme Zephyr-7B est le fine-tuning supervisé distillé (dSFT). Cette méthode implique l’utilisation de la sortie d’un modèle “enseignant” plus grand et plus capable pour former un modèle “élève” plus petit, améliorant ainsi sa précision. Même si la distillation améliore les modèles ouverts sur diverses tâches, un écart de performance par rapport aux modèles enseignants persiste encore.

La distillation des connaissances est une méthode en apprentissage automatique où un modèle compact, appelé “élève”, est enseigné à reproduire les performances d’un modèle plus grand et plus complexe, appelé “enseignant”. Cette technique permet à l’élève d’effectuer des tâches qui étaient précédemment hors de sa portée en transférant les modèles complexes appris par l’enseignant.

Distillation des connaissances | Modèle enseignant-élève

Le modèle élève se forme sur les probabilités de sortie ou les fonctionnalités générées par le modèle enseignant, en se concentrant sur le fait de correspondre à ces sorties plutôt que aux prédictions finales. Cela permet à l’élève d’apprendre les processus de prise de décision nuancés de l’enseignant, ce qui entraîne souvent une amélioration des performances par rapport à la formation avec uniquement les données de vérité terrain.

Historiquement, la distillation des connaissances a été utilisée dans des modèles tels que les réseaux de distillation de Hinton, et plus récemment dans le NLP avec des modèles tels que DistilBERT, qui a distillé le modèle BERT en une version plus petite et plus rapide qui conserve la plupart des capacités de compréhension du langage originales. Un autre exemple est TinyBERT, qui va plus loin dans l’optimisation de la taille et de la vitesse pour les appareils mobiles ou les périphériques.

Dans le cas de Zephyr-7B, la distillation des connaissances est utilisée pour insuffler à un modèle de 7 milliards de paramètres les capacités de ses homologues plus grands. En faisant cela, Zephyr-7B parvient à un équilibre entre les performances et l’efficacité, le rendant ainsi adapté aux environnements où les ressources computationnelles sont limitées, sans sacrifier la qualité de l’interaction et de la compréhension.

Lors du développement de Zephyr-7B, les chercheurs ont relevé le défi de l’alignement d’un petit LLM ouvert entièrement par distillation. Ils ont introduit une approche appelée optimisation de préférence directe distillée (dDPO), qui utilise les commentaires d’IA à partir d’un ensemble de modèles enseignants comme données de préférence. Cette méthode, qui nécessite aucune annotation humaine, réduit considérablement le temps et les ressources nécessaires à la formation du modèle.

Construction de ZEPHYR-7B

Pour valider la dDPO, les chercheurs ont construit ZEPHYR-7B, une version alignée du modèle Mistral-7B. Le processus a impliqué trois étapes :

dSFT en utilisant le jeu de données UltraChat : Le fine-tuning supervisé distillé (dSFT) est une méthode avancée pour former de grands modèles de langage (LLM) en exploitant la sortie de modèles enseignants plus grands et plus capables. Il commence avec un LLM brut qui est formé pour répondre à des invites utilisateur. Contrairement au fine-tuning supervisé traditionnel (SFT) qui utilise un jeu de données fixe, le dSFT emploie une approche dynamique où le modèle lui-même génère des instructions et des réponses. Cette méthode, appelée auto-instruction, implique l’utilisation du modèle enseignant pour répondre et affiner les instructions en fonction des réponses.
Intégration des données de commentaires d’IA à partir d’UltraFeedback : Ces données ont été cruciales pour affiner les réponses du modèle. À cette étape, le modèle génère des réponses à diverses invites (comme décrire comment faire des brownies au chocolat) qui sont ensuite classées par un modèle plus avancé comme GPT-4. La réponse la mieux notée (yw) et une réponse moins bien notée choisie au hasard (yl) forment un jeu de données de commentaires D.
Application de la dDPO : La dernière phase, l’optimisation de préférence directe distillée (dDPO), consiste à affiner le modèle dSFT en maximisant la probabilité de classer les réponses préférées plus haut. Cela est réalisé en utilisant une fonction de récompense rθ(x, y) dans le modèle de préférence, qui est basée sur la politique LLM optimale π* et la politique πdSFT d’origine. L’objectif d’optimisation est formulé comme πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)), ce qui simplifie le processus de formation en commençant par la version dSFT du modèle et en itérant à travers chaque triplet AIF.

La méthode utilisée dans Zephyr-7B reflète les processus utilisés dans InstructGPT.

Remarquablement, Zephyr-7B atteint des performances comparables à celles de modèles de chat de 70 milliards de paramètres alignés avec des commentaires humains. Il excelle à la fois dans les benchmarks académiques et les capacités de conversation, mettant en évidence l’efficacité de l’apprentissage de préférence dans le développement de modèles. Pour une exploration plus approfondie, les modèles, le code et les instructions sont disponibles sur le dépôt GitHub de Hugging Face.

Adresse du défi de l’alignement des intentions

Une préoccupation notable avec les LLM est leur alignement avec l’intention humaine. Les modèles précédents ont souvent échoué à produire des réponses qui correspondent aux préférences des utilisateurs, aboutissant à des réponses inexactes ou non pertinentes. Cependant, des benchmarks récents comme MT-Bench et AlpacaEval ont fourni des outils pour quantifier et améliorer cet aspect, mettant en évidence les performances supérieures de modèles propriétaires formés avec des commentaires humains par rapport à ceux formés uniquement par distillation.

Méthodes d’évaluation

L’évaluation de Zephyr 7B a impliqué des tests rigoureux à travers des benchmarks qui évaluent les capacités de conversation d’un modèle dans des contextes à tour unique et à plusieurs tours :

MT-Bench : Ce benchmark à plusieurs tours nécessite qu’un modèle réponde à 160 questions couvrant huit domaines. Chaque réponse est notée par GPT-4, et le score final du modèle reflète la moyenne sur deux rounds de questions.
AlpacaEval : Dans ce benchmark à tour unique, le modèle est présenté avec 805 questions sur divers sujets. L’accent est mis ici sur l’utilité du modèle, avec GPT-4 notant les réponses pour déterminer un taux de gain comparatif.

En outre, Zephyr 7B a été testé sur le tableau de bord des LLM ouverts, qui, même s’il ne constitue pas une évaluation directe des compétences conversationnelles, offre des informations sur la capacité de raisonnement et la véracité du modèle après fine-tuning.

Zephyr 7B a été comparé à une variété de modèles ouverts et propriétaires, y compris ceux de différentes tailles et méthodes d’alignement. Il a établi de nouvelles références pour les modèles de 7 milliards de paramètres sur MT-Bench et AlpacaEval et a montré des performances compétitives contre des modèles plus grands, validant ainsi l’efficacité de l’optimisation de préférence directe (dDPO) dans la formation.

Les phases de formation SFT et DPO ont été soigneusement configurées, s’étalant sur plusieurs époques et des taux d’apprentissage et des tailles de lots pour une performance optimale. Le modèle Zephyr final est émergé non seulement résistant à la sur-ajustement mais également amélioré dans la gestion de tâches pratiques et de benchmarks académiques.

Données et résultats

Jeux de données utilisés

Dans le développement de Zephyr-7B, deux jeux de données clés ont été utilisés pour former et affiner le modèle, chacun abordant différents aspects de la génération de dialogue :

Jeu de données UltraChat

Source : Développé à partir de dialogues générés par GPT-3.5-TURBO.
Contenu : Contient 1,47 million de dialogues à plusieurs tours sur 30 sujets et 20 types de matériel textuel.
Affinement : Le jeu de données a subi une heuristique de truecasing pour corriger les problèmes grammaticaux, et des filtres ont été appliqués pour augmenter l’utilité des réponses et éliminer les phrases introductives non utiles.

Jeu de données UltraFeedback

Source : Comprend des invites évaluées par GPT-4, qui a noté les réponses en fonction du suivi des instructions, de l’honnêteté et de l’utilité.
Contenu : Inclut 64 000 invites avec quatre réponses chacune, notées par GPT-4.
Préférences binaires : Générées en choisissant la réponse avec la note moyenne la plus élevée comme “choisie” et une réponse moins bien notée choisie au hasard comme “rejetée” pour accroître la diversité et défier le processus d’optimisation de préférence directe (DPO).

Les deux jeux de données sont cruciaux pour former Zephyr-7B à comprendre et générer des dialogues humains qui sont conformes aux instructions, honnêtes et utiles. Ces jeux de données sont disponibles sur le Hub Hugging Face, que vous pouvez accéder ici.

Résultats et performances

Le graphique ci-dessous illustre les performances de Zephyr 7B à travers diverses catégories de tâches par rapport à d’autres modèles tels que GPT-3.5-turbo, Claude 1, GPT-4 et Llama-2-70b-chat. Les catégories peuvent inclure l’écriture, les sciences humaines, le jeu de rôle, le raisonnement, les STEM, l’extraction, la programmation et les mathématiques.

À partir du graphique, nous pouvons déduire dans quels domaines Zephyr 7B excelle et dans quels domaines il pourrait nécessiter une amélioration. Par exemple, si la ligne de Zephyr s’étend plus loin sur l’axe de l’écriture par rapport aux autres, cela suggère que Zephyr est particulièrement fort dans la génération de contenu écrit. Inversement, si la ligne est plus proche du centre sur l’axe des mathématiques, cela peut indiquer une relative faiblesse dans la résolution de problèmes mathématiques.

Le graphique radar aide à identifier les forces et les faiblesses de Zephyr 7B, fournissant une représentation visuelle de sa position par rapport à des modèles plus grands comme GPT-4 et à des modèles spécialisés comme Llama-2-70b-chat.

Graphique de performance du modèle

Comparaison de divers modèles de langage sur deux benchmarks : MT-Bench et AlpacaEval. Les modèles sont évalués en fonction de leur taille, de leur méthode d’alignement (telle que dSFT pour le fine-tuning supervisé distillé ou dDPO pour l’optimisation de préférence directe distillée) et de leurs scores de performance. Zephyr se distingue avec des scores élevés dans les deux benchmarks, indiquant son efficacité dans la génération de réponses alignées.

Résultats des benchmarks de chat

Conclusion

En conclusion, le développement de Zephyr-7B démontre que l’alignement et la distillation des capacités de conversation d’un grand modèle de langage (LLM) sur un modèle plus petit peuvent être réalisés sans recourir à des méthodes basées sur l’échantillonnage. En utilisant l’optimisation de préférence directe (DPO) avec des commentaires d’IA, Zephyr-7B tire parti de la solide fondation de Mistral-7B pour établir de nouvelles références pour les modèles de chat à 7 milliards de paramètres, mettant en évidence la capacité des modèles ouverts plus petits à comprendre et à répondre aux intentions des utilisateurs de manière efficace.

Cependant, cette étude n’est pas sans limites. La dépendance à l’égard de GPT-4 en tant qu’évaluateur pour les benchmarks introduit un biais en faveur des modèles qui sont distillés à partir de celui-ci, favorisant potentiellement les réponses précises. De plus, la scalabilité de cette méthode à des modèles plus grands, tels que LLAMA2-70B, et son impact sur les gains de performance restent des domaines à approfondir. Ces limites mettent en évidence le besoin de poursuivre l’innovation et de développer des méthodes d’évaluation non biaisées dans la communauté de l’IA.

En regardant au-delà de l’étude, il est évident que le potentiel pour les modèles plus petits à performer au niveau de leurs homologues plus grands peut démocratiser l’IA, permettant une utilisation plus accessible et efficace dans diverses applications. Le succès de Zephyr-7B encourage une exploration plus approfondie des modèles ouverts, qui peut accélérer les progrès de l’IA en favorisant la recherche collaborative et le développement.

Related Topics:GPT LLM Mistral 7B zephyr Zephyr-7B

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.