talon Zephyr-7B : le LLM hyper-optimisé de HuggingFace construit sur Mistral 7B - Unite.AI
Suivez nous sur

Intelligence artificielle

Zephyr-7B : le LLM hyper-optimisé de HuggingFace construit sur Mistral 7B

mm
Le kit de préparation mis à jour on
Zypher 7B

Introduction

L’évolution des grands modèles de langage ouverts (LLM) a eu un impact significatif sur la communauté de recherche en IA, notamment dans le développement de chatbots et d’applications similaires. Suite à la sortie de modèles comme LLaMA, il y a eu une recrudescence des recherches sur le réglage fin efficace, la gestion étendue des invites, la génération augmentée par récupération (RAG) et la quantification.

Le modèle LLaMA, par exemple, a marqué une nouvelle ère en termes de réglage fin et de contextualisation rapide, ouvrant la voie à des modèles ultérieurs tels que MPT de MosaicML, RedPajama-INCITE de Together AI, Falcon de TII et Llama 2 de Meta. Chacun de ces modèles apporte des capacités uniques. , améliorant la fonctionnalité globale et la portée des LLM.

Mistral AI, startup parisienne fondée par d'anciens salariés de Google DeepMind et Meta, s'est fait connaître avec sa première offre : Mistral 7B.

L'avantage de Mistral 7B réside dans son efficacité, offrant des capacités similaires ou améliorées par rapport à ses pairs comme Llama 2, mais avec moins de demandes de calcul.

Spécialement conçu pour les tâches pédagogiques, Mistral 7B Instruct brille sur des plateformes comme Hugging Face, où il surpasse les autres modèles de même taille et rivalise étroitement avec ceux ayant presque le double de ses paramètres.

S'appuyant sur cela, Hugging Face a introduit Zéphyr 7B Alpha, démontrant qu'un Mistral 7B affiné peut en effet surpasser les capacités de modèles de chat nettement plus grands et, dans certaines tâches, même rivaliser avec le GPT-4. L’« Alpha » n’était qu’un début. Zéphyr 7B La version bêta a suivi peu de temps après.

Cet article explorera comment Zephyr 7B exploite la puissance de modèles plus grands pour affiner sa capacité à répondre et à s'aligner sur les instructions humaines, un processus rendu possible grâce à la technique de distillation des connaissances. Cette méthode implique la formation de modèles plus petits sur les modèles complexes appris par des modèles plus grands, réduisant ainsi les exigences de formation sans sacrifier les capacités de modélisation du langage. Nous approfondirons les spécificités de l’approche de distillation des connaissances de Hugging Face.

Distillation des connaissances

Une innovation clé dans le développement de modèles comme Zéphyr-7B est un réglage fin supervisé distillé (dSFT). Cette méthode consiste à utiliser les résultats d'un modèle « enseignant » plus grand et plus performant pour former un modèle « élève » plus petit, améliorant ainsi sa précision. Bien que la distillation améliore les modèles ouverts sur diverses tâches, un écart de performance par rapport aux modèles enseignants existe toujours.

La distillation des connaissances est une méthode d'apprentissage automatique dans laquelle un modèle compact, appelé «étudiant", on apprend à reproduire la performance d'un "professeur" modèle. Cette technique permet à l'élève d'effectuer des tâches qui dépassaient auparavant ses capacités en transférant les modèles complexes appris par l'enseignant.

Distillation des connaissances, | Modèle enseignant-élève

Distillation des connaissances | Modèle enseignant-élève

Le modèle d'étudiant s'entraîne sur les probabilités de sortie ou les caractéristiques générées par le modèle d'enseignant, en se concentrant sur la correspondance de ces résultats plutôt que uniquement sur les prédictions finales. Cela permet à l'étudiant d'apprendre les processus décisionnels nuancés de l'enseignant, ce qui entraîne souvent une amélioration des performances par rapport à la formation avec uniquement les données de vérité sur le terrain.

Historiquement, la distillation des connaissances a été utilisée dans des modèles tels que les réseaux de distillation originaux de Hinton, et plus récemment dans la PNL avec des modèles tels que DistilBERT, qui a distillé le modèle BERT en une version plus petite et plus rapide qui conserve la plupart des capacités de compréhension linguistique de l'original. Un autre exemple est TinyBERT, qui va plus loin dans l'optimisation de la taille et de la vitesse des appareils mobiles ou Edge.

Dans le cas du Zephyr-7B, la distillation des connaissances est utilisée pour imprégner un modèle de paramètres 7B plus petit des capacités de ses homologues plus grands. Ce faisant, Zephyr-7B atteint un équilibre entre performances et efficacité, le rendant adapté aux environnements où les ressources informatiques sont limitées, sans sacrifier la qualité de l'interaction et de la compréhension.

En développant Zephyr-7B, les chercheurs ont relevé le défi consistant à aligner un petit LLM ouvert entièrement par distillation. Ils ont introduit une approche appelée optimisation directe des préférences distillées (dDPO), qui utilise les commentaires de l’IA provenant d’un ensemble de modèles d’enseignants comme données de préférence. Cette méthode, ne nécessitant aucune annotation humaine, réduit considérablement le temps et les ressources nécessaires à la formation du modèle.

Construction de ZEPHYR-7B

Pour valider le dDPO, les chercheurs ont construit ZEPHYR-7B, une version alignée du Modèle Mistral-7B. Le processus comportait trois étapes :

  1. dSFT utilisant l'ensemble de données UltraChat:Distillé Supervised Fine-Tuning (dSFT) est une méthode avancée pour former de grands modèles de langage (LLM) en tirant parti de la sortie de modèles « enseignants » plus grands et plus performants. Cela commence par un LLM brut qui est formé pour répondre aux invites des utilisateurs. Contrairement au réglage fin supervisé (SFT) traditionnel qui utilise un ensemble de données fixe, dSFT utilise une approche dynamique dans laquelle le modèle lui-même génère des instructions et des réponses. Cette méthode, connue sous le nom d'auto-instruction, consiste à utiliser le modèle de l'enseignant pour répondre et affiner les instructions en fonction des réponses. Le processus commence par un ensemble d'invites de départ (x₀₁, x₀₂, …, x₀_J) représentant divers sujets. Chaque invite est affinée de manière itérative : pour une invite x₀ donnée, une réponse y₀ est générée par le modèle d'enseignant, puis une nouvelle instruction x₁ est échantillonnée en fonction de x₀ et y₀. L'ensemble de données final C = {(x₁, y₁), …, (x_J, y_J)} est utilisé pour affiner le modèle.
  2. Intégration des données de retour d'IA d'UltraFeedback:Ces données ont été cruciales pour affiner les réponses du modèle. Au cours de cette étape, le modèle génère des réponses à diverses invites (comme décrire comment préparer des brownies au chocolat) qui sont ensuite classées par un modèle plus avancé tel que GPT-4. La réponse avec le score le plus élevé (yw) et une réponse avec le score le plus faible (yl) choisies au hasard forment un ensemble de données de rétroaction D.
  3. Application de dDPO:La dernière phase, Distilled Direct Preference Optimization (dDPO), consiste à affiner le modèle dSFT en maximisant la probabilité de classer les réponses préférées plus haut. Ceci est réalisé en utilisant une fonction de récompense rθ(x, y) dans le modèle de préférence, qui est basée sur la politique LLM optimale π* et la politique originale πdSFT. L’objectif d’optimisation est formulé comme πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), qui simplifie le processus de formation en commençant par la version dSFT du modèle et en parcourant chaque triple AIF.
La méthode utilisée dans Zephyr-7B reflète les processus utilisés dans InstructGPT.

La méthode utilisée dans Zephyr-7B reflète les processus utilisés dans InstructGPT.

Remarquablement, le Zephyr-7B atteint des performances comparables à celles de modèles beaucoup plus grands à paramètres 70B alignés sur la rétroaction humaine. Il excelle à la fois dans les critères académiques et dans les capacités conversationnelles, soulignant l’efficacité de l’apprentissage des préférences dans le développement de modèles. Pour une exploration plus approfondie, des modèles, du code et des instructions sont disponibles sur Dépôt GitHub de Hugging Face.

Relever le défi de l’alignement des intentions

Une préoccupation notable concernant les LLM est leur alignement avec l’intention humaine. Les modèles précédents ne parvenaient souvent pas à produire des réponses correspondant aux préférences des utilisateurs, ce qui conduisait à des réponses inexactes ou non pertinentes. Cependant, des benchmarks récents tels que MT-Bench et AlpacaEval ont fourni des outils pour quantifier et améliorer cet aspect, soulignant les performances supérieures des modèles propriétaires formés avec des commentaires humains par rapport à ceux formés uniquement par distillation.

Méthodes d'évaluation

L'évaluation de Zephyr 7B impliquait des tests rigoureux sur des benchmarks qui évaluent les capacités conversationnelles d'un modèle dans des contextes à un ou plusieurs tours :

  • Banc MT: Ce benchmark à plusieurs tours nécessite un modèle pour répondre à 160 questions couvrant huit domaines. Chaque réponse est notée par GPT-4, le score final du modèle reflétant la moyenne sur deux séries de questions.
  • AlpagaEval: Dans ce benchmark à un tour, le modèle est présenté avec 805 questions sur divers sujets. L'accent est mis ici sur l'utilité du modèle, GPT-4 notant les réponses pour déterminer un taux de victoire comparatif.

De plus, Zephyr 7B a été testé sur l'Open LLM Leaderboard, qui, bien qu'il ne s'agisse pas d'une évaluation directe des compétences conversationnelles, offre un aperçu du raisonnement et de la véracité du modèle après un réglage précis.

Le Zephyr 7B a été comparé à une variété de modèles ouverts et propriétaires, y compris ceux de différentes tailles et méthodes d'alignement. Il a établi de nouvelles références pour les modèles 7B sur MT-Bench et AlpacaEval et a montré des performances compétitives par rapport à des modèles plus grands, validant l'efficacité de l'optimisation des préférences directes (dDPO) dans la formation.

Les phases de formation SFT et DPO ont été méticuleusement configurées, s'étendant sur plusieurs époques et affinant les taux d'apprentissage et la taille des lots pour des performances optimales. Le modèle Zephyr final est apparu non seulement résistant au surapprentissage, mais également amélioré dans la gestion des tâches pratiques et des références académiques.

Ensembles de données et résultats

Ensembles de données utilisés

Lors du développement de Zephyr-7B, deux ensembles de données clés ont été utilisés pour entraîner et affiner le modèle, chacun abordant différents aspects de la génération de dialogue :

Ensemble de données UltraChat

  • Identifier: Développé à partir de dialogues générés par GPT-3.5-TURBO.
  • Table des matières: Contient 1.47 million de dialogues à plusieurs tours sur 30 sujets et 20 types de texte.
  • Raffinement: L'ensemble de données a été soumis à une heuristique de simulation pour corriger les problèmes grammaticaux, et des filtres ont été appliqués pour augmenter l'utilité des réponses et éliminer les phrases de préface inutiles.

Ensemble de données UltraFeedback

  • Identifier : comprend les invites évaluées par GPT-4, qui ont évalué les réponses en fonction du respect des instructions, de l'honnêteté et de l'utilité.
  • Table des matières: Comprend 64,000 4 invites avec quatre réponses chacune, notées par GPT-XNUMX.
  • Préférences binaires: Généré en choisissant la réponse avec le score moyen le plus élevé comme « choisi » et une réponse aléatoire parmi les autres comme « rejetée » pour améliorer la diversité et remettre en question le processus d'optimisation des préférences directes (DPO).

Les deux ensembles de données sont cruciaux pour entraîner Zephyr-7B à comprendre et à générer un dialogue de type humain, qui suit les instructions, honnête et utile. Ces ensembles de données ont été mis à disposition sur le Hugging Face Hub, auquel vous pouvez accéder ici.

Performances et résultats

Le graphique ci-dessous illustre les performances du Zephyr 7B dans diverses catégories de tâches par rapport à d'autres modèles tels que GPT-3.5-turbo, Claude 1, GPT-4 et Llama-2-70b-chat. Les catégories peuvent inclure l'écriture, les sciences humaines, le jeu de rôle, le raisonnement, les STEM, l'extraction, le codage et les mathématiques.

À partir du graphique, nous pouvons déduire dans quels domaines le Zephyr 7B excelle et quels domaines pourraient nécessiter des améliorations supplémentaires. Par exemple, si la ligne de Zephyr s'étend plus loin sur l'axe Écriture par rapport aux autres, cela suggère que Zephyr est particulièrement performant dans la génération de contenu écrit. À l’inverse, si la ligne est plus proche du centre de l’axe mathématique, cela peut indiquer une relative faiblesse dans la résolution de problèmes mathématiques.

Le graphique radar aide à identifier les forces et les faiblesses du Zephyr 7B, fournissant une représentation visuelle de sa position par rapport à des modèles plus grands comme le GPT-4 et des modèles spécialisés comme le Llama-2-70b-chat.

 

Graphique radar des performances du modèle

Graphique radar des performances du modèle

Comparaison de différents modèles de langage sur deux benchmarks : MT-Bench et AlpacaEval. Les modèles sont évalués en fonction de leur taille, de leur méthode d'alignement (telle que dSFT pour le réglage fin supervisé distillé ou dDPO pour l'optimisation des préférences directes distillées) et de leurs scores de performances. Zephyr se distingue par des scores élevés dans les deux critères, indiquant son efficacité à générer des réponses alignées.

MT-Bench et AlpacaEval

MT-Bench et AlpacaEval

Conclusion

En conclusion, le développement de Zephyr-7B démontre que l'alignement et la distillation des capacités conversationnelles d'un grand modèle de langage (LLM) vers un modèle plus petit peuvent être réalisés sans recourir à des méthodes basées sur l'échantillonnage. En utilisant l'optimisation directe des préférences (DPO) avec le retour de l'IA, Zephyr-7B s'appuie sur les bases solides de Mistral-7B pour établir une nouvelle référence pour les modèles de discussion avec paramètres 7B, démontrant la capacité de modèles open source plus petits à comprendre et à répondre aux utilisateurs. intention efficacement.

Cependant, cette étude n’est pas sans limites. Le recours à GPT-4 en tant qu'évaluateur de références introduit un biais en faveur des modèles qui en sont extraits, favorisant potentiellement des réponses plus précises. De plus, l’évolutivité de cette méthode vers des modèles plus grands, tels que le LLAMA2-70B, et son impact sur les gains de performances restent des domaines nécessitant des recherches plus approfondies. Ces limites mettent en évidence la nécessité d’une innovation continue et du développement de méthodes d’évaluation impartiales dans la communauté de l’IA.

Au-delà de l'étude, il est évident que le potentiel des modèles plus petits à fonctionner au niveau de leurs homologues plus grands peut démocratiser l'IA, permettant une utilisation plus accessible et plus efficace dans diverses applications. Le succès de Zephyr-7B encourage une exploration plus approfondie des modèles open source, qui peuvent accélérer les progrès de l'IA en favorisant la recherche et le développement collaboratifs.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.