Suivez nous sur

Ă€ l'intĂ©rieur de DBRX : Databricks lance un puissant LLM Open Source

Intelligence Artificielle

Ă€ l'intĂ©rieur de DBRX : Databricks lance un puissant LLM Open Source

mm
DBRX : un nouveau LLM ouvert de pointe

Dans le domaine en évolution rapide des grands modèles de langage (LLM), un nouveau modèle puissant a émergé : DBRX, un modèle open source créé par DatabricksCe LLM fait des vagues avec ses performances de pointe sur un large éventail de benchmarks, rivalisant même avec les capacités de géants de l'industrie comme GPT-4 d'OpenAI.

DBRX reprĂ©sente une Ă©tape importante dans la dĂ©mocratisation de l'intelligence artificielle, offrant aux chercheurs, aux dĂ©veloppeurs et aux entreprises un accès libre Ă  un modèle de langage de pointe. Mais qu'est-ce que DBRX exactement et qu'est-ce qui le rend si spĂ©cial ? Dans cette analyse technique approfondie, nous explorerons l'architecture innovante, le processus de formation et les fonctionnalitĂ©s clĂ©s qui ont propulsĂ© DBRX au premier plan du paysage des LLM ouverts.

La naissance de DBRX La crĂ©ation de DBRX est nĂ©e de la mission de Databricks : rendre l’intelligence des donnĂ©es accessible Ă  toutes les entreprises. Leader des plateformes d’analyse de donnĂ©es, Databricks a reconnu l’immense potentiel des LLM et s’est attachĂ© Ă  dĂ©velopper un modèle capable d’égaler, voire de surpasser, les performances des offres propriĂ©taires.

Après des mois de recherche et de développement intensifs et un investissement de plusieurs millions de dollars, l'équipe Databricks a réalisé une percée avec DBRX. Les performances impressionnantes du modèle sur un large éventail de critères, notamment la compréhension du langage, la programmation et les mathématiques, l'ont clairement établi comme une référence en matière de LLM ouverts.

Architecture innovante

La puissance du mĂ©lange d'experts : Au cĹ“ur des performances exceptionnelles de DBRX se trouve son architecture innovante de mĂ©lange d'experts (MoE). Cette conception de pointe s'Ă©loigne des modèles denses traditionnels, adoptant une approche parcimonieuse qui amĂ©liore Ă  la fois l'efficacitĂ© du prĂ©-entraĂ®nement et la vitesse d'infĂ©rence.

Dans le cadre du MoE, seul un groupe sélectionné de composants, appelés « experts », est activé pour chaque entrée. Cette spécialisation permet au modèle d'aborder un plus large éventail de tâches avec une plus grande habileté, tout en optimisant les ressources informatiques.

DBRX pousse ce concept encore plus loin grâce à son architecture MoE à granularité fine. Contrairement à d'autres modèles MoE qui utilisent un nombre réduit d'experts de plus grande taille, DBRX emploie 16 experts, dont quatre actifs pour chaque entrée. Cette conception offre 65 fois plus de combinaisons d'experts possibles, contribuant directement aux performances supérieures de DBRX.

DBRX se différencie par plusieurs fonctionnalités innovantes :

  • Encodages de position rotatifs (RoPE) : AmĂ©liore la comprĂ©hension des positions des jetons, cruciale pour gĂ©nĂ©rer un texte contextuellement prĂ©cis.
  • UnitĂ©s linĂ©aires fermĂ©es (GLU) : Introduit un mĂ©canisme de contrĂ´le qui amĂ©liore la capacitĂ© du modèle Ă  apprendre des modèles complexes plus efficacement.
  • Attention aux requĂŞtes groupĂ©es (GQA) : AmĂ©liore l'efficacitĂ© du modèle en optimisant le mĂ©canisme d'attention.
  • Tokenisation avancĂ©e : Utilise le tokeniseur de GPT-4 pour traiter les entrĂ©es plus efficacement.

L'architecture MoE est particulièrement adaptée aux modèles de langage à grande échelle, car elle permet une mise à l'échelle plus efficace et une meilleure utilisation des ressources informatiques. En répartissant le processus d'apprentissage sur plusieurs sous-réseaux spécialisés, DBRX peut allouer efficacement les données et la puissance de calcul à chaque tâche, garantissant à la fois une sortie de haute qualité et une efficacité optimale.

Données de formation étendues et optimisation efficace Bien que l'architecture de DBRX soit sans aucun doute impressionnante, sa véritable puissance réside dans le processus de formation méticuleux et la grande quantité de données auxquelles il a été exposé. DBRX a été pré-entraîné sur un nombre impressionnant de 12 XNUMX milliards de jetons de données de texte et de code, soigneusement organisés pour garantir une qualité et une diversité élevées.

Les données d'entraînement ont été traitées à l'aide de la suite d'outils Databricks, notamment Apache Spark pour le traitement des données, Unity Catalog pour la gestion et la gouvernance des données, et MLflow pour le suivi des expériences. Cet ensemble complet d'outils a permis à l'équipe Databricks de gérer, d'explorer et d'affiner efficacement cet ensemble de données volumineux, posant ainsi les bases des performances exceptionnelles de DBRX.

Pour améliorer encore les capacités du modèle, Databricks a utilisé un programme de pré-entraînement dynamique, en variant de manière innovante la composition des données pendant l'entraînement. Cette stratégie a permis de traiter efficacement chaque jeton à l'aide des 36 milliards de paramètres actifs, créant ainsi un modèle plus complet et adaptable.

De plus, le processus de formation de DBRX a été optimisé pour plus d'efficacité, grâce à la suite d'outils et de bibliothèques propriétaires de Databricks, notamment Composer, LLM Foundry, MegaBlocks et Streaming. Grâce à des techniques telles que l'apprentissage par programme et des stratégies d'optimisation optimisées, l'équipe a presque quadruplé l'efficacité de calcul par rapport à ses modèles précédents.

Formation et Architecture

DBRX a été formé à l'aide d'un modèle de prédiction du prochain jeton sur un ensemble de données colossal de 12 XNUMX milliards de jetons, mettant l'accent à la fois sur le texte et le code. Cet ensemble de formation est considéré comme nettement plus efficace que ceux utilisés dans les modèles précédents, garantissant une compréhension riche et une capacité de réponse à des invites variées.

L'architecture de DBRX témoigne non seulement des prouesses techniques de Databricks, mais met également en évidence son application dans de nombreux secteurs. De l'amélioration des interactions avec les chatbots à la réalisation de tâches d'analyse de données complexes, DBRX s'intègre à divers domaines nécessitant une compréhension linguistique nuancée.

Il est remarquable que DBRX Instruct rivalise même avec certains des modèles fermés les plus avancés du marché. Selon les mesures de Databricks, il surpasse GPT-3.5 et rivalise avec Gemini 1.0 Pro et Mistral Medium dans divers tests, notamment en culture générale, raisonnement de bon sens, programmation et raisonnement mathématique.

Par exemple, lors du benchmark MMLU, qui mesure la compréhension du langage, DBRX Instruct a obtenu un score de 73.7 %, surpassant le score de 3.5 % de GPT-70.0. Lors du benchmark de raisonnement de bon sens HellaSwag, DBRX Instruct a obtenu un score impressionnant de 89.0 %, surpassant les 3.5 % de GPT-85.5.

DBRX Instruct brille vraiment, atteignant une précision remarquable de 70.1 % sur le benchmark HumanEval, surpassant non seulement GPT-3.5 (48.1 %) mais également le modèle spécialisé CodeLLaMA-70B Instruct (67.8 %).

Ces résultats exceptionnels mettent en évidence la polyvalence de DBRX et sa capacité à exceller dans un large éventail de tâches, de la compréhension du langage naturel à la programmation complexe et à la résolution de problèmes mathématiques.

Inférence efficace et évolutivité L'un des principaux avantages de l'architecture MoE de DBRX est son efficacité lors de l'inférence. Grâce à l'activation parcimonieuse des paramètres, DBRX peut atteindre un débit d'inférence jusqu'à deux à trois fois plus rapide que les modèles denses avec le même nombre total de paramètres.

Comparé à LLaMA2-70B, un LLM open source populaire, DBRX démontre non seulement une qualité supérieure, mais offre également une vitesse d'inférence presque deux fois supérieure, bien qu'il ait environ deux fois moins de paramètres actifs. Cette efficacité fait de DBRX un choix attrayant pour le déploiement dans une large gamme d'applications, de la création de contenu à l'analyse de données et au-delà.

De plus, Databricks a développé une pile de formation robuste qui permet aux entreprises de former leurs propres modèles de classe DBRX à partir de zéro ou de poursuivre la formation en plus des points de contrôle fournis. Cette capacité permet aux entreprises d'exploiter tout le potentiel de DBRX et de l'adapter à leurs besoins spécifiques, démocratisant ainsi davantage l'accès à la technologie LLM de pointe.

Le dĂ©veloppement du modèle DBRX par Databricks marque une avancĂ©e significative dans le domaine de l'apprentissage automatique, notamment grâce Ă  l'utilisation d'outils innovants issus de la communautĂ© open source. Ce dĂ©veloppement est fortement influencĂ© par deux technologies clĂ©s : la bibliothèque MegaBlocks et le système Fully Sharded Data Parallel (FSDP) de PyTorch.

MegaBlocks : amĂ©liorer l'efficacitĂ© du ministère de l'Environnement

Quand vous vous déconnectez, votre profil Mégablocs La bibliothèque répond aux défis associés au routage dynamique dans les couches de mélange d'experts (MoE), un obstacle courant dans la mise à l'échelle des réseaux de neurones. Les cadres traditionnels imposent souvent des limitations qui réduisent l'efficacité du modèle ou compromettent sa qualité. MegaBlocks, cependant, redéfinit le calcul du MoE grâce à des opérations de répartition de blocs qui gèrent habilement le dynamisme intrinsèque au sein des MoE, évitant ainsi ces compromis.

Cette approche prĂ©serve non seulement l'intĂ©gritĂ© des jetons, mais s'aligne Ă©galement bien avec les capacitĂ©s GPU modernes, facilitant des temps de formation jusqu'Ă  40 % plus rapides par rapport aux mĂ©thodes traditionnelles. Une telle efficacitĂ© est cruciale pour la formation de modèles tels que DBRX, qui s'appuient fortement sur des architectures MoE avancĂ©es pour gĂ©rer efficacement leurs nombreux ensembles de paramètres.

PyTorch FSDP : mise Ă  l'Ă©chelle de grands modèles

Parallèle de données entièrement partagées de PyTorch (FSDP) présente une solution robuste pour former des modèles exceptionnellement volumineux en optimisant le partage et la distribution des paramètres sur plusieurs appareils informatiques. Co-conçu avec des composants clés de PyTorch, FSDP s'intègre de manière transparente, offrant une expérience utilisateur intuitive semblable aux configurations de formation locales mais à une échelle beaucoup plus grande.

La conception du FSDP rĂ©pond intelligemment Ă  plusieurs problèmes critiques :

  • ExpĂ©rience utilisateur: Il simplifie l'interface utilisateur, malgrĂ© les processus back-end complexes, la rendant plus accessible pour une utilisation plus large.
  • HĂ©tĂ©rogĂ©nĂ©itĂ© matĂ©rielle: Il s'adapte Ă  des environnements matĂ©riels variĂ©s pour optimiser efficacement l'utilisation des ressources.
  • Utilisation des ressources et planification de la mĂ©moire: FSDP amĂ©liore l'utilisation des ressources de calcul tout en minimisant les surcharges de mĂ©moire, ce qui est essentiel pour la formation des modèles fonctionnant Ă  l'Ă©chelle de DBRX.

FSDP prend non seulement en charge des modèles plus volumineux que ceux auparavant possibles avec le framework Distributed Data Parallel, mais maintient également une évolutivité quasi linéaire en termes de débit et d'efficacité. Cette fonctionnalité s'est avérée essentielle pour DBRX de Databricks, lui permettant d'évoluer sur plusieurs GPU tout en gérant efficacement ses nombreux paramètres.

Accessibilité et intégrations

Conformément à sa mission de promotion du libre accès à l'IA, Databricks a rendu DBRX disponible sur plusieurs canaux. Les poids du modèle de base (DBRX Base) et du modèle affiné (DBRX Instruct) sont hébergés sur la populaire plateforme Hugging Face, permettant aux chercheurs et aux développeurs de télécharger et de travailler facilement avec le modèle.

En outre, le Référentiel de modèles DBRX est disponible sur GitHub, offrant une transparence et permettant une exploration et une personnalisation plus poussées du code du modèle.

débit d'inférence pour diverses configurations de modèles sur notre infrastructure de service optimisée à l'aide de NVIDIA TensorRT-LLM avec une précision de 16 bits avec les meilleurs indicateurs d'optimisation que nous avons pu trouver.

Pour les clients Databricks, DBRX Base et DBRX Instruct sont facilement accessibles via les API Databricks Foundation Model, permettant une intégration transparente dans les flux de travail et les applications existants. Cela simplifie non seulement le processus de déploiement, mais garantit également la gouvernance et la sécurité des données pour les cas d'utilisation sensibles.

De plus, DBRX a déjà été intégré à plusieurs plateformes et services tiers, tels que You.com et Perplexity Labs, élargissant ainsi sa portée et ses applications potentielles. Ces intégrations démontrent l'intérêt croissant pour DBRX et ses capacités, ainsi que l'adoption croissante de LLM ouverts dans divers secteurs et cas d'utilisation.

CapacitĂ©s de contexte long et gĂ©nĂ©ration augmentĂ©e de rĂ©cupĂ©ration L'une des caractĂ©ristiques les plus remarquables de DBRX est sa capacitĂ© Ă  gĂ©rer les entrĂ©es Ă  contexte long, avec une longueur de contexte maximale de 32,768 XNUMX jetons. Cette capacitĂ© permet au modèle de traiter et de gĂ©nĂ©rer du texte basĂ© sur des informations contextuelles Ă©tendues, ce qui le rend bien adaptĂ© aux tâches telles que la synthèse de documents, la rĂ©ponse Ă  des questions et la rĂ©cupĂ©ration d'informations.

Dans les benchmarks évaluant les performances dans un contexte long, tels que KV-Pairs et HotpotQAXL, DBRX Instruct a surpassé GPT-3.5 Turbo sur différentes longueurs de séquence et positions contextuelles.

DBRX surpasse les modèles open source établis en matière de compréhension du langage (MMLU), de programmation (HumanEval) et de mathématiques (GSM8K).

DBRX surpasse les modèles open source établis en matière de compréhension du langage (MMLU), de programmation (HumanEval) et de mathématiques (GSM8K).

Limites et travaux futurs

Bien que DBRX représente une réalisation significative dans le domaine des LLM ouverts, il est essentiel de reconnaître ses limites et ses domaines d'amélioration future. Comme tout modèle d’IA, DBRX peut produire des réponses inexactes ou biaisées, en fonction de la qualité et de la diversité de ses données d’entraînement.

De plus, bien que DBRX excelle dans les tâches générales, certaines applications spécifiques à un domaine peuvent nécessiter des ajustements supplémentaires ou une formation spécialisée pour atteindre des performances optimales. Par exemple, dans les scénarios où la précision et la fidélité sont primordiales, Databricks recommande d'utiliser des techniques de génération augmentée de récupération (RAG) pour améliorer la sortie du modèle.

De plus, l'ensemble de données d'entraînement actuel de DBRX est principalement composé de contenu en anglais, ce qui limite potentiellement ses performances sur les tâches non anglophones. Les futures itérations du modèle pourraient impliquer d'étendre les données d'entraînement afin d'inclure un éventail plus large de langues et de contextes culturels.

Databricks s'engage à améliorer continuellement les capacités de DBRX et à remédier à ses limites. Les travaux futurs porteront sur l'amélioration des performances, de l'évolutivité et de la convivialité du modèle dans diverses applications et cas d'usage, ainsi que sur l'exploration de techniques permettant d'atténuer les biais potentiels et de promouvoir une utilisation éthique de l'IA.

En outre, l'entreprise prévoit d'affiner davantage le processus de formation, en tirant parti de techniques avancées telles que l'apprentissage fédéré et les méthodes de préservation de la confidentialité pour garantir la confidentialité et la sécurité des données.

La route Ă  suivre

DBRX représente une avancée significative dans la démocratisation du développement de l’IA. Il envisage un avenir où chaque entreprise aura la capacité de contrôler ses données et son destin dans le monde émergent de l’IA générative.

En open source DBRX et en donnant accès aux mêmes outils et infrastructures utilisés pour le créer, Databricks permet aux entreprises et aux chercheurs de développer leurs propres Databricks de pointe adaptés à leurs besoins spécifiques.

Grâce à la plateforme Databricks, les clients peuvent exploiter la suite d'outils de traitement de données de l'entreprise, notamment Apache Spark, Unity Catalog et MLflow, pour organiser et gérer leurs données d'entraînement. Ils peuvent ensuite utiliser les bibliothèques d'entraînement optimisées de Databricks, telles que Composer, LLM Foundry, MegaBlocks et Streaming, pour entraîner leurs propres modèles de classe DBRX de manière efficace et à grande échelle.

Cette démocratisation du développement de l'IA a le potentiel de débloquer une nouvelle vague d'innovation, à mesure que les entreprises acquièrent la capacité d'exploiter la puissance de grands modèles de langage pour un large éventail d'applications, de la création de contenu et de l'analyse de données à l'aide à la décision et au-delà.

De plus, en favorisant un écosystème ouvert et collaboratif autour de DBRX, Databricks vise à accélérer le rythme de la recherche et du développement dans le domaine des grands modèles de langage. À mesure que de plus en plus d’organisations et d’individus apportent leur expertise et leurs connaissances, la connaissance et la compréhension collectives de ces puissants systèmes d’IA continueront de croître, ouvrant la voie à des modèles encore plus avancés et performants à l’avenir.

Conclusion

DBRX change la donne dans le monde des grands modèles de langage open source. Avec son architecture innovante composée d'experts, ses données de formation étendues et ses performances de pointe, il a établi une nouvelle référence pour ce qui est possible avec les LLM ouverts.

En démocratisant l'accès à une technologie d'IA de pointe, DBRX permet aux chercheurs, aux développeurs et aux entreprises d'explorer de nouvelles frontières en matière de traitement du langage naturel, de création de contenu, d'analyse de données et au-delà. Alors que Databricks continue d’affiner et d’améliorer DBRX, les applications potentielles et l’impact de ce modèle puissant sont véritablement illimités.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.