Dans le domaine en évolution rapide des grands modèles de langage (LLM), un nouveau modèle puissant a émergé : DBRX, un modèle open source créé par DatabricksCe LLM fait des vagues avec ses performances de pointe sur un large éventail de benchmarks, rivalisant même avec les capacités de géants de l'industrie comme GPT-4 d'OpenAI.
DBRX représente une étape importante dans la démocratisation de l'intelligence artificielle, offrant aux chercheurs, aux développeurs et aux entreprises un accès libre à un modèle de langage de pointe. Mais qu'est-ce que DBRX exactement et qu'est-ce qui le rend si spécial ? Dans cette analyse technique approfondie, nous explorerons l'architecture innovante, le processus de formation et les fonctionnalités clés qui ont propulsé DBRX au premier plan du paysage des LLM ouverts.
La naissance de DBRX La création de DBRX est née de la mission de Databricks : rendre l’intelligence des données accessible à toutes les entreprises. Leader des plateformes d’analyse de données, Databricks a reconnu l’immense potentiel des LLM et s’est attaché à développer un modèle capable d’égaler, voire de surpasser, les performances des offres propriétaires.
Après des mois de recherche et de développement intensifs et un investissement de plusieurs millions de dollars, l'équipe Databricks a réalisé une percée avec DBRX. Les performances impressionnantes du modèle sur un large éventail de critères, notamment la compréhension du langage, la programmation et les mathématiques, l'ont clairement établi comme une référence en matière de LLM ouverts.
Architecture innovante
La puissance du mélange d'experts : Au cœur des performances exceptionnelles de DBRX se trouve son architecture innovante de mélange d'experts (MoE). Cette conception de pointe s'éloigne des modèles denses traditionnels, adoptant une approche parcimonieuse qui améliore à la fois l'efficacité du pré-entraînement et la vitesse d'inférence.
Dans le cadre du MoE, seul un groupe sélectionné de composants, appelés « experts », est activé pour chaque entrée. Cette spécialisation permet au modèle d'aborder un plus large éventail de tâches avec une plus grande habileté, tout en optimisant les ressources informatiques.
DBRX pousse ce concept encore plus loin grâce à son architecture MoE à granularité fine. Contrairement à d'autres modèles MoE qui utilisent un nombre réduit d'experts de plus grande taille, DBRX emploie 16 experts, dont quatre actifs pour chaque entrée. Cette conception offre 65 fois plus de combinaisons d'experts possibles, contribuant directement aux performances supérieures de DBRX.
DBRX se différencie par plusieurs fonctionnalités innovantes :
- Encodages de position rotatifs (RoPE) : Améliore la compréhension des positions des jetons, cruciale pour générer un texte contextuellement précis.
- Unités linéaires fermées (GLU) : Introduit un mécanisme de contrôle qui améliore la capacité du modèle à apprendre des modèles complexes plus efficacement.
- Attention aux requêtes groupées (GQA) : Améliore l'efficacité du modèle en optimisant le mécanisme d'attention.
- Tokenisation avancée : Utilise le tokeniseur de GPT-4 pour traiter les entrées plus efficacement.
L'architecture MoE est particulièrement adaptée aux modèles de langage à grande échelle, car elle permet une mise à l'échelle plus efficace et une meilleure utilisation des ressources informatiques. En répartissant le processus d'apprentissage sur plusieurs sous-réseaux spécialisés, DBRX peut allouer efficacement les données et la puissance de calcul à chaque tâche, garantissant à la fois une sortie de haute qualité et une efficacité optimale.
Données de formation étendues et optimisation efficace Bien que l'architecture de DBRX soit sans aucun doute impressionnante, sa véritable puissance réside dans le processus de formation méticuleux et la grande quantité de données auxquelles il a été exposé. DBRX a été pré-entraîné sur un nombre impressionnant de 12 XNUMX milliards de jetons de données de texte et de code, soigneusement organisés pour garantir une qualité et une diversité élevées.
Les données d'entraînement ont été traitées à l'aide de la suite d'outils Databricks, notamment Apache Spark pour le traitement des données, Unity Catalog pour la gestion et la gouvernance des données, et MLflow pour le suivi des expériences. Cet ensemble complet d'outils a permis à l'équipe Databricks de gérer, d'explorer et d'affiner efficacement cet ensemble de données volumineux, posant ainsi les bases des performances exceptionnelles de DBRX.
Pour améliorer encore les capacités du modèle, Databricks a utilisé un programme de pré-entraînement dynamique, en variant de manière innovante la composition des données pendant l'entraînement. Cette stratégie a permis de traiter efficacement chaque jeton à l'aide des 36 milliards de paramètres actifs, créant ainsi un modèle plus complet et adaptable.
De plus, le processus de formation de DBRX a été optimisé pour plus d'efficacité, grâce à la suite d'outils et de bibliothèques propriétaires de Databricks, notamment Composer, LLM Foundry, MegaBlocks et Streaming. Grâce à des techniques telles que l'apprentissage par programme et des stratégies d'optimisation optimisées, l'équipe a presque quadruplé l'efficacité de calcul par rapport à ses modèles précédents.
Formation et Architecture
DBRX a été formé à l'aide d'un modèle de prédiction du prochain jeton sur un ensemble de données colossal de 12 XNUMX milliards de jetons, mettant l'accent à la fois sur le texte et le code. Cet ensemble de formation est considéré comme nettement plus efficace que ceux utilisés dans les modèles précédents, garantissant une compréhension riche et une capacité de réponse à des invites variées.
L'architecture de DBRX témoigne non seulement des prouesses techniques de Databricks, mais met également en évidence son application dans de nombreux secteurs. De l'amélioration des interactions avec les chatbots à la réalisation de tâches d'analyse de données complexes, DBRX s'intègre à divers domaines nécessitant une compréhension linguistique nuancée.
Il est remarquable que DBRX Instruct rivalise même avec certains des modèles fermés les plus avancés du marché. Selon les mesures de Databricks, il surpasse GPT-3.5 et rivalise avec Gemini 1.0 Pro et Mistral Medium dans divers tests, notamment en culture générale, raisonnement de bon sens, programmation et raisonnement mathématique.
Par exemple, lors du benchmark MMLU, qui mesure la compréhension du langage, DBRX Instruct a obtenu un score de 73.7 %, surpassant le score de 3.5 % de GPT-70.0. Lors du benchmark de raisonnement de bon sens HellaSwag, DBRX Instruct a obtenu un score impressionnant de 89.0 %, surpassant les 3.5 % de GPT-85.5.
DBRX Instruct brille vraiment, atteignant une précision remarquable de 70.1 % sur le benchmark HumanEval, surpassant non seulement GPT-3.5 (48.1 %) mais également le modèle spécialisé CodeLLaMA-70B Instruct (67.8 %).
Ces résultats exceptionnels mettent en évidence la polyvalence de DBRX et sa capacité à exceller dans un large éventail de tâches, de la compréhension du langage naturel à la programmation complexe et à la résolution de problèmes mathématiques.
Inférence efficace et évolutivité L'un des principaux avantages de l'architecture MoE de DBRX est son efficacité lors de l'inférence. Grâce à l'activation parcimonieuse des paramètres, DBRX peut atteindre un débit d'inférence jusqu'à deux à trois fois plus rapide que les modèles denses avec le même nombre total de paramètres.
Comparé à LLaMA2-70B, un LLM open source populaire, DBRX démontre non seulement une qualité supérieure, mais offre également une vitesse d'inférence presque deux fois supérieure, bien qu'il ait environ deux fois moins de paramètres actifs. Cette efficacité fait de DBRX un choix attrayant pour le déploiement dans une large gamme d'applications, de la création de contenu à l'analyse de données et au-delà .
De plus, Databricks a développé une pile de formation robuste qui permet aux entreprises de former leurs propres modèles de classe DBRX à partir de zéro ou de poursuivre la formation en plus des points de contrôle fournis. Cette capacité permet aux entreprises d'exploiter tout le potentiel de DBRX et de l'adapter à leurs besoins spécifiques, démocratisant ainsi davantage l'accès à la technologie LLM de pointe.
Le développement du modèle DBRX par Databricks marque une avancée significative dans le domaine de l'apprentissage automatique, notamment grâce à l'utilisation d'outils innovants issus de la communauté open source. Ce développement est fortement influencé par deux technologies clés : la bibliothèque MegaBlocks et le système Fully Sharded Data Parallel (FSDP) de PyTorch.
MegaBlocks : améliorer l'efficacité du ministère de l'Environnement
Quand vous vous déconnectez, votre profil Mégablocs La bibliothèque répond aux défis associés au routage dynamique dans les couches de mélange d'experts (MoE), un obstacle courant dans la mise à l'échelle des réseaux de neurones. Les cadres traditionnels imposent souvent des limitations qui réduisent l'efficacité du modèle ou compromettent sa qualité. MegaBlocks, cependant, redéfinit le calcul du MoE grâce à des opérations de répartition de blocs qui gèrent habilement le dynamisme intrinsèque au sein des MoE, évitant ainsi ces compromis.
Cette approche préserve non seulement l'intégrité des jetons, mais s'aligne également bien avec les capacités GPU modernes, facilitant des temps de formation jusqu'à 40 % plus rapides par rapport aux méthodes traditionnelles. Une telle efficacité est cruciale pour la formation de modèles tels que DBRX, qui s'appuient fortement sur des architectures MoE avancées pour gérer efficacement leurs nombreux ensembles de paramètres.
PyTorch FSDP : mise à l'échelle de grands modèles
Parallèle de données entièrement partagées de PyTorch (FSDP) présente une solution robuste pour former des modèles exceptionnellement volumineux en optimisant le partage et la distribution des paramètres sur plusieurs appareils informatiques. Co-conçu avec des composants clés de PyTorch, FSDP s'intègre de manière transparente, offrant une expérience utilisateur intuitive semblable aux configurations de formation locales mais à une échelle beaucoup plus grande.
La conception du FSDP répond intelligemment à plusieurs problèmes critiques :
- Expérience utilisateur: Il simplifie l'interface utilisateur, malgré les processus back-end complexes, la rendant plus accessible pour une utilisation plus large.
- Hétérogénéité matérielle: Il s'adapte à des environnements matériels variés pour optimiser efficacement l'utilisation des ressources.
- Utilisation des ressources et planification de la mémoire: FSDP améliore l'utilisation des ressources de calcul tout en minimisant les surcharges de mémoire, ce qui est essentiel pour la formation des modèles fonctionnant à l'échelle de DBRX.
FSDP prend non seulement en charge des modèles plus volumineux que ceux auparavant possibles avec le framework Distributed Data Parallel, mais maintient également une évolutivité quasi linéaire en termes de débit et d'efficacité. Cette fonctionnalité s'est avérée essentielle pour DBRX de Databricks, lui permettant d'évoluer sur plusieurs GPU tout en gérant efficacement ses nombreux paramètres.
Accessibilité et intégrations
Conformément à sa mission de promotion du libre accès à l'IA, Databricks a rendu DBRX disponible sur plusieurs canaux. Les poids du modèle de base (DBRX Base) et du modèle affiné (DBRX Instruct) sont hébergés sur la populaire plateforme Hugging Face, permettant aux chercheurs et aux développeurs de télécharger et de travailler facilement avec le modèle.
En outre, le Référentiel de modèles DBRX est disponible sur GitHub, offrant une transparence et permettant une exploration et une personnalisation plus poussées du code du modèle.

Pour les clients Databricks, DBRX Base et DBRX Instruct sont facilement accessibles via les API Databricks Foundation Model, permettant une intégration transparente dans les flux de travail et les applications existants. Cela simplifie non seulement le processus de déploiement, mais garantit également la gouvernance et la sécurité des données pour les cas d'utilisation sensibles.
De plus, DBRX a déjà été intégré à plusieurs plateformes et services tiers, tels que You.com et Perplexity Labs, élargissant ainsi sa portée et ses applications potentielles. Ces intégrations démontrent l'intérêt croissant pour DBRX et ses capacités, ainsi que l'adoption croissante de LLM ouverts dans divers secteurs et cas d'utilisation.
Capacités de contexte long et génération augmentée de récupération L'une des caractéristiques les plus remarquables de DBRX est sa capacité à gérer les entrées à contexte long, avec une longueur de contexte maximale de 32,768 XNUMX jetons. Cette capacité permet au modèle de traiter et de générer du texte basé sur des informations contextuelles étendues, ce qui le rend bien adapté aux tâches telles que la synthèse de documents, la réponse à des questions et la récupération d'informations.
Dans les benchmarks évaluant les performances dans un contexte long, tels que KV-Pairs et HotpotQAXL, DBRX Instruct a surpassé GPT-3.5 Turbo sur différentes longueurs de séquence et positions contextuelles.

DBRX surpasse les modèles open source établis en matière de compréhension du langage (MMLU), de programmation (HumanEval) et de mathématiques (GSM8K).
Limites et travaux futurs
Bien que DBRX représente une réalisation significative dans le domaine des LLM ouverts, il est essentiel de reconnaître ses limites et ses domaines d'amélioration future. Comme tout modèle d’IA, DBRX peut produire des réponses inexactes ou biaisées, en fonction de la qualité et de la diversité de ses données d’entraînement.
De plus, bien que DBRX excelle dans les tâches générales, certaines applications spécifiques à un domaine peuvent nécessiter des ajustements supplémentaires ou une formation spécialisée pour atteindre des performances optimales. Par exemple, dans les scénarios où la précision et la fidélité sont primordiales, Databricks recommande d'utiliser des techniques de génération augmentée de récupération (RAG) pour améliorer la sortie du modèle.
De plus, l'ensemble de données d'entraînement actuel de DBRX est principalement composé de contenu en anglais, ce qui limite potentiellement ses performances sur les tâches non anglophones. Les futures itérations du modèle pourraient impliquer d'étendre les données d'entraînement afin d'inclure un éventail plus large de langues et de contextes culturels.
Databricks s'engage à améliorer continuellement les capacités de DBRX et à remédier à ses limites. Les travaux futurs porteront sur l'amélioration des performances, de l'évolutivité et de la convivialité du modèle dans diverses applications et cas d'usage, ainsi que sur l'exploration de techniques permettant d'atténuer les biais potentiels et de promouvoir une utilisation éthique de l'IA.
En outre, l'entreprise prévoit d'affiner davantage le processus de formation, en tirant parti de techniques avancées telles que l'apprentissage fédéré et les méthodes de préservation de la confidentialité pour garantir la confidentialité et la sécurité des données.
La route Ă suivre
DBRX représente une avancée significative dans la démocratisation du développement de l’IA. Il envisage un avenir où chaque entreprise aura la capacité de contrôler ses données et son destin dans le monde émergent de l’IA générative.
En open source DBRX et en donnant accès aux mêmes outils et infrastructures utilisés pour le créer, Databricks permet aux entreprises et aux chercheurs de développer leurs propres Databricks de pointe adaptés à leurs besoins spécifiques.
Grâce à la plateforme Databricks, les clients peuvent exploiter la suite d'outils de traitement de données de l'entreprise, notamment Apache Spark, Unity Catalog et MLflow, pour organiser et gérer leurs données d'entraînement. Ils peuvent ensuite utiliser les bibliothèques d'entraînement optimisées de Databricks, telles que Composer, LLM Foundry, MegaBlocks et Streaming, pour entraîner leurs propres modèles de classe DBRX de manière efficace et à grande échelle.
Cette démocratisation du développement de l'IA a le potentiel de débloquer une nouvelle vague d'innovation, à mesure que les entreprises acquièrent la capacité d'exploiter la puissance de grands modèles de langage pour un large éventail d'applications, de la création de contenu et de l'analyse de données à l'aide à la décision et au-delà .
De plus, en favorisant un écosystème ouvert et collaboratif autour de DBRX, Databricks vise à accélérer le rythme de la recherche et du développement dans le domaine des grands modèles de langage. À mesure que de plus en plus d’organisations et d’individus apportent leur expertise et leurs connaissances, la connaissance et la compréhension collectives de ces puissants systèmes d’IA continueront de croître, ouvrant la voie à des modèles encore plus avancés et performants à l’avenir.
Conclusion
DBRX change la donne dans le monde des grands modèles de langage open source. Avec son architecture innovante composée d'experts, ses données de formation étendues et ses performances de pointe, il a établi une nouvelle référence pour ce qui est possible avec les LLM ouverts.
En démocratisant l'accès à une technologie d'IA de pointe, DBRX permet aux chercheurs, aux développeurs et aux entreprises d'explorer de nouvelles frontières en matière de traitement du langage naturel, de création de contenu, d'analyse de données et au-delà . Alors que Databricks continue d’affiner et d’améliorer DBRX, les applications potentielles et l’impact de ce modèle puissant sont véritablement illimités.