Intel·ligència Artificial

Dins de DBRX: Databricks allibera un potent LLM de codi obert

actualitzat on Abril 16, 2024

En el camp que avança ràpidament dels grans models de llenguatge (LLM), ha sorgit un nou model potent: DBRX, un model de codi obert creat per Databricks. Aquest LLM està fent onades amb el seu rendiment d'última generació en una àmplia gamma de punts de referència, fins i tot rivalitzant amb les capacitats de gegants de la indústria com el GPT-4 d'OpenAI.

DBRX representa una fita important en la democratització de la intel·ligència artificial, proporcionant als investigadors, desenvolupadors i empreses accés obert a un model de llenguatge de primer nivell. Però què és exactament DBRX i què el fa tan especial? En aquesta immersió tècnica profunda, explorarem l'arquitectura innovadora, el procés de formació i les capacitats clau que han impulsat DBRX a l'avantguarda del panorama LLM obert.

El naixement de DBRX La creació de DBRX va ser impulsada per la missió de Databricks de fer que la intel·ligència de dades sigui accessible per a totes les empreses. Com a líder en plataformes d'anàlisi de dades, Databricks va reconèixer l'immens potencial dels LLM i es va proposar desenvolupar un model que pogués igualar o fins i tot superar el rendiment de les ofertes de propietat.

Després de mesos d'intensa investigació, desenvolupament i una inversió de diversos milions de dòlars, l'equip de Databricks va aconseguir un gran avenç amb DBRX. L'impressionant rendiment del model en una àmplia gamma de punts de referència, com ara la comprensió del llenguatge, la programació i les matemàtiques, el va establir fermament com un nou estat de l'art en els LLM oberts.

Arquitectura innovadora

El poder de la barreja d'experts Al nucli del rendiment excepcional de DBRX es troba la seva innovadora arquitectura de barreja d'experts (MoE). Aquest disseny d'avantguarda representa una desviació dels models tradicionals densos, adoptant un enfocament escàs que millora tant l'eficiència del preentrenament com la velocitat d'inferència.

Al marc del MoE, només s'activa un grup selecte de components, anomenats "experts", per a cada entrada. Aquesta especialització permet que el model abordi una gamma més àmplia de tasques amb una major habilitat, alhora que optimitza els recursos computacionals.

DBRX porta aquest concepte encara més enllà amb la seva arquitectura MoE de gran fi. A diferència d'altres models de MoE que utilitzen un nombre menor d'experts més grans, DBRX compta amb 16 experts, amb quatre experts actius per a qualsevol entrada determinada. Aquest disseny proporciona 65 vegades més combinacions d'experts possibles que contribueixen directament al rendiment superior de DBRX.

DBRX es diferencia amb diverses característiques innovadores:

Codificacions de posició rotativa (RoPE): Millora la comprensió de les posicions dels testimonis, crucials per generar text contextualment precís.
Unitats lineals controlades (GLU): Introdueix un mecanisme de gating que millora la capacitat del model per aprendre patrons complexos de manera més eficient.
Atenció de consultes agrupades (GQA): Millora l'eficiència del model optimitzant el mecanisme d'atenció.
Tokenització avançada: Utilitza el tokenitzador de GPT-4 per processar les entrades de manera més eficaç.

L'arquitectura MoE és especialment adequada per a models de llenguatge a gran escala, ja que permet un escalat més eficient i una millor utilització dels recursos computacionals. Mitjançant la distribució del procés d'aprenentatge a través de múltiples subxarxes especialitzades, DBRX pot assignar eficaçment dades i potència computacional per a cada tasca, assegurant tant una sortida d'alta qualitat com una eficiència òptima.

Àmplies dades d'entrenament i optimització eficient Tot i que l'arquitectura de DBRX és sens dubte impressionant, el seu veritable poder rau en el procés d'entrenament minuciós i la gran quantitat de dades a què va estar exposat. DBRX es va entrenar prèviament amb uns sorprenents 12 bilions de fitxes de dades de text i codi, curosament curats per garantir una alta qualitat i diversitat.

Les dades de formació es van processar mitjançant el conjunt d'eines de Databricks, com ara Apache Spark per al processament de dades, Unity Catalog per a la gestió i governança de dades i MLflow per al seguiment d'experiments. Aquest conjunt d'eines complet va permetre a l'equip de Databricks gestionar, explorar i perfeccionar de manera eficaç el conjunt de dades massiu, establint les bases del rendiment excepcional de DBRX.

Per millorar encara més les capacitats del model, Databricks va utilitzar un currículum de preentrenament dinàmic, variant de manera innovadora la combinació de dades durant la formació. Aquesta estratègia va permetre que cada testimoni es processés eficaçment mitjançant els 36 milions de paràmetres actius, donant lloc a un model més complet i adaptable.

A més, el procés de formació de DBRX es va optimitzar per a l'eficiència, aprofitant el conjunt d'eines i biblioteques pròpies de Databricks, com Composer, LLM Foundry, MegaBlocks i Streaming. Mitjançant l'ús de tècniques com l'aprenentatge del currículum i les estratègies d'optimització optimitzades, l'equip va aconseguir gairebé una millora de quatre vegades en l'eficiència informàtica en comparació amb els seus models anteriors.

Formació i Arquitectura

DBRX es va entrenar mitjançant un model de predicció del següent token en un conjunt de dades colossal de 12 bilions de fitxes, posant èmfasi tant en text com en codi. Es creu que aquest conjunt d'entrenament és significativament més eficaç que els utilitzats en models anteriors, assegurant una gran comprensió i capacitat de resposta a través de diverses indicacions.

L'arquitectura de DBRX no només és un testimoni de les habilitats tècniques de Databricks, sinó que també destaca la seva aplicació en diversos sectors. Des de millorar les interaccions del chatbot fins a potenciar tasques complexes d'anàlisi de dades, DBRX es pot integrar en diversos camps que requereixen una comprensió lingüística matisada.

Notablement, DBRX Instruct fins i tot rivalitza amb alguns dels models tancats més avançats del mercat. Segons les mesures de Databricks, supera GPT-3.5 i és competitiu amb Gemini 1.0 Pro i Mistral Medium en diversos punts de referència, inclosos coneixements generals, raonament de sentit comú, programació i raonament matemàtic.

Per exemple, al punt de referència MMLU, que mesura la comprensió lingüística, DBRX Instruct va aconseguir una puntuació del 73.7%, superant la puntuació de GPT-3.5 del 70.0%. En el punt de referència de raonament de sentit comú HellaSwag, DBRX Instruct va obtenir un impressionant 89.0%, superant el 3.5% de GPT-85.5.

DBRX Instruct brilla realment, aconseguint una precisió notable del 70.1% en el punt de referència HumanEval, superant no només GPT-3.5 (48.1%) sinó també el model especialitzat CodeLLaMA-70B Instruct (67.8%).

Aquests resultats excepcionals posen de manifest la versatilitat de DBRX i la seva capacitat per sobresortir en una àmplia gamma de tasques, des de la comprensió del llenguatge natural fins a la programació complexa i la resolució de problemes matemàtics.

Inferència i escalabilitat eficients Un dels avantatges clau de l'arquitectura MoE de DBRX és la seva eficiència durant la inferència. Gràcies a l'activació escassa dels paràmetres, DBRX pot aconseguir un rendiment d'inferència fins a dues o tres vegades més ràpid que els models densos amb el mateix recompte total de paràmetres.

En comparació amb LLaMA2-70B, un LLM de codi obert popular, DBRX no només demostra una qualitat superior, sinó que també compta amb gairebé el doble de velocitat d'inferència, tot i tenir aproximadament la meitat de paràmetres actius. Aquesta eficiència fa que DBRX sigui una opció atractiva per al desplegament en una àmplia gamma d'aplicacions, des de la creació de contingut fins a l'anàlisi de dades i més enllà.

A més, Databricks ha desenvolupat una pila de formació robusta que permet a les empreses entrenar els seus propis models de classe DBRX des de zero o continuar entrenant-se a sobre dels punts de control proporcionats. Aquesta capacitat permet a les empreses aprofitar tot el potencial de DBRX i adaptar-lo a les seves necessitats específiques, democratitzant encara més l'accés a la tecnologia LLM d'avantguarda.

El desenvolupament de Databricks del model DBRX marca un avenç significatiu en el camp de l'aprenentatge automàtic, especialment mitjançant la utilització d'eines innovadores de la comunitat de codi obert. Aquest viatge de desenvolupament està influenciat significativament per dues tecnologies fonamentals: la biblioteca MegaBlocks i el sistema Fully Sharded Data Parallel (FSDP) de PyTorch.

MegaBlocks: millora l'eficiència del MoE

El MegaBlocks La biblioteca aborda els reptes associats a l'encaminament dinàmic a les capes de barreja d'experts (MoEs), un obstacle comú per escalar les xarxes neuronals. Els marcs tradicionals sovint imposen limitacions que redueixen l'eficiència del model o comprometen la qualitat del model. MegaBlocks, però, redefineix el càlcul de MoE mitjançant operacions disperses en blocs que gestionen amb habilitat el dinamisme intrínsec dels MoE, evitant així aquests compromisos.

Aquest enfocament no només preserva la integritat del testimoni, sinó que també s'alinea bé amb les capacitats modernes de la GPU, facilitant temps d'entrenament fins a un 40% més ràpid en comparació amb els mètodes tradicionals. Aquesta eficiència és crucial per a la formació de models com DBRX, que depenen en gran mesura d'arquitectures avançades de MoE per gestionar els seus amplis conjunts de paràmetres de manera eficient.

PyTorch FSDP: escalar grans models

Paral·lel de dades totalment fragmentades de PyTorch (FSDP) presenta una solució sòlida per entrenar models excepcionalment grans optimitzant la fragmentació i la distribució de paràmetres entre diversos dispositius informàtics. Dissenyat conjuntament amb components clau de PyTorch, FSDP s'integra perfectament, oferint una experiència d'usuari intuïtiva semblant a les configuracions d'entrenament locals, però a una escala molt més gran.

El disseny de FSDP aborda de manera intel·ligent diversos problemes crítics:

Experiència de l'usuari: Simplifica la interfície d'usuari, malgrat els complexos processos de backend, fent-la més accessible per a un ús més ampli.
Heterogeneïtat del maquinari: S'adapta a diversos entorns de maquinari per optimitzar la utilització dels recursos de manera eficient.
Ús de recursos i planificació de la memòria: FSDP millora l'ús de recursos computacionals alhora que minimitza les despeses generals de memòria, que és essencial per a l'entrenament de models que operen a l'escala de DBRX.

FSDP no només admet models més grans dels que abans era possible sota el marc de distribució de dades paral·leles, sinó que també manté una escalabilitat gairebé lineal en termes de rendiment i eficiència. Aquesta capacitat ha demostrat ser essencial per al DBRX de Databricks, ja que li permet escalar a través de diverses GPU alhora que gestiona el seu gran nombre de paràmetres de manera eficaç.

Accessibilitat i Integracions

D'acord amb la seva missió de promoure l'accés obert a la IA, Databricks ha fet que DBRX estigui disponible a través de diversos canals. Els pesos tant del model base (DBRX Base) com del model afinat (DBRX Instruct) estan allotjats a la popular plataforma Hugging Face, cosa que permet als investigadors i desenvolupadors descarregar i treballar fàcilment amb el model.

A més, l' Repositori de models DBRX està disponible a GitHub, proporcionant transparència i permetent una major exploració i personalització del codi del model.

Per als clients de Databricks, DBRX Base i DBRX Instruct són convenientment accessibles mitjançant les API de model de Databricks Foundation, que permeten una integració perfecta als fluxos de treball i aplicacions existents. Això no només simplifica el procés de desplegament, sinó que també garanteix el govern i la seguretat de les dades per a casos d'ús sensibles.

A més, DBRX ja s'ha integrat en diverses plataformes i serveis de tercers, com You.com i Perplexity Labs, ampliant el seu abast i aplicacions potencials. Aquestes integracions demostren el creixent interès per DBRX i les seves capacitats, així com l'adopció creixent de LLM oberts a diferents indústries i casos d'ús.

Capacitats de context llarg i generació augmentada de recuperació Una de les característiques més destacades de DBRX és la seva capacitat per gestionar entrades de context llarg, amb una longitud de context màxima de 32,768 fitxes. Aquesta capacitat permet que el model processi i generi text basant-se en una àmplia informació contextual, el que el fa molt adequat per a tasques com ara el resum de documents, la resposta a preguntes i la recuperació d'informació.

En els punts de referència que avaluen el rendiment de context llarg, com ara KV-Pairs i HotpotQAXL, DBRX Instruct va superar GPT-3.5 Turbo en diverses longituds de seqüència i posicions de context.

DBRX supera els models de codi obert establerts en comprensió del llenguatge (MMLU), programació (HumanEval) i matemàtiques (GSM8K).

Limitacions i treball futur

Tot i que DBRX representa un assoliment important en l'àmbit dels LLM oberts, és essencial reconèixer les seves limitacions i àrees de millora futura. Com qualsevol model d'IA, DBRX pot produir respostes inexactes o esbiaixades, depenent de la qualitat i la diversitat de les seves dades d'entrenament.

A més, tot i que DBRX excel·leix en tasques de propòsit general, certes aplicacions específiques de domini poden requerir un ajust addicional o formació especialitzada per aconseguir un rendiment òptim. Per exemple, en escenaris on la precisió i la fidelitat són de màxima importància, Databricks recomana utilitzar tècniques de generació augmentada de recuperació (RAG) per millorar la sortida del model.

A més, el conjunt de dades de formació actual de DBRX consisteix principalment en contingut en anglès, la qual cosa pot limitar el seu rendiment en tasques que no són en anglès. Les futures iteracions del model poden implicar ampliar les dades de formació per incloure una gamma més diversa d'idiomes i contextos culturals.

Databricks es compromet a millorar contínuament les capacitats de DBRX i a abordar les seves limitacions. El treball futur se centrarà en la millora del rendiment, l'escalabilitat i la usabilitat del model en diverses aplicacions i casos d'ús, així com en l'exploració de tècniques per mitigar possibles biaixos i promoure l'ús ètic de la IA.

A més, la companyia té previst perfeccionar encara més el procés de formació, aprofitant tècniques avançades com l'aprenentatge federat i els mètodes de preservació de la privadesa per garantir la privadesa i la seguretat de les dades.

El camí cap endavant

DBRX representa un pas important en la democratització del desenvolupament de la IA. Imagina un futur on cada empresa tingui la capacitat de controlar les seves dades i el seu destí en el món emergent de la IA generativa.

Mitjançant l'obtenció de DBRX i proporcionant accés a les mateixes eines i infraestructura que s'utilitzen per crear-lo, Databricks està empoderant les empreses i els investigadors per desenvolupar els seus propis Databricks d'avantguarda adaptats a les seves necessitats específiques.

Mitjançant la plataforma Databricks, els clients poden aprofitar el conjunt d'eines de processament de dades de l'empresa, com ara Apache Spark, Unity Catalog i MLflow, per curar i gestionar les seves dades de formació. A continuació, poden utilitzar les biblioteques de formació optimitzades de Databricks, com ara Composer, LLM Foundry, MegaBlocks i Streaming, per entrenar els seus propis models de classe DBRX de manera eficient i a escala.

Aquesta democratització del desenvolupament de la IA té el potencial de desbloquejar una nova onada d'innovació, a mesura que les empreses aconsegueixen la capacitat d'aprofitar el poder dels grans models de llenguatge per a una àmplia gamma d'aplicacions, des de la creació de contingut i l'anàlisi de dades fins al suport de decisions i més enllà.

A més, en fomentar un ecosistema obert i col·laboratiu al voltant de DBRX, Databricks pretén accelerar el ritme de recerca i desenvolupament en el camp dels grans models lingüístics. A mesura que més organitzacions i persones aportin la seva experiència i coneixements, el coneixement i la comprensió col·lectius d'aquests potents sistemes d'IA seguiran creixent, obrint el camí per a models encara més avançats i capaços en el futur.

Conclusió

DBRX és un canvi de joc en el món dels grans models de llenguatge de codi obert. Amb la seva innovadora arquitectura de barreja d'experts, dades de formació àmplies i un rendiment d'última generació, ha establert un nou punt de referència per al que és possible amb els LLM oberts.

En democratitzar l'accés a la tecnologia d'IA d'avantguarda, DBRX permet als investigadors, desenvolupadors i empreses explorar noves fronteres en el processament del llenguatge natural, la creació de contingut, l'anàlisi de dades i més enllà. A mesura que Databricks continua perfeccionant i millorant DBRX, les aplicacions potencials i l'impacte d'aquest model potent són realment il·limitats.

Temes relacionats:Maquetes de dades DBRX GPT-3.5 LLM MegaBlocks Mistral Mescla d'experts MMLU

Fins a la propera

Arlington, VA: emergent com una nova potència en la innovació en IA

No et perdis

Adobe presenta noves eines d'IA generativa per a fluxos de treball de vídeo

Aayush Mittal

He passat els últims cinc anys submergint-me en el fascinant món de l'aprenentatge automàtic i l'aprenentatge profund. La meva passió i experiència m'han portat a contribuir a més de 50 projectes diversos d'enginyeria de programari, amb un enfocament particular en IA/ML. La meva curiositat contínua també m'ha atret cap al processament del llenguatge natural, un camp que tinc ganes d'explorar més.