Seguici sui social

Intelligenza Artificiale

All'interno di DBRX: Databricks scatena il potente LLM open source

mm
DBRX: un nuovo LLM aperto all'avanguardia

Nel campo in rapida evoluzione dei modelli linguistici di grandi dimensioni (LLM), è emerso un nuovo potente modello: DBRX, un modello open source creato da DatabricksQuesto LLM sta facendo scalpore grazie alle sue prestazioni all'avanguardia in un'ampia gamma di benchmark, rivaleggiando persino con le capacità di giganti del settore come GPT-4 di OpenAI.

DBRX rappresenta una pietra miliare significativa nella democratizzazione dell'intelligenza artificiale, offrendo a ricercatori, sviluppatori e aziende libero accesso a un modello linguistico di alto livello. Ma cos'è esattamente DBRX e cosa lo rende così speciale? In questo approfondimento tecnico, esploreremo l'architettura innovativa, il processo di formazione e le funzionalità chiave che hanno portato DBRX all'avanguardia nel panorama dei Master in Ingegneria Informatica (LLM) aperti.

La nascita di DBRX La creazione di DBRX è stata guidata dalla missione di Databricks di rendere l'intelligence dei dati accessibile a tutte le aziende. In qualità di leader nelle piattaforme di analisi dei dati, Databricks ha riconosciuto l'immenso potenziale degli LLM e si è prefissata di sviluppare un modello in grado di eguagliare o addirittura superare le prestazioni delle offerte proprietarie.

Dopo mesi di intensa ricerca e sviluppo e un investimento multimilionario, il team di Databricks ha raggiunto un traguardo importante con DBRX. Le prestazioni impressionanti del modello su un'ampia gamma di benchmark, tra cui comprensione del linguaggio, programmazione e matematica, lo hanno saldamente affermato come un nuovo stato dell'arte nei LLM aperti.

Architettura innovativa

Il potere del mix di esperti Il fulcro delle eccezionali prestazioni di DBRX risiede nella sua innovativa architettura basata sul mix di esperti (MoE). Questo design all'avanguardia rappresenta un distacco dai tradizionali modelli densi, adottando un approccio sparso che migliora sia l'efficienza del pre-addestramento che la velocità di inferenza.

Nel quadro del MoE, per ciascun input viene attivato solo un gruppo selezionato di componenti, chiamati “esperti”. Questa specializzazione consente al modello di affrontare una gamma più ampia di compiti con maggiore abilità, ottimizzando al tempo stesso le risorse computazionali.

DBRX porta questo concetto ancora più avanti con la sua architettura MoE a grana fine. A differenza di altri modelli MoE che utilizzano un numero inferiore di esperti di grandi dimensioni, DBRX impiega 16 esperti, con quattro esperti attivi per ogni input. Questa progettazione offre un numero di possibili combinazioni di esperti ben 65 volte superiore, contribuendo direttamente alle prestazioni superiori di DBRX.

DBRX si differenzia per diverse caratteristiche innovative:

  • Codifiche di posizione rotante (RoPE): Migliora la comprensione delle posizioni dei token, fondamentale per generare testo contestualmente accurato.
  • Unità lineari con gate (GLU): Introduce un meccanismo di controllo che migliora la capacità del modello di apprendere modelli complessi in modo più efficiente.
  • Attenzione alle query raggruppate (GQA): Migliora l'efficienza del modello ottimizzando il meccanismo di attenzione.
  • Tokenizzazione avanzata: Utilizza il tokenizzatore GPT-4 per elaborare gli input in modo più efficace.

L'architettura MoE è particolarmente adatta per modelli linguistici su larga scala, poiché consente una scalabilità più efficiente e un migliore utilizzo delle risorse computazionali. Distribuendo il processo di apprendimento su più sottoreti specializzate, DBRX può allocare in modo efficace dati e potenza di calcolo per ciascuna attività, garantendo sia risultati di alta qualità che efficienza ottimale.

Dati di training estesi e ottimizzazione efficiente Sebbene l'architettura di DBRX sia indubbiamente impressionante, la sua vera potenza risiede nel meticoloso processo di training e nell'enorme quantità di dati a cui è stato esposto. DBRX è stato pre-addestrato su ben 12 trilioni di token di dati di testo e codice, attentamente selezionati per garantire elevata qualità e diversità.

I dati di training sono stati elaborati utilizzando la suite di strumenti di Databricks, tra cui Apache Spark per l'elaborazione dei dati, Unity Catalog per la gestione e la governance dei dati e MLflow per il monitoraggio degli esperimenti. Questo set completo di strumenti ha permesso al team di Databricks di gestire, esplorare e perfezionare efficacemente l'enorme set di dati, gettando le basi per le eccezionali prestazioni di DBRX.

Per migliorare ulteriormente le capacità del modello, Databricks ha utilizzato un curriculum di pre-addestramento dinamico, variando in modo innovativo il mix di dati durante l'addestramento. Questa strategia ha permesso di elaborare efficacemente ogni token utilizzando i 36 miliardi di parametri attivi, ottenendo un modello più completo e adattabile.

Inoltre, il processo di training di DBRX è stato ottimizzato per garantire l'efficienza, sfruttando la suite di strumenti e librerie proprietarie di Databricks, tra cui Composer, LLM Foundry, MegaBlocks e Streaming. Utilizzando tecniche come l'apprendimento curriculare e strategie di ottimizzazione ottimizzate, il team ha ottenuto un miglioramento di quasi quattro volte dell'efficienza di calcolo rispetto ai modelli precedenti.

Formazione e Architettura

DBRX è stato addestrato utilizzando un modello di previsione del token successivo su un colossale set di dati di 12 trilioni di token, enfatizzando sia il testo che il codice. Si ritiene che questo set di formazione sia significativamente più efficace di quelli utilizzati nei modelli precedenti, garantendo una ricca comprensione e capacità di risposta a diversi prompt.

L'architettura di DBRX non è solo una testimonianza della competenza tecnica di Databricks, ma ne evidenzia anche l'applicabilità in molteplici settori. Dal miglioramento delle interazioni con i chatbot al supporto di complesse attività di analisi dei dati, DBRX può essere integrato in diversi ambiti che richiedono una comprensione linguistica articolata.

Sorprendentemente, DBRX Instruct può competere persino con alcuni dei modelli chiusi più avanzati sul mercato. Secondo le misurazioni di Databricks, supera GPT-3.5 e risulta competitivo con Gemini 1.0 Pro e Mistral Medium in vari benchmark, tra cui cultura generale, ragionamento di buon senso, programmazione e ragionamento matematico.

Ad esempio, nel benchmark MMLU, che misura la comprensione del linguaggio, DBRX Instruct ha ottenuto un punteggio del 73.7%, superando il punteggio riportato da GPT-3.5 del 70.0%. Nel benchmark di ragionamento di buon senso HellaSwag, DBRX Instruct ha ottenuto un impressionante 89.0%, superando l'3.5% di GPT-85.5.

DBRX Instruct brilla davvero, raggiungendo una notevole precisione del 70.1% sul benchmark HumanEval, superando non solo GPT-3.5 (48.1%) ma anche il modello specializzato CodeLLaMA-70B Instruct (67.8%).

Questi risultati eccezionali evidenziano la versatilità di DBRX e la sua capacità di eccellere in una vasta gamma di attività, dalla comprensione del linguaggio naturale alla programmazione complessa e alla risoluzione di problemi matematici.

Inferenza efficiente e scalabilità Uno dei principali vantaggi dell'architettura MoE di DBRX è la sua efficienza durante l'inferenza. Grazie all'attivazione sparsa dei parametri, DBRX può raggiungere una velocità di inferenza fino a due o tre volte superiore rispetto ai modelli densi con lo stesso numero totale di parametri.

Rispetto a LLaMA2-70B, un popolare LLM open source, DBRX non solo dimostra una qualità superiore ma vanta anche quasi il doppio della velocità di inferenza, nonostante abbia circa la metà dei parametri attivi. Questa efficienza rende DBRX una scelta interessante per l'implementazione in un'ampia gamma di applicazioni, dalla creazione di contenuti all'analisi dei dati e oltre.

Inoltre, Databricks ha sviluppato un solido stack di formazione che consente alle aziende di addestrare da zero i propri modelli di classe DBRX o di continuare la formazione oltre ai checkpoint forniti. Questa funzionalità consente alle aziende di sfruttare tutto il potenziale di DBRX e di adattarlo alle proprie esigenze specifiche, democratizzando ulteriormente l’accesso alla tecnologia LLM all’avanguardia.

Lo sviluppo del modello DBRX da parte di Databricks segna un significativo progresso nel campo del machine learning, in particolare grazie all'utilizzo di strumenti innovativi provenienti dalla comunità open source. Questo percorso di sviluppo è significativamente influenzato da due tecnologie fondamentali: la libreria MegaBlocks e il sistema Fully Sharded Data Parallel (FSDP) di PyTorch.

MegaBlocks: miglioramento dell'efficienza MoE

. MegaBlocchi La libreria affronta le sfide associate al routing dinamico negli strati Mixture-of-Experts (MoE), un ostacolo comune nel ridimensionamento delle reti neurali. I framework tradizionali spesso impongono limitazioni che riducono l’efficienza del modello o ne compromettono la qualità. MegaBlocks, tuttavia, ridefinisce il calcolo del MoE attraverso operazioni a blocchi sparsi che gestiscono abilmente il dinamismo intrinseco all'interno dei MoE, evitando così questi compromessi.

Questo approccio non solo preserva l'integrità del token, ma si allinea bene anche con le moderne funzionalità delle GPU, facilitando tempi di addestramento fino al 40% più rapidi rispetto ai metodi tradizionali. Tale efficienza è fondamentale per l’addestramento di modelli come DBRX, che fanno molto affidamento su architetture MoE avanzate per gestire in modo efficiente i loro estesi set di parametri.

PyTorch FSDP: ridimensionamento di modelli di grandi dimensioni

Parallelo dei dati completamente condivisi di PyTorch (FSDP) presenta una soluzione solida per l'addestramento di modelli eccezionalmente grandi ottimizzando lo sharding e la distribuzione dei parametri su più dispositivi informatici. Progettato in collaborazione con i componenti chiave di PyTorch, FSDP si integra perfettamente, offrendo un'esperienza utente intuitiva simile alle configurazioni di formazione locali ma su scala molto più ampia.

La progettazione del FSDP affronta in modo intelligente diverse questioni critiche:

  • Esperienza da Utente: Semplifica l'interfaccia utente, nonostante i complessi processi di backend, rendendola più accessibile per un utilizzo più ampio.
  • Eterogeneità dell'hardware: Si adatta a diversi ambienti hardware per ottimizzare l'utilizzo delle risorse in modo efficiente.
  • Utilizzo delle risorse e pianificazione della memoria: FSDP migliora l'utilizzo delle risorse computazionali riducendo al minimo il sovraccarico della memoria, il che è essenziale per il training di modelli che operano sulla scala di DBRX.

FSDP non solo supporta modelli più grandi di quanto fosse possibile in precedenza con il framework Distributed Data Parallel, ma mantiene anche una scalabilità quasi lineare in termini di throughput ed efficienza. Questa capacità si è dimostrata essenziale per DBRX di Databricks, consentendogli di scalare su più GPU gestendo al contempo in modo efficace il suo vasto numero di parametri.

Accessibilità e integrazioni

In linea con la sua missione di promuovere l'accesso aperto all'intelligenza artificiale, Databricks ha reso disponibile DBRX attraverso più canali. I pesi sia del modello base (DBRX Base) che del modello ottimizzato (DBRX Instruct) sono ospitati sulla popolare piattaforma Hugging Face, consentendo a ricercatori e sviluppatori di scaricare e lavorare facilmente con il modello.

Inoltre, la Repository del modello DBRX è disponibile su GitHub, garantendo trasparenza e consentendo un'ulteriore esplorazione e personalizzazione del codice del modello.

throughput di inferenza per varie configurazioni di modelli sulla nostra infrastruttura di servizio ottimizzata utilizzando NVIDIA TensorRT-LLM con precisione a 16 bit con i migliori flag di ottimizzazione che siamo riusciti a trovare.

Per i clienti Databricks, DBRX Base e DBRX Instruct sono comodamente accessibili tramite le API Databricks Foundation Model, consentendo un'integrazione perfetta nei flussi di lavoro e nelle applicazioni esistenti. Ciò non solo semplifica il processo di distribuzione, ma garantisce anche la governance e la sicurezza dei dati per i casi d'uso sensibili.

Inoltre, DBRX è già stato integrato in diverse piattaforme e servizi di terze parti, come You.com e Perplexity Labs, ampliando la sua portata e le potenziali applicazioni. Queste integrazioni dimostrano il crescente interesse per DBRX e le sue capacità, nonché la crescente adozione di LLM aperti in vari settori e casi d’uso.

Funzionalità a contesto lungo e generazione aumentata di recupero Una delle caratteristiche più straordinarie di DBRX è la sua capacità di gestire input a contesto lungo, con una lunghezza massima del contesto di 32,768 token. Questa funzionalità consente al modello di elaborare e generare testo sulla base di ampie informazioni contestuali, rendendolo particolarmente adatto per attività quali il riepilogo dei documenti, la risposta alle domande e il recupero delle informazioni.

Nei benchmark che valutano le prestazioni a lungo contesto, come KV-Pairs e HotpotQAXL, DBRX Instruct ha sovraperformato GPT-3.5 Turbo su varie lunghezze di sequenza e posizioni di contesto.

DBRX supera i modelli open source consolidati in materia di comprensione del linguaggio (MMLU), programmazione (HumanEval) e matematica (GSM8K).

DBRX supera i modelli open source consolidati in materia di comprensione del linguaggio (MMLU), programmazione (HumanEval) e matematica (GSM8K).

Limitazioni e lavoro futuro

Sebbene DBRX rappresenti un risultato significativo nel campo degli LLM aperti, è essenziale riconoscerne i limiti e le aree di miglioramento futuro. Come ogni modello di intelligenza artificiale, DBRX può produrre risposte imprecise o distorte, a seconda della qualità e della diversità dei dati di addestramento.

Inoltre, sebbene DBRX eccella in attività di uso generale, alcune applicazioni specifiche di un dominio potrebbero richiedere un'ulteriore messa a punto o una formazione specializzata per ottenere prestazioni ottimali. Ad esempio, in scenari in cui accuratezza e fedeltà sono di fondamentale importanza, Databricks consiglia di utilizzare tecniche di generazione aumentata del recupero (RAG) per migliorare l'output del modello.

Inoltre, l'attuale set di dati di training di DBRX è costituito principalmente da contenuti in lingua inglese, il che potrebbe limitarne le prestazioni su attività in lingua diversa dall'inglese. Le future iterazioni del modello potrebbero prevedere l'espansione dei dati di training per includere una gamma più diversificata di lingue e contesti culturali.

Databricks si impegna a migliorare costantemente le capacità di DBRX e a superarne i limiti. Il lavoro futuro si concentrerà sul miglioramento delle prestazioni, della scalabilità e dell'usabilità del modello in diverse applicazioni e casi d'uso, nonché sull'esplorazione di tecniche per mitigare potenziali distorsioni e promuovere un uso etico dell'IA.

Inoltre, l’azienda prevede di perfezionare ulteriormente il processo di formazione, sfruttando tecniche avanzate come l’apprendimento federato e metodi di preservazione della privacy per garantire la privacy e la sicurezza dei dati.

La strada davanti

DBRX rappresenta un significativo passo avanti nella democratizzazione dello sviluppo dell'intelligenza artificiale. Immagina un futuro in cui ogni azienda avrà la capacità di controllare i propri dati e il proprio destino nel mondo emergente dell’intelligenza artificiale generativa.

Rendendo DBRX open source e fornendo l'accesso agli stessi strumenti e infrastrutture utilizzati per costruirlo, Databricks consente ad aziende e ricercatori di sviluppare i propri Databricks all'avanguardia su misura per le loro esigenze specifiche.

Grazie alla piattaforma Databricks, i clienti possono sfruttare la suite di strumenti di elaborazione dati dell'azienda, tra cui Apache Spark, Unity Catalog e MLflow, per curare e gestire i propri dati di training. Possono quindi utilizzare le librerie di training ottimizzate di Databricks, come Composer, LLM Foundry, MegaBlocks e Streaming, per addestrare i propri modelli di classe DBRX in modo efficiente e su larga scala.

Questa democratizzazione dello sviluppo dell’intelligenza artificiale ha il potenziale per sbloccare una nuova ondata di innovazione, poiché le aziende acquisiscono la capacità di sfruttare la potenza di modelli linguistici di grandi dimensioni per un’ampia gamma di applicazioni, dalla creazione di contenuti e analisi dei dati al supporto decisionale e oltre.

Inoltre, promuovendo un ecosistema aperto e collaborativo attorno a DBRX, Databricks mira ad accelerare il ritmo della ricerca e dello sviluppo nel campo dei modelli linguistici di grandi dimensioni. Man mano che sempre più organizzazioni e individui contribuiscono con le loro competenze e intuizioni, la conoscenza collettiva e la comprensione di questi potenti sistemi di intelligenza artificiale continueranno a crescere, aprendo la strada a modelli ancora più avanzati e capaci in futuro.

Conclusione

DBRX rappresenta un punto di svolta nel mondo dei modelli linguistici di grandi dimensioni open source. Con la sua innovativa architettura mista di esperti, dati di formazione estesi e prestazioni all'avanguardia, ha stabilito un nuovo punto di riferimento per ciò che è possibile fare con i LLM aperti.

Democratizzando l'accesso alla tecnologia AI all'avanguardia, DBRX consente a ricercatori, sviluppatori e imprese di esplorare nuove frontiere nell'elaborazione del linguaggio naturale, nella creazione di contenuti, nell'analisi dei dati e altro ancora. Mentre Databricks continua a perfezionare e migliorare DBRX, le potenziali applicazioni e l'impatto di questo potente modello sono davvero illimitati.

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.