Intelligenza Artificiale

All'interno di DBRX: Databricks scatena il potente LLM open source

aggiornato on 16 aprile 2024

Nel campo in rapida evoluzione dei modelli linguistici di grandi dimensioni (LLM), è emerso un nuovo potente modello: DBRX, un modello open source creato da Databricks. Questo LLM sta facendo scalpore con le sue prestazioni all'avanguardia in un'ampia gamma di benchmark, rivaleggiando anche con le capacità di giganti del settore come GPT-4 di OpenAI.

DBRX rappresenta una pietra miliare significativa nella democratizzazione dell'intelligenza artificiale, fornendo a ricercatori, sviluppatori e imprese accesso aperto a un modello linguistico di alto livello. Ma cos’è esattamente DBRX e cosa lo rende così speciale? In questo approfondimento tecnico, esploreremo l'architettura innovativa, il processo di formazione e le funzionalità chiave che hanno portato DBRX in prima linea nel panorama LLM aperto.

La nascita di DBRX La creazione di DBRX è stata guidata dalla missione di Databricks di rendere l'intelligence dei dati accessibile a tutte le imprese. In qualità di leader nelle piattaforme di analisi dei dati, Databricks ha riconosciuto l'immenso potenziale degli LLM e ha deciso di sviluppare un modello in grado di eguagliare o addirittura superare le prestazioni delle offerte proprietarie.

Dopo mesi di intensa ricerca, sviluppo e un investimento multimilionario, il team Databricks ha raggiunto una svolta con DBRX. Le prestazioni impressionanti del modello su un'ampia gamma di parametri di riferimento, tra cui la comprensione del linguaggio, la programmazione e la matematica, lo hanno saldamente affermato come un nuovo stato dell'arte nei LLM aperti.

Architettura innovativa

Il potere della miscela di esperti Al centro delle eccezionali prestazioni di DBRX risiede la sua innovativa architettura mista di esperti (MoE). Questo design all'avanguardia rappresenta un allontanamento dai tradizionali modelli densi, adottando un approccio sparso che migliora sia l'efficienza del pre-training che la velocità di inferenza.

Nel quadro del MoE, per ciascun input viene attivato solo un gruppo selezionato di componenti, chiamati “esperti”. Questa specializzazione consente al modello di affrontare una gamma più ampia di compiti con maggiore abilità, ottimizzando al tempo stesso le risorse computazionali.

DBRX porta questo concetto ancora oltre con la sua architettura MoE a grana fine. A differenza di altri modelli del MoE che utilizzano un numero minore di esperti più grandi, DBRX impiega 16 esperti, con quattro esperti attivi per ogni dato input. Questo design fornisce un numero sorprendente di 65 volte più combinazioni professionali possibili, contribuendo direttamente alle prestazioni superiori di DBRX.

DBRX si differenzia per diverse caratteristiche innovative:

Codifiche di posizione rotante (RoPE): Migliora la comprensione delle posizioni dei token, fondamentale per generare testo contestualmente accurato.
Unità lineari con gate (GLU): Introduce un meccanismo di gating che migliora la capacità del modello di apprendere modelli complessi in modo più efficiente.
Attenzione alle query raggruppate (GQA): Migliora l'efficienza del modello ottimizzando il meccanismo di attenzione.
Tokenizzazione avanzata: Utilizza il tokenizzatore di GPT-4 per elaborare gli input in modo più efficace.

L'architettura MoE è particolarmente adatta per modelli linguistici su larga scala, poiché consente una scalabilità più efficiente e un migliore utilizzo delle risorse computazionali. Distribuendo il processo di apprendimento su più sottoreti specializzate, DBRX può allocare in modo efficace dati e potenza di calcolo per ciascuna attività, garantendo sia risultati di alta qualità che efficienza ottimale.

Dati di formazione estesi e ottimizzazione efficiente Sebbene l'architettura di DBRX sia senza dubbio impressionante, il suo vero potere risiede nel meticoloso processo di formazione e nell'enorme quantità di dati a cui è stato esposto. DBRX è stato pre-addestrato su ben 12 trilioni di token di dati di testo e codice, attentamente curati per garantire alta qualità e diversità.

I dati di addestramento sono stati elaborati utilizzando la suite di strumenti di Databricks, tra cui Apache Spark per l'elaborazione dei dati, Unity Catalog per la gestione e la governance dei dati e MLflow per il monitoraggio degli esperimenti. Questo set di strumenti completo ha consentito al team di Databricks di gestire, esplorare e perfezionare in modo efficace l'enorme set di dati, gettando le basi per le eccezionali prestazioni di DBRX.

Per migliorare ulteriormente le capacità del modello, Databricks ha utilizzato un curriculum di preformazione dinamico, variando in modo innovativo il mix di dati durante la formazione. Questa strategia ha consentito di elaborare efficacemente ciascun token utilizzando i 36 miliardi di parametri attivi, risultando in un modello più completo e adattabile.

Inoltre, il processo di formazione di DBRX è stato ottimizzato per l'efficienza, sfruttando la suite di strumenti e librerie proprietari di Databricks, tra cui Composer, LLM Foundry, MegaBlocks e Streaming. Utilizzando tecniche come l'apprendimento del curriculum e strategie di ottimizzazione ottimizzate, il team ha ottenuto un miglioramento di quasi quattro volte nell'efficienza di elaborazione rispetto ai modelli precedenti.

Formazione e Architettura

DBRX è stato addestrato utilizzando un modello di previsione del token successivo su un colossale set di dati di 12 trilioni di token, enfatizzando sia il testo che il codice. Si ritiene che questo set di formazione sia significativamente più efficace di quelli utilizzati nei modelli precedenti, garantendo una ricca comprensione e capacità di risposta a diversi prompt.

L'architettura di DBRX non è solo una testimonianza dell'abilità tecnica di Databricks, ma evidenzia anche la sua applicazione in più settori. Dal miglioramento delle interazioni dei chatbot al potenziamento di attività complesse di analisi dei dati, DBRX può essere integrato in diversi campi che richiedono una comprensione linguistica articolata.

Sorprendentemente, DBRX Instruct rivaleggia anche con alcuni dei modelli chiusi più avanzati sul mercato. Secondo le misurazioni di Databricks, supera GPT-3.5 ed è competitivo con Gemini 1.0 Pro e Mistral Medium in vari benchmark, tra cui conoscenza generale, ragionamento basato sul buon senso, programmazione e ragionamento matematico.

Ad esempio, sul benchmark MMLU, che misura la comprensione del linguaggio, DBRX Instruct ha ottenuto un punteggio del 73.7%, superando il punteggio riportato da GPT-3.5 del 70.0%. Nel benchmark del ragionamento basato sul buon senso di HellaSwag, DBRX Instruct ha ottenuto un impressionante 89.0%, superando l'3.5% di GPT-85.5.

DBRX Instruct brilla davvero, raggiungendo una notevole precisione del 70.1% sul benchmark HumanEval, superando non solo GPT-3.5 (48.1%) ma anche il modello specializzato CodeLLaMA-70B Instruct (67.8%).

Questi risultati eccezionali evidenziano la versatilità di DBRX e la sua capacità di eccellere in una vasta gamma di attività, dalla comprensione del linguaggio naturale alla programmazione complessa e alla risoluzione di problemi matematici.

Inferenza e scalabilità efficienti Uno dei principali vantaggi dell'architettura MoE di DBRX è la sua efficienza durante l'inferenza. Grazie all'attivazione sparsa dei parametri, DBRX può raggiungere un throughput di inferenza fino a due o tre volte più veloce rispetto ai modelli densi con lo stesso conteggio totale dei parametri.

Rispetto a LLaMA2-70B, un popolare LLM open source, DBRX non solo dimostra una qualità superiore ma vanta anche quasi il doppio della velocità di inferenza, nonostante abbia circa la metà dei parametri attivi. Questa efficienza rende DBRX una scelta interessante per l'implementazione in un'ampia gamma di applicazioni, dalla creazione di contenuti all'analisi dei dati e oltre.

Inoltre, Databricks ha sviluppato un solido stack di formazione che consente alle aziende di addestrare da zero i propri modelli di classe DBRX o di continuare la formazione oltre ai checkpoint forniti. Questa funzionalità consente alle aziende di sfruttare tutto il potenziale di DBRX e di adattarlo alle proprie esigenze specifiche, democratizzando ulteriormente l’accesso alla tecnologia LLM all’avanguardia.

Lo sviluppo del modello DBRX da parte di Databricks segna un progresso significativo nel campo dell'apprendimento automatico, in particolare attraverso l'utilizzo di strumenti innovativi della comunità open source. Questo percorso di sviluppo è influenzato in modo significativo da due tecnologie cruciali: la libreria MegaBlocks e il sistema FSDP (Fully Sharded Data Parallel) di PyTorch.

MegaBlocks: miglioramento dell'efficienza MoE

Il MegaBlocchi La libreria affronta le sfide associate al routing dinamico negli strati Mixture-of-Experts (MoE), un ostacolo comune nel ridimensionamento delle reti neurali. I framework tradizionali spesso impongono limitazioni che riducono l’efficienza del modello o ne compromettono la qualità. MegaBlocks, tuttavia, ridefinisce il calcolo del MoE attraverso operazioni a blocchi sparsi che gestiscono abilmente il dinamismo intrinseco all'interno dei MoE, evitando così questi compromessi.

Questo approccio non solo preserva l'integrità del token, ma si allinea bene anche con le moderne funzionalità delle GPU, facilitando tempi di addestramento fino al 40% più rapidi rispetto ai metodi tradizionali. Tale efficienza è fondamentale per l’addestramento di modelli come DBRX, che fanno molto affidamento su architetture MoE avanzate per gestire in modo efficiente i loro estesi set di parametri.

PyTorch FSDP: ridimensionamento di modelli di grandi dimensioni

Parallelo dei dati completamente condivisi di PyTorch (FSDP) presenta una soluzione solida per l'addestramento di modelli eccezionalmente grandi ottimizzando lo sharding e la distribuzione dei parametri su più dispositivi informatici. Progettato in collaborazione con i componenti chiave di PyTorch, FSDP si integra perfettamente, offrendo un'esperienza utente intuitiva simile alle configurazioni di formazione locali ma su scala molto più ampia.

La progettazione del FSDP affronta in modo intelligente diverse questioni critiche:

Esperienza da Utente: Semplifica l'interfaccia utente, nonostante i complessi processi di backend, rendendola più accessibile per un utilizzo più ampio.
Eterogeneità dell'hardware: Si adatta a diversi ambienti hardware per ottimizzare l'utilizzo delle risorse in modo efficiente.
Utilizzo delle risorse e pianificazione della memoria: FSDP migliora l'utilizzo delle risorse computazionali riducendo al minimo il sovraccarico della memoria, il che è essenziale per il training di modelli che operano sulla scala di DBRX.

FSDP non solo supporta modelli più ampi rispetto a quanto precedentemente possibile con il framework Distributed Data Parallel, ma mantiene anche una scalabilità quasi lineare in termini di throughput ed efficienza. Questa funzionalità si è rivelata essenziale per DBRX di Databricks, consentendogli di scalare su più GPU e gestendo in modo efficace il suo vasto numero di parametri.

Accessibilità e integrazioni

In linea con la sua missione di promuovere l'accesso aperto all'intelligenza artificiale, Databricks ha reso disponibile DBRX attraverso più canali. I pesi sia del modello base (DBRX Base) che del modello ottimizzato (DBRX Instruct) sono ospitati sulla popolare piattaforma Hugging Face, consentendo a ricercatori e sviluppatori di scaricare e lavorare facilmente con il modello.

Inoltre, la Repository del modello DBRX è disponibile su GitHub, garantendo trasparenza e consentendo un'ulteriore esplorazione e personalizzazione del codice del modello.

Per i clienti Databricks, DBRX Base e DBRX Instruct sono comodamente accessibili tramite le API Databricks Foundation Model, consentendo un'integrazione perfetta nei flussi di lavoro e nelle applicazioni esistenti. Ciò non solo semplifica il processo di distribuzione, ma garantisce anche la governance e la sicurezza dei dati per i casi d'uso sensibili.

Inoltre, DBRX è già stato integrato in diverse piattaforme e servizi di terze parti, come You.com e Perplexity Labs, ampliando la sua portata e le potenziali applicazioni. Queste integrazioni dimostrano il crescente interesse per DBRX e le sue capacità, nonché la crescente adozione di LLM aperti in vari settori e casi d’uso.

Funzionalità a contesto lungo e generazione aumentata di recupero Una delle caratteristiche più straordinarie di DBRX è la sua capacità di gestire input a contesto lungo, con una lunghezza massima del contesto di 32,768 token. Questa funzionalità consente al modello di elaborare e generare testo sulla base di ampie informazioni contestuali, rendendolo particolarmente adatto per attività quali il riepilogo dei documenti, la risposta alle domande e il recupero delle informazioni.

Nei benchmark che valutano le prestazioni a lungo contesto, come KV-Pairs e HotpotQAXL, DBRX Instruct ha sovraperformato GPT-3.5 Turbo su varie lunghezze di sequenza e posizioni di contesto.

DBRX supera i modelli open source consolidati in materia di comprensione del linguaggio (MMLU), programmazione (HumanEval) e matematica (GSM8K).

Limitazioni e lavoro futuro

Sebbene DBRX rappresenti un risultato significativo nel campo degli LLM aperti, è essenziale riconoscerne i limiti e le aree di miglioramento futuro. Come ogni modello di intelligenza artificiale, DBRX può produrre risposte imprecise o distorte, a seconda della qualità e della diversità dei dati di addestramento.

Inoltre, mentre DBRX eccelle nelle attività generiche, alcune applicazioni specifiche del dominio potrebbero richiedere ulteriore perfezionamento o formazione specializzata per ottenere prestazioni ottimali. Ad esempio, negli scenari in cui l'accuratezza e la fedeltà sono della massima importanza, Databricks consiglia di utilizzare tecniche RAG (retrieval augmented generation) per migliorare l'output del modello.

Inoltre, l'attuale set di dati di addestramento di DBRX è costituito principalmente da contenuti in lingua inglese, il che ne limita potenzialmente le prestazioni su attività non inglesi. Le future iterazioni del modello potrebbero comportare l’espansione dei dati di addestramento per includere una gamma più diversificata di lingue e contesti culturali.

Databricks si impegna a migliorare continuamente le capacità di DBRX e ad affrontarne i limiti. Il lavoro futuro si concentrerà sul miglioramento delle prestazioni, della scalabilità e dell’usabilità del modello in varie applicazioni e casi d’uso, nonché sull’esplorazione di tecniche per mitigare potenziali pregiudizi e promuovere l’uso etico dell’IA.

Inoltre, l’azienda prevede di perfezionare ulteriormente il processo di formazione, sfruttando tecniche avanzate come l’apprendimento federato e metodi di preservazione della privacy per garantire la privacy e la sicurezza dei dati.

La strada davanti

DBRX rappresenta un significativo passo avanti nella democratizzazione dello sviluppo dell'intelligenza artificiale. Immagina un futuro in cui ogni azienda avrà la capacità di controllare i propri dati e il proprio destino nel mondo emergente dell’intelligenza artificiale generativa.

Rendendo DBRX open source e fornendo l'accesso agli stessi strumenti e infrastrutture utilizzati per costruirlo, Databricks consente ad aziende e ricercatori di sviluppare i propri Databricks all'avanguardia su misura per le loro esigenze specifiche.

Attraverso la piattaforma Databricks, i clienti possono sfruttare la suite di strumenti di elaborazione dati dell'azienda, tra cui Apache Spark, Unity Catalog e MLflow, per curare e gestire i propri dati di formazione. Possono quindi utilizzare le librerie di training ottimizzate di Databricks, come Composer, LLM Foundry, MegaBlocks e Streaming, per addestrare i propri modelli di classe DBRX in modo efficiente e su larga scala.

Questa democratizzazione dello sviluppo dell’intelligenza artificiale ha il potenziale per sbloccare una nuova ondata di innovazione, poiché le aziende acquisiscono la capacità di sfruttare la potenza di modelli linguistici di grandi dimensioni per un’ampia gamma di applicazioni, dalla creazione di contenuti e analisi dei dati al supporto decisionale e oltre.

Inoltre, promuovendo un ecosistema aperto e collaborativo attorno a DBRX, Databricks mira ad accelerare il ritmo della ricerca e dello sviluppo nel campo dei modelli linguistici di grandi dimensioni. Man mano che sempre più organizzazioni e individui contribuiscono con le loro competenze e intuizioni, la conoscenza collettiva e la comprensione di questi potenti sistemi di intelligenza artificiale continueranno a crescere, aprendo la strada a modelli ancora più avanzati e capaci in futuro.

Conclusione

DBRX rappresenta un punto di svolta nel mondo dei modelli linguistici di grandi dimensioni open source. Con la sua innovativa architettura mista di esperti, dati di formazione estesi e prestazioni all'avanguardia, ha stabilito un nuovo punto di riferimento per ciò che è possibile fare con i LLM aperti.

Democratizzando l'accesso alla tecnologia AI all'avanguardia, DBRX consente a ricercatori, sviluppatori e imprese di esplorare nuove frontiere nell'elaborazione del linguaggio naturale, nella creazione di contenuti, nell'analisi dei dati e altro ancora. Mentre Databricks continua a perfezionare e migliorare DBRX, le potenziali applicazioni e l'impatto di questo potente modello sono davvero illimitati.

Argomenti correlati:Databricks DBRX GPT-3.5 LLM MegaBlocchi Maestrale Miscela di esperti MMLU

Avanti il prossimo

Arlington, Virginia: emergere come nuova potenza nell'innovazione dell'intelligenza artificiale

Da non perdere

Adobe presenta in anteprima i nuovi strumenti di intelligenza artificiale generativa per i flussi di lavoro video

Ayush Mittal

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.