Connect with us

Mistral AI’s Latest Mixture of Experts (MoE) 8x7B Model

Intelligenza artificiale

Mistral AI’s Latest Mixture of Experts (MoE) 8x7B Model

mm
Mixture of Experts mistral ai

Mistral AI

che è una startup di modelli open-source con sede a Parigi ha sfidato le norme rilasciando il suo ultimo modello di linguaggio grande (LLM), MoE 8x7B, attraverso un semplice collegamento torrent. Ciò si contrappone all’approccio tradizionale di Google con il rilascio di Gemini, scatenando conversazioni e entusiasmo all’interno della comunità AI. L’approccio di Mistral AI ai rilasci è sempre stato non convenzionale. Spesso rinunciando ai soliti accompagnamenti di articoli, blog o comunicati stampa, la loro strategia è stata unicamente efficace nel catturare l’attenzione della comunità AI. Recentemente, l’azienda ha raggiunto una valutazione notevole di $2 miliardi dopo un round di finanziamento guidato da Andreessen Horowitz. Questo round di finanziamento è stato storico, stabilendo un record con un round di seeding di $118 milioni, il più grande nella storia europea. Oltre ai successi di finanziamento, il coinvolgimento attivo di Mistral AI nelle discussioni intorno all’AI Act dell’UE, sostenendo una regolamentazione ridotta per l’AI open-source. Perché MoE 8x7B sta attirando l’attenzione Descritto come un “GPT-4 ridotto”, Mixtral 8x7B utilizza un framework Mixture of Experts (MoE) con otto esperti. Ogni esperto ha 111B parametri, accoppiati con 55B parametri di attenzione condivisi, per un totale di 166B parametri per modello. Questa scelta di progettazione è significativa poiché consente che solo due esperti siano coinvolti nell’inferenza di ciascun token, evidenziando un passaggio verso un’elaborazione AI più efficiente e focalizzata. Uno dei punti salienti di Mixtral è la sua capacità di gestire un contesto estensivo di 32.000 token, offrendo un ampio margine per gestire compiti complessi. Le capacità multilingue del modello includono un supporto robusto per inglese, francese, italiano, tedesco e spagnolo, rivolto a una comunità di sviluppatori globale. Il pre-addestramento di Mixtral coinvolge dati provenienti dal Web aperto, con un approccio di addestramento simultaneo per entrambi gli esperti e i router. Questo metodo garantisce che il modello non sia solo vasto nel suo spazio di parametri, ma anche finemente tarato alle sfumature dei vasti dati a cui è stato esposto.

Mixtral 8x7B ottiene un punteggio impressionante

Mixtral 8x7B ottiene un punteggio impressionante

Mixtral 8x7B supera LLaMA 2 70B e rivaleggia con GPT-3.5, in particolare notevole nel task MBPP con un tasso di successo del 60,7%, significativamente più alto dei suoi omologhi. Anche nel rigoroso MT-Bench progettato per modelli di follow-up delle istruzioni, Mixtral 8x7B ottiene un punteggio impressionante, quasi uguale a GPT-3.5 Comprendere il framework Mixture of Experts (MoE) Il modello Mixture of Experts (MoE), mentre sta guadagnando recente attenzione a causa della sua incorporazione in modelli di linguaggio di stato dell’arte come MoE 8x7B di Mistral AI, è in realtà radicato in concetti fondamentali che risalgono a diversi anni fa. Rivisitiamo l’origine di questa idea attraverso seminali articoli di ricerca. Il concetto di MoE Mixture of Experts (MoE) rappresenta un cambiamento di paradigma nell’architettura della rete neurale. A differenza dei modelli tradizionali che utilizzano una rete singola e omogenea per elaborare tutti i tipi di dati, MoE adotta un approccio più specializzato e modulare. Consiste in più reti ‘esperte’, ciascuna progettata per gestire tipi di dati o compiti specifici, supervisionate da una ‘rete di controllo’ che indirizza dinamicamente i dati di input all’esperto più adatto.

Un livello Mixture of Experts (MoE) incorporato all'interno di un modello di linguaggio ricorrente

Un livello Mixture of Experts (MoE) incorporato all’interno di un modello di linguaggio ricorrente (Fonte)

  L’immagine sopra presenta una visione ad alto livello di un livello MoE incorporato all’interno di un modello di linguaggio. Nella sua essenza, il livello MoE comprende più sottoreti feed-forward, denominate ‘esperti’, ciascuna con il potenziale di specializzarsi nell’elaborazione di diversi aspetti dei dati. Una rete di controllo, evidenziata nel diagramma, determina quale combinazione di questi esperti è coinvolta per un determinato input. Questa attivazione condizionale consente alla rete di aumentare notevolmente la sua capacità senza un corrispondente aumento della domanda computazionale. Funzionalità del livello MoE Nella pratica, la rete di controllo valuta l’input (denominato G(x) nel diagramma) e seleziona un insieme sparso di esperti per elaborarlo. Questa selezione è modulata dagli output della rete di controllo, determinando efficacemente il ‘voto’ o il contributo di ciascun esperto al output finale. Ad esempio, come mostrato nel diagramma, solo due esperti possono essere scelti per il calcolo dell’output per ciascun token di input specifico, rendendo il processo efficiente concentrandomo le risorse computazionali dove sono più necessarie.  

Encoder Transformer con livelli MoE (Fonte)

La seconda illustrazione sopra contrasta un encoder Transformer tradizionale con uno aumentato da un livello MoE. L’architettura Transformer, ampiamente nota per la sua efficacia nelle attività legate al linguaggio, tradizionalmente consiste in livelli di auto-attenzione e feed-forward impilati in sequenza. L’introduzione dei livelli MoE sostituisce alcuni di questi livelli feed-forward, consentendo al modello di scalare con rispetto alla capacità in modo più efficace. Nel modello aumentato, i livelli MoE sono suddivisi su più dispositivi, mostrando un approccio modello-parallelo. Ciò è critico quando si scala a modelli molto grandi, poiché consente la distribuzione del carico computazionale e dei requisiti di memoria su un cluster di dispositivi, come GPU o TPU. Questa suddivisione è essenziale per l’addestramento e la distribuzione di modelli con miliardi di parametri in modo efficiente, come dimostrato dall’addestramento di modelli con centinaia di miliardi o oltre un trilione di parametri su cluster di calcolo di larga scala. L’approccio Sparse MoE con istruzione di tuning su LLM L’articolo intitolato “Sparse Mixture-of-Experts (MoE) per la modellazione del linguaggio scalabile” discute un approccio innovativo per migliorare i Large Language Models (LLM) integrando l’architettura Mixture of Experts con tecniche di istruzione di tuning. Evidenzia una sfida comune in cui i modelli MoE sotto-performano rispetto ai modelli densi di capacità computazionale equivalente quando ottimizzati per compiti specifici a causa delle discordanze tra il pre-addestramento generale e l’ottimizzazione del compito specifico. L’istruzione di tuning è una metodologia di addestramento in cui i modelli vengono raffinati per seguire meglio le istruzioni del linguaggio naturale, migliorando efficacemente le loro prestazioni nei compiti. L’articolo suggerisce che i modelli MoE mostrano un miglioramento notevole quando combinati con l’istruzione di tuning, più dei loro omologhi densi. Questa tecnica allinea le rappresentazioni pre-addestrate del modello per seguire le istruzioni in modo più efficace, portando a significativi miglioramenti delle prestazioni. I ricercatori hanno condotto studi in tre setup sperimentali, rivelando che i modelli MoE inizialmente sotto-performano nell’ottimizzazione diretta del compito specifico. Tuttavia, quando si applica l’istruzione di tuning, i modelli MoE eccellono, in particolare quando ulteriormente integrati con l’ottimizzazione del compito specifico. Ciò suggerisce che l’istruzione di tuning è un passaggio fondamentale per i modelli MoE per superare i modelli densi nei compiti a valle.

L'effetto dell'istruzione di tuning su MOE

L’effetto dell’istruzione di tuning su MOE

Introduce anche FLAN-MOE32B, un modello che dimostra l’applicazione efficace di questi concetti. Notoriamente, supera FLAN-PALM62B, un modello denso, sui compiti di benchmark utilizzando solo un terzo delle risorse computazionali. Ciò dimostra il potenziale per modelli MoE sparsi combinati con l’istruzione di tuning per stabilire nuovi standard per l’efficienza e le prestazioni dei LLM. Implementazione della Mixture of Experts in scenari del mondo reale La versatilità dei modelli MoE li rende ideali per una gamma di applicazioni:

  • Elaborazione del linguaggio naturale (NLP): i modelli MoE possono gestire le sfumature e le complessità del linguaggio umano in modo più efficace, rendendoli ideali per compiti NLP avanzati.
  • Elaborazione di immagini e video: in compiti che richiedono un’elaborazione ad alta risoluzione, MoE può gestire diversi aspetti delle immagini o dei frame del video, migliorando sia la qualità che la velocità di elaborazione.
  • Soluzioni AI personalizzate: aziende e ricercatori possono adattare i modelli MoE a compiti specifici, portando a soluzioni AI più mirate ed efficaci.

Sfide e considerazioni

Mentre i modelli MoE offrono numerosi vantaggi, presentano anche sfide uniche:

  • Complessità nell’addestramento e nell’ottimizzazione: la natura distribuita dei modelli MoE può complicare il processo di addestramento, richiedendo un equilibrio e un’ottimizzazione attenti degli esperti e della rete di controllo.
  • Gestione delle risorse: gestire efficientemente le risorse computazionali tra più esperti è cruciale per massimizzare i vantaggi dei modelli MoE.

Incorporare livelli MoE nelle reti neurali, specialmente nel dominio dei modelli di linguaggio, offre un percorso verso la scalabilità dei modelli a dimensioni precedentemente infeasibili a causa delle limitazioni computazionali. Il calcolo condizionale abilitato dai livelli MoE consente una distribuzione più efficiente delle risorse computazionali, rendendo possibile l’addestramento di modelli più grandi e capaci. Man mano che continuiamo a richiedere di più ai nostri sistemi AI, architetture come il Transformer dotato di MoE sono probabilmente destinate a diventare lo standard per gestire compiti complessi e su larga scala in vari domini.

Ho trascorso gli ultimi cinque anni immergendomi nel fascinante mondo del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità continua mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.