mozzicone L'ultimo modello Mixture of Experts (MoE) 8x7B di Mistral AI - Unite.AI
Seguici sui social

Intelligenza Artificiale

L'ultimo modello Mixture of Experts (MoE) 8x7B di Mistral AI

mm

Pubblicato il

 on

Miscela di esperti mistral ai

Maestrale AI che è una startup modello open source con sede a Parigi, ha sfidato le norme rilasciando il suo ultimo modello linguistico di grandi dimensioni (LLM), MoE 8x7B, attraverso un semplice collegamento torrente. Ciò contrasta con l'approccio tradizionale di Google con il rilascio di Gemini, suscitando conversazioni ed entusiasmo all'interno della comunità AI.

L'approccio di Mistral AI ai rilasci è sempre stato non convenzionale. Spesso rinunciando ai consueti accompagnamenti di articoli, blog o comunicati stampa, la loro strategia è stata particolarmente efficace nel catturare l'attenzione della comunità dell'intelligenza artificiale.

Recentemente, l'azienda ha raggiunto un notevole risultato $ 2 miliardi di valutazione a seguito di un round di finanziamento guidato da Andreessen Horowitz. Questo round di finanziamento è stato storico, stabilendo un record con un round di seed da 118 milioni di dollari, il più grande nella storia europea. Al di là dei successi nei finanziamenti, il coinvolgimento attivo di Mistral AI nelle discussioni sull’EU AI Act, sostenendo una regolamentazione ridotta nell’IA open source.

Perché MoE 8x7B attira l'attenzione

Descritto come un "GPT-4 ridotto", Mixtral 8x7B utilizza un framework Mixture of Experts (MoE) con otto esperti. Ciascun esperto dispone di 111B parametri, abbinati a 55B parametri di attenzione condivisa, per un totale di 166B parametri per modello. Questa scelta progettuale è significativa in quanto consente di coinvolgere solo due esperti nell’inferenza di ciascun token, evidenziando uno spostamento verso un’elaborazione dell’IA più efficiente e mirata.

Uno dei punti salienti di Mixtral è la sua capacità di gestire un ampio contesto di 32,000 token, offrendo ampio spazio per la gestione di attività complesse. Le funzionalità multilingue del modello includono un solido supporto per inglese, francese, italiano, tedesco e spagnolo, rivolgendosi a una comunità di sviluppatori globale.

La pre-formazione di Mixtral coinvolge dati provenienti dal Web aperto, con un approccio di formazione simultaneo sia per esperti che per router. Questo metodo garantisce che il modello non sia solo vasto nello spazio dei suoi parametri, ma anche perfettamente sintonizzato sulle sfumature dei vasti dati a cui è stato esposto.

Mixtral 8x7B raggiunge un punteggio impressionante

Mixtral 8x7B ottiene un punteggio impressionante

Mixtral 8x7B supera LLaMA 2 70B e rivaleggia con GPT-3.5, particolarmente notevole nell'attività MBPP con un tasso di successo del 60.7%, significativamente più alto rispetto alle sue controparti. Anche nel rigoroso MT-Bench su misura per i modelli che seguono le istruzioni, Mixtral 8x7B raggiunge un punteggio impressionante, quasi eguagliando GPT-3.5

Comprendere il quadro della miscela di esperti (MoE).

Il modello Mixture of Experts (MoE), pur guadagnando recentemente attenzione grazie alla sua incorporazione in modelli linguistici all'avanguardia come MoE 8x7B di Mistral AI, è in realtà radicato in concetti fondamentali che risalgono a diversi anni fa. Rivisitiamo le origini di questa idea attraverso documenti di ricerca seminali.

Il concetto di MdE

Mixture of Experts (MoE) rappresenta un cambiamento di paradigma nell'architettura delle reti neurali. A differenza dei modelli tradizionali che utilizzano una rete unica e omogenea per elaborare tutte le tipologie di dati, il Ministero adotta un approccio più specializzato e modulare. È costituito da più reti di "esperti", ciascuna progettata per gestire tipi specifici di dati o attività, supervisionate da una "rete di accesso" che indirizza dinamicamente i dati di input all'esperto più appropriato.

Un livello di miscela di esperti (MoE) incorporato in un modello linguistico ricorrente

Uno strato di Mixture of Experts (MoE) incorporato in un modello linguistico ricorrente (Fonte)

 

L'immagine sopra presenta una vista di alto livello di uno strato MoE incorporato in un modello linguistico. Nella sua essenza, il livello MoE comprende più sottoreti feed-forward, chiamate "esperti", ciascuna con il potenziale di specializzarsi nell'elaborazione di diversi aspetti dei dati. Una rete di porte, evidenziata nel diagramma, determina quale combinazione di questi esperti è impegnata per un dato input. Questa attivazione condizionale consente alla rete di aumentare significativamente la propria capacità senza un corrispondente aumento della domanda computazionale.

Funzionalità dello strato MoE

In pratica, la rete di gate valuta l'input (indicato come G(x) nel diagramma) e seleziona un insieme sparso di esperti per elaborarlo. Questa selezione è modulata dai risultati della rete di controllo, determinando di fatto il "voto" o il contributo di ciascun esperto al risultato finale. Ad esempio, come mostrato nel diagramma, è possibile scegliere solo due esperti per calcolare l'output per ogni specifico token di input, rendendo il processo efficiente concentrando le risorse computazionali dove sono più necessarie.

 

Encoder trasformatore con strati MoE (Fonte)

La seconda illustrazione sopra mette a confronto un codificatore Transformer tradizionale con uno potenziato da uno strato MoE. L'architettura Transformer, ampiamente nota per la sua efficacia nei compiti legati al linguaggio, consiste tradizionalmente in strati di auto-attenzione e feed-forward impilati in sequenza. L’introduzione dei livelli MoE sostituisce alcuni di questi livelli feed-forward, consentendo al modello di scalare in modo più efficace rispetto alla capacità.

Nel modello aumentato, gli strati MoE vengono suddivisi su più dispositivi, mostrando un approccio parallelo al modello. Ciò è fondamentale quando si passa a modelli molto grandi, poiché consente la distribuzione del carico di calcolo e dei requisiti di memoria su un cluster di dispositivi, come GPU o TPU. Questo sharding è essenziale per addestrare e distribuire in modo efficiente modelli con miliardi di parametri, come evidenziato dall’addestramento di modelli con centinaia di miliardi fino a oltre un trilione di parametri su cluster di elaborazione su larga scala.

L'approccio Sparse MoE con ottimizzazione delle istruzioni su LLM

Il documento intitolato “Miscela sparsa di esperti (MoE) per la modellazione linguistica scalabile" discute un approccio innovativo per migliorare i Large Language Models (LLM) integrando l'architettura Mixture of Experts con tecniche di ottimizzazione delle istruzioni.

Evidenzia una sfida comune in cui i modelli MoE hanno prestazioni inferiori rispetto ai modelli densi di pari capacità computazionale quando ottimizzati per compiti specifici a causa delle discrepanze tra la pre-formazione generale e la messa a punto specifica dell'attività.

L'ottimizzazione delle istruzioni è una metodologia di formazione in cui i modelli vengono perfezionati per seguire meglio le istruzioni del linguaggio naturale, migliorando in modo efficace le prestazioni dei compiti. L'articolo suggerisce che i modelli MoE mostrano un notevole miglioramento se combinati con la messa a punto delle istruzioni, più delle loro controparti dense. Questa tecnica allinea le rappresentazioni pre-addestrate del modello per seguire le istruzioni in modo più efficace, portando a miglioramenti significativi delle prestazioni.

I ricercatori hanno condotto studi su tre configurazioni sperimentali, rivelando che i modelli MoE inizialmente hanno prestazioni inferiori nella messa a punto diretta di attività specifiche. Tuttavia, quando viene applicata la messa a punto delle istruzioni, i modelli MoE eccellono, in particolare se ulteriormente integrati con la messa a punto specifica del compito. Ciò suggerisce che la messa a punto delle istruzioni è un passo fondamentale affinché i modelli MoE possano superare i modelli densi nelle attività a valle.

L'effetto dell'ottimizzazione delle istruzioni su MOE

L'effetto dell'ottimizzazione delle istruzioni su MOE

Presenta inoltre FLAN-MOE32B, un modello che dimostra l'applicazione riuscita di questi concetti. In particolare, surclassa FLAN-PALM62B, un modello denso, nelle attività di benchmark utilizzando solo un terzo delle risorse computazionali. Ciò dimostra il potenziale dei modelli MoE sparsi combinati con l’ottimizzazione delle istruzioni per stabilire nuovi standard per l’efficienza e le prestazioni LLM.

Implementazione di una combinazione di esperti in scenari del mondo reale

La versatilità dei modelli MoE li rende ideali per una vasta gamma di applicazioni:

  • Elaborazione del linguaggio naturale (PNL): I modelli MoE possono gestire le sfumature e le complessità del linguaggio umano in modo più efficace, rendendoli ideali per attività avanzate di PNL.
  • Elaborazione di immagini e video: Nelle attività che richiedono un'elaborazione ad alta risoluzione, MoE può gestire diversi aspetti di immagini o fotogrammi video, migliorando sia la qualità che la velocità di elaborazione.
  • Soluzioni IA personalizzabili: Aziende e ricercatori possono adattare i modelli del Ministero dell’Ambiente a compiti specifici, portando a soluzioni di IA più mirate ed efficaci.

Sfide e considerazioni

Sebbene i modelli MoE offrano numerosi vantaggi, presentano anche sfide uniche:

  • Complessità nell'addestramento e nella messa a punto: La natura distribuita dei modelli del Ministero dell’Ambiente può complicare il processo di formazione, richiedendo un attento bilanciamento e messa a punto degli esperti e della rete di controllo.
  • Gestione delle risorse: La gestione efficiente delle risorse computazionali tra più esperti è fondamentale per massimizzare i vantaggi dei modelli MoE.

Incorporare strati MoE nelle reti neurali, soprattutto nel dominio dei modelli linguistici, offre un percorso verso il ridimensionamento dei modelli a dimensioni precedentemente irrealizzabili a causa di vincoli computazionali. Il calcolo condizionale consentito dai livelli MoE consente una distribuzione più efficiente delle risorse computazionali, rendendo possibile l’addestramento di modelli più grandi e più capaci. Poiché continuiamo a chiedere di più ai nostri sistemi di intelligenza artificiale, è probabile che architetture come il Transformer dotato del MoE diventino lo standard per la gestione di attività complesse su larga scala in vari domini.

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.