mozzicone MoE-LLaVA: mix di esperti per grandi modelli di visione-linguaggio - Unite.AI
Seguici sui social

Intelligenza Artificiale

MoE-LLaVA: mix di esperti per modelli di linguaggio-visione di grandi dimensioni

mm
aggiornato on
MoE-LLaVA: mix di esperti per modelli di linguaggio-visione di grandi dimensioni

I recenti progressi nei Large Vision Language Models (LVLM) hanno dimostrato che il ridimensionamento di questi framework aumenta significativamente le prestazioni in una varietà di attività a valle. Gli LVLM, inclusi MiniGPT, LLaMA e altri, hanno raggiunto notevoli capacità incorporando livelli di proiezione visiva e un codificatore di immagini nella loro architettura. Implementando questi componenti, gli LVLM migliorano le capacità di percezione visiva dei Large Language Models (LLM). Le prestazioni possono essere ulteriormente migliorate aumentando le dimensioni del modello e il numero di parametri, nonché espandendo la scala del set di dati.

Modelli come InternVL hanno ampliato il proprio codificatore di immagini a oltre 6 miliardi di parametri, mentre altri hanno esteso il backend degli LVLM a 13 miliardi di parametri, ottenendo prestazioni superiori su un'ampia gamma di attività. IDEFICS ha addestrato un LVLM con oltre 80 miliardi di parametri. Questi metodi di scalabilità hanno eguagliato o superato le prestazioni dei LLM preaddestrati su oltre 34, 70 o addirittura 100 miliardi di parametri. Tuttavia, il ridimensionamento presenta uno svantaggio: aumenta significativamente i costi di formazione e inferenza. Questo perché richiede che tutti i parametri siano attivi per ciascun token nel calcolo, comportando elevate esigenze computazionali e, di conseguenza, costi più elevati.

Questo articolo discute MoE-LLaVA, un'architettura LVLM sparsa basata su Mixture of Experts (MoE) che impiega una strategia di formazione efficace, MoE-Tuning, per LVLM. MoE-Tuning affronta in modo innovativo il degrado delle prestazioni nell'apprendimento multimodale della scarsità, producendo un modello con un gran numero di parametri ma costi di formazione e inferenza coerenti. L'architettura MoE-LLaVA è progettata per attivare solo i migliori esperti durante l'implementazione, mantenendo il resto inattivo.

Esploreremo il framework MoE-LLaVA, esaminandone il meccanismo, la metodologia, l'architettura e il modo in cui si confronta con i principali framework di generazione di immagini e video.

MoE-LLaVA: scalare modelli linguistici di visione di grandi dimensioni in modo conveniente

Oltre a sfruttare i livelli di proiezione visiva e i codificatori di immagini, i modelli linguistici di visione di grandi dimensioni aumentano anche le dimensioni del modello aumentando il numero di parametri per migliorare le prestazioni del modello. Alcuni esempi degni di nota di modelli linguistici di visione ampia che hanno seguito questo approccio per migliorare le proprie prestazioni sono MiniGPT-4, InternGPT, InternVL e altri. Nelle applicazioni del mondo reale, la scalabilità di un modello linguistico di grandi dimensioni o di un modello linguistico di visione ampia con dati di addestramento di alta qualità diventa spesso una necessità per migliorare le prestazioni del modello. Sebbene il ridimensionamento delle dimensioni di un modello migliori le prestazioni, aumenta anche i costi computazionali di addestramento e distribuzione del modello e aumenta ulteriormente le complicazioni e l'efficienza della distribuzione simultanea del modello su dispositivi paralleli. Una delle ragioni principali dietro l’aumento dei costi di formazione e inferenza insieme ai requisiti computazionali è che ogni token nel framework richiede il calcolo con ogni singolo parametro all’interno del modello noto come modello denso. 

D'altra parte, MoE sparsi o Mixture of Expert Models hanno dimostrato un efficace ridimensionamento dei framework elaborando i dati con l'aiuto di parametri attivati ​​fissi, un approccio che è stato ampiamente adottato nel campo dell'elaborazione del linguaggio naturale. Tuttavia, l'utilizzo di Mixture of Expert per addestrare direttamente modelli sparsi di linguaggio Large Vision è impegnativo poiché la conversione di LLM in LVLM e la diffusione simultanea del modello comportano un significativo degrado delle prestazioni. Per implementare la combinazione di modelli per ridimensionare LLM e LVLM, è essenziale inizializzare innanzitutto LVLM per la sparsificazione. Per raggiungere questo obiettivo, il framework MoE-LLaVA introduce MoE-Tuning, una strategia di formazione in tre fasi semplice ma efficace. 

Come mostrato nella figura sopra, il processo MoE-Tuning addestra innanzitutto un MLP o un Perceptron multistrato che adatta i token visivi a un modello linguistico di grandi dimensioni nella prima fase. Il quadro addestra quindi tutti i parametri del LLM per pre-potenziare il modello linguistico di visione ampia con capacità generali di comprensione multimodale. Infine, nella terza fase, il framework replica la FFN o Feed Forward Network poiché l'inizializzazione pesa per gli esperti e addestra solo i livelli Mixture of Expert. Nel complesso, il processo di formazione aiuta nella transizione graduale del modello sparso da un'inizializzazione LVLM a una miscela sparsa di modelli esperti. 

Una volta trattato il processo di formazione, facciamo luce su MoE-LLaVA, una linea di base per modelli linguistici di visione di grandi dimensioni con una combinazione di modelli esperti che incorpora router apprendibili e modelli MoE. Fondamentalmente, il modello MoE-LLaVA è costituito da più percorsi sparsi e il framework utilizza questi percorsi per inviare ciascun token a diversi esperti attraverso il router apprendibile. I token vengono quindi elaborati collettivamente dagli esperti attivati ​​mantenendo silenziosi i percorsi inattivi. Il framework quindi impila i livelli del codificatore Mixture of Expert in modo iterativo per fornire un percorso sparso verso un LVLM più grande e potente. 

Grazie all'approccio implementato dal framework MoE-LLaVA, è in grado di sovraperformare i modelli con un numero simile di parametri attivati ​​e di superarli con una grande differenza sul benchmark dell'allucinazione degli oggetti POPE, nonostante abbia solo 2.2 miliardi di parametri. Inoltre, il framework MoE-LLaVA con 2.2 miliardi di parametri, è in grado di raggiungere prestazioni paragonabili al framework InternVL-Chat-19B con quasi 8 volte il numero di parametri attivati. 

Sono stati implementati potenti modelli linguistici di grandi dimensioni con forte generalizzazione e capacità di seguire le istruzioni Modelli linguistici a visione ampia. I primi LLM come BLIP codificavano i segnali visivi in ​​una sequenza di token visivi consentendo loro di adattare con successo la visione ai LLM utilizzando più livelli di proiezione. Allo stesso tempo, lavori recenti si concentrano sul miglioramento delle prestazioni del modello implementando metodi come l’espansione del set di dati di ottimizzazione delle istruzioni, l’aumento della risoluzione dell’immagine, l’ottimizzazione delle strategie di addestramento, l’allineamento dell’input, il miglioramento dei codificatori di immagini e molto altro. Questi approcci hanno contribuito a potenziare gli LVLM con potenti capacità di comprensione visiva espandendo il set di dati e le scale del modello delle istruzioni visive. Inoltre, alcuni LVLM possiedono anche capacità di comprensione delle immagini a grana fine come la comprensione di regioni e multiregioni insieme a capacità di messa a terra a livello di pixel. Tuttavia, il costo computazionale associato all’ingrandimento di dati e modelli visivi densi è spesso notevolmente elevato, il che rende difficile indossarli. D’altro canto, il quadro MoE-LLaVA mira a rendere la ricerca LVLM più accessibile sfruttando le capacità dei modelli MoE. 

MoE-LLaVA: metodo e architettura

Fondamentalmente, il framework MoE-LLaVA è costituito da uno strato di proiezione visiva (Multilayer Perceptron), un codificatore di visione, blocchi MoE, blocchi LLM multipli impilati e uno strato di incorporamento di parole. 

Architettura

La tabella seguente riassume le configurazioni dettagliate del framework MoE-LLaVA. 

Per una data immagine RGB, il codificatore di visione elabora le immagini per ottenere una sequenza di token visivi con uno strato di proiezione visiva che mappa la sequenza di token visivi sulle immagini di input. Gli input di testo vengono elaborati dal livello di incorporamento delle parole che poi lo proietta per ottenere i token di sequenza. Allo stesso tempo, il framework MoE-LLaVA collega insieme il testo e i token visivi e li fornisce al LLM. Tuttavia, il framework addestra solo lo strato di proiezione visiva con il modello linguistico di grandi dimensioni costituito da FFN o reti neurali feedforward e livelli di autoattenzione multi-testa. Infine, il framework applica connessioni residue e normalizzazione dei livelli a ciascun blocco. 

Andando avanti, il framework MoE-LLaVA replica la FFN o le reti neurali feedforward dalla seconda fase per formare un insieme di esperti come fase di inizializzazione. Il router essendo uno strato lineare, prevede la probabilità che ciascun token venga assegnato a ciascun esperto. Ogni token viene elaborato dagli esperti top-k con la massima probabilità e calcola la somma ponderata in base al risultato softmax delle probabilità. 

MoE-Tuning

MoE-Tuning è una strategia di formazione in tre fasi semplice ma efficace che addestra innanzitutto un MLP o un Perceptron multistrato che adatta i token visivi a un modello linguistico di grandi dimensioni nella prima fase. Il quadro addestra quindi tutti i parametri del LLM per pre-potenziare il modello linguistico di visione ampia con capacità generali di comprensione multimodale. Infine, nella terza fase, il framework replica la FFN o Feed Forward Network poiché l'inizializzazione pesa per gli esperti e addestra solo i livelli Mixture of Expert. 

Stage 1

Nella prima fase, l'obiettivo principale è adattare i token dell'immagine al modello linguistico di grandi dimensioni che consente al LLM di comprendere le istanze nell'immagine. Il framework MoE-LLaVA utilizza un perceptron multistrato per proiettare i token di immagine nel dominio di input del modello linguistico di grandi dimensioni e tratta le patch di immagini come token di pseudo-testo. In questa fase, il framework MoE-LLaVA addestra il LLM a descrivere le immagini e non applica i livelli MoE al LLM durante questa fase.

Stage 2

Nella seconda fase, il MoE-LLaVA tenta di migliorare le capacità e la controllabilità del quadro mettendo a punto il modello con dati di istruzioni multimodali. Il quadro MoE-LLaVA raggiunge questo obiettivo adattando il LLM per diventare un LVLM con capacità di comprensione multimodale. Il framework utilizza istruzioni più complesse tra cui il riconoscimento del testo e attività di ragionamento logico su immagini che richiedono che il modello possieda capacità multimodali più forti. Tradizionalmente, il processo di training per i modelli densi viene considerato completo in questo passaggio. Tuttavia, il quadro MoE-LLaVA ha incontrato sfide nel trasformare il LLM in un LVLM contemporaneamente alla dispersione dell'LVLM. Per contrastare questa sfida, il framework utilizza i pesi della fase come inizializzazione per la fase successiva nel tentativo di alleviare la difficoltà di apprendimento del modello sparso. 

Stage 3

Nella terza fase, il modello replica più volte la rete neurale feedforward per inizializzare gli esperti come procedura di inizializzazione. Il framework quindi inserisce i token di testo e immagine nella combinazione di livelli avanzati dopo di che il router calcola i pesi corrispondenti tra esperti e ciascun token. Ogni token viene quindi elaborato dagli esperti top-k con l'output aggregato calcolato mediante somma ponderata in base ai pesi del router. Una volta attivati ​​gli esperti top-k, il modello chiude gli esperti rimanenti, un approccio che dota il framework MoE-LLaVA di percorsi sparsi infinitamente possibili, dotando così il modello di un’ampia gamma di capacità. 

MoE-LLaVA: risultati ed esperimenti

Il framework MoE-LLaVA adotta CLIP-Large come codificatore di visione con il Perceptron multistrato costituito da due strati con uno strato di attivazione GELU che separa i due. Per impostazione predefinita, il framework utilizza una sostituzione alternata delle reti neurali feedforward con la miscela di livelli esperti, il che significa che la miscela di livelli esperti comprende il 50% del numero totale di livelli. La tabella seguente contiene i diversi set di dati insieme alle dimensioni del campione utilizzati per addestrare e valutare il framework MoE-LLaVA. 

Risposte alle domande sulle immagini a scatto zero

La figura seguente dimostra che MoE-LLaVA è un modello sparso con un router morbido basato su LVLM. Il framework viene valutato in base a 5 benchmark di risposta alle domande sulle immagini e, come si può osservare, il framework MoE-LLaVA dimostra notevoli capacità di comprensione delle immagini e offre prestazioni paragonabili al framework all'avanguardia LLaVA 1.5 su cinque diversi benchmark. 

Valutazione dell'allucinazione dell'oggetto

Per valutare l'allucinazione degli oggetti, il framework MoE-LLaVA adotta la pipeline di valutazione POPE, un metodo di query basato sul polling, e i risultati sono mostrati nella tabella seguente. Come si può osservare, tra tutti i framework, il MoE-LLaVA fornisce i risultati più forti, indicando la capacità del framework di generare oggetti coerenti con l'immagine di input. Inoltre, vale la pena notare che il modello MoE-LLaVA bilancia bene il rapporto sì, indicando la capacità del modello sparso di fornire un feedback accurato per la domanda data. 

L'immagine seguente contiene la distribuzione dei caricamenti degli esperti, dove le linee discontinue rappresentano una distribuzione ben bilanciata dei token tra le modalità o gli esperti. La prima figura illustra il carico di lavoro degli esperti mentre le restanti immagini dimostrano le prestazioni degli esperti rispetto a diverse modalità. 

Inoltre, la figura seguente mostra la distribuzione delle modalità tra diversi esperti. 

Considerazioni finali

In questo articolo abbiamo parlato di MoE-LLaVA, una linea di base per modelli linguistici di visione ampia con una combinazione di modelli esperti che incorpora router apprendibili e modelli MoE. Fondamentalmente, il modello MoE-LLaVA è costituito da più percorsi sparsi e il framework utilizza questi percorsi per inviare ciascun token a diversi esperti attraverso il router apprendibile. I token vengono quindi elaborati collettivamente dagli esperti attivati ​​mantenendo silenziosi i percorsi inattivi. Il framework quindi impila i livelli del codificatore Mixture of Expert in modo iterativo per fornire un percorso sparso verso un LVLM più grande e potente. La strategia MoE-Tuning affronta il problema comune del degrado delle prestazioni nell'apprendimento multimodale della scarsità in modo innovativo, costruendo di conseguenza un modello con un numero significativamente elevato di parametri ma costi di formazione e inferenza coerenti. L'architettura del framework MoE-LLaVA è stata progettata in modo tale da attivare solo gli esperti più importanti durante l'implementazione, mantenendo inattivi gli esperti rimanenti.