Intelligenza artificiale

MiniGPT-5: Generazione Interleaved di Visione e Linguaggio tramite Generative Vokens

Published October 23, 2023

Updated April 4, 2026

Kunal Kejriwal

Negli ultimi anni, i Large Language Model (LLM) hanno attirato l’attenzione degli sviluppatori di intelligenza artificiale in tutto il mondo a causa dei progressi nella Natural Language Processing (NLP). Questi modelli hanno stabilito nuovi benchmark nella generazione di testi e nella comprensione. Tuttavia, nonostante i progressi nella generazione di testi, produrre immagini che corrispondano coerentemente alle narrazioni testuali è ancora una sfida. Per affrontare questo problema, gli sviluppatori hanno introdotto un approccio innovativo di generazione di visione e linguaggio basato su “generative vokens”, colmando il divario per output testo-immagine armonizzati.

La base del MiniGPT-5 è una strategia di addestramento a due fasi che si concentra fortemente sulla generazione di dati multimodali senza descrizioni, dove i dati di addestramento non richiedono descrizioni di immagini complete. Inoltre, per aumentare l’integrità del modello, il modello incorpora un sistema di guida senza classificatore che aumenta l’efficacia di un voken per la generazione di immagini. Nella fase iniziale, il framework MiniGPT-5 ha dimostrato prestazioni potenti e un miglioramento sostanziale rispetto al modello di base Divter addestrato sul set di dati MMDialog e ha costantemente dimostrato la sua capacità di fornire output multimodali comparabili e persino superiori nelle valutazioni umane eseguite sul set di dati VIST, che evidenzia ulteriormente le sue prestazioni ed efficienza in vari benchmark.

MiniGPT5: Un’introduzione

Con gli sviluppi recenti dei framework LLM e le applicazioni basate su questi framework LLM, l’integrazione delle funzionalità multimediali è un campo che ha assistito a un aumento della sua popolarità, poiché si rivela anche un’importante avanzamento che alimenta una vasta gamma di applicazioni, dalle strumenti di creazione di contenuti all’avanguardia agli agenti di dialogo multimodali all’avanguardia. Con la continua ricerca e sviluppo, i modelli di linguaggio e visione sono arrivati al punto in cui il lavoro è in corso per consentire loro di generare sia testi che dati visivi in modo fluido. La capacità degli LLM di generare dati multimodali in modo fluido aiuterà a migliorare le interazioni in diversi domini, tra cui e-commerce, media e realtà virtuale.

In definitiva, l’obiettivo è consentire ai modelli di sintetizzare, riconoscere e rispondere in modo coerente e logico utilizzando sia modalità testuali che visive, svolgendo così un ruolo cruciale nell’armonizzare il flusso di informazioni e creare narrazioni logiche e coerenti. La necessità di raggiungere una fusione di modalità testuali e visive è alimentata principalmente dalla necessità di interazioni multimodali più fluide, integrate e interattive negli LLM e, in ultima analisi, dal raggiungimento della generazione alternata di linguaggio e visione. Tuttavia, raggiungere interazioni multimodali integrate e interattive negli LLM è un compito complicato, pieno di numerose sfide, tra cui

Sebbene gli attuali LLM siano estremamente efficienti e capaci quando si tratta di generazione di testi e di elaborazione di coppie di testo-immagine, non forniscono prestazioni soddisfacenti quando si tratta di generazione di immagini.
Lo sviluppo di questi modelli di visione e linguaggio dipende fortemente da dati focalizzati su argomenti specifici, il che rende difficile per i modelli allineare il testo generato con le immagini corrispondenti.
Infine, c’è bisogno di trovare strategie più efficaci, poiché con l’aumento delle loro capacità, le esigenze di memoria degli LLM aumentano anche, soprattutto quando si eseguono attività downstream.

Il framework MiniGPT-5, una tecnica di generazione di linguaggio e visione interleave, introduce il concetto di “generative vokens” nel tentativo di affrontare le sfide menzionate sopra. Il framework MiniGPT-5 propone un nuovo approccio per la generazione di dati multimodali, combinando i Large Language Model con le tecniche di Stable Diffusion utilizzando token visivi speciali. Il metodo di addestramento a due fasi proposto dal framework MiniGPT-5 evidenzia l’importanza di una fase fondamentale libera da descrizioni e prepara il modello per fornire prestazioni efficienti anche in scenari con dati limitati.

Ma ciò che distingue il modello MiniGPT-5 dai framework esistenti è che le fasi generiche del framework MiniGPT-5 non consistono in annotazioni specifiche di dominio. Inoltre, per garantire che il testo generato e le immagini corrispondenti siano in armonia l’uno con l’altro, il framework MiniGPT-5 adotta una strategia di perdita duale che ulteriormente migliora l’approccio del MiniGPT-5 nell’utilizzo di guida senza classificatore e generative vokens. Il framework MiniGPT-5 ottimizza l’efficienza dell’addestramento e affronta i vincoli di memoria grazie alla sua strategia di regolazione dei parametri efficiente per la regolazione fine del modello.

Per fornirvi un riassunto rapido, il framework MiniGPT-5

Propone un metodo che utilizza encoder multimodali che rappresentano un metodo nuovo e generico che storicamente si è rivelato più efficace dei tradizionali LLM, e utilizza token generativi combinati con tecniche di Stable Diffusion per generare output linguistici e visivi interleave.
Propone una strategia di addestramento a due fasi per la generazione di output multimodali senza descrizioni e l’inclusione di guida senza classificatore durante l’addestramento per ulteriormente raffinare la qualità dei dati generati.

Il modello MiniGPT-5 è ispirato pesantemente dalle precedenti ricerche e lavori svolti nei campi di

Generazione di immagini da testo: Per facilitare la trasformazione di descrizioni testuali nelle loro rappresentazioni visive corrispondenti e modelli di testo-immagine.

MLLM o Multimodal Large Language Model: Utilizzando modelli LLM pre-addestrati per esplorare le loro applicazioni ed efficacia nella generazione di dati multimodali.
Generazione multimodale con Large Language Model: Per aumentare le capacità di un LLM per integrare in modo fluido la generazione di linguaggio e dati visivi.

MiniGPT-5: Metodo, Architettura e Framework

Per consentire ai Large Language Model di disporre di capacità di generazione di dati multimodali, il modello MiniGPT-5 introduce un framework che mira a integrare modelli di generazione di immagini da testo e modelli di linguaggio multimodali pre-addestrati. Il framework MiniGPT-5 introduce inoltre i “generative vokens”, token visivi speciali che consentono agli sviluppatori di affrontare le discordanze che appaiono in diversi domini, potendo essere addestrati direttamente su immagini grezze. Per ulteriormente migliorare la qualità dei dati multimodali generati dagli LLM, il framework MiniGPT-5 introduce una strategia senza classificatore accoppiata con un metodo di addestramento avanzato a due fasi. Vediamo una descrizione dettagliata del framework MiniGPT-5.

Fase di Input Multimodale

Gli sviluppi recenti degli LLM hanno portato le capacità di comprensione multimodale degli LLM alla luce, consentendo l’elaborazione di immagini come input sequenziale. Il framework MiniGPT-5 utilizza token generativi specialmente progettati per l’output di caratteristiche visive nel tentativo di estendere le capacità di comprensione multimodale degli LLM alla generazione di dati multimodali. Inoltre, il framework MiniGPT-5 utilizza tecniche di regolazione fine efficienti e all’avanguardia per l’apprendimento di output multimodali con il framework LLM.

Codifica Multimodale

L’encoder visivo pre-addestrato nel framework MiniGPT-5 trasforma ogni immagine di input in una caratteristica e ogni token di testo viene incorporato come vettore, e le caratteristiche dell’input vengono generate quando queste incorporazioni vengono concatenate l’una con l’altra.

Aggiunta di Vokens ai Large Language Model

Tradizionalmente, il vocabolario del Large Language Model consiste solo di token testuali, per cui gli sviluppatori che lavorano sul framework MiniGPT-5 hanno dovuto colmare il divario tra i generativi e i tradizionali LLM. Il framework MiniGPT-5 introduce un set di token speciali come token generativi nel vocabolario dell’LLM. Il framework sfrutta quindi lo stato di output nascosto dell’LLM per questi token speciali per la successiva generazione di immagini e l’inserimento di immagini interleave è rappresentato dalla posizione dei voken.

PEFT o Regolazione Fine Efficientemente dei Parametri

La PEFT o Regolazione Fine Efficientemente dei Parametri è un concetto cruciale utilizzato per addestrare gli LLM e, tuttavia, le applicazioni della PEFT in ambienti multimodali sono ancora in gran parte inesplorate. Il framework MiniGPT-5 utilizza la Regolazione Fine Efficientemente dei Parametri sull’encoder del framework MiniGPT-4 per addestrare il modello a comprendere meglio le istruzioni o i prompt e persino a migliorare le prestazioni generali del modello in ambienti zero-shot o nuovi.

Generazione di Output Multimodale

Per allineare il modello generativo con i token generativi in modo accurato, il framework MiniGPT-5 formula un modulo di mappatura compatto per la corrispondenza delle dimensioni e l’incorporazione di perdite di supervisione, tra cui la perdita del modello di diffusione latente e la perdita nello spazio del testo. La perdita di supervisione della diffusione latente allinea le caratteristiche visive appropriate con i token direttamente, mentre la perdita nello spazio del testo aiuta il modello a imparare le posizioni corrette dei token. Poiché i token generativi nel framework MiniGPT-5 sono guidati direttamente dalle immagini, il framework MiniGPT-5 non richiede che le immagini abbiano una descrizione completa, risultando in un apprendimento senza descrizioni.

Generazione nello Spazio del Testo

Il framework MiniGPT-5 segue il metodo di modellazione del linguaggio casuale per generare sia voken che testi nello spazio del testo congiuntamente e, durante la fase di addestramento, gli sviluppatori aggiungono i voken alla posizione delle immagini di verità e addestrano il modello per prevedere voken all’interno della generazione di testi.

Mappatura delle Caratteristiche dei Voken per la Generazione di Immagini

Dopo la generazione dello spazio del testo, il framework allinea lo stato di output nascosto con lo spazio delle caratteristiche condizionali del testo del modello di generazione di immagini da testo. Il framework supporta inoltre un modulo di mappatura delle caratteristiche che include un modello MLP a due strati, una sequenza di caratteristiche del decodificatore apprendibile e un modello di trasformatore encoder-decodificatore a quattro strati.

Generazione di Immagini con LDM o Modello di Diffusione Latente

Per generare le immagini richieste nel processo di denoising, il framework utilizza le caratteristiche di mappatura come input condizionale. Il framework impiega inoltre un LDM o Modello di Diffusione Latente per la guida, poiché durante la fase di addestramento, l’immagine di verità viene prima convertita in una caratteristica latente utilizzando un VAE pre-addestrato, dopo di che gli sviluppatori ottengono la caratteristica di rumore latente aggiungendo del rumore.

L’approccio globale utilizzato dal framework MiniGPT-5 consente agli sviluppatori di avere una comprensione coerente e generazione di entrambi gli elementi visivi e testuali, utilizzando token specializzati, sfruttando le capacità dei modelli pre-addestrati e utilizzando tecniche di addestramento innovative.

MiniGPT-5: Addestramento e Risultati

Quando si lavora sul framework MiniGPT-5, gli sviluppatori hanno osservato che l’addestramento su un set di dati di testo e immagine interleave limitato può risultare in immagini di qualità ridotta e in una cattiva allineamento, dato il significativo spostamento del dominio tra il dominio dell’immagine e il dominio del testo. Per mitigare questo problema, gli sviluppatori hanno adottato due strategie di addestramento distinte,

Comprendendo l’incorporazione di tecniche di guida senza classificatore che aumentano l’efficacia dei token generativi durante il processo di diffusione.
La seconda strategia è ulteriormente divisa in due fasi
1. Una fase di pre-addestramento iniziale che si concentra principalmente sull’allineamento delle caratteristiche grezze.
2. Una fase di regolazione fine che facilita l’apprendimento delle caratteristiche.

CFG o Guida senza Classificatore

L’idea di sfruttare prima la CFG per la generazione multimodale è emersa come risultato di un tentativo di aumentare la coerenza e la logica tra le immagini e i testi generati, e la CFG viene introdotta durante il processo di diffusione del testo-immagine. Questo metodo osserva che, addestrando su generazione condizionale e non condizionale con dropout di condizionamento, il modello generativo può raggiungere risultati condizionali migliori.

Strategia di Addestramento a Due Fasi

Data la significativa discordanza del dominio osservata tra la generazione di testo-immagine e la generazione di testo pura, il framework MiniGPT-5 utilizza una strategia a due fasi per l’addestramento

Fase di Allineamento Unimodale o UAS,
Fase di Apprendimento Multimodale o MLS.

Inizialmente, il framework allinea le caratteristiche di generazione di immagini con le caratteristiche dei voken in set di dati di coppie di testo-immagine singole, dove ogni campione di dati contiene solo un testo e solo un’immagine, e il testo è generalmente la didascalia dell’immagine. In questa fase, il framework consente all’LLM di generare voken utilizzando le didascalie come input dell’LLM.

Una volta che la UAS è stata eseguita con successo, il modello può generare immagini per descrizioni di testo singole, ma fatica con la generazione di linguaggio e visione interleave, compresa la generazione di coppie di testo-immagine e il ragionamento complicato richiesto per la generazione di immagini e testi. Per superare questo ostacolo, gli sviluppatori hanno ulteriormente regolato il framework MiniGPT-5 utilizzando parametri PEFT utilizzando set di dati di visione e linguaggio interleave come VIST. Durante questa fase, il framework costruisce tre compiti diversi dal set di dati

Generazione di Solo Testo: Genera il testo relativo data l’immagine successiva.
Generazione di Solo Immagine: Genera l’immagine relativa data il testo successivo.
Generazione Multimodale: Genera coppie di testo-immagine utilizzando il contesto dato.

MiniGPT-5: Benchmark e Risultati

Per valutare le sue prestazioni nella generazione multimodale in modo completo, il team di sviluppo del MiniGPT-5 confronta le sue prestazioni con altri modelli di base prominenti, tra cui Divter, GILL e il modello di generazione unimodale regolato, e il confronto è mostrato nella tabella seguente.

Il framework MiniGPT-5 riconosce che l’output multimodale potrebbe essere significativo secondo il contesto, ma potrebbe differire dalla realtà, il che è il motivo principale per cui il framework MiniGPT-5 incorpora anche input umani per valutare e valutare le prestazioni del modello. Complessivamente, l’efficacia del framework MiniGPT-5 per i compiti multimodali è misurata da tre prospettive.

Continuità del Linguaggio: valutando se il contenuto generato si allinea con il contesto fornito in modo fluido.
Qualità dell’Immagine: valutando o valutando la rilevanza e la chiarezza dell’immagine generata.
Coerenza Multimodale: per determinare se l’output di testo-immagine combinato è in sincronia con il contesto iniziale.

Valutazione Finale del Passo VIST

Nella prima fase degli esperimenti, il framework MiniGPT-5 mira a generare le immagini corrispondenti, e la tabella seguente riassume i risultati ottenuti da questo setting.

Come si può vedere, il framework MiniGPT-5 in tutti e tre gli ambienti può superare il framework SD2 regolato, evidenziando così l’efficacia della pipeline MiniGPT-5.

La figura sopra confronta le prestazioni del framework MiniGPT-5 con il framework MiniGPT-4 regolato sui metrici di prestazione S-BERT, Rouge-L e Meteor. I risultati indicano che l’uso di token generativi non influisce negativamente sulle prestazioni del framework quando si eseguono compiti di comprensione multimodale. I risultati dimostrano anche che il framework MiniGPT-5 è in grado di utilizzare prompt di input multimodali orizzontali lunghi in un’ampia gamma di dati per generare immagini di alta qualità e coerenti senza compromettere la capacità del modello originale per la comprensione multimodale.

La tabella sopra confronta le prestazioni di tre framework su 5.000 campioni per la generazione multimodale dal punto di vista della Coerenza Multimodale, della Qualità dell’Immagine e della Continuità del Linguaggio. Come si può osservare, il framework MiniGPT-5 supera i due modelli di base di riferimento in più del 70% dei casi. D’altra parte, la tabella seguente dimostra le prestazioni del framework MiniGPT-5 sul set di dati di convalida CC3M per la generazione di singole immagini. Grazie alle limitazioni dei dati, gli sviluppatori hanno trovato un divario per l’allineamento dei voken quando utilizzato con la Stable Diffusion. Nonostante questa limitazione, il framework MiniGPT-5 supera l’attuale stato dell’arte del framework GILL su tutti i metrici.

Conclusione

In questo articolo, abbiamo parlato del MiniGPT-5, una tecnica di generazione di linguaggio e visione interleave che introduce il concetto di “generative vokens” nel tentativo di sfruttare le capacità degli LLM per generare dati multimodali allineando il Large Language Model con un modello di generazione di immagini da testo pre-addestrato. Abbiamo parlato dei componenti essenziali e dell’architettura generale del framework MiniGPT-5, insieme ai risultati che indicano miglioramenti sostanziali nelle prestazioni ed efficienza rispetto ai modelli di base e di stato dell’arte attuali. Il MiniGPT-5 aspira a stabilire un nuovo benchmark nel dominio della generazione di contenuti e dati multimodali e mira a risolvere le sfide affrontate dai modelli precedenti nel tentativo di risolvere lo stesso problema.

Related Topics:GPT-5 GPT5 LLM LLMs mini-GPT5

Kunal Kejriwal

Un ingegnere per professione, uno scrittore per passione. Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedicato a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.