Seguici sui social

Intelligenza Artificiale

MiniGPT-5: generazione di visione e linguaggio interleaved tramite generativa Vokens

mm

Negli ultimi anni, i Large Language Models (LLM) hanno attirato l'attenzione degli sviluppatori di intelligenza artificiale di tutto il mondo grazie alle scoperte nell'elaborazione del linguaggio naturale (NLP). Questi modelli hanno stabilito nuovi parametri di riferimento nella generazione e nella comprensione del testo. Tuttavia, nonostante i progressi nella generazione del testo, la produzione di immagini che corrispondano in modo coerente alle narrazioni testuali è ancora impegnativa. Per risolvere questo problema, gli sviluppatori hanno introdotto una visione innovativa e un approccio alla generazione del linguaggio basato su “voken generativi”, colmando il divario per output di testo e immagini armonizzati.

La base dietro MiniGPT-5 è una strategia di formazione in due fasi che si concentra fortemente sulla generazione di dati multimodali privi di descrizioni in cui i dati di formazione non richiedono descrizioni complete delle immagini. Inoltre, per aumentare l'integritĂ  del modello, il modello incorpora un sistema di guida privo di classificatore che migliora l'efficacia di un voken per la generazione di immagini. Nella fase iniziale, il framework MiniGPT-5 ha dimostrato prestazioni potenti e un miglioramento sostanziale rispetto al modello Divter di base addestrato sul set di dati MMDialog e ha costantemente dimostrato la sua capacitĂ  di fornire risultati multimodali comparabili e persino superiori nelle valutazioni umane eseguite sul set di dati VIST che ne evidenzia ulteriormente le prestazioni e l'efficienza rispetto a vari benchmark. 

MiniGPT5: un'introduzione

Grazie alla recenti sviluppi dei quadri LLMe applicazioni basate su questi framework LLM, l'integrazione delle funzionalitĂ  multimediali è un campo che ha visto un aumento della sua popolaritĂ  in quanto si rivela anche un progresso vitale che alimenta un'ampia gamma di applicazioni da strumenti all'avanguardia per la creazione di contenuti ad un agente di dialogo multimodale all'avanguardia. Grazie alla continua ricerca e sviluppo, i modelli linguistici e visivi sono al punto in cui si sta lavorando per facilitare la generazione di dati sia testuali che visivi senza soluzione di continuitĂ . IL capacitĂ  di LLM di generare dati multimodali senza soluzione di continuitĂ  aiuterĂ  a migliorare le interazioni tra diversi domini tra cui e-commerce, media e realtĂ  virtuale. 

In definitiva, l'obiettivo è consentire ai modelli di sintetizzare, riconoscere e rispondere in modo coerente e logico utilizzando modalità sia testuali che visive, svolgendo così un ruolo cruciale nell'armonizzazione del flusso di informazioni e nella creazione di narrazioni logiche e coerenti. La necessità di ottenere una miscela di modalità testuali e visive è alimentata principalmente dalla necessità di interazioni multimodali più fluide, integrate e interattive negli LLM e, in definitiva, dal raggiungimento della generazione alternata di linguaggio e visione. Tuttavia, ottenere interazioni multimodali integrate e interattive negli LLM è un compito complicato pieno di numerose sfide, tra cui

  1. Sebbene gli attuali LLM siano estremamente efficienti e capaci quando si tratta di generazione di testo e di elaborazione di coppie testo-immagine, non offrono prestazioni soddisfacenti quando si tratta di generare immagini. 
  2. Lo sviluppo di questi modelli di visione e linguaggio si basa in gran parte su dati incentrati sull'argomento che rendono difficile per i modelli allineare il testo generato con le immagini corrispondenti. 
  3. Infine, è necessario elaborare strategie piĂą efficaci poichĂ©, con l'aumento delle loro capacitĂ , aumentano anche i requisiti di memoria degli LLM, soprattutto quando si eseguono attivitĂ  downstream. 

Il framework MiniGPT-5, una tecnica di algoritmo di generazione di linguaggio e visione interleaved che introduce il concetto di "voken generativi" nel tentativo di affrontare le sfide sopra menzionate. Il framework MiniGPT-5 propone un nuovo approccio per la generazione di dati multimodali amalgamando modelli linguistici di grandi dimensioni con tecniche di diffusione stabile utilizzando speciali token visivi. Il metodo di addestramento in due fasi proposto utilizzato dal framework MiniGPT-5 evidenzia l'importanza di una fase fondamentale priva di descrizioni e di preparazione del modello per fornire prestazioni efficienti anche in scenari con dati limitati. 

Ma ciò che distingue il modello MiniGPT-5 dagli attuali framework esistenti è che le fasi generiche del framework MiniGPT-5 non consistono in annotazioni specifiche del dominio. Inoltre, per garantire che il testo generato e le immagini corrispondenti siano in armonia tra loro, il framework MiniGPT-5 implementa una strategia a doppia perdita che migliora ulteriormente l'approccio di MiniGPT-5 che prevede l'utilizzo di una guida priva di classificatori e di vocali generativi. Il framework MiniGPT-5 ottimizza l'efficienza dell'addestramento e risolve i vincoli di memoria grazie alla loro strategia efficiente in termini di parametri per la messa a punto del modello. 

Per fornirvi un breve riepilogo, il framework MiniGPT-5

  1. Propone un metodo che utilizza codificatori multimodali che rappresentano un metodo nuovo e generico che storicamente si è dimostrato piĂą efficace dei tradizionali LLM e utilizza token generativi combinati con tecniche di diffusione stabile per generare linguaggio interleaved e output visivi. 
  2. Propone una strategia di formazione in due fasi per la generazione di output multimodali privi di descrizioni e l'inclusione di una guida priva di classificatori durante la formazione per perfezionare ulteriormente la qualitĂ  dei dati generati. 

Il modello MiniGPT-5 si ispira fortemente alla ricerca precedente e al lavoro svolto nei campi dell' 

  • Generazione di testo in immagine: Facilitare la trasformazione delle descrizioni testuali nelle rispettive rappresentazioni visive e modelli da testo a immagine. 
  • MLLM o modelli linguistici multimodali di grandi dimensioni: Utilizzo di modelli LLM preaddestrati per esplorarne le applicazioni e l'efficacia generazione di dati multimodali
  • Generazione multimodale con modelli linguistici di grandi dimensioni: Aumentare le capacitĂ  di un LLM per integrare perfettamente linguaggio e generazione di dati visivi. 

MiniGPT-5: metodo, architettura e framework

Per facilitare modelli linguistici di grandi dimensioni con capacitĂ  di generazione di dati multimodali, il modello MiniGPT-5 introduce un framework che mira a integrare testo in modelli di generazione di immagini e modelli linguistici di grandi dimensioni multimodali preaddestrati. Il framework MiniGPT-5 introduce inoltre i "voken generativi", speciali token visivi che consentono agli sviluppatori di affrontare le discrepanze che appaiono tra domini diversi potendo allenarsi direttamente su immagini grezze. Per migliorare ulteriormente la qualitĂ  dei dati multimodali generati dagli LLM, il framework MiniGPT-5 introduce una strategia priva di classificatori abbinata a un metodo avanzato di formazione in due fasi. Diamo uno sguardo dettagliato al framework MiniGPT-5. 

Stadio di ingresso multimodale

Gli sviluppi dei LLM nel recente passato hanno portato alla luce le capacitĂ  di comprensione multimodale dei LLM, consentendo l'elaborazione delle immagini come input sequenziale. Il framework MiniGPT-5 fa uso di vocali generativi appositamente progettati per l'output di funzionalitĂ  visive nel tentativo di espandere le capacitĂ  di comprensione multimodale di LLM alla generazione di dati multimodali. Inoltre, il framework MiniGPT-5 si avvale di tecniche di regolazione fine efficienti e all'avanguardia dei parametri per l'apprendimento dell'output multimodale con il framework LLM. 

Codifica multimodale

Il codificatore visivo preaddestrato nel framework MiniGPT-5 trasforma ogni immagine di input in una funzionalitĂ  e ogni token di testo viene incorporato come vettore e le funzionalitĂ  del prompt di input vengono generate quando questi incorporamenti vengono concatenati tra loro. 

Aggiunta di voci in modelli linguistici di grandi dimensioni

Tradizionalmente, il vocabolario del modello linguistico di grandi dimensioni è costituito solo da token testuali, motivo per cui gli sviluppatori che lavorano sul framework MiniGPT-5 hanno dovuto colmare il divario tra i LLM generativi e quelli tradizionali. Il framework MiniGPT-5 introduce una serie di token speciali come token generativi nel vocabolario del LLM. Il framework quindi sfrutta lo stato di output nascosto dell'LLM per questi vocali speciali per la successiva generazione di immagini e l'inserimento di immagini interlacciate è rappresentato dalla posizione dei vocali. 

PEFT o regolazione fine efficiente dei parametri

PEFT o Parametro Efficient Fine Tuning è un concetto cruciale utilizzato per formare LLM, eppure le applicazioni del PEFT in contesti multimodali sono ancora in larga misura inesplorate. Il framework MiniGPT-5 utilizza la regolazione fine efficiente dei parametri sull'encoder del framework MiniGPT-4 per addestrare il modello a comprendere meglio i suggerimenti o le istruzioni e persino a migliorare le prestazioni complessive del modello in ambienti zero-shot o nuovi . 

Generazione di output multimodali

Per allineare accuratamente il modello generativo con i token generativi, il framework MiniGPT-5 formula un modulo di mappatura compatto per far corrispondere le dimensioni e incorporare le perdite di supervisione, inclusa la perdita del modello di diffusione latente e la perdita di spazio di testo. La perdita di supervisione della diffusione latente allinea direttamente le caratteristiche visive appropriate con i token mentre la perdita di spazio del testo aiuta il modello ad apprendere le posizioni corrette dei token. PoichĂ© i suoni generativi nel framework MiniGPT-5 sono guidati direttamente dalle immagini, il framework MiniGPT-5 non richiede che le immagini abbiano una descrizione completa, risultando in un apprendimento privo di descrizioni. 

 Generazione dello spazio di testo

Il framework MiniGPT-5 segue il metodo di modellazione del linguaggio casuale per generare congiuntamente sia vocali che testi nello spazio del testo e, durante la fase di addestramento, gli sviluppatori aggiungono i vocali alla posizione delle immagini della realtĂ  terrestre e addestrano il modello a prevedere i vocali all'interno della generazione del testo. 

Mappatura delle funzionalitĂ  Voken per la generazione di immagini

Dopo aver generato lo spazio del testo, il framework allinea lo stato di output nascosto con lo spazio delle caratteristiche condizionali del testo del modello di generazione del testo-immagine. Il framework supporta anche un modulo di mappatura delle funzionalitĂ  che include un modello MLP a doppio strato, una sequenza di funzionalitĂ  del decodificatore apprendibile e un modello di trasformatore codificatore-decodificatore a quattro strati. 

Generazione di immagini con LDM o modello di diffusione latente

Per generare le immagini richieste nel processo di denoising, il framework utilizza le funzionalitĂ  di mappatura come input condizionale. Il framework utilizza anche un LDM o modello di diffusione latente come guida, poichĂ© durante la fase di addestramento, l'immagine di base viene prima convertita in una caratteristica latente utilizzando un VAE preaddestrato, dopodichĂ© gli sviluppatori ottengono la caratteristica di rumore latente aggiungendo del rumore . 

L'approccio completo adottato dal framework MiniGPT-5 consente agli sviluppatori di avere una comprensione coerente e di generare elementi sia visivi che testuali, utilizzando token specializzati, sfruttando le capacitĂ  di modelli preaddestrati e utilizzando tecniche di formazione innovative. 

MiniGPT-5: allenamento e risultati

Lavorando sul framework MiniGPT-5, gli sviluppatori hanno osservato che l'addestramento diretto su un set di dati limitato di testo e immagine interleaved può comportare immagini con qualitĂ  ridotta e disallineamento dato il significativo spostamento di dominio tra i domini immagine e testo. Per mitigare questo problema, gli sviluppatori hanno adottato due distinte strategie di formazione, 

  1. Comprende l'incorporazione di tecniche di guida prive di classificatori che aumentano l'efficacia dei token generativi durante il processo di diffusione. 
  2. La seconda strategia è ulteriormente suddivisa in due fasi
    1. Una fase iniziale di pre-addestramento che si concentra principalmente sull'allineamento delle caratteristiche grossolane. 
    2. Una fase di messa a punto che facilita l'apprendimento delle funzionalitĂ . 

Guida gratuita su CFG o classificatore

L'idea di sfruttare innanzitutto il CFG per la generazione multimodale è nata come risultato di un tentativo di migliorare la coerenza e la logica tra le immagini e i testi generati, e il CFG viene introdotto durante il processo di diffusione del testo in immagine. Questo metodo osserva che mediante l'addestramento sia sulla generazione incondizionata che su quella condizionale con abbandono del condizionamento, il modello generativo può ottenere risultati condizionali migliorati.

Strategia di formazione in due fasi

Dato il significativo spostamento di dominio osservato tra la generazione di immagini di testo e la generazione di testo puro, il framework MiniGPT-5 utilizza una strategia in due fasi per l'addestramento

  1. Fase di allineamento unimodale o UAS,
  2. Fase di apprendimento multimodale o MLS. 

Inizialmente, il framework allinea le funzionalitĂ  di generazione delle immagini con la funzionalitĂ  voken nei set di dati di singole coppie testo-immagine in cui ciascun campione di dati contiene solo un testo e una sola immagine e il testo è solitamente la didascalia dell'immagine. In questa fase, il framework consente al LLM di generare vocali utilizzando le didascalie come input LLM. 

Una volta che l'UAS è stato eseguito con successo, il modello può generare immagini per singole descrizioni di testo, ma ha difficoltà con il linguaggio intercalato e la generazione di visioni, comprese coppie testo-immagine, ed è necessario un ragionamento complicato per la generazione di immagini e testo. Per affrontare questo ostacolo, gli sviluppatori hanno ulteriormente perfezionato il framework MiniGPT-5 utilizzando parametri PEFT mediante set di dati di visione e linguaggio interlacciati come VIST. Durante questa fase, il framework costruisce tre diverse attività dal set di dati

  1. Generazione solo testo: genera il testo correlato in base all'immagine successiva. 
  2. Generazione sola immagine: genera l'immagine correlata in base al testo successivo. 
  3. Generazione multimodale: genera coppie di immagini di testo utilizzando il contesto fornito. 

MiniGPT-5: benchmark e risultati

Per valutare in modo completo le sue prestazioni nella generazione multimodale, il team di sviluppo del MiniGPT-5 confronta le sue prestazioni con altri importanti modelli di base tra cui Divter, GILL e il modello di generazione unimodale fine sintonizzato, e il confronto è dimostrato nella tabella seguente. 

Il framework MiniGPT-5 comprende che l'output multimodale potrebbe essere significativo in base al contesto, ma potrebbe differire dalla realtĂ  terrestre, che è la ragione principale per cui il framework MiniGPT-5 incorpora anche input umani per valutare e valutare le prestazioni del modello . Nel complesso, l’efficacia del framework MiniGPT-5 per le attivitĂ  multimodali viene misurata utilizzando tre prospettive. 

  1. ContinuitĂ  linguistica: valutare se il contenuto generato si allinea perfettamente con il contesto fornito. 
  2. QualitĂ  dell'immagine : accertare o valutare la pertinenza e la chiarezza dell'immagine generata. 
  3. Coerenza multimodale: per determinare se l'output dell'immagine di testo combinato è sincronizzato con il contesto iniziale. 

Valutazione della fase finale VIST

Nella prima fase degli esperimenti, il framework MiniGPT-5 mira a generare le immagini corrispondenti e la tabella seguente riassume i risultati ottenuti da questa impostazione. 

Come si può vedere, il framework MiniGPT-5 in tutte e tre le impostazioni può sovraperformare il framework SD2 ottimizzato, evidenziando così l'efficacia della pipeline MiniGPT-5. 

La figura sopra confronta le prestazioni del framework MiniGPT-5 con quello ottimizzato Quadro MiniGPT-4 sulle metriche prestazionali S-BERT, Rouge-L e Meteor. I risultati indicano che l'uso di voken generativi non influisce negativamente sulle prestazioni del framework durante l'esecuzione di compiti di comprensione multimodale. I risultati dimostrano anche che il framework MiniGPT-5 è in grado di utilizzare prompt di input multimodali a lungo orizzontale su un'ampia gamma di dati per generare immagini coerenti e di alta qualitĂ  senza compromettere la capacitĂ  del modello originale per la comprensione multimodale. 

La tabella sopra confronta le prestazioni di tre framework su 5,000 campioni per la generazione multimodale dagli aspetti di coerenza multimodale, qualitĂ  dell'immagine e continuitĂ  del linguaggio. Come si può osservare, il framework MiniGPT-5 supera gli altri due modelli di base di oltre il 70% dei casi. D'altra parte, la tabella seguente mostra le prestazioni del framework MiniGPT-5 sul dataset di validazione CC3M per la generazione di singole immagini. Grazie alle limitazioni dei dati, gli sviluppatori hanno riscontrato una lacuna nell'allineamento vocale quando utilizzato con Stable Diffusion. Nonostante questa limitazione, il framework MiniGPT-5 supera l’attuale framework GILL di base all’avanguardia in tutti i parametri. 

Conclusione

In questo articolo, abbiamo parlato di MiniGPT-5, una tecnica di algoritmo di generazione di linguaggio e visione interleaved che introduce il concetto di "voken generativi" nel tentativo di sfruttare le capacitĂ  degli LLM per generare dati multimodali allineando il modello linguistico di grandi dimensioni con un modello di generazione di testo in immagine pre-addestrato. Abbiamo parlato dei componenti essenziali e dell'architettura complessiva del framework MiniGPT-5 insieme ai risultati che indicano miglioramenti sostanziali in termini di prestazioni ed efficienza rispetto agli attuali modelli di base e all'avanguardia. MiniGPT-5 aspira a stabilire un nuovo punto di riferimento nel dominio della generazione di contenuti e dati multimodali e mira a risolvere le sfide affrontate dai modelli precedenti quando cercano di risolvere lo stesso problema.

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.