mozzicone Mini-Gemini: sfruttare il potenziale dei modelli linguistici di visione multimodali - Unite.AI
Seguici sui social

Intelligenza Artificiale

Mini-Gemini: sfruttare il potenziale dei modelli linguistici di visione multimodali

mm

Pubblicato il

 on

Mini-Gemini: sfruttare il potenziale dei modelli linguistici di visione multimodali

I progressi nel modelli linguistici di grandi dimensioni hanno notevolmente accelerato lo sviluppo di elaborazione del linguaggio naturaleo PNL. L'introduzione del framework del trasformatore si è rivelata una pietra miliare, facilitando lo sviluppo di una nuova ondata di modelli linguistici, tra cui OPT e BERT, che mostrano una profonda comprensione linguistica. Inoltre, la nascita dei modelli GPT, o Generative Pre-trained Transformer, ha introdotto un nuovo paradigma con la modellazione autoregressiva e ha stabilito un metodo robusto per la previsione e la generazione del linguaggio. L'avvento di modelli linguistici come GPT-4, ChatGPT, Mixtral, LLaMA e altri ha ulteriormente alimentato la rapida evoluzione, con ciascun modello che dimostra prestazioni migliorate in attività che coinvolgono l'elaborazione linguistica complessa. Tra i metodi esistenti, l’ottimizzazione delle istruzioni è emersa come una tecnica chiave per perfezionare l’output di modelli linguistici di grandi dimensioni pre-addestrati, e l’integrazione di questi modelli con strumenti specifici per compiti visivi ha evidenziato la loro adattabilità e aperto le porte per applicazioni future. Questi si estendono ben oltre la tradizionale elaborazione basata su testo dei LLM per includere interazioni multimodali.

Inoltre, la convergenza dell’elaborazione del linguaggio naturale e dei modelli di visione artificiale ha dato origine ai VLM, o Vision Language Models, che combinano modelli linguistici e visivi per ottenere capacità di comprensione e ragionamento intermodali. L'integrazione e l'avvento di modelli visivi e linguistici hanno svolto un ruolo cruciale nel portare avanti compiti che richiedono sia l'elaborazione del linguaggio che la comprensione visiva. L’emergere di modelli rivoluzionari come CLIP ha ulteriormente colmato il divario tra compiti visivi e modelli linguistici, dimostrando la fattibilità e la praticità delle applicazioni intermodali. Framework più recenti come LLaMA e BLIP sfruttano dati di istruzioni su misura per ideare strategie efficienti che dimostrino le potenti capacità del modello. Inoltre, la combinazione di modelli linguistici di grandi dimensioni con output di immagini è al centro della recente ricerca multimodale, con metodi recenti in grado di aggirare la generazione diretta utilizzando l'approccio di recupero di immagini per produrre output di immagini e testi interfogliati.

Detto questo, e nonostante i rapidi progressi nei modelli del linguaggio visivo che facilitano il ragionamento di base e il dialogo visivo, esiste ancora un significativo divario prestazionale tra modelli avanzati come GPT-4 e modelli del linguaggio visivo. Mini-Gemini è un tentativo di ridurre il divario esistente tra i modelli del linguaggio visivo e i modelli più avanzati sfruttando il potenziale dei VLM per prestazioni migliori sotto tre aspetti: generazione guidata da VLM, dati di alta qualità e token visivi ad alta risoluzione. Per migliorare i token visivi, il framework Mini-Gemini propone di utilizzare un codificatore visivo aggiuntivo per il perfezionamento ad alta risoluzione senza aumentare il conteggio dei token visivi. Il framework Mini-Gemini costruisce inoltre un set di dati di alta qualità nel tentativo di promuovere una comprensione precisa delle immagini e una generazione basata sul ragionamento. Nel complesso, il framework Mini-Gemini tenta di sfruttare il potenziale dei modelli del linguaggio visivo e mira a potenziare i framework esistenti con capacità di ragionamento, comprensione e generazione di immagini contemporaneamente. Questo articolo mira a coprire in modo approfondito il framework Mini-Gemini ed esploriamo il meccanismo, la metodologia, l'architettura del framework insieme al suo confronto con i framework più all'avanguardia. Quindi iniziamo. 

Mini-Gemini: accelerazione dei VLM multimodali

Nel corso degli anni si sono evoluti modelli linguistici di grandi dimensioni che ora vantano notevoli capacità multimodali e stanno diventando una parte essenziale degli attuali modelli di linguaggio visivo. Tuttavia, esiste un divario tra le prestazioni multimodali dei modelli linguistici di grandi dimensioni e i modelli del linguaggio visivo con ricerche recenti che cercano modi per combinare la visione con modelli linguistici di grandi dimensioni utilizzando immagini e video. Per i compiti di visione in sé, la risoluzione dell'immagine è un elemento cruciale per distinguere esplicitamente l'ambiente circostante con allucinazioni visive minime. Per colmare il divario, i ricercatori stanno sviluppando modelli per migliorare la comprensione visiva attuale modelli del linguaggio visivoe due degli approcci più comuni sono: aumentare la risoluzione e aumentare il numero di token visivi. Sebbene l'aumento del numero di token visivi con immagini a risoluzione più elevata migliori la comprensione visiva, l'incremento è spesso accompagnato da maggiori requisiti computazionali e costi associati, soprattutto quando si elaborano più immagini. Inoltre, le capacità dei modelli esistenti, la qualità dei dati esistenti e l’applicabilità rimangono inadeguate per un processo di sviluppo accelerato, lasciando i ricercatori con la domanda: “come accelerare lo sviluppo di modelli di linguaggio visivo con costi accettabili"?

Il framework Mini-Gemini è un tentativo di rispondere alla domanda mentre tenta di esplorare il potenziale dei modelli del linguaggio visivo da tre aspetti: generazione guidata da VLM o applicazioni espanse, dati di alta qualità e token visivi ad alta risoluzione. Innanzitutto, il framework Mini-Gemini implementa un'architettura ConvNet per generare candidati a risoluzione più elevata in modo efficiente, migliorando i dettagli visivi e mantenendo il conteggio dei token visivi per il modello linguistico di grandi dimensioni. Il framework Mini-Gemini unisce set di dati di alta qualità disponibili al pubblico nel tentativo di migliorare la qualità dei dati e integra questi miglioramenti con modelli linguistici generativi e di grandi dimensioni all'avanguardia con il tentativo di migliorare le prestazioni dei VLM e migliorare l'esperienza dell'utente. La strategia multiforme implementata dal framework Mini-Gemini consente di esplorare le capacità nascoste dei modelli del linguaggio visivo e di ottenere progressi significativi con evidenti vincoli di risorse. 

In generale, il framework Mini-Gemini utilizza un paradigma qualsiasi poiché è in grado di gestire sia testo che immagini come input e output. In particolare, il framework Mini-Gemini introduce una pipeline efficiente per migliorare i token visivi per le immagini di input e presenta un sistema a doppio codificatore composto da codificatori gemelli: il primo codificatore è per immagini ad alta risoluzione, mentre il secondo codificatore è per immagini a bassa risoluzione. incorporamento visivo di qualità. Durante l'inferenza, i codificatori funzionano in un meccanismo di attenzione, in cui il codificatore a bassa risoluzione genera query visive, mentre il codificatore ad alta risoluzione fornisce chiavi e valori di riferimento. Per aumentare la qualità dei dati, il framework Mini-Gemini raccoglie e produce più dati basati su risorse pubbliche, comprese istruzioni orientate ai compiti, dati relativi alla generazione e risposte ad alta risoluzione, con una maggiore quantità e una migliore qualità che migliorano le prestazioni generali e capacità del modello. Inoltre, il framework Mini-Gemini supporta la generazione simultanea di testo e immagini come risultato dell'integrazione del modello del linguaggio visivo con modelli generativi avanzati. 

Mini-Gemini: metodologia e architettura

Fondamentalmente, il quadro Mini-Gemini è concettualmente semplice e comprende tre componenti. 

  1. Il framework utilizza codificatori a doppia visione per fornire incorporamenti visivi a bassa risoluzione e candidati ad alta risoluzione. 
  2. Il framework propone di implementare il patch info mining per condurre il mining a livello di patch tra query visive a bassa risoluzione e regioni ad alta risoluzione. 
  3. Il framework Mini-Gemini utilizza un modello linguistico di grandi dimensioni per unire il testo con le immagini sia per la generazione che per la comprensione simultaneamente. 

Encoder a doppia visione

Il framework Mini-Gemini può elaborare input sia di testo che di immagini, con la possibilità di gestirli singolarmente o in combinazione. Come dimostrato nell'immagine seguente, il framework Mini-Gemini avvia il processo utilizzando l'interpolazione bilineare per generare un'immagine a bassa risoluzione dalla corrispondente immagine ad alta risoluzione. 

Il framework quindi elabora queste immagini e le codifica in un incorporamento visivo multi-griglia in due flussi di immagini paralleli. Più specificamente, il framework Mini-Gemini mantiene la pipeline tradizionale per flussi a bassa risoluzione e impiega un trasformatore visivo preaddestrato CLIP per codificare gli incorporamenti visivi, facilitando il modello a preservare la relazione a lungo raggio tra patch visive per le successive interazioni in un linguaggio ampio. Modelli. Per i flussi ad alta risoluzione, il framework Mini-Gemini adotta il codificatore basato su CNN o Convolution Neural Networks per l'elaborazione adattiva ed efficiente delle immagini ad alta risoluzione. 

Estrazione di informazioni sulla patch

Con i codificatori a doppia visione che generano gli incorporamenti LR e le funzionalità HR, il framework Mini-Gemini propone di implementare il patch mining di informazioni con l'obiettivo di estendere il potenziale dei modelli del linguaggio di visione con token visivi migliorati. Al fine di mantenere il numero di token visivi per l'efficienza nei modelli linguistici di grandi dimensioni, il framework Mini-Gemini accetta gli incorporamenti visivi a bassa risoluzione come query e mira a recuperare segnali visivi rilevanti dai candidati alle funzionalità HR, con il framework che prende il Mappa delle caratteristiche HR come chiave e valore.

Come dimostrato nell'immagine sopra, la formula incapsula il processo di raffinazione e sintesi dei segnali visivi, che porta alla generazione di token visivi avanzati per la successiva elaborazione del modello linguistico di grandi dimensioni. Il processo garantisce che il framework sia in grado di limitare l'estrazione per ciascuna query alla sottoregione corrispondente nella mappa delle funzionalità HR con il conteggio delle funzionalità in termini di pixel, con conseguente maggiore efficienza. Grazie a questo design, il framework Mini-Gemini è in grado di estrarre i dettagli delle funzionalità HR senza aumentare il conteggio dei token visivi e mantiene un equilibrio tra fattibilità computazionale e ricchezza di dettagli. 

Generazione di testi e immagini

Il framework Mini-Gemini concatena i token visivi e i token di testo di input come input per i modelli linguistici di grandi dimensioni per la generazione autoregressiva. A differenza dei tradizionali modelli di linguaggio visivo, il framework Mini-Gemini supporta la generazione di solo testo e di testo-immagine come input e output, ovvero da qualsiasi inferenza, ed è il risultato di questa eccezionale capacità di comprensione e ragionamento di immagini-testo, il Mini-Gemini è in grado di generare immagini di alta qualità. A differenza dei lavori recenti che si concentrano sul divario tra gli incorporamenti di testo dei modelli di generazione e dei modelli linguistici di grandi dimensioni, il framework Mini-Gemini tenta di ottimizzare il divario nel dominio dei suggerimenti linguistici traducendo le istruzioni dell'utente in suggerimenti di alta qualità che producono immagini pertinenti al contesto. nei modelli di diffusione latente. Inoltre, per una migliore comprensione della messa a punto delle istruzioni e dell'allineamento tra modalità, il framework Mini-Gemini raccoglie campioni da set di dati di alta qualità disponibili al pubblico e utilizza il framework turbo GPT-4 per costruire ulteriormente un'istruzione da 13K che segue il set di dati per supportare la generazione di immagini. 

Mini-Gemini: esperimenti e risultati

Per valutarne le prestazioni, il framework Mini-Gemini viene istanziato con il framework ConvNext-L pre-addestrato per il codificatore di visione HR e con un framework pre-addestrato CLIP Trasformatore di visione per l'encoder di visione LR. Per garantire l'efficienza della formazione, il framework Mini-Gemini mantiene fissi i due codificatori di visione e ottimizza i proiettori dell'estrazione di informazioni sulle patch in tutte le fasi e ottimizza il modello linguistico di grandi dimensioni durante la fase di ottimizzazione delle istruzioni stessa. 

La tabella seguente confronta le prestazioni del framework Mini-Gemini rispetto ai modelli all'avanguardia in diversi contesti e prende in considerazione anche modelli privati. Come si può osservare, il Mini-Gemini supera costantemente i framework esistenti in un'ampia gamma di LLM a risoluzione normale e dimostra prestazioni superiori se configurato con Gemma-2B nella categoria dei modelli efficienti. Inoltre, quando vengono impiegati modelli linguistici più ampi, la scalabilità del framework Mini-Gemini è evidente. 

Per valutare le sue prestazioni su token visivi estesi e ad alta risoluzione, gli esperimenti vengono eseguiti con una dimensione di input di 672 per il codificatore di visione LR e 1536 per il codificatore visivo. Come accennato in precedenza, lo scopo principale del codificatore visivo HR è offrire informazioni sui candidati ad alta risoluzione. Come si può osservare, il framework Mini-Gemini offre prestazioni superiori rispetto ai framework più avanzati. 

Inoltre, per valutare la capacità di comprensione visiva del framework Mini-Gemini in contesti del mondo reale, gli sviluppatori applicano il modello a una varietà di compiti di ragionamento e comprensione, come dimostrato nell'immagine seguente. Come si può osservare, il framework Mini-Gemini è in grado di risolvere un'ampia gamma di compiti complessi grazie all'implementazione del patch mining di informazioni e di dati di alta qualità. Ma ciò che è più impressionante è il fatto che il quadro Mini-Gemini dimostra un'acuta aggiunta ai dettagli che si estende oltre la semplice abilità di riconoscimento e descrive elementi complessi in modo intricato. 

La figura seguente fornisce una valutazione completa delle capacità generative del framework Mini-Gemini. 

Se confrontato con modelli recenti come ChatIllusion e AnyGPT, il framework Mini-Gemini dimostra capacità di comprensione multimodale più forti, consentendogli di generare testo su immagine didascalie che si allineano meglio con le istruzioni di input e si traducono in risposte di immagini e testo con una maggiore somiglianza concettuale. Ciò che è più impressionante è il fatto che il framework Mini-Gemini dimostra una notevole competenza nel generare contenuti di alta qualità utilizzando istruzioni umane multi-modello solo con dati di addestramento del testo, una capacità che illustra la solida interpretazione semantica di Mini-Gemini e le capacità di allineamento immagine-testo. 

Considerazioni finali

In questo articolo abbiamo parlato di Mini-Gemini, un framework potente e snello per modelli linguistici di visione multimodali. Lo scopo principale del framework Mini-Gemini è sfruttare le capacità latenti dei modelli del linguaggio visivo utilizzando dati di alta qualità, progettazione strategica del framework e un ambito funzionale ampliato. Mini-Gemini è un tentativo di ridurre il divario esistente tra i modelli del linguaggio visivo e i modelli più avanzati sfruttando il potenziale dei VLM per prestazioni migliori sotto tre aspetti: generazione guidata da VLM, dati di alta qualità e token visivi ad alta risoluzione. Per migliorare i token visivi, il framework Mini-Gemini propone di utilizzare un codificatore visivo aggiuntivo per il perfezionamento ad alta risoluzione senza aumentare il conteggio dei token visivi. Il framework Mini-Gemini costruisce inoltre un set di dati di alta qualità nel tentativo di promuovere una comprensione precisa delle immagini e una generazione basata sul ragionamento. Nel complesso, il framework Mini-Gemini tenta di sfruttare il potenziale dei modelli del linguaggio visivo e mira a potenziare i framework esistenti con capacità di ragionamento, comprensione e generazione di immagini contemporaneamente.