Intelligenza artificiale

Mini-Gemini: Sfruttare il Potenziale dei Modelli di Lingua e Visione Multi-Modalità

Published April 26, 2024

Updated April 4, 2026

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

I progressi nei grandi modelli di linguaggio hanno accelerato notevolmente lo sviluppo del processamento del linguaggio naturale, o NLP. L’introduzione del framework del transformer si è rivelata un punto di svolta, facilitando lo sviluppo di una nuova ondata di modelli di linguaggio, tra cui OPT e BERT, che esibiscono una profonda comprensione linguistica. Inoltre, l’avvio di GPT, o modelli di trasformatori pre-addestrati generativi, ha introdotto un nuovo paradigma con la modellazione autoregressiva e ha stabilito un metodo robusto per la previsione e la generazione del linguaggio. L’avvento di modelli di linguaggio come GPT-4, ChatGPT, Mixtral, LLaMA e altri ha ulteriormente alimentato l’evoluzione rapida, con ogni modello che dimostra prestazioni migliorate in compiti che coinvolgono l’elaborazione del linguaggio complesso. Tra i metodi esistenti, l’istruzione di sintonizzazione è emersa come una tecnica chiave per raffinare l’output dei grandi modelli di linguaggio pre-addestrati, e l’integrazione di questi modelli con strumenti specifici per compiti visivi ha evidenziato la loro adattabilità e ha aperto le porte a future applicazioni. Queste si estendono ben oltre l’elaborazione tradizionale del testo dei LLM per includere interazioni multimodali.

Inoltre, la convergenza del processamento del linguaggio naturale e dei modelli di visione computazionale ha dato origine ai VLM, o modelli di linguaggio e visione, che combinano modelli linguistici e di visione per raggiungere la comprensione e le capacità di ragionamento cross-modali. L’integrazione e l’avvento di modelli visivi e linguistici hanno svolto un ruolo cruciale nell’avanzare i compiti che richiedono sia l’elaborazione del linguaggio che la comprensione visiva. L’emergere di modelli rivoluzionari come CLIP ha ulteriormente colmato il divario tra compiti di visione e modelli di linguaggio, dimostrando la fattibilità e la praticità delle applicazioni cross-modali. Framework più recenti come LLaMA e BLIP sfruttano dati di istruzione personalizzati per elaborare strategie efficienti che dimostrano le potenti capacità del modello. Inoltre, combinare grandi modelli di linguaggio con output di immagini è il focus della recente ricerca multimodale, con metodi recenti in grado di bypassare la generazione diretta utilizzando l’approccio di recupero dell’immagine per produrre output di immagini e testi intervallati.

Detto questo, e nonostante i rapidi progressi nei modelli di linguaggio e visione che facilitano la ragione e il dialogo visivo di base, esiste ancora un significativo divario di prestazioni tra modelli avanzati come GPT-4 e modelli di linguaggio e visione. Mini-Gemini è un tentativo di ridurre il divario esistente tra modelli di linguaggio e visione e modelli più avanzati sfruttando il potenziale dei VLM per una migliore prestazione da tre aspetti: generazione guidata da VLM, dati di alta qualità e token visivi ad alta risoluzione. Per migliorare i token visivi, il framework Mini-Gemini propone di utilizzare un encoder visivo aggiuntivo per il raffinamento ad alta risoluzione senza aumentare il numero di token visivi. Il framework Mini-Gemini costruisce inoltre un set di dati di alta qualità nel tentativo di promuovere una comprensione precisa delle immagini e una generazione basata sulla ragione. Nel complesso, il framework Mini-Gemini tenta di sfruttare il potenziale dei modelli di linguaggio e visione e mira a potenziare i framework esistenti con capacità di ragionamento, comprensione e generazione di immagini simultaneamente. Questo articolo si propone di coprire il framework Mini-Gemini in profondità e esploriamo il meccanismo, la metodologia, l’architettura del framework insieme al suo confronto con i framework di stato dell’arte. Quindi iniziamo.

Mini-Gemini: Accelerare i Modelli di Linguaggio e Visione Multi-Modalità

Negli anni, i grandi modelli di linguaggio sono evoluti e ora vantano notevoli capacità multi-modalità, diventando un componente essenziale dei modelli di linguaggio e visione attuali. Tuttavia, esiste un divario tra le prestazioni multi-modalità dei grandi modelli di linguaggio e dei modelli di linguaggio e visione, con la ricerca recente che cerca di combinare la visione con grandi modelli di linguaggio utilizzando immagini e video. Per i compiti di visione stessi, la risoluzione dell’immagine è un elemento cruciale per rappresentare esplicitamente l’ambiente circostante con minime allucinazioni visive. Per colmare il divario, i ricercatori stanno sviluppando modelli per migliorare la comprensione visiva nei modelli di linguaggio e visione attuali, e due degli approcci più comuni sono: aumentare la risoluzione e aumentare il numero di token visivi. Sebbene aumentare il numero di token visivi con immagini ad alta risoluzione migliori la comprensione visiva, il miglioramento è spesso accompagnato da requisiti computazionali aumentati e costi associati, specialmente quando si elaborano più immagini. Inoltre, le capacità dei modelli esistenti, la qualità dei dati esistenti e l’applicabilità rimangono inadeguate per un processo di sviluppo accelerato, lasciando i ricercatori con la domanda, “come accelerare lo sviluppo dei modelli di linguaggio e visione con costi accettabili”?

Il framework Mini-Gemini è un tentativo di rispondere a questa domanda, poiché tenta di esplorare il potenziale dei modelli di linguaggio e visione da tre aspetti: generazione guidata da VLM o applicazioni estese, dati di alta qualità e token visivi ad alta risoluzione. In primo luogo, il framework Mini-Gemini implementa un’architettura ConvNet per generare candidati ad alta risoluzione in modo efficiente, migliorando i dettagli visivi mantenendo il numero di token visivi per il grande modello di linguaggio. Il framework Mini-Gemini combina set di dati di alta qualità pubblicamente disponibili nel tentativo di migliorare la qualità dei dati e integra questi miglioramenti con modelli generativi e grandi modelli di linguaggio di stato dell’arte nel tentativo di migliorare le prestazioni dei VLM e migliorare l’esperienza dell’utente. La strategia multifacetta implementata dal framework Mini-Gemini consente di esplorare le capacità nascoste dei modelli di linguaggio e visione e raggiungere notevoli progressi con evidenti vincoli di risorse.

In generale, il framework Mini-Gemini adotta un paradigma “qualsiasi a qualsiasi” poiché è in grado di gestire sia testo che immagini come input e output. In particolare, il framework Mini-Gemini introduce una pipeline efficiente per migliorare i token visivi per le immagini di input e presenta un sistema di doppio encoder composto da due encoder: il primo encoder è per immagini ad alta risoluzione, mentre il secondo encoder è per l’incorporazione visiva a bassa qualità. Durante l’inferenza, gli encoder funzionano in un meccanismo di attenzione, in cui l’encoder a bassa risoluzione genera query visive, mentre l’encoder ad alta risoluzione fornisce chiavi e valori di riferimento. Per aumentare la qualità dei dati, il framework Mini-Gemini raccoglie e produce più dati in base a risorse pubbliche, tra cui istruzioni orientate ai compiti, dati relativi alla generazione e risposte ad alta risoluzione, con la quantità e la qualità aumentate che migliorano le prestazioni e le capacità del modello. Inoltre, il framework Mini-Gemini supporta la generazione di testo e immagini contemporaneamente a causa dell’integrazione del modello di linguaggio e visione con modelli generativi avanzati.

Mini-Gemini: Metodologia e Architettura

In sostanza, il framework Mini-Gemini è concettualmente semplice e comprende tre componenti.

Il framework utilizza encoder visivi duali per fornire incorporazioni visive a bassa risoluzione e candidati ad alta risoluzione.
Il framework propone di implementare la minerazione delle informazioni a livello di patch per condurre la minerazione a livello di patch tra query visive a bassa risoluzione e regioni ad alta risoluzione.
Il framework Mini-Gemini utilizza un grande modello di linguaggio per unire testo e immagini per la generazione e la comprensione simultanee.

Encoder Visivi Duali

Il framework Mini-Gemini può elaborare sia input di testo che di immagine, con l’opzione di gestirli individualmente o in combinazione. Come dimostrato nell’immagine seguente, il framework Mini-Gemini inizia il processo utilizzando l’interpolazione bilineare per generare un’immagine a bassa risoluzione dalla sua immagine ad alta risoluzione corrispondente.

Il framework quindi elabora queste immagini e le codifica in un’incorporazione visiva multi-griglia in due flussi di immagine paralleli. Più specificamente, il framework Mini-Gemini mantiene la pipeline tradizionale per i flussi a bassa risoluzione e utilizza un trasformatore visivo pre-addestrato CLIP per codificare le incorporazioni visive, facilitando al modello di preservare la relazione a lungo raggio tra patch visive per interazioni successive nei grandi modelli di linguaggio. Per i flussi ad alta risoluzione, il framework Mini-Gemini adotta l’encoder basato su CNN o reti neurali convoluzionali per l’elaborazione efficiente delle immagini ad alta risoluzione.

Minerazione delle Informazioni a Livello di Patch

Con gli encoder visivi duali che generano le incorporazioni a bassa risoluzione e le caratteristiche ad alta risoluzione, il framework Mini-Gemini propone di implementare la minerazione delle informazioni a livello di patch al fine di estendere il potenziale dei modelli di linguaggio e visione con token visivi migliorati. Al fine di mantenere il numero di token visivi per l’efficienza nei grandi modelli di linguaggio, il framework Mini-Gemini utilizza le incorporazioni visive a bassa risoluzione come query e mira a recuperare segnali visivi pertinenti dai candidati delle caratteristiche ad alta risoluzione, con il framework che prende la mappa delle caratteristiche ad alta risoluzione come chiave e valore.

Come dimostrato nell’immagine sopra, la formula racchiude il processo di raffinamento e sintesi dei segnali visivi, che porta alla generazione di token visivi avanzati per l’elaborazione successiva del grande modello di linguaggio. Il processo assicura che il framework sia in grado di confinare la minerazione per ogni query alla sua regione di riferimento nella mappa delle caratteristiche ad alta risoluzione con il conteggio delle caratteristiche pixel-wise, risultando in un’efficienza migliorata. Grazie a questa progettazione, il framework Mini-Gemini è in grado di estrarre i dettagli delle caratteristiche ad alta risoluzione senza aumentare il numero di token visivi e mantiene un equilibrio tra la fattibilità computazionale e la ricchezza dei dettagli.

Generazione di Testo e Immagine

Il framework Mini-Gemini concatena i token visivi e i token di testo di input come input per i grandi modelli di linguaggio per la generazione autoregressiva. A differenza dei modelli di linguaggio e visione tradizionali, il framework Mini-Gemini supporta sia la generazione di solo testo che di testo e immagine come input e output, ovvero un’inferenza “qualsiasi a qualsiasi”, e ciò è il risultato delle eccezionali capacità di comprensione e ragionamento testo-immagine, il Mini-Gemini è in grado di generare immagini di alta qualità. A differenza dei lavori recenti che si concentrano sul divario di dominio tra le incorporazioni di testo dei modelli di generazione e i grandi modelli di linguaggio, il framework Mini-Gemini tenta di ottimizzare il divario nel dominio dei prompt linguistici traducendo le istruzioni dell’utente in prompt di alta qualità che producono immagini pertinenti al contesto nei modelli di diffusione latente. Inoltre, per una migliore comprensione della sintonizzazione delle istruzioni e dell’allineamento cross-modale, il framework Mini-Gemini raccoglie campioni da set di dati di alta qualità pubblicamente disponibili e utilizza il framework GPT-4 turbo per costruire ulteriormente un set di dati di istruzioni di 13K per supportare la generazione di immagini.

Mini-Gemini: Esperimenti e Risultati

Per valutare le sue prestazioni, il framework Mini-Gemini è istanziato con il framework ConvNext-L pre-addestrato per l’encoder visivo ad alta risoluzione e con un trasformatore visivo pre-addestrato CLIP per l’encoder visivo a bassa risoluzione. Per assicurare l’efficienza dell’addestramento, il framework Mini-Gemini mantiene i due encoder visivi fissi e ottimizza i proiettori della minerazione delle informazioni a livello di patch in tutte le fasi e ottimizza il grande modello di linguaggio durante la fase di sintonizzazione delle istruzioni.

La tabella seguente confronta le prestazioni del framework Mini-Gemini con i modelli di stato dell’arte in diversi setting e prende in considerazione anche i modelli privati. Come può essere osservato, il Mini-Gemini supera i framework esistenti in una vasta gamma di LLM costantemente alla risoluzione normale e dimostra prestazioni superiori quando configurato con il Gemma-2B nella categoria dei modelli efficienti. Inoltre, quando vengono impiegati grandi modelli di linguaggio più grandi, la scalabilità del framework Mini-Gemini è evidente.

Per valutare le sue prestazioni su alta risoluzione e token visivi estesi, gli esperimenti sono stati condotti con una dimensione di input di 672 per l’encoder visivo a bassa risoluzione e 1536 per l’encoder visivo. Come menzionato in precedenza, lo scopo principale dell’encoder visivo ad alta risoluzione è quello di offrire informazioni di candidati ad alta risoluzione. Come può essere osservato, il framework Mini-Gemini consegna prestazioni superiori quando confrontato con i framework di stato dell’arte.

Inoltre, per valutare la capacità di comprensione visiva del framework Mini-Gemini in ambienti del mondo reale, gli sviluppatori applicano il modello a una varietà di compiti di ragionamento e comprensione come dimostrato nell’immagine seguente. Come può essere osservato, il framework Mini-Gemini è in grado di risolvere una vasta gamma di compiti complessi grazie all’implementazione della minerazione delle informazioni a livello di patch e dei dati di alta qualità. Ma ciò che è ancora più impressionante è il fatto che il framework Mini-Gemini dimostra un’aggiunta di dettagli che si estende oltre la semplice capacità di riconoscimento e descrive elementi intricati in modo dettagliato.

La figura seguente fornisce una valutazione completa delle capacità generative del framework Mini-Gemini.

Quando confrontato con modelli recenti come ChatIllusion e AnyGPT, il framework Mini-Gemini dimostra capacità di comprensione multi-modale più forti, consentendogli di generare didascalie di testo-immagine che si allineano meglio con le istruzioni di input e producono risposte di immagine a testo con una maggiore somiglianza concettuale. Ciò che è ancora più impressionante è il fatto che il framework Mini-Gemini dimostra una notevole proficuità nella generazione di contenuti di alta qualità utilizzando solo istruzioni multi-modello umane con dati di addestramento di testo, una capacità che illustra la robusta interpretazione semantica e l’allineamento testo-immagine del Mini-Gemini.

Pensieri Finali

In questo articolo abbiamo parlato di Mini-Gemini, un framework potente e ottimizzato per modelli di linguaggio e visione multi-modalità. L’obiettivo principale del framework Mini-Gemini è quello di sfruttare le capacità latenti dei modelli di linguaggio e visione utilizzando dati di alta qualità, una progettazione strategica del framework e un ambito funzionale esteso. Mini-Gemini è un tentativo di ridurre il divario esistente tra modelli di linguaggio e visione e modelli più avanzati sfruttando il potenziale dei VLM per una migliore prestazione da tre aspetti: generazione guidata da VLM, dati di alta qualità e token visivi ad alta risoluzione. Per migliorare i token visivi, il framework Mini-Gemini propone di utilizzare un encoder visivo aggiuntivo per il raffinamento ad alta risoluzione senza aumentare il numero di token visivi. Il framework Mini-Gemini costruisce inoltre un set di dati di alta qualità nel tentativo di promuovere una comprensione precisa delle immagini e una generazione basata sulla ragione. Nel complesso, il framework Mini-Gemini tenta di sfruttare il potenziale dei modelli di linguaggio e visione e mira a potenziare i framework esistenti con capacità di ragionamento, comprensione e generazione di immagini simultaneamente.

Kunal Kejriwal

Un ingegnere per professione, uno scrittore per passione. Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedicato a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.