Intelligenza artificiale

LLaVA-UHD: un LMM che percepisce qualsiasi rapporto di aspetto e immagini ad alta risoluzione

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

I recenti progressi e il miglioramento dei Large Language Model hanno sperimentato un aumento significativo nelle capacità di ragionamento, comprensione e interazione visione-linguaggio. I framework moderni raggiungono questo obiettivo proiettando segnali visivi nei LLM o Large Language Model per abilitare la loro capacità di percepire il mondo visivamente, una vasta gamma di scenari in cui le strategie di codifica visiva svolgono un ruolo cruciale. Tuttavia, le immagini del mondo reale non contengono solo una vasta gamma di scenari, ma variano anche notevolmente in termini di risoluzioni e rapporti di aspetto, ponendo sfide significative per i LLM in diversi domini e compiti. Per affrontare la significativa varianza posta dalle immagini del mondo reale, i moderni large language model percepiscono le immagini in bassa risoluzione, ad esempio 224×224, e un rapporto di aspetto fisso, ad esempio 1:1. Sebbene il compromesso di utilizzare una bassa risoluzione e un rapporto di aspetto fisso aumenti la generalizzabilità del LLM nelle applicazioni del mondo reale, spesso rende sfocato il contenuto dell’immagine e provoca una grave distorsione della forma. Il compromesso ha un impatto significativo sulle capacità dei grandi modelli multi-modalità o LMM, in particolare quelli ottimizzati per compiti di granularità fine, come il riconoscimento dei caratteri ottici e la comprensione di piccoli oggetti. Inoltre, poiché la risoluzione e il rapporto di aspetto sono predefiniti, i modelli possono solo fare le migliori ipotesi sulle immagini sfocate, portando a un’allucinazione del modello, una situazione in cui il modello produce risposte testuali che non sono fondate fattualmente nelle immagini.

In questo articolo, parleremo di LLaVA-UHD, un approccio innovativo che prende prima i framework LLaVA-1.5 e GPT-4V come esempi rappresentativi e tenta di esporre le lacune sistematiche radicate nella loro strategia di codifica visiva. Il framework LLaVA-UHD, un modello multi-modale, è un tentativo di affrontare le sfide. Il framework LLaVA-UHD può percepire immagini ad alta risoluzione e in qualsiasi rapporto di aspetto. Il framework LLaVA-UHD è costruito attorno a tre componenti chiave. In primo luogo, una strategia di modularizzazione delle immagini che divide le immagini a risoluzione nativa in fette di dimensioni variabili per migliorare l’efficienza e estendere la codifica. In secondo luogo, un modulo di compressione che condensa ulteriormente i token di immagine prodotti dai codificatori visivi. Infine, uno schema spaziale che organizza i token di fette per i grandi modelli linguistici. Gli esperimenti completi indicano che il framework LLaVA-UHD è in grado di superare i modelli linguistici di grandi dimensioni attuali su 9 benchmark. Inoltre, utilizzando solo il 94% del calcolo di inferenza, il framework LLaVA-UHD è in grado di supportare immagini con una risoluzione 6 volte più grande, ad esempio 672×1088.

LLaVA-UHD: percepire efficientemente immagini in qualsiasi rapporto di aspetto e ad alta risoluzione

Il ragionamento visione-linguaggio, la comprensione e l’interazione hanno fatto notevoli progressi di recente, grazie principalmente alla recente spinta per i Large Language Model. Nei framework moderni, ciò si ottiene alimentando segnali visivi nei LLM (Large Language Model) per renderli in grado di interpretare il mondo reale visivamente, una vasta gamma di scenari che si basano su strategie di codifica visiva. La differenza di scenario riflette una copertura ristretta dei LLM in diversi domini e compiti, mentre la differenza di risoluzione e rapporto di aspetto rivela le grandi variazioni intra-classe nelle immagini del mondo reale, che sono difficili da gestire. A differenza della piccola scala che riduce la varianza, i modelli dopo BERT affrontano la significatività a partire dalla bassa risoluzione (ad esempio, per LLaVA-UHD è 224×224) delle immagini con un rapporto di aspetto fisso, 1:1 per fornire immagini del mondo reale. Sebbene questo compromesso sia utile per garantire la generalizzabilità del LLM nelle applicazioni del mondo reale, spesso porta a immagini molto sfocate e promuove una grave distorsione della forma. Ciò riduce le capacità dei grandi modelli multi-modalità o LMM (ad esempio, compiti di granularità fine), come il riconoscimento dei caratteri ottici e la comprensione di piccoli oggetti. Poiché la risoluzione e il rapporto di aspetto sono predefiniti, i modelli possono solo fare ipotesi sulle immagini sfocate, portando a un’allucinazione del modello, una situazione in cui il modello produce risposte testuali che non sono fondate fattualmente nelle immagini. Perché i modelli LMM di riferimento non percepiscono immagini ad alta risoluzione e con vari rapporti di aspetto?

Ci sono due motivi principali per cui i modelli LMM di riferimento non sono in grado di percepire immagini ad alta risoluzione e con vari rapporti di aspetto. In primo luogo, poiché i codificatori visivi sono pre-addestrati in risoluzioni fisse, ciò rende difficile per il modello e il codificatore gestire immagini con rapporti di aspetto e risoluzioni variabili, ciò che ha un impatto significativo sull’adattabilità del modello. In secondo luogo, la codifica diretta di immagini ad alta risoluzione utilizzando i trasformatori di visione è associata a un costo computazionale significativo in relazione alle dimensioni dell’immagine. Inoltre, i costi di calcolo potrebbero essere significativamente più alti per il grande modello linguistico per elaborare un gran numero di token visivi per immagini ad alta risoluzione, ciò che ha un impatto significativo sull’efficienza generale del modello. Per contrastare queste sfide, LLaVA-UHD, un grande modello multi-modale che percepisce immagini ad alta risoluzione e in qualsiasi rapporto di aspetto, prende i framework LLaVA-1.5 e GPT-4V come esempi rappresentativi e tenta di esporre le lacune sistematiche radicate nella loro strategia di codifica visiva.

L’immagine sopra riflette i risultati sperimentali del GPT-4V nell’identificazione del numero di oggetti all’interno di un’immagine. Al suo nucleo, il framework LLaVA-UHD ha tre componenti. In primo luogo, una strategia di modularizzazione delle immagini che divide le immagini a risoluzione nativa in fette di dimensioni variabili per una codifica estensibile ed efficiente. A differenza dei recenti LLM che adattano le immagini a diverse risoluzioni e rapporti di aspetto fissi, le fette di dimensioni variabili generate dal framework LLaVA-UHD consentono una piena adattabilità alle immagini a risoluzione nativa senza distorcere le forme, ridimensionare o riempire. In secondo luogo, il modello condensa i token visivi attraverso un livello di compressione per una lunghezza modesta, ciò che riduce significativamente il calcolo per i LLM. Infine, il modello organizza i token di fette compressi in uno schema spaziale per informare le posizioni delle fette nelle immagini al grande modello linguistico.

LLaVA-UHD: Metodologia e Architettura

Sulla base delle conoscenze acquisite da alcuni esperimenti pilota per studiare i framework esistenti, tra cui GPT-4V e LLaVA-1.5, il framework LLaVA-UHD implementa un’architettura a tre componenti come dimostrato nell’immagine seguente.

In primo luogo, una strategia di modularizzazione delle immagini che divide le immagini a risoluzione nativa in fette di dimensioni variabili per migliorare l’efficienza e estendere la codifica. In secondo luogo, un modulo di compressione che condensa ulteriormente i token di immagine prodotti dai codificatori visivi. Infine, uno schema spaziale che organizza i token di fette per i grandi modelli linguistici. Analizziamo più in dettaglio questi componenti.

Codifica Visiva Modularizzata

Un approccio comune per gestire immagini ad alta risoluzione con diverso rapporto di aspetto è interpolare le embedding di posizione del Vision Transformer o ViT alla forma di destinazione per la codifica diretta come un tutto. Tuttavia, l’implementazione di questo approccio è spesso accompagnata da costi di calcolo elevati e problemi di distribuzione che portano a un ulteriore degrado delle prestazioni. Per affrontare questa sfida, il framework LLaVA-UHD presenta una strategia di codifica visiva modularizzata che divide essenzialmente le immagini a risoluzione nativa in fette di dimensioni variabili in cui la forma di ogni fetta è molto vicina all’impostazione di pre-addestramento standard del trasformatore di visione. Grazie all’utilizzo di fette di dimensioni variabili, il framework LLaVA-UHD è in grado di raggiungere una piena adattabilità alle immagini a risoluzione nativa senza implementare alcun ridimensionamento o riempimento che distorce le forme. Inoltre, l’obiettivo principale della strategia di suddivisione delle immagini è determinare una divisione di immagini ad alta risoluzione con minimi cambiamenti nelle risoluzioni di ogni fetta. Per un’immagine data con una certa risoluzione (w, h) e un trasformatore di visione pre-addestrato in un’altra risoluzione, il framework LLaVA-UHD determina innanzitutto il calcolo ideale, ovvero il numero di fette necessarie per elaborare l’immagine.

Inoltre, la maggior parte dei LLM esistenti implementa una risoluzione statica per la codifica delle fette di immagine, un approccio che impedisce la piena adattabilità del modello alle risoluzioni native poiché hanno accesso solo a diverse fette di forma fissa predefinite. Inoltre, la risoluzione statica delle fette danneggia le prestazioni, l’efficienza e la correttezza del modello poiché incurre inevitabilmente un ridimensionamento o un riempimento che distorce le forme. Per affrontare questo problema, il framework LLaVA-UHD propone di codificare le fette di immagine nel rapporto di aspetto definito dalla strategia di partizione. Per essere più specifici, il framework LLaVA-UHD ridimensiona innanzitutto l’immagine originale proporzionalmente in base al rapporto di aspetto in modo che il numero di patch si adatti al budget di pre-addestramento, ovvero il numero di sequenze di embedding di posizione nel trasformatore di visione, al massimo.

Strato di Compressione

Un problema comune che i LLM affrontano nell’elaborazione di immagini ad alta risoluzione è che la quantità di token visivi che devono elaborare è significativamente più alta (ad esempio, il framework LLaVA-1.5 produce circa 3500 token visivi quando elabora un’immagine singola con risoluzione 672×1008), rappresentando una parte significativa delle risorse e dei costi computazionali. Per affrontare questa sfida, il modello LLaVA-UHD implementa un livello di campionamento condiviso per compressare i token visivi di ogni fetta di immagine. Il modello implementa quindi un set di vettori di query attraverso l’attenzione incrociata per campionare l’output dei token di immagine prodotti dai codificatori visivi in un numero inferiore. Rispetto alle strategie di proiezione visiva basate su Multilayer Perceptron più diffuse, l’approccio di campionamento del perceiver implementato da LLaVA-UHD è in grado di mantenere un numero fisso e ragionevole di token visivi indipendentemente dalla risoluzione dell’immagine, rendendo il framework LLaVA-UHD più compatibile con le attività di elaborazione e comprensione di immagini ad alta risoluzione.

Schema Spaziale per le Fette di Immagine

È una pratica necessaria informare il grande modello linguistico dell’organizzazione spaziale delle fette di immagine poiché la partizione delle immagini è dinamica tra diverse immagini. Il framework LLaVA-UHD progetta e implementa uno schema spaziale che utilizza due token speciali per informare il LLM della posizione relativa delle fette di immagine. Sotto questo schema spaziale, il framework LLaVA-UHD utilizza “,” per separare le rappresentazioni delle fette in una riga e le diverse righe sono separate utilizzando un “n”.

LLaVA-UDH: Esperimenti e Risultati

Il framework LLaVA-UHD è valutato contro 9 benchmark popolari, tra cui benchmark di risposta a domande visive generali, benchmark di risposta a domande visive basate su caratteri ottici, benchmark di allucinazione e benchmark completi. Inoltre, il framework LLaVA-UHD è confrontato con baseline solide, tra cui LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 e altri.

Le prestazioni del framework LLaVA-UHD su 9 benchmark popolari sono riassunte e confrontate con i benchmark popolari nella tabella seguente.

Sulla base delle prestazioni sopra, si può concludere che il framework LLaVA-UHD è in grado di superare i modelli di baseline forti su benchmark popolari, tra cui baseline generali addestrate su una quantità significativamente più grande di dati, oltre a superare i LLM che richiedono significativamente più calcolo come Fuyu-8B, Monkey e altri. In secondo luogo, i risultati indicano anche che il framework LLaVA-UHD ottiene risultati significativamente migliori rispetto all’architettura LLaVA-1.5 e, da un lato, dove LLaVA-1.5 supporta una risoluzione fissa di 336×336, il framework LLaVA-UHD supporta immagini con risoluzione 672×1088 e qualsiasi rapporto di aspetto, e lo stesso numero di token visivi.

Pensieri Finali

In questo articolo abbiamo parlato di LLaVA-UHD, un approccio innovativo che prende prima i framework LLaVA-1.5 e GPT-4V come esempi rappresentativi e tenta di esporre le lacune sistematiche radicate nella loro strategia di codifica visiva. Il framework LLaVA-UHD, un modello multi-modale, è un tentativo di affrontare le sfide. Il framework LLaVA-UHD può percepire immagini ad alta risoluzione e in qualsiasi rapporto di aspetto. Il framework LLaVA-UHD è costruito attorno a tre componenti chiave. In primo luogo, una strategia di modularizzazione delle immagini che divide le immagini a risoluzione nativa in fette di dimensioni variabili per migliorare l’efficienza e estendere la codifica. In secondo luogo, un modulo di compressione che condensa ulteriormente i token di immagine prodotti dai codificatori visivi. Infine, uno schema spaziale che organizza i token di fette per i grandi modelli linguistici. Gli esperimenti completi indicano che il framework LLaVA-UHD è in grado di superare i modelli linguistici di grandi dimensioni attuali su 9 benchmark. Inoltre, utilizzando solo il 94% del calcolo di inferenza, il framework LLaVA-UHD è in grado di supportare immagini con una risoluzione 6 volte più grande, ad esempio 672×1088.

Kunal Kejriwal

Un ingegnere per professione, uno scrittore per passione. Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedicato a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.