Intelligenza Artificiale

LLaVA-UHD: un LMM che percepisce qualsiasi rapporto d'aspetto e immagini ad alta risoluzione

Pubblicato il 6 Giugno 2024

Kunal Kejriwal

LLaVA-UHD: un LMM che percepisce qualsiasi rapporto d'aspetto e immagini ad alta risoluzione

Il recente progresso e avanzamento dei modelli linguistici di grandi dimensioni ha registrato un aumento significativo delle capacità di ragionamento, comprensione e interazione del linguaggio visivo. Le strutture moderne raggiungono questo obiettivo proiettando segnali visivi in LLM o modelli linguistici di grandi dimensioni per abilitare la loro capacità di percepire il mondo visivamente, una serie di scenari in cui le strategie di codifica visiva svolgono un ruolo cruciale. Tuttavia, le immagini del mondo reale non solo contengono un'ampia gamma di scenari, ma variano anche in modo significativo in termini di risoluzioni e proporzioni, ponendo sfide significative per i LLM in diversi domini e attività. Per affrontare la varianza significativa posta dalle immagini del mondo reale, i moderni modelli linguistici di grandi dimensioni percepiscono le immagini a bassa risoluzione, ovvero 224×224, e con proporzioni fisse, ovvero 1:1. Sebbene il compromesso di attenersi a una bassa risoluzione e proporzioni fisse aumenti la generalizzabilità dell'LLM nelle applicazioni del mondo reale, spesso offusca significativamente il contenuto dell'immagine provocando anche una grave distorsione della forma. Il compromesso ha un impatto significativo sulle capacità dei grandi modelli multimodali o LMM, in particolare quelli ottimizzati per compiti a grana fine, tra cui il riconoscimento ottico dei caratteri e la comprensione di piccoli oggetti. Inoltre, poiché la risoluzione e le proporzioni sono predeterminate, i modelli possono solo fare le ipotesi migliori sulle immagini sfocate, provocando allucinazioni del modello, una situazione in cui il modello produce risposte testuali che non sono fondate sui fatti nelle immagini.

In questo articolo parleremo di LLaVA-UHD, un nuovo approccio che prende innanzitutto i framework LLaVA-1.5 e GPT-4V come esempi rappresentativi e tenta di esporre i difetti sistematici radicati nella loro strategia di codifica visiva. Il quadro LLaVA-UHD, un modale multimodale, è un tentativo di affrontare le sfide. Il framework LLaVA-UHD può percepire immagini in alta risoluzione e in qualsiasi formato. Il framework LLaVA-UHD è costruito attorno a tre componenti chiave. Innanzitutto, una strategia di modularizzazione delle immagini che divide le immagini a risoluzione nativa in porzioni più piccole di dimensioni variabili nel tentativo di migliorare l’efficienza ed estendere la codifica. Successivamente, un modulo di compressione che condensa ulteriormente i token di immagine prodotti dai codificatori visivi. Infine, uno schema spaziale che organizza i token di fetta per i modelli linguistici di grandi dimensioni. Esperimenti completi indicano che il framework LLaVA-UHD è in grado di superare i modelli linguistici di grandi dimensioni all'avanguardia su 9 benchmark. Inoltre, utilizzando solo il 94% del calcolo di inferenza, il framework LLaVA-UHD è in grado di supportare immagini con una risoluzione 6 volte maggiore, ovvero 672×1088.

LLaVA-UHD: percepisci in modo efficiente le immagini in qualsiasi formato e formato Alta Risoluzione

Il ragionamento, la comprensione e l'interazione tra visione e linguaggio hanno compiuto progressi significativi negli ultimi tempi, in gran parte grazie alla recente spinta verso i Large Language Model (LLM). Nei framework moderni, lo stesso risultato si ottiene inserendo segnali visivi nei LLM (Large Language Model) per renderli in grado di interpretare visivamente il mondo reale, una vasta gamma di scenari che si basano su strategie di codifica visiva. La differenza di scenario riflette una copertura limitata dei LLM in diversi domini e attività, mentre la differenza di risoluzione e rapporto d'aspetto rivela le grandi variazioni intraclasse nelle immagini del mondo reale, difficili da gestire. A differenza della piccola scala che riduce la varianza, i modelli basati su BERT affrontano la significatività derivante dalla bassa risoluzione (ad esempio, per LLaVA-UHD è 224×224) delle immagini con un rapporto d'aspetto fisso, 1:1, per fornire immagini del mondo reale. Sebbene questo compromesso sia utile per garantire la generalizzabilità dell'LLM ad applicazioni del mondo reale, spesso porta a immagini molto sfocate, promuovendo al contempo una grave distorsione della forma. Ciò riduce le capacità dei grandi modelli. modelli multimodali o LMM (ad esempio, compiti a grana fine), come il riconoscimento ottico dei caratteri e la comprensione di piccoli oggetti. Poiché la risoluzione e le proporzioni sono predefinite, i modelli possono solo indovinare le immagini sfocate, provocando allucinazioni del modello, rendendo le risposte testuali generate finali non fondate sui fatti nelle immagini. Allora perché non confrontare i modelli LMM per percepire le immagini ad alta risoluzione e con proporzioni diverse?

Ci sono due ragioni principali per cui gli LMM di riferimento non sono in grado di percepire immagini ad alta risoluzione e con risoluzioni diverse. Innanzitutto, poiché i codificatori visivi sono pre-addestrati a risoluzioni fisse, rende difficile per il modello e il codificatore gestire immagini con proporzioni e risoluzioni diverse, incidendo così in modo significativo sull'adattabilità del modello. In secondo luogo, la codifica diretta di immagini ad alta risoluzione utilizzando trasformatori di visione è associata a costi di calcolo significativi rispetto alla dimensione delle immagini. Inoltre, i costi di calcolo potrebbero essere significativamente più elevati affinché il modello linguistico di grandi dimensioni elabori un gran numero di token visivi per immagini ad alta risoluzione, incidendo così in modo significativo sull’efficienza complessiva del modello. Per contrastare queste sfide, LLaVA-UHD, un grande modello multimodale che percepisce immagini ad alta risoluzione e qualsiasi rapporto d'aspetto, prende i framework LLaVA-1.5 e GPT-4V come esempi rappresentativi e tenta di esporre i difetti sistematici radicati nella loro visione strategia di codifica.

L'immagine sopra riflette i risultati sperimentali del GPT-4V nell'identificazione del numero di oggetti all'interno di un'immagine. Fondamentalmente, il framework LLaVA-UHD ha tre componenti. Innanzitutto, una strategia di modularizzazione delle immagini che divide le immagini a risoluzione nativa in porzioni più piccole di dimensioni variabili per una codifica estensibile ed efficiente. Contrariamente ai recenti LLM che adattano le immagini a diverse risoluzioni e proporzioni fisse, le sezioni di dimensioni variabili generate dal framework LLaVA-UHD consentono la piena adattabilità alle immagini a risoluzione nativa senza distorcere forme, ridimensionamenti o riempimento. In secondo luogo, il modello condensa i token visivi mediante uno strato di compressione a una lunghezza modesta, con conseguente riduzione significativa del calcolo per LLM. Infine, il modello organizza i token delle sezioni compresse in uno schema spaziale per comunicare le posizioni delle sezioni nelle immagini al modello linguistico di grandi dimensioni.

LLaVA-UHD: metodologia e architettura

Sulla base degli insegnamenti tratti da alcuni esperimenti pilota per studiare i framework esistenti tra cui GPT-4V e LLaVA-1.5, il framework LLaVA-UHD implementa un'architettura a tre componenti come dimostrato nell'immagine seguente.

Innanzitutto, una strategia di modularizzazione delle immagini che divide le immagini a risoluzione nativa in porzioni più piccole di dimensioni variabili nel tentativo di migliorare l’efficienza ed estendere la codifica. Successivamente, un modulo di compressione che condensa ulteriormente i token di immagine prodotti dai codificatori visivi. Infine, uno schema spaziale che organizza i token di fetta per i modelli linguistici di grandi dimensioni. Diamo uno sguardo dettagliato a questi componenti.

Codifica visiva modularizzata

Un approccio comune per gestire immagini ad alta risoluzione con proporzioni diverse consiste nell'interpolare gli incorporamenti di posizione del Vision Transformer o ViT nella forma target per la codifica diretta nel suo insieme. Tuttavia, l’implementazione di questo approccio è spesso accompagnata da elevati costi di calcolo e i problemi di distribuzione si traducono in un ulteriore degrado delle prestazioni. Per affrontare questa sfida, il framework LLaVA-UHD presenta una strategia di codifica visiva modularizzata che mira fondamentalmente a dividere le immagini a risoluzione nativa in sezioni più piccole di dimensioni variabili in cui la forma di ciascuna sezione è abbastanza vicina all'impostazione standard di pre-addestramento del trasformatore di visione. . Grazie all'uso di fette di dimensioni variabili, il framework LLaVA-UHD è in grado di raggiungere la piena adattabilità alle immagini a risoluzione nativa senza implementare alcun rimodellamento o imbottitura che distorca la forma. Inoltre, l'obiettivo principale della strategia di suddivisione delle immagini è determinare una suddivisione di immagini ad alta risoluzione con modifiche minime alle risoluzioni di ciascuna sezione. Per una data immagine con una determinata risoluzione (w,h) e un trasformatore di visione pre-addestrato in un'altra risoluzione, il framework LLaVA-UHD determina innanzitutto il calcolo ideale, ovvero il numero di fette necessarie per elaborare l'immagine. Il framework quindi fattorizza il numero di sezioni in m colonne e n righe. Il quadro definisce quindi una funzione di punteggio per misurare la deviazione dall'impostazione standard di pre-addestramento del trasformatore di visione. Teoricamente, il framework LLaVA-UHD è in grado di dimostrare che la strategia di partizione implementata nella sua architettura garantisce piccole modifiche previste e modeste modifiche nel caso peggiore rispetto alla risoluzione di pre-training standard per ciascuna sezione.

Inoltre, la maggior parte degli LLM esistenti implementa una risoluzione statica per la codifica delle sezioni di immagine, un approccio che impedisce la completa adattabilità del modello alle risoluzioni native poiché hanno accesso solo a diverse sezioni di forma fissa predefinite. Inoltre, la risoluzione statica delle sezioni compromette le prestazioni, l'efficienza e la correttezza del modello poiché comporta inevitabilmente un ridimensionamento o un riempimento che distorce la forma. Per affrontare questo problema, il framework LLaVA-UHD propone di codificare le sezioni di immagine nelle proporzioni definite dalla strategia di partizione. Per essere più specifici, il framework LLaVA-UHD ridimensiona innanzitutto l'immagine originale proporzionalmente in base alle proporzioni in modo che il numero di patch rientri nel budget pre-addestramento, ovvero il numero di sequenze di incorporamento della posizione nel trasformatore di visione, al massimo . Il modello LLaVA-UHD rimodella quindi la sequenza di incorporamento della posizione 1D pre-addestrata del trasformatore di visione in un formato 2D in conformità con le sue impostazioni di pre-addestramento.

Strato di compressione

Un problema comune che gli LLM devono affrontare durante l'elaborazione di immagini ad alta risoluzione è che la quantità di token visivi che devono elaborare è significativamente più elevata (per riferimento, il framework LLaVA-1.5 produce circa 3500 token visivi durante l'elaborazione di una singola immagine con risoluzione: 672×1008 ), che rappresentano la maggior parte delle risorse e dei costi di calcolo. Per tenere conto di questa sfida, il modello LLaVA-UHD implementa uno strato di ricampionamento del percettore condiviso per comprimere i token visivi di ciascuna porzione di immagine. Il modello implementa quindi una serie di vettori di query tramite attenzione incrociata per ricampionare l'output dei token immagine dai codificatori visivi su un numero inferiore. Se confrontato con le strategie di proiezione visiva prevalenti basate su Perceptron multistrato, l'approccio del campione del percettore implementato da LLaVA-UHD è in grado di mantenere un numero accessibile ma fisso di token visivi indipendentemente dalla risoluzione dell'immagine, rendendo il framework LLaVA-UHD più compatibile con l'alta- attività di elaborazione e comprensione delle immagini ad alta risoluzione. Per metterlo in immagine, il framework LLaVA-UDH genera la stessa quantità di token quando codifica un'immagine con risoluzione 672×1008 come LLaVA-1.5 viene generato durante la codifica di un'immagine con risoluzione 336×336, quasi 6 volte più efficace del suo concorrente.

Schema spaziale per le sezioni di immagine

È una pratica necessaria informare il grande modello linguistico delle organizzazioni spaziali delle porzioni di immagine poiché la partizione delle immagini è dinamica tra immagini diverse. Il framework LLaVA-UHD progetta e implementa uno schema spaziale che utilizza due token speciali per informare l'LLM della posizione relativa delle fette di immagine. In questo schema spaziale, il framework LLaVA-UHD utilizza "," per separare le rappresentazioni delle sezioni in una riga e le diverse righe vengono separate utilizzando una "\n".

LLaVA-UDH: esperimenti e risultati

Il framework LLaVA-UHD viene valutato rispetto a 9 benchmark popolari, tra cui benchmark generali di risposta alle domande visive, benchmark di risposta visiva alle domande basata su caratteri ottici, benchmark di allucinazioni e benchmark completi. Inoltre, il quadro LLaVA-UHD viene confrontato con linee di base forti tra cui LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 e altro.

Le prestazioni del framework LLaVA-UHD su 9 benchmark popolari sono riepilogate e confrontate con i benchmark più diffusi nella tabella seguente.

Sulla base delle prestazioni di cui sopra, si può concludere che il framework LLaVA-UHD è in grado di sovraperformare forti modelli di base su benchmark popolari, comprese solide linee di base generali formate su una quantità significativamente maggiore di dati, oltre a sovraperformare LLM che richiedono significativamente più calcoli come Fuyu-8B, Monkey e altri. In secondo luogo, i risultati indicano anche che il framework LLaVA-UHD ottiene risultati significativamente migliori rispetto all’architettura LLaVA-1.5 e, da un lato, laddove LLaVA-1.5 supporta una risoluzione fissa di 336×336, il framework LLaVA-UHD supporta immagini con risoluzione 672×1088 con qualsiasi proporzione e lo stesso numero di token visivi.

Considerazioni finali

In questo articolo abbiamo parlato di LLaVA-UHD, un nuovo approccio che prende innanzitutto i framework LLaVA-1.5 e GPT-4V come esempi rappresentativi e tenta di esporre i difetti sistematici radicati nella loro strategia di codifica visiva. Il quadro LLaVA-UHD, un modale multimodale, è un tentativo di affrontare le sfide. Il framework LLaVA-UHD può percepire immagini in alta risoluzione e in qualsiasi formato. Il framework LLaVA-UHD è costruito attorno a tre componenti chiave. Innanzitutto, una strategia di modularizzazione delle immagini che divide le immagini a risoluzione nativa in porzioni più piccole di dimensioni variabili nel tentativo di migliorare l’efficienza ed estendere la codifica. Successivamente, un modulo di compressione che condensa ulteriormente i token di immagine prodotti dai codificatori visivi. Infine, uno schema spaziale che organizza i token di fetta per i modelli linguistici di grandi dimensioni. Esperimenti completi indicano che il framework LLaVA-UHD è in grado di superare i modelli linguistici di grandi dimensioni all'avanguardia su 9 benchmark. Inoltre, utilizzando solo il 94% del calcolo di inferenza, il framework LLaVA-UHD è in grado di supportare immagini con una risoluzione 6 volte maggiore, ovvero 672×1088.

Kunal Kejriwal

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.