Intelligenza artificiale

Istruzione visiva di regolazione per la comprensione a livello di pixel con Osprey

Published January 25, 2024

Updated April 4, 2026

Kunal Kejriwal

Con il recente miglioramento dei metodi di regolazione dell’istruzione visiva, i Modelli Linguistici Multimodali (MLLM) hanno dimostrato notevoli capacità di visione-linguaggio di scopo generale. Queste capacità li rendono elementi chiave per gli assistenti visivi di scopo generale moderni. I modelli recenti, tra cui MiniGPT-4, LLaVA, InstructBLIP e altri, esibiscono notevoli capacità di ragionamento visivo e di esecuzione di istruzioni. Sebbene la maggior parte di essi si basi su coppie di immagini e testo per l’allineamento della visione-linguaggio a livello di immagine, si esibiscono bene in questo dominio. Tuttavia, la loro dipendenza dall’allineamento a livello di scatola e di immagine è il motivo principale per cui gli MLLM non riescono a replicare le loro prestazioni sui compiti di allineamento della visione-linguaggio a livello di pixel. Inoltre, la limitata disponibilità di dati di istruzione basati su maschere per l’addestramento rappresenta una sfida per migliorare ulteriormente gli MLLM.

Osprey è un metodo di addestramento di istruzioni testo-maschera con l’obiettivo principale di estendere gli MLLM. Incorpora regioni mascherate a grana fine nelle istruzioni linguistiche per raggiungere la comprensione visiva-linguistica a livello di pixel. Per realizzare ciò, il framework Osprey cura un set di dati di regioni-testo basate su maschere con oltre 700.000 campioni. Inietta la rappresentazione a livello di pixel nei Modelli Linguistici (LLM) per progettare un modello di visione-linguaggio. Notabilmente, il framework Osprey adotta un modello CLIP basato su convoluzione come suo encodatore visivo e integra un estrattore visivo consapevole di maschere nella sua architettura. Ciò consente l’estrazione precisa di caratteristiche visive di maschera da input ad alta risoluzione.

In questo articolo, discuteremo del framework Osprey e approfondiremo la sua architettura. Esploreremo anche il set di dati di regioni-testo curato con oltre 700.000 campioni e confronteremo le sue prestazioni in vari compiti di comprensione di regioni. Quindi, iniziamo.

Osprey: Comprensione a livello di pixel con regolazione dell’istruzione visiva

I Modelli Linguistici Multimodali come MiniGPT-4, Otter, Qwen-LV, InstructBLIP e altri sono i precursori nello sviluppo di assistenti visivi di scopo generale e sono noti per le loro eccezionali capacità multimodali e generative di visione. Tuttavia, i Modelli Linguistici Multimodali Multimodali affrontano una sfida importante poiché forniscono risultati insoddisfacenti sui compiti di comprensione di immagini a grana fine come la didascalia, la classificazione di regioni e il ragionamento. Un motivo principale per le prestazioni inferiori ai compiti di comprensione di immagini a grana fine è la mancanza di allineamento a livello di regione. I recenti MLLM come GPT4RoI, Shikra e altri mirano a consentire la comprensione a livello di regione nei modelli di visione-linguaggio elaborando regioni specificate da scatole delimitatrici e sfruttando la regolazione dell’istruzione visiva con caratteristiche spaziali a livello di oggetto.

Sebbene l’approccio per consentire la comprensione a livello di regione possa migliorare le prestazioni, l’uso di scatole delimitatrici sparse come input di regione di riferimento potrebbe introdurre caratteristiche di sfondo non pertinenti, portando a un allineamento inaccurato di coppie di testo-regione per la regolazione dell’istruzione visiva sui modelli linguistici di grandi dimensioni. Durante il processo di inferenza, l’input di riferimento a livello di scatola potrebbe non essere in grado di rilevare e rappresentare l’oggetto con precisione; ciò potrebbe risultare in una deviazione semantica, come dimostrato nell’immagine seguente.

Al contrario, l’uso di maschere a grana fine invece di scatole delimitatrici grossolane come input di riferimento potrebbe rappresentare gli oggetti con maggiore precisione. Il modello di Segment Anything (SAM) recentemente sviluppato, addestrato su miliardi di maschere di alta qualità, dimostra una notevole qualità di segmentazione su oggetti zero-shot e supporta l’uso di punti o scatole delimitatrici semplici come prompt. Tuttavia, il framework SAM non può generare etichette semantiche principali, né può fornire didascalie dettagliate e attributi semantici. Di conseguenza, i modelli esistenti mancano di informazioni multimodali a grana fine innate e hanno una comprensione limitata delle scene nel mondo reale.

Per affrontare le sfide affrontate dagli MLLM esistenti, Osprey, un nuovo metodo di addestramento di istruzioni testo-maschera, mira a estendere le capacità dei modelli linguistici multimodali per la comprensione visiva a grana fine a livello di pixel. Il framework Osprey introduce un estrattore visivo consapevole di maschere che cattura caratteristiche visive di maschera con granularità variabile con precisione. Il framework quindi intreccia le caratteristiche visive con le istruzioni linguistiche per generare la sequenza di input per il modello linguistico di grandi dimensioni e sfrutta l’architettura CLIP basata su convoluzione per facilitare l’uso di input ad alta risoluzione. Grazie al suo design e architettura, il framework Osprey è in grado di raggiungere una comprensione semantica a grana fine per regioni a livello di oggetto e di parte, e fornisce attributi di oggetto dettagliati insieme alla categoria di oggetto principale e descrizioni migliorate di scene complesse.

Sfruttando le capacità di regolazione dell’istruzione visiva, il framework Osprey consente nuove capacità oltre la comprensione a livello di immagine e di scatola delle scene, poiché il framework Osprey può generare semantica a grana fine utilizzando maschere class-agnostiche da SAM pronte all’uso. Inoltre, Osprey mostra capacità notevoli in vari compiti di classificazione di oggetti di riferimento, riconoscimento a vocabolario aperto, descrizione di regioni a livello di regione e compiti di descrizione dettagliata di regioni.

Osprey: Metodologia e Architettura

La figura seguente mostra la panoramica dell’architettura del framework Osprey, composto da un modello linguistico di grandi dimensioni, un estrattore visivo consapevole di maschere a livello di pixel e un encodatore visivo a livello di immagine.

Per un’immagine data, l’input linguistico e le regioni di maschera di riferimento, il framework esegue la conversione e la tokenizzazione per generare le embeddings, quindi invia le sequenze di embeddings linguistici e le caratteristiche di maschera intrecciate al modello linguistico di grandi dimensioni per ottenere comprensioni semantiche a grana fine.

Encodatore visivo CLIP basato su convoluzione

L’encodatore visivo impiegato nella maggior parte dei modelli linguistici multimodali è esemplificato utilizzando un modello CLIP basato su ViT. Di conseguenza, il framework adotta una risoluzione dell’immagine di 224×224 pixel o 336 x 336 pixel. Tuttavia, l’uso del modello CLIP basato su ViT rende difficile per il modello raggiungere una comprensione di immagini a grana fine a livello di pixel, un problema amplificato ulteriormente in piccole regioni. Inoltre, il sovraccarico computazionale associato all’architettura ViT ostacola la possibilità di aumentare la risoluzione dell’immagine di input.

Per affrontare la sfida, il framework Osprey implementa un modello CLIP basato su convoluzione come encodatore visivo nella sua architettura. Tradizionalmente, i modelli CLIP basati su reti neurali convoluzionali hanno dimostrato notevoli capacità di generalizzazione su diverse risoluzioni di input rispetto ai modelli CLIP basati su trasformatori di visione. L’implementazione di un modello CLIP basato su CNN consente un’inferenza rapida e un addestramento efficiente senza compromettere le prestazioni del modello. Inoltre, un modello CLIP basato su CNN è in grado di generare mappe di caratteristiche multi-scala che il framework utilizza quindi direttamente per l’estrazione di caratteristiche in ogni regione di oggetto successiva.

Estrattore visivo consapevole di maschere

A differenza dei modelli basati su regioni esistenti che utilizzano scatole delimitatrici sparse come input di riferimento, il framework Osprey utilizza regioni di maschera dettagliate per implementare rappresentazioni basate su oggetti. Il modello Osprey impiega un componente di estrattore visivo consapevole di maschere per catturare caratteristiche visive di pixel all’interno di ogni regione di oggetto.

Per implementare ciò, Osprey utilizza prima le caratteristiche di immagine a livelli multipli generate dall’encodatore visivo per adottare l’operazione di pooling di maschera e, per ogni caratteristica a livello singolo, il framework esegue il pooling di tutte le caratteristiche che si trovano all’interno della regione di maschera. Il modello codifica quindi le caratteristiche attraverso diversi livelli passando ogni caratteristica attraverso un livello di proiezione lineare che genera embeddings a livello di regione e fonde caratteristiche multi-livello eseguendo una somma. Il modello utilizza quindi un livello MLP per produrre il token di maschera visiva. Inoltre, Osprey preserva la geometria spaziale della regione di oggetto codificando la relazione di posizione a livello di pixel implementando una maschera binaria per ogni regione di oggetto. Infine, Osprey include il token di maschera visiva e i suoi rispettivi token spaziali per ogni embedding di regione di maschera.

Tokenizzazione LLM

Come menzionato in precedenza, il modello estrae le embeddings di immagine a livello di immagine alimentando l’immagine in un encodatore visivo pre-addestrato basato su CNN. Per le informazioni testuali, il modello utilizza prima i tokenizer LLM pre-addestrati per tokenizzare le sequenze di testo e quindi proietta queste sequenze di testo tokenizzate in embeddings di testo. Per regioni basate su maschere, il modello definisce un token speciale come segnaposto e quindi lo sostituisce con un token spaziale insieme a un token di maschera. Quando il modello si riferisce a una regione di oggetto nell’input testuale, allega il segnaposto dopo il nome della regione, il che consente alle regioni di maschera di mescolarsi con i testi in modo da risultare in frasi complete senza spazi di tokenizzazione. Inoltre, oltre alle istruzioni dell’utente, il modello include anche un prompt di prefisso, un token speciale che funge da segnaposto, che viene quindi sostituito con le embeddings di immagine a livello di immagine dell’encodatore visivo. Infine, il framework intreccia i token visivi a livello di regione e di immagine con i token testuali e li alimenta nel modello linguistico di grandi dimensioni per comprendere le istruzioni dell’utente e l’immagine con diverse regioni nell’oggetto.

Osprey: Processo di addestramento a tre fasi

Il framework Osprey impiega un processo di addestramento a tre fasi, in cui ogni fase di addestramento è supervisionata minimizzando una perdita di previsione del token successivo.

Fase 1: Addestramento di allineamento immagine-testo

Nella prima fase, il framework Osprey impiega l’encodatore visivo CLIP basato su CNN per addestrare le caratteristiche di immagine a livello di immagine e il connettore linguistico per addestrare il modello per l’allineamento delle caratteristiche di immagine e testo. Nella prima fase, il framework impiega tre componenti: un modello linguistico di grandi dimensioni pre-addestrato, un encodatore visivo pre-addestrato e un proiettore di immagine a livello di immagine. Il framework adotta anche un livello MLP per servire come connettore visione-linguaggio che aiuta a migliorare le capacità generative multimodali di Osprey.

Fase 2: Pre-addestramento di allineamento testo-maschera

Nella seconda fase, Osprey carica i pesi addestrati nella prima fase e impiega il suo componente di estrattore visivo consapevole di maschere per catturare caratteristiche di regione a livello di pixel. Nella seconda fase, il framework addestra solo l’estrattore visivo consapevole di maschere per allineare le embeddings linguistiche con le caratteristiche di regione basate su maschere. Inoltre, il modello raccoglie coppie di maschere e testi brevi da set di dati di oggetto e parte a livello pubblico e li converte in dati di istruzioni per addestrare ulteriormente il modello.

Fase 3: Regolazione fine end-to-end

Nella terza e ultima fase, il modello fissa i pesi dell’encodatore visivo e regola i componenti del modello linguistico di grandi dimensioni, dell’estrattore di caratteristiche di regione basate su maschere e del proiettore di immagine a livello di immagine nella sua architettura. L’obiettivo principale dell’addestramento nella terza fase è estendere la capacità del modello di seguire le istruzioni dell’utente con precisione e eseguire compiti di comprensione di regioni a livello di pixel in modo efficiente.

Dopo aver implementato le tre fasi di addestramento, il framework Osprey è in grado di comprendere scenari complessi definiti dalle istruzioni dell’utente e basati su regioni di maschera a livello di pixel.

Osprey: Risultati sperimentali

Per valutare le sue prestazioni, gli sviluppatori di Osprey eseguono una vasta gamma di esperimenti per dimostrare le capacità del modello nella classificazione, nel riconoscimento a livello di regione e nelle descrizioni complesse.

Segmentazione a vocabolario aperto

L’obiettivo principale della segmentazione a vocabolario aperto è generare il riconoscimento di regioni basate su maschere e la sua categoria rispettiva in modo esplicito. Per raggiungere la segmentazione a vocabolario aperto, Osprey utilizza prima un prompt di testo di input, seguito dal modello che adotta regioni di maschera di verità di base per l’interferenza del modello per valutare le prestazioni del modello nei compiti di riconoscimento a vocabolario aperto. Sulla base della risposta di frase generata dal modello linguistico multimodale, Osprey calcola la similarità semantica tra l’elenco del vocabolario e l’output di ogni set di dati. La figura seguente confronta Osprey con i modelli linguistici multimodali di stato dell’arte.

Come si può osservare, il framework Osprey supera i metodi esistenti di un margine considerevole sia nel set di dati Cityscapes che in ADE20K-150. I risultati indicano la capacità di Osprey di superare gli approcci esistenti e raggiungere una comprensione e un riconoscimento robusti di regioni di oggetto a grana fine.

Classificazione di oggetti di riferimento

Nel compito di classificazione di oggetti di riferimento, il modello deve classificare l’oggetto all’interno di una regione specifica di un’immagine. Per valutare le sue capacità di classificazione, il framework Osprey utilizza due metriche di rilevanza semantica, tra cui IoU semantico (S-IoU) e similarità semantica (SS). L’IoU semantico rappresenta l’overlapping di parole tra le etichette di verità di base e le etichette di previsione, mentre la similarità semantica misura la similarità tra le etichette di previsione e/o di verità di base nello spazio semantico. L’immagine seguente dimostra le prestazioni di Osprey nel compito di classificazione di oggetti di riferimento quando confrontato con modelli che impiegano approcci a livello di scatola e di immagine.

Descrizione dettagliata di regioni

Nel compito di descrizione dettagliata di regioni, il modello valuta le sue capacità di descrizione dettagliata delle istruzioni insieme ad altri approcci a livello di regione. Il modello seleziona casualmente un prompt di inferenza di input da un elenco di prompt predefiniti e sfrutta il framework LLM GPT-4 per misurare la qualità della risposta generata dal modello rispetto alle regioni di riferimento in modo completo. Utilizzando il pipeline di generazione di istruzioni, il modello genera domande e cerca risposte di GPT-4, dopo di che il LLM valuta la correttezza della semantica e la precisione della comprensione di riferimento. La tabella seguente dimostra le prestazioni di Osprey contro i modelli di stato dell’arte nei compiti di descrizione dettagliata di regioni.

Didascalia a livello di regione

Il framework Osprey supera anche gli approcci attuali nel compito di didascalia a livello di regione, con i risultati contenuti nell’immagine seguente.

Pensieri finali

In questo articolo, abbiamo parlato di Osprey, un metodo di addestramento di istruzioni testo-maschera con l’obiettivo principale di estendere gli MLLM incorporando regioni di maschera a grana fine nelle istruzioni linguistiche per raggiungere la comprensione visiva-linguistica a livello di pixel. Per raggiungere il suo obiettivo, il framework Osprey cura un set di dati di regioni-testo basate su maschere con oltre 700.000 campioni e inietta la rappresentazione a livello di pixel nei modelli linguistici di grandi dimensioni per progettare un modello di visione-linguaggio. Il framework Osprey mira a migliorare gli MLLM per la comprensione visiva a grana fine in modo significativo e, implementando un modello CLIP basato su CNN e un estrattore visivo consapevole di maschere, Osprey raggiunge la capacità di comprendere le immagini a livello di regioni di oggetto e di parte.