Intelligenza Artificiale

Furetto: riferirsi e macinare a qualsiasi granularità

Pubblicato il Gennaio 16, 2024

Kunal Kejriwal

FERRET: RIFERIMENTO E MACINATO A QUALSIASI GRANULARITÀ

Abilitare la comprensione spaziale nei modelli di apprendimento del linguaggio visivo rimane una sfida fondamentale per la ricerca. Questa comprensione è alla base di due capacità cruciali: radicamento e riferimento. Il riferimento consente al modello di interpretare accuratamente la semantica di regioni specifiche, mentre il radicamento implica l'utilizzo di descrizioni semantiche per localizzare queste regioni.

Gli sviluppatori hanno introdotto Ferret, un Multimodal Large Language Model (MLLM), in grado di comprendere i riferimenti spaziali attraverso qualsiasi granularità o forma in un'immagine e di fondare accuratamente le descrizioni del vocabolario aperto. Ferret utilizza una nuova rappresentazione ibrida che combina caratteristiche continue e coordinate discrete per rappresentare le regioni dell'immagine. Il suo campionatore visivo con consapevolezza spaziale gestisce la varia scarsità delle forme, consentendogli di elaborare input di diverse regioni come forme a forma libera, riquadri di delimitazione e punti.

L'approccio di Ferret gli consente di eccellere nelle attività di grounding e referral classiche e di superare altri MLLM nella comunicazione multimodale basata sulla localizzazione e su regioni specifiche. Questo articolo approfondisce l'architettura e la metodologia di Ferret, evidenziandone le prestazioni impressionanti in diverse attività linguistiche multimodali. Approfondiamo ulteriormente l'argomento.

Furetto: prestazioni superiori nei compiti di riferimento e di radicamento

Fare riferimento in un modello è una capacità che consente al modello di comprendere accuratamente la semantica di determinate regioni specifiche, mentre il radicamento rende essenziale per il modello l'utilizzo delle descrizioni semantiche fornite per localizzare le regioni. Sebbene possano differire nei rispettivi compiti, sia il riferimento che il radicamento hanno lo stesso concetto fondamentale: allineamento della semantica spaziale e dell'informazione. Tuttavia, nonostante condividano lo stesso concetto, i modelli esistenti apprendono il radicamento e il riferimento individualmente. Sebbene il metodo funzioni, rappresenta un ostacolo nel raggiungimento di capacità simili a quelle umane poiché gli esseri umani possono imparare da un compito e applicare quanto appreso ad altri compiti senza problemi e sono in grado di integrare senza sforzo capacità di radicamento/riferimento con il ragionamento e il dialogo quotidiano. Il framework Ferret si ispira al divario sopra menzionato nei framework MLLM esistenti e studia tre domande principali:

Come unificare le capacità di radicamento e di riferimento nella struttura e in che modo la loro unione si trarrà beneficio a vicenda?
Gli esseri umani utilizzano tipi versatili di regioni come box, punti, scarabocchi e forme a forma libera per fare riferimento? Come rappresentare queste regioni versatili?
Come rendere solido e aperto il vocabolario di base e di riferimento che segue le istruzioni, fondamentale per le loro applicazioni pratiche e in tempo reale?

Il framework Ferret è un nuovo modello linguistico multimodale di riferimento e di base che tenta di rispondere a queste domande. Il framework Ferret sceglie a Modello linguistico multimodale di grandi dimensioni come fondamento grazie alla loro notevole visione globale e capacità di comprensione del linguaggio. Inoltre, per unificare le capacità di radicamento e di riferimento, il quadro Ferret rappresenta le coordinate delle regioni in forma numerica in linguaggio naturale. Tuttavia, in pratica, è inefficace utilizzare le coordinate del riquadro o anche singoli punti per rappresentare forme di regioni versatili come scarabocchi, tratti o poligoni complessi poiché queste forme sono fondamentali per una maggiore precisione e un'interazione uomo-modello più universale. Per affrontare questo problema, il framework Ferret utilizza un campionatore visivo con consapevolezza spaziale che acquisisce le regioni visive per regioni indipendentemente dalla forma, negoziando così con la varia scarsità in queste forme. Il framework combina quindi le caratteristiche visive continue con coordinate discrete per rappresentare le regioni visive nell'input, risultando nella creazione di una rappresentazione della regione ibrida in Ferret.

Il framework Ferret distribuisce i metodi di cui sopra per risolvere l'input che mescola testo in formato libero con regioni di riferimento ed è in grado di generare senza problemi le coordinate per ciascun oggetto collegabile con la generazione di testo per mettere a terra gli oggetti menzionati nell'output. In questo modo, Ferret è il primo framework in grado di elaborare regioni di input a formato libero in modelli linguistici multimodali di grandi dimensioni. Inoltre, il framework Ferret assorbe notevoli capacità di vocabolario aperto di localizzazione e comprensione spaziale, consentendo al framework di ottenere prestazioni superiori quando valutato su compiti di radicamento e riferimento convenzionali.

Andando avanti, il framework Ferret cerca ispirazione da tre framework di intelligenza artificiale esistenti, tra cui modelli multimodali di grandi linguaggi, MLLM per riferimento e radicamento e unificazione di radicamento e comprensione VL.

L’introduzione di modelli linguistici di grandi dimensioni, tra cui GPT, DALL-E, PaLM, LLaMA e BLOOM, ha cambiato il panorama della ricerca sulla PNL, determinando progressi significativi dei modelli linguistici multimodali. I precedenti modelli linguistici multimodali si concentravano principalmente sulla generazione di immagini-testo su larga scala con alcuni esempi degni di nota come PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3 e PaLI-X. Tuttavia, poiché il framework Flamingo ha raggiunto un'integrazione efficiente di LLM con un codificatore di immagini CLIP pre-addestrato attraverso blocchi di attenzione incrociati, si ottengono notevoli capacità di apprendimento multimodale a pochi scatti. La ricerca attuale è alla ricerca di modi per utilizzare modelli linguistici di grandi dimensioni pre-addestrati per la messa a punto delle istruzioni visive, con esempi degni di nota miniGPT-4, Otter, InstructBLIP e altro ancora. Inoltre, modelli recenti come Emu e GILL hanno mostrato un notevole successo nell’utilizzo degli MLLM per la generazione e il recupero di immagini. Il framework Ferret si riferisce anche a ricerche precedenti incentrate sull'unificazione del testo e dell'output del riquadro di delimitazione per i modelli del linguaggio di visione.

Ferret: Metodologia e Architettura

Rappresentazioni di regioni ibride

Punto, riquadro e forme a forma libera sono i tre formati dominanti utilizzati da un modello linguistico quando si fa riferimento a regioni specifiche. Da un lato, il punto e il formato della casella possono essere rappresentati accuratamente dalle coordinate, la mappatura delle forme a forma libera è un po' impegnativa poiché le forme a forma libera sono versatili. Essendo versatili, le forme a forma libera possono comprendere un'ampia gamma di regioni tra cui maschere, poligoni e scarabocchi. L’utilizzo delle coordinate per rappresentare forme a forma libera è un compito complesso che ostacola la capacità del modello di imparare a stabilire una correlazione tra le regioni e le coordinate corrispondenti. Inoltre, l’uso delle coordinate per forme a forma libera è computazionalmente costoso e oscuro.

Per affrontare questo problema e generalizzare a tutti e tre i formati, il framework Ferret propone una rappresentazione della regione ibrida che mette in sinergia caratteristiche visive continue con coordinate discrete per fare riferimento a una particolare regione.

Per le caratteristiche visive continue, per una determinata regione, il framework Ferret costruisce prima una maschera binaria 2D della stessa dimensione dell'immagine e contrassegna un valore 1 all'interno della regione target mentre assegna un valore 0 all'esterno della regione. Il modello quindi estrae la maschera binaria insieme alla mappa delle caratteristiche dell'immagine estratta, quindi la invia al campionatore visivo con consapevolezza spaziale.

Architettura

L'architettura del modello Ferret comprende tre componenti principali

Un codificatore di immagini per estrarre incorporamenti di immagini.
Esempi visivi con consapevolezza spaziale per estrarre funzionalità continue regionali.
Un modello linguistico di grandi dimensioni per modellare congiuntamente testo, immagini e funzionalità regionali.

L'immagine viene prima inserita nel codificatore visivo pre-addestrato per estrarre gli incorporamenti dell'immagine. Per gli input di testo, il framework utilizza innanzitutto un tokenizzatore LLM preaddestrato per tokenizzare la sequenza di testo, quindi proietta questi token negli incorporamenti di testo. Per le regioni segnalate, Ferret aggiunge un token speciale e le coordinate come segnaposto per gli elementi continui dopo il nome della regione. Se il nome della regione è sconosciuto o è complesso da descrivere a causa dell'inclusione di diversi oggetti, il framework utilizza semplicemente il nome dell'area o della regione.

Una delle maggiori sfide legate alle regioni di riferimento è che la loro forma può essere molto variabile, nel senso che possono avere forme diverse e non limitarsi solo a riquadri rettangolari o punti. Le regioni referenziate con forme irregolari non possono essere elaborate con metodi tradizionali come l'elaborazione basata sulla griglia, comprese le tecniche di attenzione patch o di convoluzione. Per affrontare questo problema, il framework Ferret propone un campionatore visivo con consapevolezza spaziale. Per una data mappa di caratteristiche estratta con una maschera di regione binaria, il modello Ferret campiona innanzitutto in modo casuale un numero N di punti all'interno della maschera di regione binaria.

Per ogni singolo punto, il modello ottiene la sua caratteristica eseguendo l'interpolazione bilineare. Gli N punti vengono quindi inseriti in una cascata di blocchi e ciascuno di essi passa attraverso tre diverse fasi: campionamento, raccolta e pooling. Nella fase di campionamento, un numero fisso di punti viene campionato da un numero N di punti disponibili utilizzando l'algoritmo FPS o Farthest Point Sampling che garantisce una copertura adeguata. Nella seconda fase, per ciascun punto campione, il sistema ricerca i suoi k vicini più vicini dal pool di N punti disponibili. Per ciascun gruppo, il modello fonde quindi le caratteristiche di un punto campione con i punti vicini. Nella fase finale, il framework Ferret effettua un max pooling per fondere k caratteristiche vicine in una caratteristica che funga da rappresentazione per il punto campionato. Eseguendo questi tre passaggi, la struttura Ferret rimane con meno punti ma presenta uno spazio con una densità maggiore perché incorpora non solo le caratteristiche dei vicini locali ma anche le loro posizioni relative.

Generazione di dati visivi assistita da GPT

I dati di ottimizzazione delle istruzioni di dialogo sono di fondamentale importanza per il multimodale Grandi modelli linguistici non solo aiutano a convertire i set di dati esistenti in modelli, ma aiutano anche il modello a comprendere le intenzioni umane e a generare una risposta adeguata. La maggior parte degli MLLM utilizza un metodo di richiesta di pochi scatti per ottenere dati di ottimizzazione delle istruzioni visive, in cui il modello fornisce una descrizione testuale delle scene nell'immagine insieme a dialoghi umani annotati come dimostrazioni di pochi scatti. Tuttavia, i metodi di ottimizzazione delle istruzioni esistenti si concentrano principalmente sulla descrizione dell'intera immagine senza specificare esplicitamente le informazioni relative allo spazio. Il framework Ferret enfatizza la conoscenza basata sulla regione per raccogliere dati di ottimizzazione delle istruzioni di riferimento e di terra in tre fasi.

Oltre a utilizzare didascalie e oggetti globali, il framework fornisce una descrizione simbolica della scena che descrive la relazione fisica tra le didascalie e gli oggetti della regione fornendo anche le loro coordinate.
Per i dialoghi con annotazioni umane, il framework aggiunge coordinate dopo oggetti o regioni radicabili in input o output o entrambi con i dialoghi che si concentrano principalmente su regioni specifiche che aiutano a spingere implicitamente il modello linguistico a seguire modelli simili per la nuova generazione di dialoghi.
Potrebbe essere possibile che il dialogo generato dal framework non segua le regole e i modelli indicati negli esempi di poche riprese e nei suggerimenti del sistema. Per affrontare questo problema, il framework utilizza nuovamente un modello linguistico per affinare inizialmente i dialoghi generati dal modello.

Estrazione spaziale negativa

Ricerche precedenti hanno dimostrato che i modelli linguistici multimodali di grandi dimensioni hanno un'alta probabilità di avere allucinazioni quando rispondono a domande Sì o No. Per garantire che il modello Ferret non abbia allucinazioni in condizioni simili, il framework utilizza un approccio di mining negativo spaziale con localizzazione di categoria condizionata dall'immagine e localizzazione di categoria condizionata dalla semantica. Entrambi questi metodi richiedono al modello di localizzare categorie di oggetti specifiche che consentano al modello di riconoscere l'assenza di determinati oggetti nell'immagine.

Furetto: risultati e sperimentazione

Per analizzarne le prestazioni, il framework Ferret viene valutato in base a parametri di riferimento e di messa a terra convenzionali, dopodiché il framework viene valutato in un compito di chat multimodale più complesso e testando le sue capacità di riferimento e messa a terra.

La capacità del modello di comprendere il riferimento viene valutata in base alla precisione con cui un modello può comprendere la semantica della regione di riferimento data una regione di riferimento nell'immagine o nella domanda. Per misurare l’accuratezza del modello, vengono considerati innanzitutto gli oggetti e la semantica più elementare poiché non è solo fondamentale ma anche facile da definire. Per imitare la versatilità a livello umano, la struttura sostituisce la posizione dell'oggetto all'interno dell'immagine con una forma a forma libera, una scatola e un punto. Per una forma a forma libera, il modello genera tratti casuali all'interno dell'oggetto Ground Truth per la simulazione. Per il box, il framework Ferret utilizza il riquadro di delimitazione della verità terrestre fornito dal componente LVIS. Infine, per punto, il modello campiona casualmente un punto all'interno dell'oggetto Ground Truth che si trova anche vicino al confine dell'oggetto Ground Truth. I risultati sui tre tipi di riferimento sono mostrati nell'immagine seguente.

Il framework Ferret dimostra prestazioni notevoli nei compiti di dialogo referenziale, lasciando spazio all'integrazione con diversi compiti di apprendimento visivo, in particolare quelli con risultati di messa a terra. Per valutare la sua capacità di radicamento, il framework Ferret si sottopone innanzitutto a confrontare i compiti di radicamento visivo con un paradigma generativo. Il quadro valuta quindi la sua capacità, nei compiti di sottotitoli radicati, di misurare l'allineamento tra le regioni e le parole.

Nelle attività di messa a terra visiva, il framework mira a radicare le query linguistiche in regioni allineate dell'immagine e, come si può vedere nell'immagine seguente, il framework Ferret dimostra prestazioni notevoli su tutti i benchmark e le prestazioni sono paragonabili a quelle ottenute da metodi specializzati di messa a punto.

Per le attività di sottotitoli con base, il modello deve generare una didascalia e quindi ancorare le frasi nominali generate alle regioni dell'immagine. La previsione finale fatta dal modello è composta da tre componenti: regioni visive come riquadri, didascalie di testo e allineamenti fondamentali tra riquadri e parole. I risultati sono mostrati nell'immagine seguente e, come si può osservare, il framework offre prestazioni paragonabili ai metodi all'avanguardia.

Infine, la chat multimodale è una delle funzionalità più desiderate all'interno di un MLLM e gli MLLM esistenti valutano principalmente descrizioni dettagliate, conversazioni e ragionamenti complessi con il modello linguistico come giudice. Tuttavia, poiché nessun set di dati valuta la chat multimodale con azioni di riferimento o di messa a terra obbligatorie, lascia una lacuna. Per colmare questa lacuna, il quadro Ferret copre tre domande su base regionale per valutare le sue capacità di riferimento e di radicamento nelle attività di chat multimodali. I risultati sono mostrati nell'immagine seguente.

Infine, il framework Ferret viene confrontato direttamente con il framework GPT all'avanguardia e i risultati sono illustrati di seguito.

Considerazioni finali

In questo articolo abbiamo parlato del Furetto, un modello linguistico multimodale di grandi dimensioni che dimostra notevoli capacità di radicamento e di riferimento. Il framework Ferret può fare riferimento a regioni dell'immagine indipendentemente dalla sua forma e può stabilire automaticamente la base per il testo previsto dal modello. Ferret utilizza un campionatore visivo con consapevolezza spaziale in grado di gestire la varia scarsità visualizzata da forme diverse per estrarre le caratteristiche continue di regioni versatili. Di conseguenza, il framework Ferret può inserire input di diverse regioni, inclusi shaper a forma libera, riquadri di delimitazione e punti.

Argomenti correlati:Furetto MLLM Modello linguistico multimodale di grandi dimensioni

Kunal Kejriwal

"Un ingegnere di professione, uno scrittore a memoria". Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedito a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.