Umělá inteligence
Osprey: Využívání vizuálních instrukcí pro porozumění na úrovni pixelů

S novým vylepšením metod vizuálního vzdělávání se multimodální velké jazykové modely (MLLMs) ukázaly jako velmi schopné ve všeobecném porozumění vizuálních a jazykových schopností. Tyto schopnosti je dělají klíčovými stavebními kameny pro moderní obecné vizuální asistenty. Nedávné modely, včetně MiniGPT-4, LLaVA, InstructBLIP a dalších, ukazují působivé vizuální myšlení a schopnosti následování instrukcí. Ačkoli většina z nich spoléhá na obraz-textové páry pro obrazové-vizuální jazykové vyrovnání, fungují dobře v tomto doméně. Nicméně, jejich závislost na úrovni boxu a obrazu je primárním důvodem, proč MLLMs selhávají při replikaci jejich výkonu na jemnozrnném vizuálním jazykovém vyrovnání na úrovni pixelů. Kromě toho, omezená dostupnost maskovaných instrukčních dat pro školení představuje výzvy pro další vylepšení MLLMs.
Osprey je metoda školení maskovaných instrukcí s primárním cílem rozšířit MLLMs. Zahrnuje jemnozrnné maskované regiony do jazykových instrukcí, aby dosáhla porozumění na úrovni pixelů. K tomu Osprey framework vytváří dataset maskovaných regionů-textu s více než 700 tisíci vzorky. Vkládá reprezentaci na úrovni pixelů do velkých jazykových modelů (LLMs), aby navrhl model vizuálního jazyka. Značně, Osprey framework采用uje konvoluční model CLIP jako svůj vizuální encoder a integruje masku-aware vizuální extraktor do své architektury. To umožňuje přesnou extrakci vizuálních maskovaných funkcí z vysokorozlišených vstupů.
V tomto článku budeme diskutovat o frameworku Osprey a budeme se blíže zabývat jeho architekturou. Také prozkoumáme dataset regionů-textu s více než 700 tisíci vzorky a budeme srovnávat jeho výkon v různých úkolech porozumění regionů. Takže, pojďme začít.
Osprey: Porozumění na úrovni pixelů s vizuálními instrukcemi
Multimodální velké jazykové modely, jako je MiniGPT-4, Otter, Qwen-LV, InstructBLIP a další, jsou lídry ve vývoji obecných vizuálních asistentů a jsou proslulé svými výjimečnými multimodálními a generativními vizuálními schopnostmi. Nicméně, multimodální velké jazykové modely trpí velkou výzvou, protože poskytují nevyhovující výsledky na jemnozrnných úkolech porozumění obrazů, jako je titulkování, klasifikace regionů a myšlení. Hlavním důvodem tohoto podprůměrného výkonu na jemnozrnných úkolech porozumění obrazů je nedostatek vyrovnání na úrovni regionů. Nedávné MLLMs jako GPT4RoI, Shikra a další cílem je umožnit porozumění na úrovni regionů ve vizuálních jazycových modelech zpracováním regionů specifikovaných pomocí hranic a využíváním vizuálních instrukcí s prostorovými funkcemi na úrovni objektů.
Ačkoli přístup k umožnění porozumění na úrovni regionů může zlepšit výkon, použití řídkých hranic jako vstupních regionů přímo může zavést irelevantní funkce pozadí, což vede k nepřesnému vyrovnání regionů-textu pro vizuální instrukce na velkých jazykových modelech. Během procesu inference může vstupní region specifikovaný pomocí hranic nedokázat přesně detekovat a reprezentovat objekt, což může vést k semantickému odchýlení, jak je ukázáno na následujícím obrázku.

Naopak, použití jemnozrnných masek místo hrubých hranic jako vstupních regionů může reprezentovat objekty s větší přesností. Nedávno vyvinutý SAM nebo Segment Anything Model se učí na miliardách vysoce kvalitních masek, ukazuje působivé segmentační kvality na nulové objekty a podporuje použití bodů nebo jednoduchých hranic jako podnětů. Nicméně, framework SAM nemůže generovat primární semantické štítky, ani nemůže poskytnout podrobné semantické titulkování a atributy. V důsledku toho stávající modely postrádají inherentní multimodální jemnozrnné informace a mají omezené porozumění scénám v reálném světě.
Aby se vyřešily výzvy, kterým čelí stávající MLLMs, Osprey, nová metoda školení maskovaných instrukcí, cílem je rozšířit schopnosti multimodálních velkých jazykových modelů pro jemnozrnné porozumění na úrovni pixelů. Framework Osprey zavádí masku-aware vizuální extraktor, který zachycuje vizuální maskované funkce s proměnlivou granularitou přesně. Framework pak proplétá vizuální funkce s jazykovými instrukcemi, aby generoval vstupní sekvenci pro velký jazykový model, a využívá konvoluční architekturu CLIP, aby ermögnil použití vysokorozlišených vstupů. Díky svému designu a architektuře je framework Osprey schopen dosáhnout jemnozrnného semantického porozumění pro regiony na úrovni objektů a částí a poskytuje podrobné atributy objektů spolu s primární kategorií objektů a vylepšenými popisy složitých scén.
Využíváním schopností vizuálního vzdělávání, framework Osprey ermögňuje nové schopnosti beyond obrazové a boxové porozumění scén, protože framework Osprey může generovat jemnozrnné semantiky pomocí tříd-agnostic masek z off-the-shelf SAMs. Kromě toho, Osprey také ukazuje působivé schopnosti v úkolech klasifikace odkazujících objektů, otevřené slovníkové rozpoznávání, regionální úrovni titulkování a podrobném popisu regionů.
Osprey: Metodologie a architektura
Následující obrázek ukazuje přehled architektury frameworku Osprey, který se skládá z velkého jazykového modelu, pixelové úrovně masky-aware vizuálního extraktoru a obrazové úrovně vizuálního encoderu.

Pro daný obraz, vstupní jazyk a odkazující maskované regiony, framework provádí konverzi a tokenizaci, aby generoval vložení, a poté posílá jazykové vložení sekvence a propletené maskované funkce velkému jazykovému modelu, aby získal jemnozrnné semantické porozumění.
Convolutional CLIP Vision Encoder
Vizuální encoder nasazený ve většině multimodálních velkých jazykových modelů je demonstrován pomocí modelu ViT-based CLIP. V důsledku toho framework采用uje obrazové rozlišení buď 224×224 pixelů nebo 336 x 336 pixelů. Nicméně, použití modelu ViT-based CLIP činí obtížným pro model dosáhnout jemnozrnného obrazového porozumění reprezentací na úrovni pixelů, problém, který je dále zhoršován v malých regionech. Kromě toho, výpočetní zátěž spojená s architekturou ViT brání možnosti zvýšení vstupního obrazového rozlišení.
Aby se vyřešil tento problém, framework Osprey implementuje konvoluční model CLIP jako vizuální encoder ve své architektuře. Tradičně, konvoluční neuronové sítě založené modely CLIP prokázaly působivé obecné schopnosti na různých vstupních rozlišeních ve srovnání s modely založenými na vizuální transformaci. Implementace modelu CNN-based CLIP umožňuje rychlou inferenci a efektivní školení bez kompromisů na výkonu modelu. Kromě toho, model CNN-based CLIP je schopen generovat multi-škálové funkce map, které framework poté přímo používá pro extrakci funkcí v každém následujícím objektovém regionu.
Maska-aware vizuální extraktor
Na rozdíl od stávajících regionálních modelů, které používají řídké hranice jako vstupní regiony, framework Osprey používá detailní maskované regiony pro implementaci objektových reprezentací. Model Osprey používá masku-aware vizuální extraktor, aby zachytil funkce na úrovni pixelů v každém objektovém regionu. Komponent masky-aware vizuálního extraktoru kóduje maskované vizuální funkce a navíc shromažďuje prostorové pozice informace každého regionu.
Aby se implementoval, Osprey nejprve používá multi-úrovňové obrazové funkce generované vizuálním encoderem, aby přijal operaci masky-pooling, a pro každou úroveň funkce, framework shromažďuje všechny funkce, které leží v maskovaném regionu. Model poté kóduje funkce napříč různými vrstvami, procházejícími každou funkci lineární projekční vrstvou, která generuje regionální vložení, a slučuje multi-úrovňové funkce, provádějící součet. Model poté používá vrstvu MLP, aby vyprodukoval vizuální maskovaný token. Kromě toho, Osprey zachovává prostorovou geometrii objektového regionu, kódující pixelové úrovně pozice vztahu, implementující binární masku pro každý objektový region. Nakonec, Osprey zahrnuje vizuální maskovaný token a jeho příslušné prostorové tokeny pro každý maskovaný regionální vložení.
LLM Tokenizace
Jak je uvedeno dříve, model extrahuje obrazové úrovně vložení obrazu, krmením jej do předem vyškoleného vizuálního encoderu. Pro textové informace, model nejprve používá předem vyškolené LLM tokenizéry, aby tokenizoval textové sekvence, a poté projekty tyto tokenizované textové sekvence do textových vložení. Pro maskované regiony, model definuje speciální token jako zástupce, a poté nahrazuje jej prostorovým tokenem spolu s maskovaným tokenem. Když model odkazuje na objektový region v textovém vstupu, přidává zástupce po svém regionálním jménu, což umožňuje maskovaným regionům míchat se textem dobře, výsledkem jsou kompletní věty bez tokenizační mezery. Kromě toho, kromě uživatelských instrukcí, model také zahrnuje prefixový prompt, speciální token, který slouží jako zástupce, který je poté nahrazen obrazovým encoderem.
Osprey: Tří-etapový proces školení
Framework Osprey nasazuje tří-etapový proces školení, ve kterém je každá z etap školení dohledem minimalizací následující tokenové predikční ztráty.
Etapa 1: Obraz-textové vyrovnání školení
V první etapě, framework Osprey nasazuje konvoluční model CLIP jako vizuální encoder, aby vyškolil obrazové funkce a jazykový konektor, aby vyškolil model pro obrazové-textové vyrovnání. V první etapě, framework používá tři komponenty: předem vyškolený velký jazykový model, předem vyškolený vizuální encoder a obrazový projektor. Framework také采用uje vrstvu MLP, aby sloužila jako vizuální-jazykový konektor, který pomáhá vylepšit multimodální generativní schopnosti Osprey.
Etapa 2: Maskované-textové vyrovnání před-školení
V druhé etapě, Osprey načte váhy vyškolené v první etapě a používá svou masku-aware vizuální extraktor komponentu, aby zachytil pixelové úrovně regionální funkce. V druhé etapě, framework pouze školení masku-aware vizuálního extraktoru, aby vyrovnal jazykové vložení s maskovanými regionálními funkcemi. Kromě toho, model shromažďuje pixelové úrovně maskované páry a krátké texty z částí a veřejně dostupných objektových úrovní dat, a konvertuje je do instrukcí-následujících dat, aby dále vyškolil model.
Etapa 3: Konečné jemné vyškolování
V třetí a poslední etapě, model fixuje váhy vizuálního encoderu a jemně vyškoluje velký jazykový model, maskované regionální funkce extraktoru a obrazový projektor komponenty ve své architektuře. Hlavním cílem školení v třetí etapě je prodloužit modelovu schopnost následovat uživatelské instrukce přesně a efektivně provádět pixelové úrovně regionální porozumění úkoly.
Po implementaci tří etap školení, framework Osprey je schopen porozumět komplexním scénám definovaným uživatelskými instrukcemi a založenými na pixelových úrovních maskovaných regionech.
Osprey: Experimentální výsledky
Aby vyhodnotil svůj výkon, vývojáři Osprey provedli širokou škálu experimentů, aby prokázali modelovu schopnost v klasifikaci, pixelové úrovně regionálním rozpoznávání a komplexních popisech.

Otevřené slovníkové segmentace
Hlavním cílem otevřené slovníkové segmentace je generovat maskované regionální rozpoznávání a jeho příslušnou kategorii explicitně. Aby dosáhl otevřené slovníkové segmentace, Osprey nejprve používá vstupní textový prompt, po kterém model采用uje ground-truth maskované regiony pro modelovu inferenci, aby vyhodnotil modelovu výkon v otevřené slovníkové rozpoznávání úkolech. Na základě větné odpovědi generované multimodálním velkým jazykovým modelem, Osprey vypočítá semantickou podobnost mezi slovníkovou listinou a výstupem každého datasetu. Následující obrázek srovnává Osprey proti stávajícím multimodálním velkým jazykovým modelům.

Jak je vidět, framework Osprey překonává stávající metody o značnou marži na obou Cityscapes a ADE20K-150 datasetech. Výsledky ukazují Ospreyovu schopnost překonat stávající přístupy a dosáhnout robustního porozumění a rozpoznávání na jemnozrnných objektových regionech.
Klasifikace odkazujících objektů
V úkolu klasifikace odkazujících objektů, model je vyžadován, aby klasifikoval objekt v konkrétním regionu obrazu. Aby vyhodnotil svou klasifikační schopnost, framework Osprey používá dvě semantické relevance metriky, včetně Semantické IoU nebo S-IoU a Semantické podobnosti nebo SS. Semantická IoU reprezentuje překryv slov mezi ground-truth a predikovanými štítky, zatímco Semantická podobnost měří podobnost predikovaných a/or ground-truth štítků v semantickém prostoru. Následující obrázek demonstruje Ospreyovu výkon v úkolu klasifikace odkazujících objektů, když je srovnán s modely, které采用ují boxové a obrazové přístupy.

Podrobný regionální popis
V úkolu podrobného regionálního popisu, model vyhodnocuje svou výkon v instrukcích-následujících popisných schopnostech spolu s jinými regionálními přístupy. Model náhodně vybírá vstupní inferenční prompt z listu předdefinovaných promptů a využívá GPT-4 LLM framework, aby měřil kvalitu odpovědi generované modelem proti vstupním odkazujícím regionům komplexně. Používaje instrukční generovací pipeline, model generuje otázky a hledá GPT-4 odpovědi, po kterých LLM vyhodnocuje správnost sémantiky a přesnost odkazujících porozumění. Následující tabulka demonstruje výkon Osprey proti stávajícím modelům na úkolech podrobného regionálního popisu.

Regionální úrovni titulkování
Framework Osprey také překonává stávající přístupy na regionální úrovni titulkování úkolech, s výsledky obsaženými v následujícím obrázku.

Závěrečné myšlenky
V tomto článku, jsme diskutovali o Osprey, metodě školení maskovaných instrukcí s primárním cílem rozšířit MLLMs, zahrnující jemnozrnné maskované regiony do jazykových instrukcí, aby dosáhla porozumění na úrovni pixelů. Aby dosáhla svého cíle, framework Osprey vytváří dataset maskovaných regionů-textu s více než 700 tisíci vzorky a vkládá pixelové úrovně reprezentace do LLM, aby navrhl model vizuálního jazyka. Framework Osprey cílem je vylepšit MLLMs pro jemnozrnné vizuální porozumění významně, a implementací konvolučního modelu CLIP a masky-aware vizuálního extraktoru, Osprey získá schopnost porozumět obrazům na úrovni částí a objektů.












