Umělá inteligence

Vizuální instrukční ladění pro porozumění na úrovni pixelů s Osprey

Published January 25, 2024

Updated April 4, 2026

Kunal Kejriwal

S nedávným vylepšením metod vizuálního instrukčního ladění prokázaly Multimodální velké jazykové modely (MLLMs) pozoruhodné obecné vizuálně-lingvistické schopnosti. Tyto schopnosti je činí klíčovými stavebními kameny pro moderní obecné vizuální asistenty. Nedávné modely, včetně MiniGPT-4, LLaVA, InstructBLIP a dalších, vykazují působivé vizuální rozumové a instrukční schopnosti. Ačkoli většina z nich spoléhá na obraz-textové páry pro obrazové úrovni vizuálně-lingvistické zarovnání, dobře si vedou v tomto doméně. Jejich závislost na úrovni boxu a obrazové úrovni understanding je však primárním důvodem, proč MLLMs nedokáží zopakovat svou výkonnost na jemnozrnné vizuálně-lingvistické zarovnání úkoly na úrovni pixelů. Kromě toho omezená dostupnost maskou-založených instrukčních dat pro školení představuje výzvy pro další vylepšení MLLMs.

Osprey je maskou-textová instrukční školicí metoda s primárním cílem prodloužit MLLMs. Zahrnuje jemnozrnné maskované oblasti do jazykových instrukcí pro dosažení porozumění na úrovni pixelů. Za tímto účelem framework Osprey kurzuje maskou-založenou region-text dataset s více než 700 tisíci vzorky. Vkládá reprezentaci na úrovni pixelů do velkých jazykových modelů (LLM) pro navržení vizuálně-lingvistického modelu. Pozoruhodně, framework Osprey přijímá konvoluční CLIP model jako svůj vizuální encoder a integruje maskou-vědomý vizuální extraktor do své architektury. To umožňuje přesnou extrakci vizuálních maskovaných funkcí z vysokého rozlišení vstupu.

V tomto článku budeme diskutovat o frameworku Osprey a budeme se blíže zabývat jeho architekturou. Také prozkoumáme kurzuovaný region-text dataset s více než 700 tisíci vzorky a porovnáme jeho výkon v různých regionálních understanding úkolech. Takže, pojďme začít.

Osprey: Porozumění na úrovni pixelů s vizuálním instrukčním laděním

Multimodální velké jazykové modely, jako je MiniGPT-4, Otter, Qwen-LV, InstructBLIP a další, jsou lídry ve vývoji obecných vizuálních asistentů a jsou proslulé svými výjimečnými multimodálními a vizuálními generativními schopnostmi. Nicméně, Multimodální velké jazykové modely trpí velkou výzvou, protože poskytují nevyhovující výsledky na jemnozrnných obrazových understanding úkolech, jako je titulkování, regionální klasifikace a rozumění. Hlavním důvodem podprůměrného výkonu na jemnozrnných obrazových understanding úkolech je nedostatek zarovnání na úrovni regionu. Nedávné MLLMs, jako je GPT4RoI, Shikra a další, cílem je umožnit regionální understanding ve vizuálně-lingvistických modelech zpracováním oblastí specifikovaných boxem a využíváním vizuálního instrukčního ladění se spatialními funkcemi na úrovni objektu.

Ačkoli přístup k umožnění regionálního understanding může zlepšit výkon, použití sparse boxů jako referenční vstupní oblasti může zavést irelevantní pozadí funkce, což vede k nepřesnému region-text párovému zarovnání pro vizuální instrukční ladění na velkých jazykových modelech. Během inferenčního procesu může boxová referenční vstupní oblast nedokázat detekovat a reprezentovat objekt přesně, což může vést k semantickému odchýlení, jak je demonstrováno na následujícím obrázku.

Naproti tomu, použití jemnozrnných masek místo hrubých boxů jako referenční vstupní oblasti může reprezentovat objekty s větší přesností. Nedávno vyvinutý SAM nebo Segment Anything Model se učí na miliardách vysoce kvalitních masek, prokazuje pozoruhodné segmentační kvality na zero-shot objektech a podporuje použití bodů nebo jednoduchých boxů jako promptů. Nicméně, framework SAM nemůže generovat primární semantické štítky, ani nemůže poskytovat detailní semantické titulky a atributy. Jako výsledek, existující modely postrádají inherentní multimodální jemnozrnné informace a mají omezené porozumění scénám v reálném světě.

Pro řešení výzev, kterým čelí existující MLLMs, Osprey, novou maskou-textovou instrukční školicí metodu, cílem je prodloužit schopnosti multimodálních velkých jazykových modelů pro jemnozrnné understanding na úrovni pixelů. Framework Osprey zavádí maskou-vědomý vizuální extraktor, který zachycuje vizuální maskované funkce s různou granularitou přesně. Framework poté kombinuje vizuální funkce s jazykovými instrukcemi pro generování vstupní sekvence pro velký jazykový model a využívá konvoluční CLIP architekturu pro usnadnění použití vysokého rozlišení vstupu. Díky svému designu a architektuře framework Osprey dokáže dosáhnout jemnozrnného semantického understandingu pro objekty a části objektů a poskytuje detailní objekty atributy spolu s primární kategorií objektu a vylepšenými popisy komplexních scén.

Využíváním schopností vizuálního instrukčního ladění framework Osprey ermögňuje nové schopnosti beyond obrazové a boxové understanding scén, protože framework Osprey může generovat jemnozrnné semantiky pomocí class-agnostic masek z off-the-shelf SAMs. Kromě toho, Osprey také prokazuje pozoruhodné schopnosti napříč referenčními objekty klasifikací, open-vokabulární rozpoznáním, regionálními titulky a detailními regionálními popisnými úkoly.

Osprey: Metodologie a architektura

Následující obrázek demonstruje architekturu frameworku Osprey, který se skládá z velkého jazykového modelu, pixelové úrovni maskou-vědomého vizuálního extraktoru a obrazové úrovni vizuálního encoderu.

Pro daný obraz, vstupní jazyk a referenční maskované oblasti, framework provádí konverzi a tokenizaci pro generování embeddingů před odesláním jazykových embeddingových sekvencí a kombinovaných maskovaných funkcí do velkého jazykového modelu pro získání jemnozrnného semantického understandingu.

Konvoluční CLIP vizuální encoder

Vizuální encoder nasazený ve většině multimodálních velkých jazykových modelů je demonstrován pomocí ViT-based CLIP modelu. Jako výsledek, framework přijímá obrazové rozlišení buď 224×224 pixelů nebo 336 x 336 pixelů. Nicméně, použití ViT-based CLIP modelu činí obtížným pro model dosáhnout jemnozrnného obrazového understandingu na úrovni pixelů, problém zhoršený dále v malých oblastech. Kromě toho, výpočetní přetížení spojené s ViT architekturou brání možnosti zvýšení vstupního obrazového rozlišení.

Pro řešení této výzvy, framework Osprey implementuje konvoluční CLIP model jako vizuální encoder ve své architektuře. Tradičně, konvoluční neuronové sítě založené CLIP modely prokázaly pozoruhodné generalizační schopnosti napříč různými vstupními rozlišeními, když jsou porovnány s vizuálními transformátorovými CLIP modely. Implementace konvoluční CLIP modelu vytváří prostor pro rychlou inferenci a efektivní školení bez kompromisování modelového výkonu. Kromě toho, konvoluční CLIP model je schopen generovat multi-škálové funkce mapy, které framework poté přímo využívá pro funkci extrakce v každé následné objektové oblasti.

Maskou-vědomý vizuální extraktor

Na rozdíl od existujících regionálních modelů, které využívají sparse boxy jako referenční vstup, framework Osprey využívá detailní maskované oblasti pro implementaci objektových reprezentací. Framework Osprey využívá maskou-vědomý vizuální extraktor pro zachycení pixelové úrovni funkcí v každé objektové oblasti.

Pro implementaci tohoto, Osprey nejprve využívá multi-úrovňové obrazové funkce generované vizuálním encoderem pro přijetí masky-pooling operace a pro každou jednotlivou úroveň funkce, framework pooluje všechny funkce, které leží uvnitř maskované oblasti. Model poté kóduje funkce napříč různými vrstvami procházením každé funkce lineární projekční vrstvou, která generuje regionální embeddingy a kombinuje multi-úrovňové funkce provedením součtu. Model poté využívá MLP vrstvu pro produkci vizuální masky token. Kromě toho, Osprey zachovává prostorovou geometrii objektové oblasti kódováním pixelové úrovni pozice vztahu implementací binární masky pro každou objektovou oblast. Nakonec, Osprey zahrnuje vizuální masky token a jeho příslušné prostorové tokeny pro každou maskovanou oblast embedding.

LLM tokenizace

Jako je zmíněno dříve, model extrahuje obrazové úrovni embeddingy obrazu tím, že ho nakrmí do předem trénovaného CNN-based vizuálního encoderu. Pro textové informace, model nejprve využívá předem trénované LLM tokenizéry pro tokenizaci textových sekvencí a poté projekty tyto tokenizované textové sekvence do textových embeddingů. Pro maskované oblasti, model definuje speciální token jako placeholder a poté nahrazuje jej prostorovým tokenem spolu s maskovým tokenem. Když model odkazuje na objektovou oblast v textovém vstupu, připojuje placeholder po svém regionálním názvu, což umožňuje maskovaným oblastem smíchat se texty dobře, což vede k úplným větám bez tokenizační mezery. Kromě toho, kromě uživatelských instrukcí, model také zahrnuje prefixový prompt, speciální token, který slouží jako placeholder, který je poté nahrazen obrazovým embeddingem vizuálního encoderu. Nakonec, framework kombinuje regionální a obrazové úrovni vizuální tokeny spolu s textovými tokeny a krmit je do velkého jazykového modelu pro pochopení uživatelských instrukcí a obrazu s různými oblastmi v objektu.

Osprey: Tří-stupňový školicí proces

Framework Osprey nasazuje tří-stupňový školicí proces, ve kterém je každý ze školicích fází dohledem minimalizací next-token predikční ztráty.

Stage 1: Obraz-textové zarovnání školení

V první fázi, framework Osprey nasazuje CNN-based CLIP vizuální encoder pro školení obrazových funkcí a jazykového connectoru pro školení modelu pro obraz-textové zarovnání. V první fázi, framework využívá tři komponenty: předem trénovaný velký jazykový model, předem trénovaný vizuální encoder a obrazový projektor. Framework také přijímá MLP vrstvu pro službu jako vizuální-jazykový connector, který pomáhá vylepšit multimodální generativní schopnosti Osprey.

Stage 2: Maskou-textové zarovnání pre-školení

Ve druhé fázi, Osprey načte váhy trénované v první fázi a nasazuje svou maskou-vědomou vizuální extraktor komponentu pro zachycení pixelové úrovni regionálních funkcí. Ve druhé fázi, framework pouze trénuje maskou-vědomý vizuální extraktor pro zarovnání jazykových embeddingů s maskovanými regionálními funkcemi. Kromě toho, model shromažďuje pixelové úrovni maskované páry a krátké texty z part-level a veřejně dostupných objektových úrovní dat, a konvertuje je do instrukční-sledování dat pro další školení modelu.

Stage 3: Koncové-koncové fine-tunování

Ve třetí a poslední fázi, model fixuje váhy vizuálního encoderu a fine-tunuje velký jazykový model, maskou-založenou regionální funkci extraktoru a obrazový projektor komponenty ve své architektuře. Primárním cílem školení ve třetí fázi je prodloužit modelovu schopnost sledovat uživatelské instrukce přesně a efektivně provádět pixelové úrovni regionální understanding úkoly.

Po implementaci tří školicích fází, framework Osprey je schopen porozumět komplexním scénám definovaným uživatelskými instrukcemi a založenými na pixelové úrovni maskovaných oblastech.

Osprey: Experimentální výsledky

Pro vyhodnocení jeho výkonu, vývojáři Osprey provedli širokou škálu experimentů pro demonstraci modelových schopností v klasifikaci, pixelové úrovni regionální rozpoznání a komplexních popisů.

Otevřené-vokabulární segmentace

Primárním cílem otevřené-vokabulární segmentace je generovat maskou-založenou regionální rozpoznání a jeho příslušnou kategorii explicitně. Pro dosažení otevřené-vokabulární segmentace, Osprey nejprve využívá vstupní textový prompt, po kterém model přijímá ground-truth maskované oblasti pro modelovou inferenci pro vyhodnocení modelového výkonu v otevřené-vokabulární rozpoznávací úkoly. Na základě větové odpovědi generované multimodálním velkým jazykovým modelem, Osprey počítá semantickou podobnost mezi slovníkem a výstupem každého datasetu. Následující obrázek porovnává Osprey proti stávajícím multimodálním velkým jazykovým modelům.

Jak je vidět, framework Osprey překonává stávající metody o značnou marži na obou Cityscapes a ADE20K-150 datasetech. Výsledky indikují schopnost Osprey překonat stávající přístupy a dosáhnout robustního porozumění a rozpoznání na jemnozrnných objektových oblastech.

Referenční objektová klasifikace

V referenční objektové klasifikační úkolu, model je vyžadován klasifikovat objekt uvnitř specifické oblasti obrazu. Pro vyhodnocení jeho klasifikačních schopností, framework Osprey využívá dvě semantické relevance metriky, včetně Semantické IoU nebo S-IoU a Semantické podobnosti nebo SS. Semantické IoU reprezentuje překrytí slov mezi ground-truth a predikovanými štítky, zatímco Semantické podobnosti měří podobnost predikovaných a/or ground-truth štítků v semantickém prostoru. Následující obrázek demonstruje výkon Osprey v referenční objektové klasifikační úkolu, když je porovnán s modely, které využívají boxovou a obrazovou úroveň přístupy.

Podrobný regionální popis

V podrobném regionálním popisném úkolu, model vyhodnocuje jeho výkon na instrukční-sledování podrobných popisných schopnostech spolu s jinými regionálními přístupy. Model náhodně vybírá vstupní inferenční prompt z předem definovaného seznamu promptů a využívá GPT-4 LLM framework pro měření kvality odpovědi generované modelem proti vstupním referenčním oblastem komplexně. Používaje instrukční generovací pipeline, model generuje otázky a hledá GPT-4 odpovědi, po kterých LLM vyhodnocuje správnost semantiky a přesnost referenčního porozumění. Následující tabulka demonstruje výkon Osprey proti stávajícím modelům na podrobném regionálním popisném úkolu.

Regionální titulky

Framework Osprey také překonává stávající přístupy na regionální titulky úkolech s výsledky obsažené v následujícím obrázku.

Závěrečné myšlenky

V tomto článku, jsme diskutovali o Osprey, maskou-textové instrukční školicí metodě s primárním cílem prodloužit MLLMs zahrnutím jemnozrnných maskovaných oblastí do jazykových instrukcí pro dosažení porozumění na úrovni pixelů. Pro dosažení svého cíle, framework Osprey kurzuje maskou-založenou region-text dataset s více než 700 tisíci vzorky a vkládá pixelové úrovni reprezentaci do LLM pro navržení vizuálně-lingvistického modelu. Framework Osprey cílem je vylepšit MLLMs pro jemnozrnné vizuální understanding významně a implementací konvoluční CLIP modelu a maskou-vědomého vizuálního extraktoru, Osprey dosahuje schopnosti porozumět obrazům na obou částech a objektových úrovních.