Kunstig intelligens

Visuel instruktionsafstemning for pixelniveau-forståelse med Osprey

Published January 25, 2024

Updated April 4, 2026

Kunal Kejriwal

Med den seneste forbedring af visuelle instruktionsafstemningsmetoder har Multimodal Large Language Models (MLLMs) demonstreret bemærkelsesværdige generelle formålsvision-sprog-evner. Disse evner gør dem til nøglebyggesten for moderne generelle formålsvision-assistenter. Seneste modeller, herunder MiniGPT-4, LLaVA, InstructBLIP og andre, viser imponerende visuel resonans og instruktionsfølgeevne. Selvom de fleste af dem afhænger af billed-tekst-par for billedniveau-vision-sprog-alignment, fungerer de godt i dette domæne. Deres afhængighed af box-niveau og billedniveau-forståelse er dog den primære årsag til, at MLLMs ikke kan genskabe deres præstation på fine-grained vision-sprog-alignment-opgaver på pixelniveau. Derudover udgør den begrænsede tilgængelighed af masken-baseret instruktionsdata for træning en udfordring i yderligere forbedring af MLLMs.

Osprey er en masken-tekst instruktions-træningsmetode med det primære formål at udvide MLLMs. Den inkorporerer fine-grained maskerede regioner i sprog-instruktion for at opnå pixelniveau-visuel-sprog-forståelse. For at opnå dette kuraterer Osprey-rammen en masken-baseret region-tekst-dataset med over 700.000 eksempler. Den injicerer pixelniveau-repræsentation i Large Language Models (LLMs) for at designe en vision-sprog-model. Bemærkelsesværdigt adopterer Osprey-rammen en convolutional CLIP-model som dens vision-encoder og integrerer en masken-bevidst visuel-ekstraktor i sin arkitektur. Dette muliggør præcis ekstraktion af visuelle masken-funktioner fra højopløsningsinput.

I denne artikel vil vi diskutere Osprey-rammen og dykke dybere ind i dens arkitektur. Vi vil også udforske den kuraterede region-tekst-dataset med over 700.000 eksempler og sammenligne dens præstation i forskellige region-forståelsesopgaver. Så lad os komme i gang.

Osprey: Pixel-forståelse med visuel instruktionsafstemning

Multimodal Large Language Models som MiniGPT-4, Otter, Qwen-LV, InstructBLIP og andre er frontløberne for udvikling af generelle formålsvision-assistenter, og de er berømte for deres exceptionelle multimodale og vision-generative evner. Men Multimodal Large Language Models lider under en stor udfordring, da de leverer utilfredsstillende resultater på fine-grained billedforståelsesopgaver som kapitel, region-klassifikation og resonans. En stor årsag til den underlige præstation på fine-grained billedforståelsesopgaver er manglen på alignment på region-niveau. Seneste MLLMs som GPT4RoI, Shikra og andre sigter mod at aktivere region-niveau-forståelse i vision-sprog-modeller ved at behandle bounding-box-specifikke regioner og udnytte visuel instruktionsafstemning med rumlige funktioner på objekt-niveau.

Selvom tilgangen til at aktivere region-niveau-forståelse kan forbedre præstationen, kan anvendelsen af sparse bounding boxes som henvisningsinput-region direkte introducere irrelevante baggrundsfunktioner, der fører til ukorrekt region-tekst-par-alignment for visuel instruktionsafstemning på store sprog-modeller. Under inferensprocessen kan box-niveau-henvisningsinput ikke være i stand til at detektere og repræsentere objektet præcist; det kan resultere i semantisk afvigelse, som demonstreres i følgende billed.

I sammenligning kan anvendelsen af fine-grained masker i stedet for grove bounding boxes som henvisningsinput muligvis kunne repræsentere objekter med mere præcision. Nyligt udviklede SAM eller Segment Anything Model trænes på milliarder af højkvalitetsmasker, viser bemærkelsesværdig segmenteringskvalitet på zero-shot-objekter og understøtter brugen af punkter eller simple bounding boxes som prompts. Men SAM-rammen kan ikke generere primære semantiske mærker, og den kan heller ikke give detaljerede semantiske undertekster og attributter. Som resultat mangler eksisterende modeller indre multimodale fine-grained-information og har en begrænsnet forståelse af scener i den virkelige verden.

For at tackle udfordringerne, som eksisterende MLLMs står over for, sigter Osprey, en ny masken-tekst-instruktions-træningsmetode, mod at udvide evnerne af multimodale store sprog-modeller for fine-grained forståelse på pixelniveau. Osprey-rammen introducerer en masken-bevidst visuel-ekstraktor, der fanger visuelle masken-funktioner med varierende granularitet præcist. Rammen injicerer derefter visuelle funktioner med sprog-instruktioner for at generere input-sekvensen for den store sprog-model, og udnytter en convolutional CLIP-arkitektur for at faciliterer brugen af højopløsningsinput. Takket være sin design og arkitektur er Osprey-rammen i stand til at opnå fine-grained semantisk forståelse for objekt-niveau og del-niveau-regioner og giver detaljerede objekt-attributter sammen med primær objekt-kategori og forbedrede beskrivelser af komplekse scener.

Ved at udnytte evnerne af visuel instruktionsafstemning, aktiverer Osprey-rammen nye evner ud over billedniveau og box-niveau-forståelse af scener, da Osprey-rammen kan generere fine-grained semantik ved hjælp af klasse-agnostiske masker fra off-the-shelf SAMs. Derudover viser Osprey bemærkelsesværdige evner på tværs af henvisnings-objekt-klassifikation, åben-vokabulær-genkendelse, regional-niveau-undertekstning og detaljeret region-beskrivelse-opgaver.

Osprey: Metodik og Arkitektur

Følgende figur viser arkitektur-overblik over Osprey-rammen, bestående af en stor sprog-model, pixelniveau-masken-bevidst visuel-ekstraktor og en billedniveau-vision-encoder.

For et givet billed, input-sprog og henvisnings-masken-regioner, udfører rammen konvertering og tokenisering for at generere indlejninger, før den sender sprog-indlejningssekvenser og interpolerede masken-funktioner til den store sprog-model for at opnå fine-grained semantisk forståelse.

Convolutional CLIP Vision Encoder

Vision-encoderen, der er anvendt i de fleste multimodale store sprog-modeller, er eksemplificeret ved hjælp af en ViT-baseret CLIP-model. Som resultat adopterer rammen en billedopløsning på enten 224×224 pixels eller 336 x 336 pixels. Men brugen af ViT-baseret CLIP-model gør det svært for modellen at opnå fine-grained billedforståelse på pixelniveau, et problem, der forstærkes yderligere i små regioner. Derudover hindrer den beregningsmæssige overbelastning, der er forbundet med ViT-arkitekturen, muligheden for at øge billedopløsningen.

For at tackle udfordringen implementerer Osprey-rammen en convolutional CLIP-model som vision-encoderen i sin arkitektur. Traditionelt har convolutional neural network-baserede CLIP-modeller demonstreret bemærkelsesværdige generaliserings-evner på tværs af forskellige input-opløsninger, når de sammenlignes med vision-transformator-baserede CLIP-modeller. Implementering af en CNN-baseret CLIP-model giver plads til hurtig inferens og effektiv træning uden at gå på kompromis med modellens præstation. Derudover er en CNN-baseret CLIP-model i stand til at generere multi-skala-funktioner, som rammen derefter direkte bruger til funktionsekstraktion i hver efterfølgende objekt-region.

Masken-Bevidst Visuel Ekstraktor

I modsætning til eksisterende region-baserede modeller, der anvender sparse bounding boxes som henvisningsinput, anvender Osprey-rammen detaljerede masken-regioner for at implementere objekt-baserede repræsentationer. Osprey-modellen anvender en masken-bevidst visuel-ekstraktor-komponent for at fange pixelniveau-funktioner inden for hver objekt-region. Masken-bevidst visuel-ekstraktor-komponenten kodificerer masken-niveau-visuelle funktioner og indsamler desuden den rumlige positionsinformation for hver region.

For at implementere dette anvender Osprey først de multi-niveau-billedfunktioner, der er genereret af vision-encoderen, for at adoptere masken-poolings-operationen, og for hvert enkelt niveau-funktion, pooler rammen alle funktioner, der ligger inden for masken-regionen. Modellen kodificerer derefter funktioner på tværs af forskellige lag ved at sende hver funktion gennem en lineær projektor, der genererer region-niveau-indlejninger, og fusionerer multi-niveau-funktioner ved at udføre summering. Modellen anvender derefter en MLP-lag for at producere den visuelle masken-token. Desuden bevarede Osprey den rumlige geometri af objekt-regionen ved at kodificere pixelniveau-position-forholdet ved at implementere en binær masken for hver objekt-region. Til sidst inkluderer Osprey den visuelle masken-token og dens respektive rumlige token for hver masken-region-indlejning.

LLM Tokenisering

Som nævnt tidligere ekstraherer modellen billedniveau-indlejninger af et billed ved at sende det ind i en fortrænet CNN-baseret visuel-encoder. For tekst-information anvender modellen først fortrænede LLM-tokenisatorer for at tokenisere tekst-sekvenser og projicerer derefter disse tokeniserede tekst-sekvenser ind i tekst-indlejninger. For masken-baserede regioner definerer modellen en special-token som en placeholder og erstatter derefter denne med en rumlig token sammen med en masken-token. Når modellen henviser til en objekt-region i tekst-input, tilføjer den placeholderen efter region-navnet, hvilket tillader masken-regioner at blande sig med tekst uden tokenisering-afstand. Desuden inkluderer modellen, ud over bruger-instruktioner, også en præfix-prompt, en special-token, der fungerer som en placeholder, der derefter erstattes af billedniveau-indlejningerne fra vision-encoderen. Til sidst interpolerer rammen region-niveau- og billedniveau-visuelle token sammen med tekst-token og sender dem ind i den store sprog-model for at forstå bruger-instruktioner og billedet med forskellige regioner i objektet.

Osprey: Tretrins Træningsproces

Osprey-rammen anvender en tretrins træningsproces, hvor hver af træningsfaserne overvåges af en next-token-prædiktions-tab.

Trin 1: Billed-Tekst Alignment Træning

I første trin anvender Osprey-rammen den CNN-baserede CLIP-vision-encoder for at træne billedniveau-funktioner og sprog-connector for at træne modellen for billed-tekst-funktion-alignment. I første trin anvender rammen tre komponenter: en fortrænet stor sprog-model, en fortrænet vision-encoder og en billedniveau-projektor. Rammen adopterer desuden en MLP-lag for at fungere som vision-sprog-connector, der hjælper med at forbedre Ospreys multimodale generative evner.

Trin 2: Masken-Tekst Alignment For-Træning

I andet trin indlæser Osprey vægtene, der er trænet i første trin, og anvender sin masken-bevidst visuel-ekstraktor-komponent for at fange pixelniveau-region-funktioner. I andet trin træner rammen kun masken-bevidst visuel-ekstraktor for at alignere sprog-indlejninger med masken-baserede region-funktioner. Desuden indsamler modellen pixelniveau-masken-par og korte tekster fra del-niveau og offentligt tilgængelige objekt-niveau-datasæt og konverterer dem til instruktions-følge-data for at yderligere træne modellen.

Trin 3: End-To-End Fine-Tuning

I tredje og sidste trin fastgører modellen vægtene af vision-encoderen og finjusterer den store sprog-model, masken-baserede region-funktion-ekstraktor og billedniveau-projektor-komponenterne i sin arkitektur. Det primære formål med træning i tredje trin er at udvide modellens evne til at følge bruger-instruktioner nøjagtigt og effektivt udføre pixelniveau-region-forståelsesopgaver.

Efter implementering af de tre træningsfaser er Osprey-rammen i stand til at forstå komplekse scener defineret af bruger-instruktioner og baseret på pixelniveau-masken-regioner.

Osprey: Eksperimentelle Resultater

For at evaluere dens præstation udfører Osprey-udviklerne en bred vifte af eksperimenter for at demonstrere modellens evner i klassifikation, pixelniveau-region-baseret-genkendelse og komplekse beskrivelser.

Åben-Vokabulær Segmentering

Det primære formål med åben-vokabulær segmentering er at generere masken-baseret region-genkendelse og dens respektive kategori eksplicit. For at opnå åben-vokabulær segmentering anvender Osprey først en input-tekst-prompt, efterfulgt af, at modellen anvender ground-truth-masken-regioner for model-inferens for at evaluere modellens præstation i åben-vokabulær-genkendelsesopgaver. På baggrund af den sætningssvar, der er genereret af den multimodale store sprog-model, beregner Osprey den semantiske lighed mellem vokabulær-listen og output af hver datasæt. Følgende figur sammenligner Osprey med state-of-the-art multimodale store sprog-modeller.

Som det kan ses, overgår Osprey-rammen eksisterende metoder med en betydelig margin på både Cityscapes og ADE20K-150-datasættet. Resultaterne indikerer Ospreys evne til at overgå eksisterende tilgange og opnå robust forståelse og genkendelse på fine-grained objekt-regioner.

Henvisnings-Objekt-Klassifikation

I henvisnings-objekt-klassifikationsopgaven skal modellen klassificere objektet inden for en specifik region af et billed. For at evaluere dens klassifikations-evner anvender Osprey-rammen to semantiske relevans-målinger, herunder Semantisk IoU eller S-IoU og Semantisk Lighed eller SS. Semantisk IoU repræsenterer overlap af ord mellem ground-truth og prædiktion-mærker, mens Semantisk Lighed måler ligheden mellem prædiktion- og/eller ground-truth-mærker i en semantisk rum. Følgende billed demonstrerer Ospreys præstation i henvisnings-objekt-klassifikationsopgaven, når den sammenlignes med modeller, der anvender box-niveau- og billedniveau-tilgange.

Detaljeret-Region-Beskrivelse

I detaljeret-region-beskrivelsesopgaven evaluerer modellen dens præstation på instruktions-følge detaljeret beskrivelses-evner sammen med andre region-niveau-tilgange. Modellen vælger tilfældigt en input-inferens-prompt fra en liste af foruddefinerede prompts og udnytter GPT-4 LLM-rammen for at måle kvaliteten af svaret, der er genereret af modellen, i forhold til input-henvisnings-regioner omfattende. Ved hjælp af instruktions-genererings-pipeline genererer modellen spørgsmål og søger GPT-4s svar, efterfulgt af, at LLM evaluerer korrektheden af semantik og præcision af henvisnings-forståelse. Følgende tabel demonstrerer Ospreys præstation i forhold til state-of-the-art-modeller på detaljeret-region-beskrivelsesopgaver.

Region-Niveau-Kapitel

Osprey-rammen overgår desuden nuværende tilgange på region-niveau-kapitel-opgaver, med resultaterne indeholdt i følgende billed.

Endelige Tanker

I denne artikel har vi talt om Osprey, en masken-tekst-instruktions-træningsmetode med det primære formål at udvide MLLMs ved at inkorporere fine-grained maskerede regioner i sprog-instruktion for at opnå pixelniveau-visuel-sprog-forståelse. For at opnå dette formål kuraterer Osprey-rammen en masken-baseret region-tekst-dataset med over 700.000 eksempler og injicerer pixelniveau-repræsentation i LLM for at designe en vision-sprog-model. Osprey-rammen sigter mod at forbedre MLLMs for fine-grained visuel forståelse betydeligt, og ved at implementere en CNN-baseret CLIP-model og en masken-bevidst visuel-ekstraktor, opnår Osprey-rammen evnen til at forstå billeder på både del-niveau og objekt-niveau-regioner.