Kunstig intelligens

Visuell instruksjonstuning for pikselnivåforståelse med Osprey

Published January 25, 2024

Updated April 4, 2026

Kunal Kejriwal

Med den nylige forbedringen av visuelle instruksjonstuningsmetoder, har Multimodal Large Language Models (MLLMs) vist bemerkelsesverdige generelle formålsvision-språkevner. Disse evnene gjør dem til nøkkelbyggestener for moderne generelle formålsvise visuelle assistenter. Nylige modeller, inkludert MiniGPT-4, LLaVA, InstructBLIP og andre, viser imponerende visuell resonnering og instruksjonsfølgingsevner. Selv om de fleste av dem avhenger av bilde-tekstpar for bilde-nivåvision-språkjustering, fungerer de godt i dette domenet. Men deres avhengighet av boks-nivå og bilde-nivåforståelse er den primære årsaken til at MLLMs ikke kan gjenta deres ytelse på fine-grenede vision-språkjusteringoppgaver på pikselnivå. I tillegg utgjør den begrensede tilgjengeligheten av mask-basert instruksjonsdata for trening en utfordring i å ytterligere forbedre MLLMs.

Osprey er en mask-tekst instruksjonstreningsmetode med det primære målet å utvide MLLMs. Den inkorporerer fine-grenede maskerte områder i språkinstruksjoner for å oppnå pikselnivåvisuell-språkforståelse. For å oppnå dette, kuraterer Osprey-rammen en mask-basert region-tekstdatabase med over 700 000 eksempler. Den injiserer pikselnivårepresentasjon i Large Language Models (LLMs) for å designe en visuell-språkmodell. Merkeligvis adopterer Osprey-rammen en konvolusjonell CLIP-modell som sin visjon-encoder og integrerer en mask-avhengig visuell extractor i sin arkitektur. Dette gjør det mulig å presist ekstrahere visuelle mask-funksjoner fra høyoppløselige inndata.

I denne artikkelen, vil vi diskutere Osprey-rammen og dykke dyptere inn i dens arkitektur. Vi vil også utforske den kuraterede region-tekstdatabasen med over 700 000 eksempler og sammenligne dens ytelse i ulike region-forståelsesoppgaver. Så, la oss komme i gang.

Osprey: Pikselforståelse med visuell instruksjonstuning

Multimodal Large Language Models som MiniGPT-4, Otter, Qwen-LV, InstructBLIP og andre er frontløperne for å utvikle generelle formålsvise visuelle assistenter, og de er kjent for sine eksepsjonelle multimodale og visjon-generative evner. Men Multimodal Large Language Models lider under en stor utfordring, da de leverer utilfredsstillende resultater på fine-grenede bilde-forståelsesoppgaver som kapittel, region-klassifisering og resonnering. En stor årsak til den underparige ytelsen på fine-grenede bilde-forståelsesoppgaver er mangelen på justering på region-nivå. Nylige MLLMs som GPT4RoI, Shikra og andre mål er å aktivere region-nivåforståelse i visjon-språkmodeller ved å prosessere boks-begrensede regioner, og utnytte visuell instruksjonstuning med romlige funksjoner på objekt-nivå.

Selv om tilnærmingen til å aktivere region-nivåforståelse kan forbedre ytelsen, kan anvendelsen av sparse bokser som henvisningsinndataregion direkte innføre irrelevante bakgrunnsfunksjoner, noe som kan føre til uakkurat region-tekstparjustering for visuell instruksjonstuning på store språkmodeller. Under inferensprosessen kan boks-nivåhenvisningsinndata ikke være i stand til å detektere og representere objektet nøyaktig, noe som kan resultere i semantisk avvik som demonstrert i følgende bilde.

I sammenligning kan anvendelsen av fine-grenede masker i stedet for grove bokser som henvisningsinndata muligens kunne representere objekter med mer presisjon. Nylig utviklet SAM eller Segment Anything Model, som er trent på milliarder av høykvalitetsmasker, viser bemerkelsesverdig segmenteringskvalitet på null-skotsobjekter og støtter bruken av punkter eller enkle bokser som promter. Men SAM-rammen kan ikke generere primære semantiske etiketter, og kan heller ikke gi detaljerte semantiske beskrivelser og attributter. Som resultat mangler eksisterende modeller innebygd multimodal fine-grenet informasjon, og har en begrenset forståelse av scener i den virkelige verden.

For å takle utfordringene som eksisterende MLLMs møter, er Osprey, en ny mask-tekst instruksjonstreningsmetode, utformet for å utvide evnene til multimodale store språkmodeller for fine-grenet visuell forståelse på pikselnivå. Osprey-rammen introduserer en mask-avhengig visuell extractor som fanger visuelle mask-funksjoner med varierende granularitet nøyaktig. Rammen injiserer deretter visuelle funksjoner med språkinstruksjoner for å generere inndatasekvensen for den store språkmodellen, og utnytter en konvolusjonell CLIP-arkitektur for å muliggjøre bruken av høyoppløselige inndata. På grunn av sin design og arkitektur, er Osprey-rammen i stand til å oppnå fine-grenet semantisk forståelse for objekt-nivå og del-nivåregioner, og gir detaljerte objektattributter sammen med primær objektkategori og forbedrede beskrivelser av komplekse scener.

Ved å utnytte evnene til visuell instruksjonstuning, muliggjør Osprey-rammen nye evner utover bilde-nivå og boks-nivåforståelse av scener, da Osprey-rammen kan generere fine-grenede semantikk ved hjelp av klasse-agnostiske masker fra off-the-shelf SAMs. I tillegg viser Osprey bemerkelsesverdige evner på henvisningsobjekt-klassifisering, åpen-vokabular-gjenkjenning, region-nivåbeskrivelse og detaljert region-beskrivelseoppgaver.

Osprey : Metodologi og arkitektur

Følgende figur viser en oversikt over Osprey-rammens arkitektur, bestående av en stor språkmodell, pikselnivåmask-avhengig visuell extractor og en bilde-nivåvisjon-encoder.

For et gitt bilde, inndata-språk og henvisningsmask-regioner, utfører rammen konvertering og tokenisering for å generere innbedninger før den sender språk-innbedningssekvensene og interleavede mask-funksjoner til den store språkmodellen for å oppnå fine-grenet semantisk forståelse.

Konvolusjonell CLIP-visjon-encoder

Visjon-encoderen som er deployert i de fleste multimodale store språkmodeller, er eksemplifisert ved å bruke en ViT-basert CLIP-modell. Som resultat, adopterer rammen en bilde-oppløsning på enten 224×224 piksler eller 336 x 336 piksler. Men bruken av ViT-basert CLIP-modell gjør det vanskelig for modellen å oppnå fine-grenet bilde-forståelse av pikselnivårepresentasjoner, et problem som forverres ytterligere i små regioner. I tillegg hindrer den komputasjonelle overbelastningen forbundet med ViT-arkitekturen muligheten for å øke bilde-oppløsningen.

For å takle utfordringen, implementerer Osprey-rammen en konvolusjonell CLIP-modell som visjon-encoderen i sin arkitektur. Tradisjonelt har konvolusjonelle neurale nettverk-baserte CLIP-modeller vist bemerkelsesverdige generaliserings-evner over forskjellige inndata-oppløsninger når de sammenlignes med visjon-transformator-baserte CLIP-modeller. Implementeringen av en CNN-basert CLIP-modell åpner for rask inferens og effektiv trening uten å kompromittere med modellens ytelse. I tillegg er en CNN-basert CLIP-modell i stand til å generere multi-skala funksjonskarter som rammen deretter direkte kan bruke for funksjons-ekstraksjon i hver påfølgende objekt-region.

Mask-avhengig visuell extractor

I motsetning til eksisterende region-baserte modeller som bruker sparse bokser som henvisningsinndata, bruker Osprey-rammen detaljerte mask-regioner for å implementere objekt-baserte representasjoner. Osprey-modellen bruker en mask-avhengig visuell extractor-komponent for å fange pikselnivåfunksjoner innenfor hver objekt-region. Mask-avhengig visuell extractor-komponenten koder mask-nivåvisuelle funksjoner og samler også romlige posisjonsinformasjon for hver region.

For å implementere dette, bruker Osprey først multi-nivå bilde-funksjoner generert av visjon-encoderen for å adoptere mask-pool-operasjonen, og for hver enkelt funksjon, pooler rammen alle funksjoner som ligger innenfor mask-regionen. Modellen koder deretter funksjoner over forskjellige lag ved å sende hver funksjon gjennom en lineær projeksjonslag som genererer region-nivåinnbedninger, og fusjonerer multi-nivåfunksjoner ved å utføre summering. Modellen bruker deretter en MLP-lag for å produsere visuell mask-token. I tillegg bevarer Osprey den romlige geometrien til objekt-regionen ved å kode pikselnivåposisjonsforholdet ved å implementere en binær mask for hver objekt-region. Til slutt inkluderer Osprey visuell mask-token og dens respektive romlige token for hver mask-region-innbedning.

LLM-tokenisering

Som nevnt tidligere, ekstraherer modellen bilde-nivåinnbedninger av et bilde ved å mate det inn i en forhånds-trent CNN-basert visjon-encoder. For tekst-informasjon, bruker modellen først forhånds-trente LLM-tokenisatorer for å tokenisere tekstsekvenser, og projiserer deretter disse tokeniserte tekstsekvensene inn i tekst-innbedninger. For mask-baserte regioner, definerer modellen en spesialtoken som en placeholder, og erstatter deretter denne med en romlig token sammen med en mask-token. Når modellen henviser til en objekt-region i tekst-inndata, legger den til placeholderen etter region-navnet, noe som tillater mask-regioner å blande med tekst uten tokenisering-rom.

Osprey : Tre-trinns treningprosess

Osprey-rammen deployer en tre-trinns treningprosess, hvor hver av treningfasene er overvåket av å minimere en next-token-prediksjonsfeil.

Steg 1: Bilde-tekst-justeringstrening

I den første fasen, deployer Osprey-rammen en CNN-basert CLIP-visjon-encoder for å trene bilde-nivåfunksjoner og en språk-connector for å trene modellen for bilde-tekstfunksjonsjustering. I den første fasen, bruker rammen tre komponenter: en forhånds-trent stor språkmodell, en forhånds-trent visjon-encoder og en bilde-nivåprojektor. Rammen adopterer også en MLP-lag for å fungere som visjon-språk-connector som hjelper til å forbedre Ospreys multimodale generative evner.

Steg 2: Mask-tekst-justering forhåndstrening

I den andre fasen, laster Osprey vektene som ble trent i den første fasen, og bruker sin mask-avhengige visuelle extractor-komponent for å fange pikselnivåregion-funksjoner. I den andre fasen, trener rammen kun mask-avhengig visuell extractor for å justere språk-innbedninger med mask-baserte region-funksjoner. I tillegg samler modellen pikselnivåmask-par og korte tekster fra del-nivå og offentlig tilgjengelige objekt-nivådatabaser, og konverterer dem til instruksjons-følging data for å ytterligere trene modellen.

Steg 3: End-to-End finjustering

I den tredje og siste fasen, fikserer modellen vektene til visjon-encoderen, og finjusterer den store språkmodellen, mask-basert region-funksjons-ekstraktor og bilde-nivåprojektor-komponentene i sin arkitektur. Det primære målet med trening i den tredje fasen er å utvide modellens evne til å følge bruker-instruksjoner nøyaktig, og effektivt utføre pikselnivåregion-forståelsesoppgaver.

Etter å ha implementert de tre treningfasene, er Osprey-rammen i stand til å forstå komplekse scener definert av bruker-instruksjoner og basert på pikselnivåmask-regioner.

Osprey : Eksperimentelle resultater

For å evaluere dens ytelse, gjennomfører Osprey-utviklerne en rekke eksperimenter for å demonstrere modellens evner i klassifisering, pikselnivåregion-basert gjenkjenning og komplekse beskrivelser.

Åpen-vokabular-segmentering

Det primære målet med åpen-vokabular-segmentering er å generere mask-basert region-gjenkjenning og dens respektive kategori eksplisitt. For å oppnå åpen-vokabular-segmentering, bruker Osprey først en inndata-tekst-prompt, etterfulgt av at modellen adopterer bakgrunns-sann mask-regioner for modell-inferens for å vurdere modellens ytelse i åpen-vokabular-gjenkjenningoppgaver. Basert på setningen som genereres av den multimodale store språkmodellen, beregner Osprey semantisk likhet mellom vokabular-listen og utgangen av hver database. Følgende figur sammenligner Osprey mot state-of-the-art multimodale store språkmodeller.

Som det kan observeres, overgår Osprey-rammen eksisterende metoder med en betydelig margin på både Cityscapes og ADE20K-150-databasen. Resultatene indikerer Ospreys evne til å overgå eksisterende tilnærminger og oppnå robust forståelse og gjenkjenning på fine-grenede objekt-regioner.

Henvisningsobjekt-klassifisering

I henvisningsobjekt-klassifiseringoppgaven, må modellen klassifisere objektet innenfor en bestemt region av et bilde. For å evaluere dens klassifiserings-evner, bruker Osprey-rammen to semantiske relevans-målinger, inkludert Semantisk IoU eller S-IoU og Semantisk Likhet eller SS. Semantisk IoU representerer overlapet av ord mellom bakgrunns- og prediksjons-etiketter, mens Semantisk Likhet måler likheten mellom prediksjons- og/eller bakgrunns-etiketter i et semantisk rom. Følgende bilde demonstrerer Ospreys ytelse i henvisningsobjekt-klassifiseringoppgaven når den sammenlignes med modeller som bruker boks-nivå og bilde-nivå-tilnærminger.

Detaljert region-beskrivelse

I detaljert region-beskrivelseoppgaven, evaluerer modellen dens ytelse på instruksjons-følging detaljert beskrivelse-evner sammen med andre region-nivå-tilnærminger. Modellen velger tilfeldig en inndata-inferens-prompt fra en liste med forhåndsdefinerte promter, og utnytter GPT-4 LLM-rammen for å måle kvaliteten på responsen generert av modellen mot inndata-henvisningsregioner omfattende. Ved å bruke instruksjons-genererings-pipeline, genererer modellen spørsmål og søker GPT-4s svar, etterfulgt av at LLM vurderer riktigheten av semantikk og presisjon av henvisnings-forståelse. Følgende tabell demonstrerer Ospreys ytelse mot state-of-the-art-modeller på detaljert region-beskrivelseoppgaver.

Region-nivåbeskrivelse

Osprey-rammen overgår også eksisterende tilnærminger på region-nivåbeskrivelseoppgaver, med resultater som er inkludert i følgende bilde.

Slutt-tanker

I denne artikkelen, har vi diskutert Osprey, en mask-tekst instruksjonstreningsmetode med det primære målet å utvide MLLMs ved å inkorporere fine-grenede maskerte områder i språkinstruksjoner for å oppnå pikselnivåvisuell-språkforståelse. For å oppnå dette, kuraterer Osprey-rammen en mask-basert region-tekstdatabase med over 700 000 eksempler, og injiserer pikselnivårepresentasjon i LLM for å designe en visuell-språkmodell. Osprey-rammen mål er å forbedre MLLMs for fine-grenet visuell forståelse betydelig, og ved å implementere en CNN-basert CLIP-modell og en mask-avhengig visuell extractor, oppnår Osprey evnen til å forstå bilder på både del-nivå og objekt-nivåregioner.