Kunstig intelligens

LLaVA-UHD: en LMM, der opfatter billeder i enhver billedforhold og høj opløsning

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

De seneste fremskridt og udvikling af store sprogmodeller har oplevet en betydelig stigning i vision-sprog-forståelse, -forståelse og -interaktionsevner. Moderne rammer opnår dette ved at projicere visuelle signaler ind i LLM’er eller store sprogmodeller for at aktivere deres evne til at opfatte verden visuelt, et bredt spektrum af scenarier, hvor visuelle kodningsstrategier spiller en afgørende rolle. Imidlertid indeholder billeder fra den virkelige verden ikke kun en bred vifte af scenarier, men de varierer også betydeligt i forhold til opløsninger og billedforhold, hvilket udgør betydelige udfordringer for LLM’er på tværs af forskellige domæner og opgaver. For at tackle den betydelige variation, der udgøres af billeder fra den virkelige verden, opfatter moderne store sprogmodeller billeder i lav opløsning, dvs. 224×224, og et fast billedforhold, dvs. 1:1. Selv om kompromiset med at fastholde lav opløsning og fast billedforhold øger generaliserbarheden af LLM’en i virkelige anvendelser, resulterer det ofte i, at billedindholdet bliver meget uklart, samt at der opstår alvorlig formforvrængning. Kompromiset påvirker betydeligt evnerne hos de store multimodale modeller eller LMM’er, især de, der er optimeret til fine-grainede opgaver, herunder optisk tegnkendelse og forståelse af små objekter. Yderligere resulterer det i, at modellerne kan kun gætte på de uklare billeder, hvilket fører til modelhallucinationer, en situation, hvor modellen producerer tekstuelle svar, der ikke er faktisk grundet i billederne.

I denne artikel vil vi tale om LLaVA-UHD, en ny tilgang, der først tager LLaVA-1.5 og GPT-4V-rammerne som repræsentative eksempler og forsøger at afsløre de systematiske fejl, der er rodnet i deres visuelle kodningsstrategi. LLaVA-UHD-rammen, en multimodal model, er et forsøg på at tackle udfordringerne. LLaVA-UHD-rammen kan opfatte billeder i høj opløsning såvel som i enhver billedforhold. LLaVA-UHD-rammen er bygget op omkring tre nøglekomponenter. Først en billedmoduleringsstrategi, der dividerer native-opløsningsbilleder i mindre, variable størrelsesbilleder i et forsøg på at forbedre effektiviteten og udvide kodningen. Dernæst en kompressionsmodul, der kondenserer billedtoken, der produceres af visuelle kodningsenheder, yderligere. Endelig en spatial skema, der organiserer billedtoken for de store sprogmodeller. Omfattende eksperimenter indikerer, at LLaVA-UHD-rammen kan overgå state-of-the-art store sprogmodeller på 9 benchmarks. Yderligere kan LLaVA-UHD-rammen, ved kun at bruge 94% af slutningsberegningen, understøtte billeder med 6 gange større opløsning, dvs. 672×1088.

LLaVA-UHD: Effektivt opfat billeder i enhver billedforhold og høj opløsning

Vision-sprog-forståelse, -forståelse og -interaktion har gjort betydelig fremgang i den seneste tid, primært på grund af den seneste skub til store sprogmodeller. I moderne rammer opnås dette ved at føre visuelle signaler ind i LLM’er eller store sprogmodeller for at gøre dem i stand til at fortolke den virkelige verden visuelt, et bredt spektrum af scenarier, der afhænger af visuelle kodningsstrategier. Forskellen i scenarie afspejler en smal dækning af LLM’er på tværs af forskellige domæner og opgaver, mens forskellen i opløsninger og billedforhold afslører de store intraklassevariationer i billeder fra den virkelige verden, som er svære at tackle. Til forskel fra den lille skala, der reducerer variationen, tackler modeller efter BERT betydningen af lav opløsning (f.eks. for LLaVA-UHD er det 224×224) af billeder med et fast billedforhold, 1:1, for at give billeder fra den virkelige verden. Selv om kompromiset med at fastholde lav opløsning og fast billedforhold er nyttigt til at sikre generaliserbarheden af LLM’en i virkelige anvendelser, resulterer det ofte i, at billedindholdet bliver meget uklart, samt at der opstår alvorlig formforvrængning. Dette reducerer evnerne hos de store multimodale modeller eller LMM’er, især de, der er optimeret til fine-grainede opgaver, herunder optisk tegnkendelse og forståelse af små objekter. Yderligere resulterer det i, at modellerne kan kun gætte på de uklare billeder, hvilket fører til modelhallucinationer, en situation, hvor modellen producerer tekstuelle svar, der ikke er faktisk grundet i billederne. Hvorfor kan benchmark LMM-modeller ikke opfatte billeder i høj opløsning og variabelt billedforhold?

Der er to primære årsager til, at benchmark LMM-modeller ikke kan opfatte billeder med høj opløsning og variabel opløsning. Først er det, fordi visuelle kodningsenheder er forudtrænet i faste opløsninger, hvilket gør det svært for modellen og kodningsenheden at tackle billeder med variabelt billedforhold og opløsning, hvilket betydeligt påvirker tilpasningen af modellen. Anden er det, at kodning af højopløsningsbilleder direkte ved hjælp af visionstransformatorer er forbundet med betydelige beregningsomkostninger i forhold til billedernes størrelse. Yderligere kan beregningsomkostningerne være betydeligt højere for den store sprogmodel til at behandle et stort antal visuelle token for højopløsningsbilleder, hvilket betydeligt påvirker den samlede effektivitet af modellen. For at tackle disse udfordringer tager LLaVA-UHD, en stor multimodal model, der kan opfatte billeder i høj opløsning og enhver billedforhold, LLaVA-1.5 og GPT-4V-rammerne som repræsentative eksempler og forsøger at afsløre de systematiske fejl, der er rodnet i deres visuelle kodningsstrategi.

Billedet ovenfor afspejler de eksperimentelle resultater af GPT-4V i at identificere antallet af objekter i et billede. LLaVA-UHD-rammen har tre komponenter. Først en billedmoduleringsstrategi, der dividerer native-opløsningsbilleder i mindre, variable størrelsesbilleder for at forbedre effektiviteten og udvide kodningen. I modsætning til de seneste LLM’er, der passer billeder ind i flere faste opløsninger og billedforhold, giver de variable størrelsesbilleder, der genereres af LLaVA-UHD-rammen, fuld tilpasning til native-opløsningsbilleder uden at forvrænge former, omskalere eller udfylde. Anden er en kompressionsmodul, der kondenserer visuelle token, der produceres af visuelle kodningsenheder, yderligere. Endelig organiserer modellen de komprimerede billedtoken i en spatial skema for at underrette den store sprogmodel om billedernes relative position.

LLaVA-UHD: Metodik og Arkitektur

På baggrund af erfaringerne fra nogle piloteksperimenter for at studere eksisterende rammer, herunder GPT-4V og LLaVA-1.5, implementerer LLaVA-UHD-rammen en tre-komponentarkitektur, som demonstreres i billedet nedenfor.

Først en billedmoduleringsstrategi, der dividerer native-opløsningsbilleder i mindre, variable størrelsesbilleder for at forbedre effektiviteten og udvide kodningen. Dernæst en kompressionsmodul, der kondenserer billedtoken, der produceres af visuelle kodningsenheder, yderligere. Endelig en spatial skema, der organiserer billedtoken for de store sprogmodeller. Lad os kaste et nærmere blik på disse komponenter.

Moduleret Visuel Kodning

En almindelig tilgang til at tackle højopløsningsbilleder med forskelligt billedforhold er at interpolere positionsembædninger af Vision Transformer eller ViT til målformen for direkte kodning som en helhed. Imidlertid er implementeringen af denne tilgang ofte forbundet med høje beregningsomkostninger, og udfordringer uden for distributionen resulterer i yderligere performancesvigt. For at tackle denne udfordring præsenterer LLaVA-UHD-rammen en moduleret visuel kodningsstrategi, der i hovedsagen sigter mod at dividere native-opløsningsbilleder i mindre, variable størrelsesbilleder, hvor hver billedstørrelse er tæt på den standardmæssige forudtræningsindstilling af visionstransformator. Takket være brugen af variable størrelsesbilleder kan LLaVA-UHD-rammen opnå fuld tilpasning til native-opløsningsbilleder uden at implementere nogen formforvrængende omskalering eller udfyldning. Yderligere er det primære mål for billedskæringsstrategien at bestemme en opdeling af højopløsningsbilleder med minimal ændring af opløsningerne for hver billedstørrelse.

Yderligere er det således, at de fleste eksisterende LLM’er implementerer en statisk opløsning for billedskæringskodning, en tilgang, der forhindrer den fulde tilpasning af modellen til native opløsninger, da de kun har adgang til flere foruddefinerede faste formbilleder. Yderligere skader statisk billedskæringsopløsning modellens præstation, effektivitet og korrekthed, da det uundgåeligt medfører formforvrængende omskalering eller udfyldning. For at tackle dette problem foreslår LLaVA-UHD-rammen at kodningsbilleder i billedforhold, som defineres af opdelingsstrategien. For at være mere specifik først reskalrer LLaVA-UHD-rammen det originale billede proportionalt i overensstemmelse med billedforholdet, sådan at antallet af patches passer inden for forudtræningsbudgettet, dvs. antallet af positionsembædningsskemaer i visionstransformator, maksimalt. LLaVA-UHD-modellen reskalrer derefter den forudtrænede 1D-positionsembædningsskema af visionstransformator til en 2D-format i overensstemmelse med dens forudtræningsindstillinger.

Kompressionslag

En almindelig udfordring, som LLM’er står over for, når de behandler højopløsningsbilleder, er, at mængden af visuelle token, de skal behandle, er betydeligt højere (for reference producerer LLaVA-1.5-rammen ca. 3500 visuelle token, når den behandler et enkelt billede med opløsning 672×1008), hvilket står for en stor del af beregningsressourcerne og omkostningerne. For at tackle denne udfordring implementerer LLaVA-UHD-modellen en delt perceiver-resampler-lag for at komprimere de visuelle token for hver billedskæring. Modellen implementerer derefter en samling af forespørgselvektorer via cross-attention for at resample outputtet af billedtoken, der produceres af visuelle kodningsenheder, til et lavere antal. Når det sammenlignes med de almindelige Multilayer Perceptron-baserede visuelle projekteringsstrategier, er perceiver-prøveapproachen, der er implementeret af LLaVA-UHD, i stand til at fastholde et overkommeligt, men fast antal visuelle token, uanset billedets opløsning, hvilket gør LLaVA-UHD-rammen mere kompatibel med højopløsningsbilledebehandling og -forståelse.

Rumligt Skema for Billedskæringer

Det er en nødvendig praksis at underrette den store sprogmodel om den rumlige organisation af billedskæringer, da opdelingen af billeder er dynamisk på tværs af forskellige billeder. LLaVA-UHD-rammen designer og implementerer et rumligt skema, der bruger to specielle token til at underrette LLM’en om den relative position af billedskæringerne. Under dette rumlige skema bruger LLaVA-UHD-rammen “,” til at adskille billedrepræsentationerne i en række, og de forskellige rækker adskilles ved hjælp af en “n”.

LLaVA-UHD: Eksperimenter og Resultater

LLaVA-UHD-rammen evalueres mod 9 populære benchmarks, herunder generelle visuelle spørgsmålsbenchmarks, optiske tegn-baserede visuelle spørgsmålsbenchmarks, hallucinationsbenchmark og omfattende benchmarks. Yderligere sammenlignes LLaVA-UHD-rammen med stærke baseline-modeller, herunder LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 og flere.

Præstationen af LLaVA-UHD-rammen på 9 populære benchmarks sammenfattes og sammenlignes med populære benchmarks i tabellen nedenfor.

På baggrund af ovenstående præstation kan det konkluderes, at LLaVA-UHD-rammen kan overgå stærke baseline-modeller på populære benchmarks, herunder stærke generelle baseline-modeller, der er trænet på en betydeligt større mængde data, samt overgå LLM’er, der kræver betydeligt mere beregning som Fuyu-8B, Monkey og flere. Anden er det også, at resultaterne indikerer, at LLaVA-UHD-rammen opnår betydeligt bedre resultater end LLaVA-1.5-arkitekturen, og på den ene side, hvor LLaVA-1.5 understøtter en fast 336×336 opløsning, understøtter LLaVA-UHD-rammen 672×1088 opløsningsbilleder med enhver billedforhold og det samme antal visuelle token.

Endelige Tanker

I denne artikel har vi talt om LLaVA-UHD, en ny tilgang, der først tager LLaVA-1.5 og GPT-4V-rammerne som repræsentative eksempler og forsøger at afsløre de systematiske fejl, der er rodnet i deres visuelle kodningsstrategi. LLaVA-UHD-rammen, en multimodal model, er et forsøg på at tackle udfordringerne. LLaVA-UHD-rammen kan opfatte billeder i høj opløsning såvel som i enhver billedforhold. LLaVA-UHD-rammen er bygget op omkring tre nøglekomponenter. Først en billedmoduleringsstrategi, der dividerer native-opløsningsbilleder i mindre, variable størrelsesbilleder for at forbedre effektiviteten og udvide kodningen. Dernæst en kompressionsmodul, der kondenserer billedtoken, der produceres af visuelle kodningsenheder, yderligere. Endelig en spatial skema, der organiserer billedtoken for de store sprogmodeller. Omfattende eksperimenter indikerer, at LLaVA-UHD-rammen kan overgå state-of-the-art store sprogmodeller på 9 benchmarks. Yderligere kan LLaVA-UHD-rammen, ved kun at bruge 94% af slutningsberegningen, understøtte billeder med 6 gange større opløsning, dvs. 672×1088.

Kunal Kejriwal

En ingeniør af profession, en forfatter af hjerte. Kunal er en teknisk forfatter med en dyb kærlighed og forståelse af AI og ML, dedikeret til at forenkle komplekse koncepter inden for disse felter gennem sin engagerende og informative dokumentation.