Kunstmatige intelligentie
LLaVA-UHD: een LMM die elke aspectverhouding en hoge resolutiebeelden waarneemt
De recente vooruitgang en ontwikkeling van Large Language Models heeft een significante toename van visuele-taalredenering, -begrip en -interactiecapaciteiten ervaren. Moderne kaders bereiken dit door visuele signalen in LLM’s of Large Language Models te projecteren om hun vermogen om de wereld visueel waar te nemen, een reeks scenario’s waarin visuele coderingsstrategieën een cruciale rol spelen. Echter, beelden uit de echte wereld bevatten niet alleen een breed scala aan scenario’s, maar verschillen ook aanzienlijk in termen van resoluties en aspectverhoudingen, waardoor significante uitdagingen voor LLM’s in verschillende domeinen en taken ontstaan. Om de significante variatie van beelden uit de echte wereld aan te pakken, nemen moderne grote taalmodellen beelden waar in een lage resolutie, bijv. 224×224, en een vaste aspectverhouding, bijv. 1:1. Hoewel het compromis om bij lage resolutie en vaste aspectverhouding te blijven, de generaliseerbaarheid van de LLM in toepassingen uit de echte wereld verhoogt, leidt het vaak tot zeer vage beelden en ernstige vormvervorming. Het compromis heeft een significante impact op de capaciteiten van grote multimodale modellen of LMM’s, met name die welke zijn geoptimaliseerd voor fijne taken, waaronder optische tekenherkenning en het begrijpen van kleine objecten. Bovendien, aangezien de resolutie en de aspectverhouding zijn vooraf bepaald, kunnen de modellen alleen maar de beste schattingen van de vage beelden maken, waardoor modelhallucinaties ontstaan, een situatie waarin het model tekstuele antwoorden produceert die niet feitelijk in de beelden zijn geworteld.
In dit artikel zullen we het hebben over LLaVA-UHD, een novelle aanpak die eerst de LLaVA-1.5 en de GPT-4V-kaders als representatieve voorbeelden neemt en probeert de systematische fouten in hun visuele coderingsstrategie bloot te leggen. Het LLaVA-UHD-kader, een multimodale modus, is een poging om de uitdagingen aan te pakken. Het LLaVA-UHD-kader kan beelden in hoge resolutie en elke aspectverhouding waarnemen. Het LLaVA-UHD-kader is gebouwd rond drie belangrijke componenten. Ten eerste, een beeldmodularisatiestrategie die native-resolutiebeelden in kleinere variabele-grootte slices verdeelt in een poging om efficiëntie en codering uit te breiden. Ten tweede, een compressiemodule die beeldtokens die door visuele encoders zijn gegenereerd, verder samenperst. Ten slotte, een ruimtelijk schema dat slicetokens voor grote taalmodellen organiseert. Uitgebreide experimenten geven aan dat het LLaVA-UHD-kader in staat is om state-of-the-art grote taalmodellen op 9 benchmarks te overtreffen. Bovendien, door slechts 94% inferentieberekening te gebruiken, kan het LLaVA-UHD-kader beelden met 6 keer grotere resolutie, bijv. 672×1088, ondersteunen.
LLaVA-UHD : Efficiënt beelden waarnemen in elke aspectverhouding en hoge resolutie
Visuele-taalredenering, -begrip en -interactie hebben recent significante vooruitgang geboekt, voornamelijk dankzij de recente push voor Large Language Models. In moderne kaders wordt hetzelfde bereikt door visuele signalen in LLM’s (Large Language Models) te voeden om hen in staat te stellen de echte wereld visueel te interpreteren, een diverse reeks scenario’s die afhankelijk zijn van visuele coderingsstrategieën. Het verschil in scenario weerspiegelt een smalle dekking van LLM’s in verschillende domeinen en taken, terwijl het verschil in resoluties en aspectverhoudingen de grote intraklassenvariaties in beelden uit de echte wereld onthult, die moeilijk te hanteren zijn. In tegenstelling tot de kleine schaal die de variatie verlaagt, hanteren modellen na BERT de significantie van de lage resolutie (bijv. voor het LLaVA-UHD is het 224×224) van beelden met een vaste aspectverhouding, 1:1, om beelden uit de echte wereld te geven. Hoewel dit compromis nuttig is om de generaliseerbaarheid van de LLM in toepassingen uit de echte wereld te waarborgen, leidt het vaak tot zeer vage beelden en ernstige vormvervorming. Dit vermindert de capaciteiten van de grote multimodale modellen of LMM’s, met name die welke zijn geoptimaliseerd voor fijne taken, waaronder optische tekenherkenning en het begrijpen van kleine objecten. Bovendien, aangezien de resolutie en de aspectverhouding zijn vooraf bepaald, kunnen de modellen alleen maar de beste schattingen van de vage beelden maken, waardoor modelhallucinaties ontstaan, een situatie waarin het model tekstuele antwoorden produceert die niet feitelijk in de beelden zijn geworteld. Waarom nemen benchmark-LMM-modellen geen beelden in hoge resolutie en variabele aspectverhouding waar?
Er zijn twee belangrijke redenen waarom benchmark-LMM’s geen beelden met hoge resolutie en variabele resolutie kunnen waarnemen. Ten eerste, omdat visuele encoders zijn voorgetraind in vaste resoluties, maakt het moeilijk voor het model en de encoder om met beelden met variabele aspectverhoudingen en resoluties om te gaan, waardoor de adaptiviteit van het model aanzienlijk wordt beïnvloed. Ten tweede, het direct coderen van hoge resolutiebeelden met behulp van visietransformatoren is geassocieerd met significante berekeningskosten in verhouding tot de grootte van de beelden. Bovendien kunnen de berekeningskosten aanzienlijk hoger zijn voor het grote taalmodel om een groot aantal visuele tokens voor hoge resolutiebeelden te verwerken, waardoor de algehele efficiëntie van het model aanzienlijk wordt beïnvloed. Om deze uitdagingen te counteren, neemt het LLaVA-UHD, een groot multimodaal model dat hoge resolutiebeelden en elke aspectverhouding waarneemt, de LLaVA-1.5 en de GPT-4V-kaders als representatieve voorbeelden en probeert de systematische fouten in hun visuele coderingsstrategie bloot te leggen.

De bovenstaande afbeelding reflecteert de experimentele resultaten van de GPT-4V bij het identificeren van het aantal objecten in een beeld. In het hart van het LLaVA-UHD-kader liggen drie componenten. Ten eerste, een beeldmodularisatiestrategie die native-resolutiebeelden in kleinere variabele-grootte slices verdeelt voor uitbreidbare en efficiënte codering. In tegenstelling tot recente LLM’s die beelden in een aantal vaste resoluties en aspectverhoudingen passen, maken de variabele-grootte slices gegenereerd door het LLaVA-UHD-kader een volledige adaptiviteit aan native-resolutiebeelden mogelijk zonder vormvervorming, herschaling of opvulling. Ten tweede, perst het model de visuele tokens samen door een compressielaag tot een bescheiden lengte, waardoor de berekening voor LLM’s aanzienlijk wordt vermindert. Ten slotte, organiseert het model de samengeperste slicetokens in een ruimtelijk schema om de sliceposities in de beelden aan het grote taalmodel mee te delen.
LLaVA-UHD : Methodologie en Architectuur
Op basis van de inzichten uit enkele pilootexperimenten om bestaande kaders, waaronder GPT-4V en LLaVA-1.5, te bestuderen, implementeert het LLaVA-UHD-kader een driedelige architectuur, zoals wordt aangetoond in de onderstaande afbeelding.

Ten eerste, een beeldmodularisatiestrategie die native-resolutiebeelden in kleinere variabele-grootte slices verdeelt in een poging om efficiëntie en codering uit te breiden. Ten tweede, een compressiemodule die beeldtokens die door visuele encoders zijn gegenereerd, verder samenperst. Ten slotte, een ruimtelijk schema dat slicetokens voor grote taalmodellen organiseert. Laten we een gedetailleerde blik werpen op deze componenten.
Modulair Visueel Coderen
Een veelvoorkomende aanpak om om te gaan met hoge resolutiebeelden met verschillende aspectverhouding is om de positie-embeddings van de Vision Transformer of ViT te interpoleren naar de doelvorm voor directe codering als een geheel. Echter, de implementatie van deze aanpak wordt vaak geassocieerd met hoge berekeningskosten, en uit-distributieproblemen leiden tot verdere prestatieverslechtering. Om deze uitdaging aan te pakken, presenteert het LLaVA-UHD-kader een modulair visueel coderingsstrategie die native-resolutiebeelden in kleinere variabele-grootte slices verdeelt, waarvan de vorm van elke slice dicht bij de standaard vooraftrainingsinstelling van de visietransformator ligt. Door het gebruik van variabele-grootte slices, kan het LLaVA-UHD-kader een volledige adaptiviteit aan native-resolutiebeelden bereiken zonder enige vormvervorming, herschaling of opvulling. Bovendien, het primaire doel van de beeldsnijsstrategie is om een splitsing van hoge resolutiebeelden te bepalen met minimale veranderingen in de resolutie van elke slice. Voor een gegeven beeld met een bepaalde resolutie (w,h) en een visietransformator die is voorgetraind in een andere resolutie, bepaalt het LLaVA-UHD-kader eerst de ideale berekening, d.w.z. het aantal slices dat nodig is om het beeld te verwerken. Het kader factoriseert vervolgens het aantal slices in m kolommen en n rijen. Het kader definieert een scorefunctie om de afwijking van de standaard vooraftrainingsinstelling van de visietransformator te meten. Theoretisch, kan het LLaVA-UHD-kader aantonen dat de partitie-strategie die in zijn architectuur is geïmplementeerd, een kleine verwachte verandering en een bescheiden slechtste verandering met betrekking tot de standaard vooraftrainingsresolutie voor elke slice garandeert.
Bovendien, implementeren de meeste bestaande LLM’s een statische resolutie voor beeldsnijs-codering, een aanpak die de volledige adaptiviteit van het model aan native resoluties verhindert, omdat ze alleen toegang hebben tot een aantal vooraf gedefinieerde vaste vormslices. Bovendien, beschadigt statische sliceresolutie de prestaties, efficiëntie en correctheid van het model, omdat het onvermijdelijk vormvervorming, herschaling of opvulling veroorzaakt. Om dit probleem aan te pakken, stelt het LLaVA-UHD-kader voor om beeldslices te coderen in de aspectverhouding zoals gedefinieerd door de partitie-strategie. Om specifiek te zijn, past het LLaVA-UHD-kader eerst het oorspronkelijke beeld evenredig aan in overeenstemming met de aspectverhouding, zodat het aantal patches past binnen de vooraftrainingsbegroting, d.w.z. het aantal positie-embeddings in de visietransformator, maximaal. Het LLaVA-UHD-model vormt vervolgens de voorafgetrainde 1D-positie-embeddings van de visietransformator om in een 2D-formaat in overeenstemming met zijn vooraftrainingsinstellingen.
Compressielaag
Een veelvoorkomend probleem dat LLM’s ondervinden bij het verwerken van hoge resolutiebeelden is dat het aantal visuele tokens dat ze moeten verwerken aanzienlijk hoger is (voor referentie, produceert het LLaVA-1.5-kader ongeveer 3500 visuele tokens bij het verwerken van een enkel beeld met resolutie 672×1008), wat een groot deel van de berekeningsbronnen en -kosten vertegenwoordigt. Om deze uitdaging aan te pakken, implementeert het LLaVA-UHD-model een gedeelde perceiver-resamplerlaag om de visuele tokens van elke beeldslice samen te persen. Het model implementeert vervolgens een set queryvectoren via cross-attention om de uitvoer van beeldtokens door de visuele encoders te resamplen naar een lager aantal. In vergelijking met de veelvoorkomende multilayer-perceptron-gebaseerde visuele projectie-strategieën, kan de perceiver-sample-aanpak die door LLaVA-UHD wordt geïmplementeerd, een betaalbare maar vaste hoeveelheid visuele tokens behouden, ongeacht de beeldresolutie, waardoor het LLaVA-UHD-kader meer compatibel is met hoge resolutiebeeldverwerking en -begrijpingstaken. Om dit te verduidelijken, genereert het LLaVA-UHD-kader hetzelfde aantal tokens bij het coderen van een beeld met resolutie 672×1008 als het LLaVA-1.5-kader genereert bij het coderen van een beeld met resolutie 336×336, bijna 6 keer effectiever dan zijn concurrent.
Ruimtelijk Schema voor Beeldslices
Het is een noodzakelijke praktijk om het grote taalmodel op de hoogte te stellen van de ruimtelijke organisatie van beeldslices, aangezien de partitie van beelden dynamisch is over verschillende beelden. Het LLaVA-UHD-kader ontwerpt en implementeert een ruimtelijk schema dat twee speciale tokens gebruikt om het LLM op de hoogte te stellen van de relatieve positie van de beeldslices. Onder dit ruimtelijk schema, gebruikt het LLaVA-UHD-kader “,” om de slicerepresentaties in een rij te scheiden, en de verschillende rijen worden gescheiden met een “n”.
LLaVA-UHD : Experimenten en Resultaten
Het LLaVA-UHD-kader wordt geëvalueerd tegen 9 populaire benchmarks, waaronder algemene visuele vraagbeantwoordingbenchmarks, optische teken-gebaseerde visuele vraagbeantwoordingbenchmarks, hallucinatiebenchmarks en uitgebreide benchmarks. Bovendien, wordt het LLaVA-UHD-kader vergeleken met sterke basismodellen, waaronder LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 en meer.
De prestaties van het LLaVA-UHD-kader op 9 populaire benchmarks worden samengevat en vergeleken met populaire benchmarks in de onderstaande tabel.

Op basis van de bovenstaande prestaties, kan worden geconcludeerd dat het LLaVA-UHD-kader in staat is om sterke basismodellen op populaire benchmarks te overtreffen, waaronder sterke algemene basismodellen die zijn getraind op een aanzienlijk grotere hoeveelheid gegevens, evenals LLM’s die aanzienlijk meer berekening nodig hebben, zoals Fuyu-8B, Monkey en meer. Ten tweede, geven de resultaten ook aan dat het LLaVA-UHD-kader aanzienlijk betere resultaten behaalt dan de LLaVA-1.5-architectuur, en aan de ene kant waar LLaVA-1.5 een vaste resolutie van 336×336 ondersteunt, ondersteunt het LLaVA-UHD-kader beelden met resolutie 672×1088 met elke aspectverhouding en hetzelfde aantal visuele tokens.


Slotgedachten
In dit artikel hebben we het gehad over LLaVA-UHD, een novelle aanpak die eerst de LLaVA-1.5 en de GPT-4V-kaders als representatieve voorbeelden neemt en probeert de systematische fouten in hun visuele coderingsstrategie bloot te leggen. Het LLaVA-UHD-kader, een multimodale modus, is een poging om de uitdagingen aan te pakken. Het LLaVA-UHD-kader kan beelden in hoge resolutie en elke aspectverhouding waarnemen. Het LLaVA-UHD-kader is gebouwd rond drie belangrijke componenten. Ten eerste, een beeldmodularisatiestrategie die native-resolutiebeelden in kleinere variabele-grootte slices verdeelt in een poging om efficiëntie en codering uit te breiden. Ten tweede, een compressiemodule die beeldtokens die door visuele encoders zijn gegenereerd, verder samenperst. Ten slotte, een ruimtelijk schema dat slicetokens voor grote taalmodellen organiseert. Uitgebreide experimenten geven aan dat het LLaVA-UHD-kader in staat is om state-of-the-art grote taalmodellen op 9 benchmarks te overtreffen. Bovendien, door slechts 94% inferentieberekening te gebruiken, kan het LLaVA-UHD-kader beelden met 6 keer grotere resolutie, bijv. 672×1088, ondersteunen.












