Artificiell intelligens

LLaVA-UHD: Effektivt Uppfatta Bilder i Valfri Aspektförhållande och Hög Upplösning

Publicerad 6 juni 2024

Uppdaterad 21 maj 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Den senaste utvecklingen och framstegen inom stora språkmodeller har lett till en betydande ökning av vision-språklig resonemang, förståelse och interaktion. Moderna ramverk uppnår detta genom att projicera visuella signaler in i stora språkmodeller för att göra dem kapabla att tolka världen visuellt, en mängd olika scenarier som förlitar sig på visuell kodningsstrategi. Skillnaden i scenario återspeglar en smal täckning av stora språkmodeller över olika domäner och uppgifter, medan skillnaden i upplösningar och aspektförhållanden avslöjar de stora inomklassvariationerna i verkliga bilder som är svåra att hantera. Till skillnad från den lilla skalan som minskar variationen, hanterar modellerna efter BERT den betydande variationen som orsakas av de låga upplösningarna (t.ex. 224×224) och det fasta aspektförhållandet (1:1) för att ge verkliga bilder. Även om detta kompromiss är användbart för att säkerställa den allmänna tillämpbarheten av den stora språkmodellen i verkliga tillämpningar, leder det ofta till mycket suddiga bilder samtidigt som det orsakar allvarliga formförvrängningar. Detta minskar förmågan hos de stora multimodala modellerna eller LMM, särskilt de som är optimerade för fina uppgifter, inklusive optisk teckenigenkänning och liten objektförståelse. Eftersom upplösningen och aspektförhållandet är förutbestämda, kan modellerna bara gissa de suddiga bilderna, vilket leder till modellhallucinationer, en situation där modellen producerar textrespons som inte är grundade i faktiska bilder. Varför kan inte benchmark-LMM-modeller uppfatta bilder i hög upplösning och varierande aspektförhållande?

… (resten av innehållet)

I den här artikeln kommer vi att prata om LLaVA-UHD, en ny approach som först tar LLaVA-1.5 och GPT-4V-ramverken som representativa exempel och försöker avslöja de systematiska felen som är rotade i deras visuella kodningsstrategi. LLaVA-UHD-ramverket, en multimodal modell, är ett försök att hantera utmaningarna. LLaVA-UHD-ramverket kan uppfatta bilder i hög upplösning samt i valfri aspektförhållande. LLaVA-UHD-ramverket byggs kring tre nyckelkomponenter. Först, en bildmoduleringsstrategi som delar upp native-upplösningsbilder i mindre variabla storleksbitar för att förbättra effektiviteten och utöka kodningen. Nästa, en kompressionsmodul som kondenserar bildtoken som produceras av visuella kodare ytterligare. Slutligen, en spatial schema som organiserar bit-token för de stora språkmodellerna. Omfattande experiment visar att LLaVA-UHD-ramverket kan överträffa de bästa stora språkmodellerna på 9 benchmark. Dessutom, genom att använda endast 94% inferensberäkning, kan LLaVA-UHD-ramverket stödja bilder med 6 gånger större upplösning, dvs 672×1088.

LLaVA-UHD: Effektivt Uppfatta Bilder i Valfri Aspektförhållande och Hög Upplösning

… (resten av innehållet)

Modulärt Visuellt Kodning

En vanlig strategi för att hantera högupplösta bilder med olika aspektförhållande är att interpolera positionsembeddningar av Vision Transformer eller ViT till målformen för direkt kodning som en helhet. Men implementationen av denna strategi är ofta förenad med höga beräkningskostnader, och ut ur distributionen orsakar ytterligare prestandaförsämring. För att hantera denna utmaning presenterar LLaVA-UHD-ramverket en modulärt visuellt kodningsstrategi som i huvudsak syftar till att dela upp native-upplösningsbilder i mindre variabla storleksbitar där formen på varje bit är ganska nära den standardiserade förkodningsinställningen för visionstransformatorn. På grund av användningen av variabla storleksbitar kan LLaVA-UHD-ramverket uppnå full anpassning till native-upplösningsbilder utan att implementera någon formförvrängande omformning eller utfyllnad.

… (resten av innehållet)

Kompressionslager

Ett vanligt problem som stora språkmodeller står inför när de bearbetar högupplösta bilder är att mängden visuella token de måste bearbeta är betydligt högre (t.ex. LLaVA-1.5-ramverket producerar cirka 3500 visuella token när det bearbetar en enda bild med upplösning 672×1008), vilket står för en stor del av de beräkningsresurser och kostnader. För att hantera denna utmaning implementerar LLaVA-UHD-modellen en delad perceiver-resampler-lager för att kondensera de visuella token för varje bildbit. Modellen implementerar sedan en uppsättning frågevektorer via cross-attention för att återprova utdata från bildtoken av visuella kodare till ett lägre antal.

… (resten av innehållet)

Rumslig Schema för Bildbitar

Det är en nödvändig praxis att informera den stora språkmodellen om den rumsliga organisationen av bildbitar, eftersom partitioneringen av bilder är dynamisk över olika bilder. LLaVA-UHD-ramverket utformar och implementerar en rumslig schema som använder två specialtoken för att informera den stora språkmodellen om den relativa positionen av bildbitarna. Under denna rumsliga schema använder LLaVA-UHD-ramverket “,” för att separera bit-representationer i en rad, och de olika raderna separeras med en “n”.

… (resten av innehållet)

LLaVA-UDH: Experiment och Resultat

LLaVA-UHD-ramverket utvärderas mot 9 populära benchmark, inklusive allmänna visuella frågesvarsbenchmark, optiska teckenbaserade visuella frågesvarsbenchmark, hallucinationsbenchmark och omfattande benchmark. Dessutom jämförs LLaVA-UHD-ramverket med starka baslinjer, inklusive LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 och fler.

… (resten av innehållet)

Slutliga Tankar

I den här artikeln har vi pratat om LLaVA-UHD, en ny approach som först tar LLaVA-1.5 och GPT-4V-ramverken som representativa exempel och försöker avslöja de systematiska felen som är rotade i deras visuella kodningsstrategi. LLaVA-UHD-ramverket, en multimodal modell, är ett försök att hantera utmaningarna. LLaVA-UHD-ramverket kan uppfatta bilder i hög upplösning samt i valfri aspektförhållande. LLaVA-UHD-ramverket byggs kring tre nyckelkomponenter. Först, en bildmoduleringsstrategi som delar upp native-upplösningsbilder i mindre variabla storleksbitar för att förbättra effektiviteten och utöka kodningen. Nästa, en kompressionsmodul som kondenserar bildtoken som produceras av visuella kodare ytterligare. Slutligen, en rumslig schema som organiserar bit-token för de stora språkmodellerna. Omfattande experiment visar att LLaVA-UHD-ramverket kan överträffa de bästa stora språkmodellerna på 9 benchmark. Dessutom, genom att använda endast 94% inferensberäkning, kan LLaVA-UHD-ramverket stödja bilder med 6 gånger större upplösning, dvs 672×1088.

Kunal Kejriwal

En ingenjör till yrket, en författare av hjärtat. Kunal är en teknisk skribent med ett djupt kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa begrepp inom dessa områden genom sin engagerande och informativa dokumentation.