Artificiell intelligens
LLaVA-UHD: en LMM som uppfattar alla aspekter och högupplösta bilder
De senaste framstegen och framåtskridandet inom stora språkmodeller har upplevt en betydande ökning av vision-språkliga resonemang, förståelse och interaktionsförmåga. Moderna ramverk uppnår detta genom att projicera visuella signaler in i LLM eller stora språkmodeller för att möjliggöra deras förmåga att uppfatta världen visuellt, en mängd olika scenarier där visuella kodningsstrategier spelar en avgörande roll. Men verkliga bilder innehåller inte bara en mängd olika scenarier, de varierar också betydligt i termer av upplösning och aspekter, vilket utgör betydande utmaningar för LLM i olika domäner och uppgifter. För att tackla den betydande variationen som orsakas av verkliga bilder, uppfattar moderna stora språkmodeller bilder i låg upplösning, dvs 224×224, och en fast aspekt, dvs 1:1. Även om kompromissen att hålla fast vid låg upplösning och fast aspekt förhöjer generaliserbarheten hos LLM i verkliga tillämpningar, leder den ofta till att innehållet i bilden blir mycket suddigt och orsakar allvarliga formförvrängningar. Kompromissen påverkar betydligt förmågan hos stora multimodala modeller eller LMM, särskilt de som är optimerade för fina uppgifter, inklusive optisk teckenigenkänning och förståelse av små föremål. Dessutom, eftersom upplösningen och aspekten är förutbestämda, kan modellerna bara göra de bästa gissningarna till de suddiga bilderna, vilket leder till modellhallucinationer, en situation där modellen producerar textrespons som inte är grundade i faktan i bilderna.
I den här artikeln kommer vi att prata om LLaVA-UHD, en ny ansats som först tar LLaVA-1,5 och GPT-4V-ramverken som representativa exempel och försöker avslöja de systematiska felen som är rotade i deras visuella kodningsstrategi. LLaVA-UHD-ramverket, en multimodal modal, är ett försök att tackla utmaningarna. LLaVA-UHD-ramverket kan uppfatta bilder i hög upplösning samt i valfri aspekt. LLaVA-UHD-ramverket byggs kring tre nyckelkomponenter. Först, en bildmoduleringsstrategi som delar upp nativupplösningsbilder i mindre variabla storleksbitar i ett försök att förbättra effektiviteten och utöka kodningen. Nästa, en komprimeringsmodul som kondenserar bildtoken som produceras av visuella kodare ytterligare. Slutligen, en spatial schema som organiserar bit-token för stora språkmodeller. Omfattande experiment visar att LLaVA-UHD-ramverket kan prestera bättre än de ledande stora språkmodellerna på 9 benchmark-tester. Dessutom, genom att använda endast 94% inferensberäkning, kan LLaVA-UHD-ramverket stödja bilder med 6 gånger större upplösning, dvs 672×1088.
LLaVA-UHD : Effektivt uppfatta bilder i valfri aspekt och hög upplösning
Vision-språkliga resonemang, förståelse och interaktion har gjort betydande framsteg nyligen, till stor del tack vare den senaste pushen för stora språkmodeller. I moderna ramverk uppnås detta genom att mata in visuella signaler i LLM eller stora språkmodeller för att göra dem kapabla att tolka den verkliga världen visuellt, en mängd olika scenarier som förlitar sig på visuella kodningsstrategier. Skillnaden i scenario speglar en smal täckning av LLM över olika domäner och uppgifter, medan skillnaden i upplösning och aspekt speglar de stora inomklassvariationerna i verkliga bilder, som är svåra att hantera. Till skillnad från den lilla skalan som minskar variationen, hanterar modellerna efter BERT den betydande variationen som orsakas av verkliga bilder genom att projicera visuella signaler in i LLM med låg upplösning, t.ex. 224×224, och en fast aspekt, t.ex. 1:1, för att ge verkliga bilder. Även om kompromissen att hålla fast vid låg upplösning och fast aspekt är användbar för att säkerställa generaliserbarheten hos LLM i verkliga tillämpningar, leder den ofta till att innehållet i bilden blir mycket suddigt och orsakar allvarliga formförvrängningar. Kompromissen påverkar betydligt förmågan hos stora multimodala modeller eller LMM, särskilt de som är optimerade för fina uppgifter, inklusive optisk teckenigenkänning och förståelse av små föremål. Dessutom, eftersom upplösningen och aspekten är förutbestämda, kan modellerna bara göra de bästa gissningarna till de suddiga bilderna, vilket leder till modellhallucinationer, en situation där modellen producerar textrespons som inte är grundade i faktan i bilderna.
… (rest of the translation remains the same, following the exact structure and format as the original)












