Umělá inteligence

LLaVA-UHD: LMM vnímající jakýkoli poměr stran a vysoké rozlišení obrazů

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Poslední pokrok a rozvoj velkých jazykových modelů zaznamenal významný nárůst schopností rozumění, vnímání a interakce mezi jazykem a vizi. Moderní rámce toho dosahují projekcí vizuálních signálů do LLM nebo velkých jazykových modelů, aby je umožnily vnímat svět vizuálně, řadu scénářů, ve kterých hrají vizuální kódovací strategie zásadní roli. Nicméně, reálné obrázky neobsahují pouze širokou škálu scénářů, ale také se liší významně z hlediska rozlišení a poměru stran, což představuje významné výzvy pro LLM v různých doménách a úkolech. Aby se tyto významné variace reálných obrázků zvládly, moderní velké jazykové modely vnímají obrázky v nízkém rozlišení, tj. 224×224, a pevném poměru stran, tj. 1:1. Ačkoli kompromis, který spočívá v použití nízkého rozlišení a pevného poměru stran, zvyšuje obecnou použitelnost LLM v reálných aplikacích, často rozostří obsah obrázku a způsobí závažné deformace tvaru. Tento kompromis významně ovlivňuje schopnosti velkých multimodálních modelů nebo LMM, zejména těch, které jsou optimalizovány pro jemné úkoly, včetně optického rozpoznávání znaků a porozumění malým objektům. Kromě toho, protože rozlišení a poměr stran jsou předem stanoveny, modely mohou pouze dělat nejlepší odhady rozostřených obrázků, což vede k modelové halucinaci, situace, ve které model produkuje textové odpovědi, které nejsou fakticky založeny na obrazech.

V tomto článku budeme mluvit o LLaVA-UHD, novém přístupu, který jako reprezentativní příklady bere rámce LLaVA-1.5 a GPT-4V a snaží se odhalit systematické chyby zakořeněné ve jejich vizuální kódovací strategii. Rámec LLaVA-UHD, multimodální modální, je pokus řešit tyto výzvy. Rámec LLaVA-UHD může vnímat obrázky v vysokém rozlišení i v jakémkoli poměru stran. Rámec LLaVA-UHD je založen na třech klíčových komponentech. První, strategie modulárního obrázku, která rozděluje nativní rozlišení obrázků na menší variabilní velikosti slice, aby se zvýšila efektivita a prodloužilo kódování. Dále, kompresní modul, který dále kondenzuje obrazové tokeny vyprodukované vizuálními kódéry. Nakonec, prostorový schéma, které organizuje slice tokeny pro velké jazykové modely. Komplexní experimenty ukazují, že rámec LLaVA-UHD je schopen překonat současné velké jazykové modely na 9 benchmarcích. Kromě toho, pomocí pouze 94% inferenční výpočtu, rámec LLaVA-UHD je schopen podporovat obrázky s 6krát větším rozlišením, tj. 672×1088.

LLaVA-UHD : Efektivní vnímání obrázků v jakémkoli poměru stran a vysokém rozlišení

Vizuální rozumění, vnímání a interakce udělaly významný pokrok v poslední době, zejména díky nedávnému tlaku na velké jazykové modely. V moderních rámcích se toto dosahuje tím, že se vizuální signály zavádějí do LLM (velkých jazykových modelů), aby je ermögňovaly interpretovat reálný svět vizuálně, řadu scénářů, které závisí na vizuální kódovací strategii. Rozdíl v scénáři odráží úzkou pokrytí LLM v různých doménách a úkolech, zatímco rozdíl v rozlišení a poměru stran odhaluje velké intra-třídní variace v reálných obrazech, které jsou obtížné zvládnout. Na rozdíl od malého měřítka, které snižuje variaci, modely po BERT zvládají významnost nízkého rozlišení (např. pro LLaVA-UHD je to 224×224) obrázků s pevným poměrem stran, 1:1, aby poskytly reálné obrázky. Ačkoli tento kompromis je užitečný pro zajištění obecné použitelnosti LLM v reálných aplikacích, často vede k velmi rozostřeným obrázkům a způsobuje závažné deformace tvaru. To snižuje schopnosti velkých multimodálních modelů nebo LMM (např. jemné úkoly), jako je optické rozpoznávání znaků a porozumění malým objektům. Kromě toho, protože rozlišení a poměr stran jsou předem stanoveny, modely mohou pouze dělat nejlepší odhady rozostřených obrázků, což vede k modelové halucinaci, situace, ve které model produkuje textové odpovědi, které nejsou fakticky založeny na obrazech. Proč tedy benchmark LMM modely nevnímají obrázky ve vysokém rozlišení a variabilním poměru stran?

Existují dva hlavní důvody, proč benchmark LMM nejsou schopny vnímat obrázky s vysokým rozlišením a variabilním rozlišením. První, protože vizuální kódéry jsou předem trénovány v pevném rozlišení, je obtížné pro model a kódér zvládnout obrázky s variabilním poměrem stran a rozlišením, což významně ovlivňuje adaptabilitu modelu. Druhý, protože kódování vysokých rozlišení obrázků přímo pomocí vizuálních transformátorů je spojeno se značnými výpočetními náklady ve vztahu k velikosti obrázků. Kromě toho, výpočetní náklady mohou být značně vyšší pro velké jazykové modely zpracovat velké množství vizuálních tokenů pro vysoké rozlišení obrázků, což významně ovlivňuje celkovou efektivitu modelu. Aby se tyto výzvy zvládly, rámec LLaVA-UHD, velký multimodální model, který vnímá vysoké rozlišení obrázků a jakýkoli poměr stran, bere rámce LLaVA-1.5 a GPT-4V jako reprezentativní příklady a snaží se odhalit systematické chyby zakořeněné ve jejich vizuální kódovací strategii.

Výše uvedený obrázek ukazuje experimentální výsledky GPT-4V při identifikaci počtu objektů v obraze. V jádru rámce LLaVA-UHD jsou tři komponenty. První, strategie modulárního obrázku, která rozděluje nativní rozlišení obrázků na menší variabilní velikosti slice, aby se zvýšila efektivita a prodloužilo kódování. Na rozdíl od nedávných LLM, které přizpůsobují obrázky několika pevným rozlišení a poměru stran, variabilní velikosti slice vygenerované rámcem LLaVA-UHD umožňují plnou adaptabilitu na nativní rozlišení obrázků bez deformace tvaru, změny velikosti nebo vyplněním. Druhý, model kondenzuje vizuální tokeny kompresní vrstvou na skromnou délku, což vede ke snížení výpočtu pro LLM významně. Nakonec, model organizuje komprimované slice tokeny v prostorovém schématu, aby informoval LLM o poloze slice v obraze.

LLaVA-UHD : Metodologie a architektura

Na základě poznatků z pilotních experimentů pro studium existujících rámců, včetně GPT-4V a LLaVA-1.5, rámec LLaVA-UHD implementuje tříkomponentní architekturu, jak je ukázáno na následujícím obrázku.

První, strategie modulárního obrázku, která rozděluje nativní rozlišení obrázků na menší variabilní velikosti slice, aby se zvýšila efektivita a prodloužilo kódování. Dále, kompresní modul, který kondenzuje obrazové tokeny vyprodukované vizuálními kódéry dále. Nakonec, prostorový schéma, které organizuje slice tokeny pro velké jazykové modely. Podívejme se na tyto komponenty podrobněji.

Modulární vizuální kódování

Obvyklý přístup pro zpracování vysokých rozlišení obrázků s různým poměrem stran je interpolovat pozice vložené do Vision Transformer nebo ViT do cílové velikosti pro přímé kódování jako celku. Nicméně, implementace tohoto přístupu je často doprovázena vysokými výpočetními náklady a problémy mimo distribuci, které vedou k dalšímu zhoršení výkonu. Aby se tato výzva zvládla, rámec LLaVA-UHD představuje modulární vizuální kódovací strategii, která rozděluje nativní rozlišení obrázků na menší variabilní velikosti slice, jejichž tvar je blízký standardnímu předtrénovacímu nastavení vizuálního transformátoru. Díky použití variabilních velikostí slice je rámec LLaVA-UHD schopen dosáhnout plné adaptability na nativní rozlišení obrázků bez implementace žádné deformace tvaru nebo vyplněním. Kromě toho, primárním cílem strategie modulárního obrázku je určit rozdělení vysokých rozlišení obrázků s minimálními změnami v rozlišení každého slice.

Kromě toho, většina existujících LLM implementuje statické rozlišení pro kódování obrazových slice, přístup, který brání plné adaptabilitě modelu na nativní rozlišení, protože mají přístup pouze k několika předem definovaným pevným tvarům slice. Kromě toho, statické rozlišení slice poškozuje výkon, efektivitu a správnost modelu, protože nevyhnutelně způsobuje deformaci tvaru při změně velikosti nebo vyplněním. Aby se tato výzva zvládla, rámec LLaVA-UHD navrhuje kódovat obrazové slice v poměru stran definovaném strategií rozdělení.

Kompresní vrstva

Obvyklý problém, se kterým se LLM potýkají při zpracování vysokých rozlišení obrázků, je, že množství vizuálních tokenů, které musí zpracovat, je významně vyšší (například rámec LLaVA-1.5 produkuje kolem 3500 vizuálních tokenů při zpracování jednoho obrázku s rozlišením 672×1008), což představuje významnou část výpočetních zdrojů a nákladů. Aby se tato výzva zvládla, model LLaVA-UHD implementuje sdílenou perceiver resampler vrstvu, aby kondensoval vizuální tokeny každého obrazového slice. Model pak implementuje sadu dotazovacích vektorů prostřednictvím cross-attention, aby resamploval výstup obrazových tokenů vyprodukovaných vizuálními kódéry na nižší počet.

Prostorový schéma pro obrazové slice

Je nezbytné informovat velký jazykový model o prostorové organizaci obrazových slice, protože rozdělení obrázků je dynamické napříč různými obrázky. Rámec LLaVA-UHD navrhuje a implementuje prostorový schéma, které používá dvě speciální tokeny, aby informoval LLM o relativní pozici obrazových slice.

LLaVA-UHD : Experimenty a výsledky

Rámec LLaVA-UHD je hodnocen proti 9 populárním benchmarkům, včetně všeobecných vizuálních otázek a odpovědí, optických znakových vizuálních otázek a odpovědí, halucinačních benchmarkek a komplexních benchmarkek. Kromě toho, rámec LLaVA-UHD je srovnán se silnými bazálními modely, včetně LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 a dalších.

Výkon rámce LLaVA-UHD na 9 populárních benchmarcích je shrnut a srovnán s populárními benchmarkek v následující tabulce.

Na základě výše uvedeného výkonu lze uzavřít, že rámec LLaVA-UHD je schopen překonat silné bazální modely na populárních benchmarkek, včetně silných obecných bazálních modelů trénovaných na významně větším množství dat, a také překonat LLM, které vyžadují významně více výpočtu, jako je Fuyu-8B, Monkey a další. Druhý, výsledky také ukazují, že rámec LLaVA-UHD dosahuje významně lepší výsledky než architektura LLaVA-1.5, a na jedné straně, kde LLaVA-1.5 podporuje pevné rozlišení 336×336, rámec LLaVA-UHD podporuje rozlišení 672×1088 s jakýmkoli poměrem stran a stejným množstvím vizuálních tokenů.

Závěrečné myšlenky

V tomto článku jsme mluvili o LLaVA-UHD, novém přístupu, který jako reprezentativní příklady bere rámce LLaVA-1.5 a GPT-4V a snaží se odhalit systematické chyby zakořeněné ve jejich vizuální kódovací strategii. Rámec LLaVA-UHD, multimodální modální, je pokus řešit tyto výzvy. Rámec LLaVA-UHD může vnímat obrázky v vysokém rozlišení i v jakémkoli poměru stran. Rámec LLaVA-UHD je založen na třech klíčových komponentech. První, strategie modulárního obrázku, která rozděluje nativní rozlišení obrázků na menší variabilní velikosti slice, aby se zvýšila efektivita a prodloužilo kódování. Dále, kompresní modul, který kondenzuje obrazové tokeny vyprodukované vizuálními kódéry dále. Nakonec, prostorový schéma, které organizuje slice tokeny pro velké jazykové modely. Komplexní experimenty ukazují, že rámec LLaVA-UHD je schopen překonat současné velké jazykové modely na 9 benchmarcích. Kromě toho, pomocí pouze 94% inferenční výpočtu, rámec LLaVA-UHD je schopen podporovat obrázky s 6krát větším rozlišením, tj. 672×1088.

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.