Spojte se s námi

Umělá inteligence

LLaVA-UHD: LMM vnímající jakýkoli poměr stran a obrázky ve vysokém rozlišení

mm

Zveřejněno

 on

LLaVA-UHD: LMM vnímající jakýkoli poměr stran a obrázky ve vysokém rozlišení

Nedávný pokrok a pokrok v oblasti velkých jazykových modelů zaznamenal významný nárůst v uvažování, porozumění a interakci v oblasti zraku a jazyka. Moderní rámce toho dosahují promítáním vizuálních signálů do LLM nebo velkých jazykových modelů, které umožňují jejich schopnost vnímat svět vizuálně, což je řada scénářů, kde strategie vizuálního kódování hrají klíčovou roli. Skutečné obrazy však neobsahují pouze širokou škálu scénářů, ale také se výrazně liší, pokud jde o rozlišení a poměr stran, což představuje pro LLM značné výzvy v různých doménách a úkolech. Aby se vypořádaly se značnými odchylkami, které představují obrázky ze skutečného světa, moderní velké jazykové modely vnímají obrázky v nízkém rozlišení, tj. 224×224, a pevném poměru stran, tj. 1:1. Ačkoli kompromis držet se nízkého rozlišení a pevného poměru stran zvyšuje zobecnitelnost LLM v aplikacích v reálném světě, často výrazně rozmazává obsah obrazu a zároveň vede k vážnému zkreslení tvaru. Kompromis významně ovlivňuje schopnosti velkých multimodálních modelů nebo LMM, zejména těch, které jsou optimalizovány pro jemnozrnné úkoly včetně optického rozpoznávání znaků a porozumění malým objektům. Kromě toho, protože rozlišení a poměr stran jsou předem určeny, mohou modely pouze nejlépe odhadnout rozmazané obrázky, což má za následek modelové halucinace, což je situace, kdy model produkuje textové odpovědi, které nejsou na obrázcích fakticky podloženy. 

V tomto článku budeme hovořit o LLaVA-UHD, novém přístupu, který jako reprezentativní příklady nejprve bere rámce LLaVA-1.5 a GPT-4V a pokouší se odhalit systematické nedostatky zakořeněné v jejich strategii vizuálního kódování. Rámec LLaVA-UHD, multimodální modal, je pokusem o řešení těchto výzev. Rámec LLaVA-UHD dokáže vnímat obrazy ve vysokém rozlišení i v jakémkoli poměru stran. Rámec LLaVA-UHD je postaven na třech klíčových komponentách. Za prvé, strategie modularizace obrazu, která rozděluje obrazy v nativním rozlišení na menší řezy s proměnlivou velikostí ve snaze zvýšit efektivitu a rozšířit kódování. Dále kompresní modul, který dále zhušťuje obrazové tokeny vytvořené vizuálními kodéry. Konečně prostorové schéma, které organizuje tokeny řezů pro velké jazykové modely. Rozsáhlé experimenty ukazují, že rámec LLaVA-UHD je schopen překonat nejmodernější velké jazykové modely v 9 benchmarcích. Navíc díky použití pouze 94% inferenčního výpočtu je framework LLaVA-UHD schopen podporovat obrázky s 6x větším rozlišením, tj. 672×1088. 

LLaVA-UHD: Efektivně vnímejte obrazy v jakémkoli poměru stran a Vysoké rozlišení

Vize-jazykové uvažování, porozumění a interakce zaznamenaly v poslední době významný pokrok, především díky nedávnému tlaku na velké jazykové modely. V moderních frameworkech se toho samého dosahuje přiváděním vizuálních signálů do LLM (Large Language Models), aby byly schopny vizuálně interpretovat skutečný svět, rozmanitou škálu scénářů, které se spoléhají na strategie vizuálního kódování. Rozdíl ve scénáři odráží úzké pokrytí LLM napříč různými doménami a úkoly, zatímco rozdíl v rozlišení a poměrech stran odhaluje velké rozdíly uvnitř třídy v obrazech reálného světa, které je těžké zvládnout. Na rozdíl od malého měřítka, které snižuje rozptyl, modely po BERT řeší význam z nízkého rozlišení (např. pro LLaVA-UHD je to 224×224) obrázků s pevným poměrem stran 1:1, aby poskytovaly skutečné obrazy. I když je tento kompromis užitečný pro zajištění zobecnitelnosti LLM na aplikace v reálném světě, často vede k velmi rozmazaným obrazům a zároveň podporuje vážné deformace tvaru. To snižuje schopnosti velkého multimodální modely nebo LMM (např. jemnozrnné úkoly), jako je optické rozpoznávání znaků a porozumění malým objektům. Vzhledem k tomu, že rozlišení a poměr stran jsou předdefinované, mohou modely pouze odhadovat rozmazané obrázky, což vede k modelovým halucinacím, takže konečné generované textové odpovědi nejsou fakticky založeny na obrázcích. Proč tedy benchmarkové modely LMM nevnímají obrázky ve vysokém rozlišení a různých poměrech stran? 

Existují dva hlavní důvody, proč srovnávací LMM nejsou schopny vnímat obrazy s vysokým rozlišením a různým rozlišením. Za prvé, protože vizuální kodéry jsou předem trénovány na pevná rozlišení, je pro model a kodér obtížné pracovat s obrázky s různými poměry stran a rozlišením, což významně ovlivňuje přizpůsobivost modelu. Zadruhé, kódování obrázků s vysokým rozlišením přímo pomocí transformátorů vidění je spojeno se značnými výpočetními náklady s ohledem na velikost obrázků. Kromě toho mohou být náklady na výpočet výrazně vyšší pro velký jazykový model pro zpracování velkého počtu vizuálních tokenů pro obrázky s vysokým rozlišením, což významně ovlivňuje celkovou efektivitu modelu. Aby čelil těmto výzvám, LLaVA-UHD, velký multimodální model, který vnímá obrázky s vysokým rozlišením a jakýmkoli poměrem stran, bere rámce LLaVA-1.5 a GPT-4V jako reprezentativní příklady a pokouší se odhalit systematické nedostatky zakořeněné v jejich vizuálním strategie kódování. 

Výše uvedený obrázek odráží experimentální výsledky GPT-4V při identifikaci počtu objektů na obrázku. Rámec LLaVA-UHD má ve svém jádru tři komponenty. Za prvé, strategie modularizace obrazu, která rozděluje obrazy v nativním rozlišení na menší řezy s proměnlivou velikostí pro rozšiřitelné a efektivní kódování. Na rozdíl od nedávných LLM, které přizpůsobují obrázky několika pevným rozlišením a poměrům stran, řezy s proměnlivou velikostí generované rámcem LLaVA-UHD umožňují plnou adaptaci na obrázky v nativním rozlišení bez zkreslení tvarů, změny velikosti nebo výplně. Za druhé, model zhušťuje vizuální tokeny kompresní vrstvou na skromnou délku, což vede k výraznému snížení výpočtu pro LLM. Nakonec model organizuje komprimované tokeny řezů do prostorového schématu, aby informoval o pozicích řezů v obrazech pro velký jazykový model. 

LLaVA-UHD : Metodologie a architektura

Na základě poznatků z některých pilotních experimentů ke studiu existujících rámců včetně GPT-4V a LLaVA-1.5 implementuje rámec LLaVA-UHD třísložkovou architekturu, jak je ukázáno na následujícím obrázku. 

Za prvé, strategie modularizace obrazu, která rozděluje obrazy v nativním rozlišení na menší řezy s proměnlivou velikostí ve snaze zvýšit efektivitu a rozšířit kódování. Dále kompresní modul, který dále zhušťuje obrazové tokeny vytvořené vizuálními kodéry. Konečně prostorové schéma, které organizuje tokeny řezů pro velké jazykové modely. Pojďme se na tyto komponenty podrobně podívat. 

Modularizované vizuální kódování

Běžným přístupem k řešení obrázků s vysokým rozlišením s různým poměrem stran je interpolace vložených poloh Vision Transformer nebo ViT do cílového tvaru pro přímé kódování jako celku. Implementace tohoto přístupu je však často doprovázena vysokými výpočetními náklady a problémy spojené s mimo distribuci vedou k dalšímu snížení výkonu. Aby se vypořádal s touto výzvou, rámec LLaVA-UHD představuje modularizovanou strategii vizuálního kódování, která se v zásadě zaměřuje na rozdělení obrázků s nativním rozlišením na menší řezy s proměnlivou velikostí, přičemž tvar každého řezu je poměrně blízký standardnímu předtréninkovému nastavení transformátoru vidění. . Díky použití řezů s proměnlivou velikostí je rámec LLaVA-UHD schopen dosáhnout plné adaptability na obrázky s nativním rozlišením bez implementace jakéhokoli tvarově zkreslujícího přetvarování nebo vycpávky. Kromě toho je primárním cílem strategie dělení obrazu určit rozdělení obrazů s vysokým rozlišením s minimálními změnami v rozlišení každého řezu. Pro daný obraz s určitým rozlišením (š,v) a transformátor vidění předem natrénovaný na jiné rozlišení, framework LLaVA-UHD nejprve určí ideální výpočet, tj. počet řezů potřebných ke zpracování obrazu. Rámec pak faktorizuje počet řezů na m sloupců a n řádků. Rámec pak definuje funkci skóre pro měření odchylky od standardního předtréninkového nastavení transformátoru vidění. Teoreticky je framework LLaVA-UHD schopen prokázat, že strategie rozdělení implementovaná v jeho architektuře zaručuje menší očekávané změny a mírné změny v nejhorším případě s ohledem na standardní rozlišení předtrénování pro každý řez. 

Kromě toho většina stávajících LLM implementuje statické rozlišení pro kódování obrazových řezů, což je přístup, který brání plné adaptabilitě modelu na nativní rozlišení, protože mají přístup pouze k několika předdefinovaným řezům s pevným tvarem. Rozlišení statického řezu navíc poškozuje výkon, efektivitu a správnost modelu, protože nevyhnutelně způsobuje tvarově zkreslující změnu velikosti nebo vyplnění. Aby se tento problém vyřešil, framework LLaVA-UHD navrhuje kódovat obrazové řezy v poměru stran, jak je definováno strategií rozdělení. Přesněji řečeno, framework LLaVA-UHD nejprve proporcionálně změní velikost původního obrázku v souladu s poměrem stran tak, aby se počet záplat vešel do rozpočtu na předtrénink, tj. do počtu sekvencí vkládání pozic v transformátoru vidění, maximálně . Model LLaVA-UHD poté přetváří předem natrénovanou sekvenci 1D vkládání polohy transformátoru vidění do 2D formátu v souladu s jeho předtréninkovým nastavením. 

Kompresní vrstva

Běžným problémem LLM při zpracování obrázků s vysokým rozlišením je to, že množství vizuálních tokenů, které musí zpracovat, je výrazně vyšší (pro srovnání, framework LLaVA-1.5 produkuje přibližně 3500 vizuálních tokenů při zpracování jednoho obrázku s rozlišením: 672×1008 ), které představují hlavní část výpočetních zdrojů a nákladů. Aby se tato výzva vyrovnala, model LLaVA-UHD implementuje vrstvu sdíleného vnímače pro převzorkování, která komprimuje vizuální tokeny každého obrazového řezu. Model pak implementuje sadu dotazovacích vektorů prostřednictvím křížové pozornosti, aby převzorkoval výstup obrazových tokenů vizuálními kodéry na nižší počet. Ve srovnání s převládajícími strategiemi vizuální projekce založené na vícevrstvém perceptronu je přístup vzorku vnímající implementovaný LLaVA-UHD schopen udržovat dostupný, ale pevný počet vizuálních tokenů bez ohledu na jeho rozlišení obrazu, díky čemuž je rámec LLaVA-UHD kompatibilní s vysoce rozlišení zpracování obrazu a porozumění úkolům. Abychom to uvedli do obrazu, framework LLaVA-UDH generuje stejné množství tokenů při kódování obrázku s rozlišením 672×1008 jako LLaVA-1.5 framework generuje při kódování obrazu s rozlišením 336×336, téměř 6krát efektivnější než jeho konkurent. 

Prostorové schéma pro obrazové řezy

Je nezbytnou praxí informovat velký jazykový model o prostorových organizacích obrazových řezů, protože dělení obrazů je dynamické napříč různými obrazy. Rámec LLaVA-UHD navrhuje a implementuje prostorové schéma, které používá dva speciální tokeny k informování LLM o relativní poloze obrazových řezů. V tomto prostorovém schématu používá rámec LLaVA-UHD „,“ k oddělení reprezentací řezů v řadě a různé řádky jsou odděleny pomocí „\n“. 

LLaVA-UDH : Experimenty a výsledky

Rámec LLaVA-UHD je hodnocen podle 9 populárních benchmarků včetně obecných vizuálních testů pro zodpovězení otázek, optických znaků založených na vizuálních testech pro zodpovězení otázek, halucinačních benchmarků a komplexních benchmarků. Kromě toho je rámec LLaVA-UHD porovnán se silnými základními liniemi včetně LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 a další. 

Výkon rámce LLaVA-UHD na 9 populárních benchmarcích je shrnut a porovnán s oblíbenými benchmarky v tabulce níže. 

Na základě výše uvedeného výkonu lze dojít k závěru, že rámec LLaVA-UHD je schopen překonat silné základní modely v populárních benchmarcích, včetně silných obecných základních linií trénovaných na výrazně větším množství dat, spolu s lepšími LLM, které potřebují výrazně více výpočtů. jako Fuyu-8B, Monkey a další. Za druhé, výsledky také naznačují, že rámec LLaVA-UHD dosahuje výrazně lepších výsledků než architektura LLaVA-1.5, a na jedné straně tam, kde LLaVA-1.5 podporuje pevné rozlišení 336 × 336, rámec LLaVA-UHD podporuje obrázky v rozlišení 672 × 1088 s libovolným poměrem stran a stejným počtem vizuálních žetonů. 

Závěrečné myšlenky

V tomto článku jsme hovořili o LLaVA-UHD, novém přístupu, který jako reprezentativní příklady nejprve bere rámce LLaVA-1.5 a GPT-4V a pokouší se odhalit systematické nedostatky zakořeněné v jejich strategii vizuálního kódování. Rámec LLaVA-UHD, multimodální modal, je pokusem o řešení těchto výzev. Rámec LLaVA-UHD dokáže vnímat obrazy ve vysokém rozlišení i v jakémkoli poměru stran. Rámec LLaVA-UHD je postaven na třech klíčových komponentách. Za prvé, strategie modularizace obrazu, která rozděluje obrazy v nativním rozlišení na menší řezy s proměnlivou velikostí ve snaze zvýšit efektivitu a rozšířit kódování. Dále kompresní modul, který dále zhušťuje obrazové tokeny vytvořené vizuálními kodéry. Konečně prostorové schéma, které organizuje tokeny řezů pro velké jazykové modely. Rozsáhlé experimenty ukazují, že rámec LLaVA-UHD je schopen překonat nejmodernější velké jazykové modely v 9 benchmarcích. Navíc díky použití pouze 94% inferenčního výpočtu je framework LLaVA-UHD schopen podporovat obrázky s 6x větším rozlišením, tj. 672×1088. 

 

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.