Inteligență artificială

LLaVA-UHD: un LMM care percepe orice raport de aspect și imagini de înaltă rezoluție

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Progresul recent și avansarea Modelelor Lingvistice Mari a experimentat o creștere semnificativă a capacităților de raționament, înțelegere și interacțiune vizual-lingvistică. Cadrele moderne realizează acest lucru prin proiectarea semnalelor vizuale în LLM-uri sau Modele Lingvistice Mari pentru a le permite să perceapă lumea în mod vizual, o varietate de scenarii în care strategiile de codificare vizuală joacă un rol crucial. Cu toate acestea, imaginile din lumea reală nu conțin doar o varietate de scenarii, ci variază semnificativ și în ceea ce privește rezoluțiile și raporturile de aspect, ceea ce reprezintă o provocare semnificativă pentru LLM-uri în diferite domenii și sarcini. Pentru a aborda variația semnificativă pe care o prezintă imaginile din lumea reală, modelele lingvistice mari moderne percep imaginile într-o rezoluție scăzută, adică 224×224, și un raport de aspect fix, adică 1:1. Deși compromisul de a rămâne la o rezoluție scăzută și un raport de aspect fix crește generalizabilitatea LLM-ului în aplicațiile din lumea reală, acesta adesea estompează conținutul imaginii în mod semnificativ, provocând și o distorsionare severă a formei. Compromisul afectează semnificativ capacitățile modelelor mari multimodale sau LMM, în special cele optimizate pentru sarcini fine, cum ar fi recunoașterea caracterelor optice și înțelegerea obiectelor mici. Mai mult, deoarece rezoluția și raportul de aspect sunt predefinite, modelele pot face doar presupuneri despre imaginile estompate, ceea ce duce la halucinații ale modelului, o situație în care modelul produce răspunsuri textuale care nu sunt bazate factual în imagini.

În acest articol, vom discuta despre LLaVA-UHD, o abordare nouă care ia LLaVA-1.5 și cadrele GPT-4V ca exemple reprezentative și încearcă să expună defectele sistemice înrădăcinate în strategia lor de codificare vizuală. Cadru LLaVA-UHD, un model multimodal, este o încercare de a aborda provocările. Cadru LLaVA-UHD poate percepe imagini de înaltă rezoluție, precum și orice raport de aspect. Cadru LLaVA-UHD se bazează pe trei componente cheie. Primul, o strategie de modularizare a imaginilor care divide imaginile cu rezoluție nativă în felii mai mici, de dimensiuni variabile, în încercarea de a îmbunătăți eficiența și de a extinde codificarea. Următorul, un modul de compresie care condensează mai mult tokenurile de imagine produse de codificatorii vizuali. În final, o schemă spațială care organizează tokenurile de felii pentru modelele lingvistice mari. Experimentele cuprinzătoare indică faptul că cadru LLaVA-UHD este capabil să depășească modelele lingvistice mari de ultimă generație pe 9 benchmark-uri. Mai mult, utilizând doar 94% din computația de inferență, cadru LLaVA-UHD este capabil să suporte imagini cu o rezoluție de 6 ori mai mare, adică 672×1088.

LLaVA-UHD : Percepe eficient imagini în orice raport de aspect și înaltă rezoluție

Raționamentul vizual-lingvistic, înțelegerea și interacțiunea au făcut progrese semnificative în ultima vreme, în mare parte datorită impulsului recent pentru Modelele Lingvistice Mari. În cadrele moderne, acest lucru se realizează prin introducerea semnalelor vizuale în LLM-uri (Modele Lingvistice Mari) pentru a le permite să interpreteze lumea reală în mod vizual, o varietate de scenarii care se bazează pe strategii de codificare vizuală. Diferența de scenariu reflectă o acoperire îngustă a LLM-urilor în diferite domenii și sarcini, în timp ce diferența de rezoluție și raport de aspect revelează variațiile mari intracategoriale în imaginile din lumea reală, care sunt greu de gestionat. În contrast cu scala mică care reduce variația, modelele după BERT abordează semnificația din rezoluția scăzută (de exemplu, pentru LLaVA-UHD este 224×224) a imaginilor cu un raport de aspect fix, 1:1, pentru a oferi imagini din lumea reală. Deși acest compromis este util pentru a asigura generalizabilitatea LLM-ului în aplicațiile din lumea reală, acesta adesea duce la imagini foarte estompate și la o distorsionare severă a formei. Acest compromis afectează semnificativ capacitățile modelelor mari multimodale sau LMM (de exemplu, sarcini fine), cum ar fi recunoașterea caracterelor optice și înțelegerea obiectelor mici. Deoarece rezoluția și raportul de aspect sunt predefinite, modelele pot face doar presupuneri despre imaginile estompate, ceea ce duce la halucinații ale modelului, o situație în care modelul produce răspunsuri textuale care nu sunt bazate factual în imagini. De ce nu percep modelele LMM de referință imagini de înaltă rezoluție și raport de aspect variabil?

Există două motive principale pentru care modelele LMM de referință nu pot percepe imagini cu înaltă rezoluție și raport de aspect variabil. Primul, deoarece codificatorii vizuali sunt antrenați în rezoluții fixe, ceea ce face dificil pentru model și codificator să gestioneze imagini cu raport de aspect și rezoluție variabilă, afectând semnificativ adaptabilitatea modelului. Al doilea, codificarea directă a imaginilor de înaltă rezoluție utilizând transformatoare de viziune este asociată cu costuri de calcul semnificative în ceea ce privește dimensiunea imaginilor. Mai mult, costurile de calcul pot fi semnificativ mai mari pentru modelul de limbaj mare pentru a procesa un număr mare de tokenuri vizuale pentru imagini de înaltă rezoluție, afectând semnificativ eficiența generală a modelului. Pentru a contracara aceste provocări, LLaVA-UHD, un model multimodal mare care percepe imagini de înaltă rezoluție și orice raport de aspect, ia LLaVA-1.5 și cadrele GPT-4V ca exemple reprezentative și încearcă să expună defectele sistemice înrădăcinate în strategia lor de codificare vizuală.

Imaginea de mai sus reflectă rezultatele experimentale ale GPT-4V în identificarea numărului de obiecte dintr-o imagine. La nivelul său fundamental, cadru LLaVA-UHD are trei componente. Primul, o strategie de modularizare a imaginilor care divide imaginile cu rezoluție nativă în felii mai mici, de dimensiuni variabile, pentru a extinde codificarea și a îmbunătăți eficiența. În contrast cu LLM-urile recente care ajustează imaginile la câteva rezoluții și raporturi de aspect fixe, feliile de dimensiuni variabile generate de cadru LLaVA-UHD permit o adaptabilitate deplină la imaginile cu rezoluție nativă, fără a distorsiona formele, a redimensiona sau a completa. Al doilea, modelul condensează tokenurile vizuale printr-un strat de compresie la o lungime modestă, reducând semnificativ calculul pentru LLM-uri. În final, modelul organizează tokenurile de felii condensate într-o schemă spațială pentru a informa pozițiile felilor în imagini pentru modelul de limbaj mare.

LLaVA-UHD : Metodologie și Arhitectură

Pe baza învățămintelor din câteva experimente pilot pentru a studia cadrele existente, inclusiv GPT-4V și LLaVA-1.5, cadru LLaVA-UHD implementează o arhitectură cu trei componente, așa cum se demonstrează în imaginea de mai jos.

Primul, o strategie de modularizare a imaginilor care divide imaginile cu rezoluție nativă în felii mai mici, de dimensiuni variabile, pentru a extinde codificarea și a îmbunătăți eficiența. Următorul, un modul de compresie care condensează mai mult tokenurile de imagine produse de codificatorii vizuali. În final, o schemă spațială care organizează tokenurile de felii pentru modelele de limbaj mare. Să aruncăm o privire detaliată asupra acestor componente.

Codificare Vizuală Modularizată

O abordare comună pentru a face față imaginilor de înaltă rezoluție cu raport de aspect diferit este de a interpolarea încorporărilor de poziție ale Transformatorului de Viziune sau ViT la forma țintă pentru codificarea directă ca întreg. Cu toate acestea, implementarea acestei abordări este adesea însoțită de costuri de calcul ridicate, iar problemele din afara distribuției duc la o degradare suplimentară a performanței. Pentru a aborda această provocare, cadru LLaVA-UHD prezintă o strategie de codificare vizuală modularizată care își propune să divizeze imaginile cu rezoluție nativă în felii mai mici, de dimensiuni variabile, unde forma fiecărei felii este foarte apropiată de setarea standard de antrenament a transformatorului de viziune. Datorită utilizării feliilor de dimensiuni variabile, cadru LLaVA-UHD este capabil să atingă o adaptabilitate deplină la imaginile cu rezoluție nativă, fără a implementa nicio modificare distorsionantă a formei sau completare. Mai mult, obiectivul principal al strategiei de felii de imagine este de a determina o divizare a imaginilor de înaltă rezoluție cu modificări minime ale rezoluției fiecărei felii. Pentru o imagine dată cu o anumită rezoluție (w, h) și un transformator de viziune antrenat într-o altă rezoluție, cadru LLaVA-UHD determină mai întâi computația ideală, adică numărul de felii necesare pentru a procesa imaginea. Cadru LLaVA-UHD factorizează apoi numărul de felii în m coloane și n rânduri. Cadru LLaVA-UHD definește apoi o funcție de scor pentru a măsura deviația de la setarea standard de antrenament a transformatorului de viziune. Teoretic, cadru LLaVA-UHD este capabil să demonstreze că strategia de divizare implementată în arhitectura sa garantează modificări minore și schimbări moderate în ceea ce privește rezoluția standard de antrenament pentru fiecare felie.

Mai mult, majoritatea LLM-urilor existente implementează o rezoluție statică pentru codificarea feliilor de imagine, o abordare care împiedică adaptabilitatea deplină a modelului la rezoluțiile native, deoarece acestea au acces doar la câteva felii cu formă fixă predefinită. În plus, rezoluția statică a feliilor afectează negativ performanța, eficiența și corectitudinea modelului, deoarece aceasta implică inevitabil o modificare distorsionantă a formei sau completare. Pentru a aborda această problemă, cadru LLaVA-UHD propune să codifice feliile de imagine în raport de aspect, așa cum este definit de strategia de divizare. Mai exact, cadru LLaVA-UHD ajustează imaginea originală proporțional în conformitate cu raportul de aspect, astfel încât numărul de patch-uri să se potrivească în bugetul de antrenament, adică numărul de secvențe de încorporare de poziție în transformatorul de viziune, în mod maxim. Modelul LLaVA-UHD rearanjează apoi secvența preantrenată de încorporare de poziție 1D a transformatorului de viziune într-un format 2D, în conformitate cu setările sale de antrenament.

Strat de Compresie

O problemă comună cu care se confruntă LLM-urile atunci când procesează imagini de înaltă rezoluție este că cantitatea de tokenuri vizuale pe care trebuie să le proceseze este semnificativ mai mare (pentru referință, cadru LLaVA-1.5 produce aproximativ 3500 de tokenuri vizuale atunci când procesează o singură imagine cu rezoluția 672×1008), reprezentând o parte semnificativă a resurselor de calcul și a costurilor. Pentru a aborda această provocare, modelul LLaVA-UHD implementează un strat de resampler perceiver partajat pentru a compresa tokenurile vizuale ale fiecărei felii de imagine. Modelul implementează apoi un set de vectori de interogare prin atenție încrucișată pentru a resamplează ieșirea tokenurilor de imagine de către codificatorii vizuali la un număr mai mic. În comparație cu strategiile de proiecție vizuală bazate pe MLP, abordarea perceiver sample implementată de LLaVA-UHD este capabilă să mențină un număr de tokenuri vizuale accesibil, dar fix, indiferent de rezoluția imaginii, făcând cadru LLaVA-UHD mai compatibil cu sarcinile de procesare și înțelegere a imaginilor de înaltă rezoluție. Pentru a pune acest lucru în imagine, cadru LLaVA-UDH generează aceeași cantitate de tokenuri atunci când codifică o imagine cu rezoluția 672×1008, ca și cadru LLaVA-1.5 atunci când codifică o imagine cu rezoluția 336×336, aproximativ de 6 ori mai eficient decât concurentul său.

Schemă Spațială pentru Feliile de Imagine

Este o practică necesară să informeze modelul de limbaj mare despre organizarea spațială a feliilor de imagine, deoarece divizarea imaginilor este dinamică în diferite imagini. Cadru LLaVA-UHD proiectează și implementează o schemă spațială care utilizează două tokenuri speciale pentru a informa LLM-ul despre poziția relativă a feliilor de imagine. Sub această schemă spațială, cadru LLaVA-UHD utilizează „,” pentru a separa reprezentările feliilor într-un rând, iar rândurile diferite sunt separate utilizând un „n”.

LLaVA-UDH : Experimente și Rezultate

Cadru LLaVA-UHD este evaluat împotriva a 9 benchmark-uri populare, incluzând benchmark-uri generale de întrebări vizuale, benchmark-uri de întrebări vizuale bazate pe caractere optice, benchmark-uri de halucinație și benchmark-uri cuprinzătoare. Mai mult, cadru LLaVA-UHD este comparat cu linii de bază puternice, incluzând LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 și multe altele.

Performanța cadru LLaVA-UHD pe 9 benchmark-uri populare este rezumată și comparată cu benchmark-urile populare în tabelul de mai jos.

Pe baza performanței de mai sus, se poate concluziona că cadru LLaVA-UHD este capabil să depășească modelele de linie de bază puternice pe benchmark-uri populare, incluzând linii de bază puternice antrenate pe o cantitate semnificativ mai mare de date, precum și să depășească LLM-urile care necesită semnificativ mai multă computație, cum ar fi Fuyu-8B, Monkey și multe altele. În al doilea rând, rezultatele indică, de asemenea, faptul că cadru LLaVA-UHD obține rezultate semnificativ mai bune decât arhitectura LLaVA-1.5 și, pe de altă parte, în timp ce LLaVA-1.5 suportă o rezoluție fixă de 336×336, cadru LLaVA-UHD suportă imagini cu rezoluția 672×1088 și orice raport de aspect, și același număr de tokenuri vizuale.

Gânduri Finale

În acest articol am discutat despre LLaVA-UHD, o abordare nouă care ia LLaVA-1.5 și cadrele GPT-4V ca exemple reprezentative și încearcă să expună defectele sistemice înrădăcinate în strategia lor de codificare vizuală. Cadru LLaVA-UHD, un model multimodal, este o încercare de a aborda provocările. Cadru LLaVA-UHD poate percepe imagini de înaltă rezoluție, precum și orice raport de aspect. Cadru LLaVA-UHD se bazează pe trei componente cheie. Primul, o strategie de modularizare a imaginilor care divide imaginile cu rezoluție nativă în felii mai mici, de dimensiuni variabile, pentru a extinde codificarea și a îmbunătăți eficiența. Următorul, un modul de compresie care condensează mai mult tokenurile de imagine produse de codificatorii vizuali. În final, o schemă spațială care organizează tokenurile de felii pentru modelele de limbaj mare. Experimentele cuprinzătoare indică faptul că cadru LLaVA-UHD este capabil să depășească modelele lingvistice mari de ultimă generație pe 9 benchmark-uri. Mai mult, utilizând doar 94% din computația de inferență, cadru LLaVA-UHD este capabil să suporte imagini cu o rezoluție de 6 ori mai mare, adică 672×1088.

Kunal Kejriwal

"Un inginer de profesie, un scriitor din inimă". Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a inteligenței artificiale și a învățării automate, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.