Sztuczna inteligencja

LLaVA-UHD: model LMM postrzegający każdy stosunek boków i obrazy o wysokiej rozdzielczości

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Ostatni postęp i rozwój dużych modeli językowych przyniósł znaczny wzrost zdolności rozumu, zrozumienia i interakcji pomiędzy językiem a wizją. Współczesne ramy osiągają to, projektując sygnały wizualne do dużych modeli językowych, aby umożliwić im percepcję świata wizualnego, różnorodne scenariusze, w których strategie kodowania wizualnego odgrywają kluczową rolę. Jednakże, rzeczywiste obrazy nie tylko zawierają szeroki zakres scenariuszy, ale również znacznie różnią się pod względem rozdzielczości i stosunku boków, co stanowi znaczne wyzwania dla dużych modeli językowych w różnych dziedzinach i zadaniach. Aby rozwiązać znaczne wahania występujące w rzeczywistych obrazach, nowoczesne duże modele językowe postrzegają obrazy w niskiej rozdzielczości, czyli 224×224, i stałym stosunku boków, czyli 1:1. Chociaż kompromis, aby przyjąć niską rozdzielczość i stały stosunek boków, zwiększa ogólną użyteczność dużego modelu językowego w rzeczywistych aplikacjach, często powoduje znaczne rozmycie zawartości obrazu, a także prowadzi do ciężkich zniekształceń kształtu. Kompromis znacznie wpływa na zdolności dużych modeli wielomodalnych, zwłaszcza tych zoptymalizowanych dla zadań drobnoziarnistych, w tym rozpoznawania optycznego znaków i zrozumienia małych obiektów. Ponadto, ponieważ rozdzielczość i stosunek boków są predefiniowane, modele mogą tylko podejmować najlepsze próby, aby odgadnąć rozmyte obrazy, co prowadzi do halucynacji modelu, sytuacji, w której model wytwarza tekstowe odpowiedzi, które nie są uzasadnione faktami w obrazach.

W tym artykule będziemy rozmawiać o LLaVA-UHD, nowym podejściu, które jako pierwsze bierze ramy LLaVA-1.5 i GPT-4V jako reprezentatywne przykłady i próbuje ujawnić systematyczne błędy zakorzenione w ich strategii kodowania wizualnego. Ramy LLaVA-UHD, model wielomodalny, są próbą rozwiązania tych wyzwań. Ramy LLaVA-UHD mogą postrzegać obrazy o wysokiej rozdzielczości oraz w dowolnym stosunku boków. Ramy LLaVA-UHD składają się z trzech kluczowych komponentów. Po pierwsze, strategia modularnego kodowania obrazu, która dzieli obrazy o rodzimej rozdzielczości na mniejsze, zmiennego rozmiaru plasterki w celu zwiększenia wydajności i rozszerzenia kodowania. Następnie, moduł kompresji, który kondensuje tokeny obrazu wytworzone przez kodery wizualne. Wreszcie, schemat przestrzenny, który organizuje tokeny plasterków dla dużych modeli językowych. Całkowite eksperymenty wskazują, że ramy LLaVA-UHD są w stanie przewyższyć najlepsze duże modele językowe w 9 benchmarkach. Ponadto, używając tylko 94% obliczeń inferencyjnych, ramy LLaVA-UHD są w stanie obsługiwać obrazy o sześciokrotnie większej rozdzielczości, czyli 672×1088.

LLaVA-UHD : Wydajna percepcja obrazów w dowolnym stosunku boków i wysokiej rozdzielczości

Rozumienie i interakcja języka i wizji poczyniły znaczne postępy, głównie dzięki niedawnemu impulsowi dla dużych modeli językowych. W nowoczesnych ramach to osiąga się, wprowadzając sygnały wizualne do dużych modeli językowych, aby umożliwić im percepcję świata wizualnego, różnorodne scenariusze, w których strategie kodowania wizualnego odgrywają kluczową rolę. Różnica w scenariuszu odzwierciedla wąskie pokrycie dużych modeli językowych w różnych dziedzinach i zadaniach, podczas gdy różnica w rozdzielczości i stosunku boków ujawnia duże zmiany wewnątrzklasowe w rzeczywistych obrazach, które są trudne do obsłużenia. W przeciwieństwie do małej skali, która obniża zmienność, modele po BERT radzą sobie z tym znaczeniem, używając niskiej rozdzielczości (np. dla LLaVA-UHD jest to 224×224) obrazów o stałym stosunku boków, 1:1, aby dać rzeczywiste obrazy. Chociaż ten kompromis jest przydatny do zapewnienia ogólnej użyteczności dużego modelu językowego w rzeczywistych aplikacjach, często prowadzi do bardzo rozmytych obrazów, a także powoduje ciężkie zniekształcenia kształtu. To zmniejsza zdolności dużych modeli wielomodalnych, zwłaszcza tych zoptymalizowanych dla zadań drobnoziarnistych, takich jak rozpoznawanie optyczne znaków i zrozumienie małych obiektów. Ponieważ rozdzielczość i stosunek boków są predefiniowane, modele mogą tylko podejmować najlepsze próby, aby odgadnąć rozmyte obrazy, co prowadzi do halucynacji modelu, sytuacji, w której model wytwarza tekstowe odpowiedzi, które nie są uzasadnione faktami w obrazach. Dlaczego więc nie ustanawiają benchmarków modeli LMM postrzegających obrazy o wysokiej rozdzielczości i zmiennym stosunku boków?

Istnieją dwie główne przyczyny, dla których benchmarkowe modele LMM nie są w stanie postrzegać obrazów o wysokiej rozdzielczości i zmiennym stosunku boków. Po pierwsze, ponieważ kodery wizualne są wstępnie trenowane w stałych rozdzielczościach, utrudnia to modelowi i koderowi radzenie sobie z obrazami o zmiennych stosunkach boków i rozdzielczościach, co znacznie wpływa na adaptacyjność modelu. Po drugie, bezpośrednie kodowanie obrazów o wysokiej rozdzielczości przy użyciu transformatorów wizualnych jest związane z znacznymi kosztami obliczeniowymi w odniesieniu do rozmiaru obrazu. Ponadto, koszty obliczeniowe mogą być znacznie wyższe dla dużego modelu językowego do przetworzenia dużej liczby tokenów wizualnych dla obrazów o wysokiej rozdzielczości, co znacznie wpływa na ogólną wydajność modelu. Aby przeciwdziałać tym wyzwaniom, ramy LLaVA-UHD, duży model wielomodalny, który postrzega obrazy o wysokiej rozdzielczości i dowolnym stosunku boków, bierze ramy LLaVA-1.5 i GPT-4V jako reprezentatywne przykłady i próbuje ujawnić systematyczne błędy zakorzenione w ich strategii kodowania wizualnego.

Powyższy obraz odzwierciedla wyniki eksperymentalne GPT-4V w identyfikacji liczby obiektów w obrazie. W swojej istocie, ramy LLaVA-UHD składają się z trzech komponentów. Po pierwsze, strategia modularnego kodowania obrazu, która dzieli obrazy o rodzimej rozdzielczości na mniejsze, zmiennego rozmiaru plasterki w celu zwiększenia wydajności i rozszerzenia kodowania. W przeciwieństwie do ostatnich LLM, które dopasowują obrazy do kilku stałych rozdzielczości i stosunków boków, zmiennego rozmiaru plasterki wytworzone przez ramy LLaVA-UHD umożliwiają pełną adaptacyjność do obrazów o rodzimej rozdzielczości bez zniekształcania kształtu, zmiany rozmiaru lub wypełniania. Po drugie, model kondensuje tokeny wizualne warstwą kompresji do umiarkowanej długości, co prowadzi do znacznego zmniejszenia obliczeń dla LLM. Wreszcie, model organizuje skompresowane tokeny plasterków w schemacie przestrzennym, aby poinformować o pozycjach plasterków w obrazie dużego modelu językowego.

LLaVA-UHD : Metodologia i Architektura

Na podstawie wniosków z kilku pilotażowych eksperymentów, aby zbadać istniejące ramy, w tym GPT-4V i LLaVA-1.5, ramy LLaVA-UHD implementują architekturę trzech komponentów, jak pokazano na poniższym obrazie.

Po pierwsze, strategia modularnego kodowania obrazu, która dzieli obrazy o rodzimej rozdzielczości na mniejsze, zmiennego rozmiaru plasterki w celu zwiększenia wydajności i rozszerzenia kodowania. Następnie, moduł kompresji, który kondensuje tokeny obrazu wytworzone przez kodery wizualne. Wreszcie, schemat przestrzenny, który organizuje tokeny plasterków dla dużych modeli językowych. Zobaczmy te komponenty szczegółowo.

Modularne Kodowanie Wizualne

Powszechnym podejściem do radzenia sobie z obrazami o wysokiej rozdzielczości i zmiennym stosunku boków jest interpolacja pozycyjnych wektorów uwagi transformatora wizualnego lub ViT do docelowego kształtu do bezpośredniego kodowania jako całości. Jednakże, implementacja tego podejścia jest często związana z wysokimi kosztami obliczeniowymi, a problemy poza dystrybucją prowadzą do dalszego pogorszenia wyników. Aby rozwiązać to wyzwanie, ramy LLaVA-UHD prezentują strategię modularnego kodowania wizualnego, która dzieli obrazy o rodzimej rozdzielczości na mniejsze, zmiennego rozmiaru plasterki, gdzie kształt każdego plasterka jest bardzo zbliżony do standardowego ustawienia wstępnego trenowania transformatora wizualnego. Dzięki zastosowaniu zmiennego rozmiaru plasterków, ramy LLaVA-UHD są w stanie osiągnąć pełną adaptacyjność do obrazów o rodzimej rozdzielczości bez implementowania żadnych zniekształcających przekształceń lub wypełnień. Ponadto, głównym celem strategii plasterkowania obrazu jest określenie podziału obrazów o wysokiej rozdzielczości z minimalnymi zmianami w rozdzielczości każdego plasterka. Dla danego obrazu o określonej rozdzielczości (w, h) i transformatora wizualnego wstępnie trenowanego w innej rozdzielczości, ramy LLaVA-UHD najpierw określają optymalne obliczenia, czyli liczbę plasterków wymaganych do przetworzenia obrazu. Następnie, ramy LLaVA-UHD rozkładają liczbę plasterków na m kolumn i n wierszy. Ramy LLaVA-UHD definiują funkcję oceny, aby zmierzyć odchylenie od standardowego ustawienia wstępnego trenowania transformatora wizualnego. Teoretycznie, ramy LLaVA-UHD są w stanie udowodnić, że strategia podziału implementowana w ich architekturze gwarantuje niewielkie zmiany oczekiwane i umiarkowane najgorsze zmiany w odniesieniu do standardowej rozdzielczości wstępnego trenowania dla każdego plasterka.

Ponadto, większość istniejących LLM implementuje statyczną rozdzielczość dla kodowania plasterków obrazu, co uniemożliwia pełną adaptacyjność modelu do obrazów o rodzimej rozdzielczości, ponieważ mają one dostęp tylko do kilku predefiniowanych, stałych kształtów plasterków. Dodatkowo, statyczna rozdzielczość plasterków szkodzi wydajności, efektywności i poprawności modelu, ponieważ powoduje nieuniknione zniekształcające przekształcenia lub wypełnianie. Aby rozwiązać ten problem, ramy LLaVA-UHD proponują kodowanie plasterków obrazu w stosunku boków określonym przez strategię podziału. Aby być bardziej konkretnym, ramy LLaVA-UHD najpierw zmniejszają oryginalny obraz proporcjonalnie zgodnie z stosunkiem boków w taki sposób, aby liczba patchów mieściła się w budżecie wstępnego trenowania, czyli liczbie sekwencji wektorów uwagi w transformatorze wizualnym, maksymalnie. Następnie, ramy LLaVA-UHD przekształcają wstępnie wytrenowaną sekwencję wektorów uwagi transformatora wizualnego w format 2D zgodnie z ich ustawieniami wstępnego trenowania.

Warstwa Kompresji

Powszechnym problemem, z którym borykają się LLM przy przetwarzaniu obrazów o wysokiej rozdzielczości, jest to, że liczba tokenów wizualnych, które muszą przetworzyć, jest znacznie wyższa (dla odniesienia, ramy LLaVA-1.5 wytwarzają około 3500 tokenów wizualnych przy przetwarzaniu jednego obrazu o rozdzielczości 672×1008), co stanowi znaczną część kosztów obliczeniowych i wydajności. Aby rozwiązać to wyzwanie, ramy LLaVA-UHD implementują wspólną warstwę próbkowania perceivera, aby skompresować tokeny wizualne każdego plasterka obrazu. Następnie, ramy LLaVA-UHD implementują zestaw wektorów zapytań za pomocą uwagi krzyżowej, aby ponownie próbkować dane wyjściowe tokenów obrazu przez kodery wizualne do niższej liczby. W porównaniu z powszechnymi strategiami projekcji wizualnej opartymi na wielowarstwowych perceptronach, podejście próbkowania perceivera implementowane przez LLaVA-UHD jest w stanie utrzymać przystępną, ale stałą liczbę tokenów wizualnych, niezależnie od rozdzielczości obrazu, co czyni ramy LLaVA-UHD bardziej kompatybilnymi z zadaniem przetwarzania i zrozumienia obrazów o wysokiej rozdzielczości. Aby to zobrazować, ramy LLaVA-UHD generują tę samą liczbę tokenów podczas kodowania obrazu o rozdzielczości 672×1008, jak ramy LLaVA-1.5 generują podczas kodowania obrazu o rozdzielczości 336×336, co jest prawie 6 razy bardziej efektywne niż ich konkurent.

Schemat Przestrzenny dla Plasterków Obrazu

Jest to konieczna praktyka, aby poinformować duży model językowy o organizacji przestrzennej plasterków obrazu, ponieważ podział obrazów jest dynamiczny w różnych obrazach. Ramy LLaVA-UHD projektują i implementują schemat przestrzenny, który używa dwóch specjalnych tokenów, aby poinformować LLM o względnej pozycji plasterków obrazu. Zgodnie z tym schematem przestrzennym, ramy LLaVA-UHD używają „,” do separacji reprezentacji plasterków w wierszu, a różne wiersze są separowane za pomocą „n”.

LLaVA-UDH : Eksperymenty i Wyniki

Ramy LLaVA-UHD są oceniane w porównaniu z 9 popularnymi benchmarkami, w tym ogólnymi benchmarkami pytań wizualnych, benchmarkami pytań wizualnych opartymi na optycznym rozpoznawaniu znaków, benchmarkami halucynacji i kompleksowymi benchmarkami. Ponadto, ramy LLaVA-UHD są porównywane z silnymi benchmarkami, w tym LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 i więcej.

Wyniki ram LLaVA-UHD w 9 popularnych benchmarkach są podsumowane i porównywane z popularnymi benchmarkami w poniższej tabeli.

Na podstawie powyższych wyników, można stwierdzić, że ramy LLaVA-UHD są w stanie przewyższyć silne modele benchmarkowe w popularnych benchmarkach, w tym silne benchmarki ogólne wytrenowane na znacznie większej ilości danych, a także przewyższają LLM, które wymagają znacznie więcej obliczeń, takie jak Fuyu-8B, Monkey i więcej. Po drugie, wyniki wskazują również, że ramy LLaVA-UHD osiągają znacznie lepsze wyniki niż architektura LLaVA-1.5, a z jednej strony, gdzie LLaVA-1.5 obsługuje stałą rozdzielczość 336×336, ramy LLaVA-UHD obsługują obrazy o rozdzielczości 672×1088 z dowolnym stosunku boków i tą samą liczbą tokenów wizualnych.

Końcowe Myśli

W tym artykule rozmawialiśmy o LLaVA-UHD, nowym podejściu, które jako pierwsze bierze ramy LLaVA-1.5 i GPT-4V jako reprezentatywne przykłady i próbuje ujawnić systematyczne błędy zakorzenione w ich strategii kodowania wizualnego. Ramy LLaVA-UHD, model wielomodalny, są próbą rozwiązania tych wyzwań. Ramy LLaVA-UHD mogą postrzegać obrazy o wysokiej rozdzielczości oraz w dowolnym stosunku boków. Ramy LLaVA-UHD składają się z trzech kluczowych komponentów. Po pierwsze, strategia modularnego kodowania obrazu, która dzieli obrazy o rodzimej rozdzielczości na mniejsze, zmiennego rozmiaru plasterki w celu zwiększenia wydajności i rozszerzenia kodowania. Następnie, moduł kompresji, który kondensuje tokeny obrazu wytworzone przez kodery wizualne. Wreszcie, schemat przestrzenny, który organizuje tokeny plasterków dla dużych modeli językowych. Całkowite eksperymenty wskazują, że ramy LLaVA-UHD są w stanie przewyższyć najlepsze duże modele językowe w 9 benchmarkach. Ponadto, używając tylko 94% obliczeń inferencyjnych, ramy LLaVA-UHD są w stanie obsługiwać obrazy o sześciokrotnie większej rozdzielczości, czyli 672×1088.

Kunal Kejriwal

"Inżynier z zawodu, pisarz z serca". Kunal jest technicznym pisarzem z głęboką miłością i zrozumieniem AI i ML, poświęconym uproszczeniu złożonych pojęć w tych dziedzinach poprzez swoje angażujące i informacyjne dokumentacje.