Kontakt z nami

Artificial Intelligence

LLaVA-UHD: LMM rejestrujący dowolne proporcje i obrazy o wysokiej rozdzielczości

mm

Opublikowany

 on

LLaVA-UHD: LMM rejestrujący dowolne proporcje i obrazy o wysokiej rozdzielczości

Niedawny postęp i udoskonalenie modeli wielkojęzykowych doświadczył znacznego wzrostu w zakresie rozumowania, rozumienia i interakcji za pomocą języka wizyjnego. Nowoczesne struktury osiągają to poprzez rzutowanie sygnałów wizualnych na LLM lub modele dużego języka, aby umożliwić im zdolność wizualnego postrzegania świata, co stanowi szereg scenariuszy, w których strategie kodowania wizualnego odgrywają kluczową rolę. Jednak obrazy świata rzeczywistego nie tylko zawierają szeroką gamę scenariuszy, ale także znacznie się różnią pod względem rozdzielczości i proporcji, co stwarza poważne wyzwania dla LLM w różnych domenach i zadaniach. Aby zaradzić znaczącym rozbieżnościom powodowanym przez obrazy świata rzeczywistego, nowoczesne modele wielkojęzykowe postrzegają obrazy w niskiej rozdzielczości, tj. 224 × 224, i stałym współczynniku kształtu, tj. 1:1. Chociaż kompromis polegający na utrzymaniu niskiej rozdzielczości i stałych proporcji zwiększa możliwość uogólnienia LLM w rzeczywistych zastosowaniach, często powoduje znaczne rozmycie zawartości obrazu, powodując jednocześnie poważne zniekształcenie kształtu. Kompromis znacząco wpływa na możliwości dużych modeli multimodalnych lub LMM, zwłaszcza tych zoptymalizowanych pod kątem precyzyjnych zadań, w tym optycznego rozpoznawania znaków i rozumienia małych obiektów. Co więcej, ponieważ rozdzielczość i współczynnik kształtu są z góry określone, modele mogą jedynie najlepiej domyślać się rozmytych obrazów, co skutkuje halucynacjami modelu, czyli sytuacją, w której model generuje odpowiedzi tekstowe, które nie są poparte faktami na obrazach. 

W tym artykule będziemy mówić o LLaVA-UHD, nowatorskim podejściu, które najpierw traktuje frameworki LLaVA-1.5 i GPT-4V jako reprezentatywne przykłady i próbuje ujawnić systematyczne wady zakorzenione w ich strategii kodowania wizualnego. Próbą sprostania tym wyzwaniom jest platforma LLaVA-UHD, będąca modułem multimodalnym. Struktura LLaVA-UHD może odbierać obrazy w wysokiej rozdzielczości, a także w dowolnym formacie. Struktura LLaVA-UHD jest zbudowana wokół trzech kluczowych komponentów. Po pierwsze, strategia modularyzacji obrazu, która dzieli obrazy w natywnej rozdzielczości na mniejsze wycinki o zmiennej wielkości, próbując zwiększyć wydajność i rozszerzyć kodowanie. Następnie moduł kompresji, który dalej kondensuje tokeny obrazu generowane przez kodery wizualne. Wreszcie schemat przestrzenny, który organizuje tokeny wycinków dla dużych modeli językowych. Kompleksowe eksperymenty wskazują, że platforma LLaVA-UHD jest w stanie przewyższyć najnowocześniejsze modele dużych języków w 9 testach porównawczych. Co więcej, wykorzystując jedynie 94% obliczeń wnioskowania, platforma LLaVA-UHD jest w stanie obsługiwać obrazy o 6 razy większej rozdzielczości, tj. 672 × 1088. 

LLaVA-UHD: Efektywne postrzeganie obrazów w dowolnym formacie i Wysoka Rozdzielczość

Rozumowanie, zrozumienie i interakcja w zakresie języka wizyjnego i interakcji poczyniły ostatnio znaczne postępy, głównie dzięki niedawnemu naciskowi na modele wielkojęzykowe. We współczesnych frameworkach to samo osiąga się poprzez dostarczanie sygnałów wizualnych do LLM (modeli dużego języka), aby umożliwić im wizualną interpretację prawdziwego świata, co stanowi różnorodny zakres scenariuszy opierających się na strategiach kodowania wizualnego. Różnica w scenariuszu odzwierciedla wąski zakres LLM w różnych domenach i zadaniach, podczas gdy różnica w rozdzielczościach i proporcjach ujawnia duże różnice wewnątrzklasowe w obrazach świata rzeczywistego, z którymi trudno sobie poradzić. W przeciwieństwie do małej skali, która zmniejsza wariancję, modele BERT mierzą się ze znaczeniem wynikającym z niskiej rozdzielczości (np. w przypadku LLaVA-UHD jest to 224 × 224) obrazów o stałym współczynniku proporcji 1:1, aby zapewnić obrazy w świecie rzeczywistym. Chociaż ten kompromis jest przydatny, aby zapewnić możliwość uogólnienia LLM na zastosowania w świecie rzeczywistym, często prowadzi do bardzo rozmytych obrazów, jednocześnie sprzyjając poważnym zniekształceniom kształtu. To zmniejsza możliwości dużych modele multimodalne lub LMM (np. zadania szczegółowe), takie jak optyczne rozpoznawanie znaków i rozumienie małych obiektów. Ponieważ rozdzielczość i proporcje są z góry zdefiniowane, modele mogą jedynie odgadnąć rozmyte obrazy, co prowadzi do halucynacji modelu, przez co ostateczne wygenerowane odpowiedzi tekstowe nie są oparte na faktach na obrazach. Dlaczego więc modele porównawcze LMM nie postrzegają obrazów w wysokich rozdzielczościach i różnych proporcjach? 

Istnieją dwa główne powody, dla których wzorcowe LMM nie są w stanie dostrzec obrazów o wysokiej i zróżnicowanej rozdzielczości. Po pierwsze, ponieważ kodery wizualne są wstępnie przeszkolone w zakresie stałych rozdzielczości, utrudnia to modelowi i koderowi radzenie sobie z obrazami o różnych proporcjach i rozdzielczościach, co znacząco wpływa na możliwości adaptacji modelu. Po drugie, kodowanie obrazów o wysokiej rozdzielczości bezpośrednio przy użyciu transformatorów wizyjnych wiąże się ze znacznymi kosztami obliczeniowymi w odniesieniu do rozmiaru obrazów. Co więcej, koszty obliczeń mogą być znacznie wyższe w przypadku modelu wielkojęzykowego w przypadku przetwarzania dużej liczby tokenów wizualnych w celu uzyskania obrazów o wysokiej rozdzielczości, co znacząco wpłynie na ogólną wydajność modelu. Aby stawić czoła tym wyzwaniom, LLaVA-UHD, duży model multimodalny, który dostrzega obrazy o wysokiej rozdzielczości i dowolnym formacie, przyjmuje ramy LLaVA-1.5 i GPT-4V jako reprezentatywne przykłady i próbuje ujawnić systematyczne wady zakorzenione w ich wizualnych strategia kodowania. 

Powyższy obraz odzwierciedla wyniki eksperymentalne GPT-4V w zakresie identyfikacji liczby obiektów na obrazie. U podstaw platformy LLaVA-UHD znajdują się trzy komponenty. Po pierwsze, strategia modularyzacji obrazu, która dzieli obrazy w natywnej rozdzielczości na mniejsze wycinki o zmiennym rozmiarze w celu zapewnienia rozszerzalnego i wydajnego kodowania. W przeciwieństwie do najnowszych rozwiązań LLM, które dopasowują obrazy do kilku stałych rozdzielczości i współczynników proporcji, wycinki o zmiennej wielkości generowane przez platformę LLaVA-UHD umożliwiają pełną adaptację do obrazów w natywnej rozdzielczości bez zniekształcania kształtów, zmiany rozmiaru lub wypełniania. Po drugie, model kondensuje tokeny wizualne za pomocą warstwy kompresji do niewielkiej długości, co znacznie zmniejsza obliczenia dla LLM. Na koniec model organizuje skompresowane tokeny wycinków w schemacie przestrzennym, aby poinformować o pozycjach wycinków na obrazach duży model językowy. 

LLaVA-UHD: Metodologia i architektura

Na podstawie wniosków z niektórych eksperymentów pilotażowych mających na celu badanie istniejących frameworków, w tym GPT-4V i LLaVA-1.5, framework LLaVA-UHD implementuje architekturę składającą się z trzech komponentów, jak pokazano na poniższym obrazku. 

Po pierwsze, strategia modularyzacji obrazu, która dzieli obrazy w natywnej rozdzielczości na mniejsze wycinki o zmiennej wielkości, próbując zwiększyć wydajność i rozszerzyć kodowanie. Następnie moduł kompresji, który dalej kondensuje tokeny obrazu generowane przez kodery wizualne. Wreszcie schemat przestrzenny, który organizuje tokeny wycinków dla dużych modeli językowych. Przyjrzyjmy się szczegółowo tym komponentom. 

Modularne kodowanie wizualne

Powszechnym podejściem do radzenia sobie z obrazami o wysokiej rozdzielczości i różnych proporcjach jest interpolacja osadzania pozycji transformatora wizyjnego lub ViT do kształtu docelowego w celu bezpośredniego kodowania jako całości. Jednak wdrożeniu tego podejścia często towarzyszą wysokie koszty obliczeniowe, a problemy związane z dystrybucją powodują dalsze pogorszenie wydajności. Aby stawić czoła temu wyzwaniu, platforma LLaVA-UHD przedstawia modułową strategię kodowania wizualnego, która zasadniczo ma na celu podzielenie obrazów w natywnej rozdzielczości na mniejsze wycinki o zmiennej wielkości, gdzie kształt każdego wycinka jest dość zbliżony do standardowych ustawień transformatora wizyjnego przed treningiem . Dzięki zastosowaniu wycinków o zmiennej wielkości, platforma LLaVA-UHD jest w stanie osiągnąć pełną zdolność dostosowywania się do obrazów w natywnej rozdzielczości bez konieczności stosowania jakichkolwiek zmian kształtu lub dopełniania zniekształcających kształt. Co więcej, głównym celem strategii dzielenia obrazu na plasterki jest określenie podziału obrazów o wysokiej rozdzielczości przy minimalnych zmianach rozdzielczości każdego plasterka. Dla danego obrazu o określonej rozdzielczości (w, h) i transformatora wizyjnego wstępnie przeszkolonego w innej rozdzielczości, framework LLaVA-UHD najpierw określa idealne obliczenia, tj. liczbę plasterków wymaganych do przetworzenia obrazu. Następnie struktura rozkłada liczbę wycinków na m kolumn i n wierszy. Następnie struktura definiuje funkcję punktacji do pomiaru odchylenia od standardowych ustawień transformatora wizyjnego przed treningiem. Teoretycznie platforma LLaVA-UHD jest w stanie zademonstrować, że strategia partycji zaimplementowana w jej architekturze gwarantuje niewielkie oczekiwane zmiany i niewielkie zmiany w najgorszym przypadku w odniesieniu do standardowej rozdzielczości przedtreningowej dla każdego segmentu. 

Co więcej, większość istniejących LLM implementuje statyczną rozdzielczość do kodowania wycinków obrazu, co uniemożliwia pełną adaptację modelu do rozdzielczości natywnych, ponieważ mają one dostęp tylko do kilku predefiniowanych wycinków o stałym kształcie. Dodatkowo statyczna rozdzielczość plasterków pogarsza wydajność, wydajność i poprawność modelu, ponieważ nieuchronnie powoduje zniekształcenie kształtu lub zmianę rozmiaru. Aby rozwiązać ten problem, platforma LLaVA-UHD proponuje kodowanie wycinków obrazu w proporcjach zdefiniowanych przez strategię partycji. Mówiąc dokładniej, framework LLaVA-UHD najpierw zmienia rozmiar oryginalnego obrazu proporcjonalnie zgodnie ze współczynnikiem proporcji w taki sposób, aby liczba poprawek mieściła się w budżecie przedszkoleniowym, tj. liczbie sekwencji osadzania pozycji w transformatorze wizyjnym, maksymalnie . Model LLaVA-UHD przekształca następnie wytrenowaną sekwencję osadzania pozycji 1D transformatora wizyjnego w format 2D zgodnie z ustawieniami przed treningiem. 

Warstwa kompresji

Częstym problemem, z jakim borykają się firmy LLM podczas przetwarzania obrazów o wysokiej rozdzielczości, jest znacznie większa liczba tokenów wizualnych, które muszą przetworzyć (dla porównania, platforma LLaVA-1.5 generuje około 3500 tokenów wizualnych podczas przetwarzania pojedynczego obrazu o rozdzielczości: 672 × 1008 ), co stanowi większą część zasobów obliczeniowych i kosztów. Aby sprostać temu wyzwaniu, model LLaVA-UHD implementuje współdzieloną warstwę resamplera postrzegającego w celu kompresji znaczników wizualnych każdego wycinka obrazu. Następnie model implementuje zestaw wektorów zapytań poprzez wzajemną uwagę, aby ponownie próbkować dane wyjściowe tokenów obrazu przez kodery wizualne do niższej liczby. W porównaniu z powszechnymi strategiami projekcji wizualnej opartymi na perceptronie wielowarstwowym, podejście oparte na próbkach postrzegających wdrożone przez LLaVA-UHD jest w stanie utrzymać przystępną, ale stałą liczbę tokenów wizualnych niezależnie od rozdzielczości obrazu, dzięki czemu platforma LLaVA-UHD jest bardziej kompatybilna z wysokiej jakości rozdzielczość przetwarzania obrazu i zrozumienie zadań. Aby to ująć w obrazie, framework LLaVA-UDH generuje tę samą liczbę tokenów podczas kodowania obrazu o rozdzielczości 672 × 1008, co LLaVAFramework -1.5 generuje przy kodowaniu obrazu w rozdzielczości 336×336, prawie 6 razy efektywniej niż jego konkurent. 

Schemat przestrzenny dla plasterków obrazu

Niezbędną praktyką jest informowanie dużego modelu językowego o organizacji przestrzennej wycinków obrazu, ponieważ podział obrazów jest dynamiczny na różne obrazy. Struktura LLaVA-UHD projektuje i implementuje schemat przestrzenny, który wykorzystuje dwa specjalne tokeny do informowania LLM o względnym położeniu wycinków obrazu. W tym schemacie przestrzennym platforma LLaVA-UHD wykorzystuje „,” do oddzielenia reprezentacji wycinków w rzędzie, a różne wiersze są oddzielane za pomocą „\n”. 

LLaVA-UDH: Eksperymenty i wyniki

Struktura LLaVA-UHD jest oceniana w oparciu o 9 popularnych testów porównawczych, w tym ogólne testy wizualne odpowiadające na pytania, testy wizualne oparte na znakach optycznych, testy porównawcze dotyczące halucynacji i kompleksowe testy porównawcze. Co więcej, ramy LLaVA-UHD porównuje się z mocnymi wartościami bazowymi, w tym LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 i inne. 

W poniższej tabeli podsumowano wydajność platformy LLaVA-UHD w 9 popularnych testach porównawczych i porównano ją z popularnymi testami porównawczymi. 

Na podstawie powyższych wyników można stwierdzić, że platforma LLaVA-UHD jest w stanie uzyskać lepsze wyniki niż silne modele bazowe w popularnych testach porównawczych, w tym silne ogólne linie bazowe wytrenowane na znacznie większej ilości danych, a także lepsze modele LLM wymagające znacznie większej liczby obliczeń jak Fuyu-8B, Monkey i inne. Po drugie, wyniki wskazują również, że platforma LLaVA-UHD osiąga znacznie lepsze wyniki w porównaniu z architekturą LLaVA-1.5, a z jednej strony, gdy LLaVA-1.5 obsługuje stałą rozdzielczość 336 × 336, platforma LLaVA-UHD obsługuje obrazy w rozdzielczości 672 × 1088 o dowolnym współczynniku kształtu i tej samej liczbie znaczników wizualnych. 

Final Thoughts

W tym artykule mówiliśmy o LLaVA-UHD, nowatorskim podejściu, które najpierw przyjmuje frameworki LLaVA-1.5 i GPT-4V jako reprezentatywne przykłady i próbuje ujawnić systematyczne wady zakorzenione w ich strategii kodowania wizualnego. Próbą sprostania tym wyzwaniom jest platforma LLaVA-UHD, będąca modułem multimodalnym. Struktura LLaVA-UHD może odbierać obrazy w wysokiej rozdzielczości, a także w dowolnym formacie. Struktura LLaVA-UHD opiera się na trzech kluczowych komponentach. Po pierwsze, strategia modularyzacji obrazu, która dzieli obrazy w natywnej rozdzielczości na mniejsze wycinki o zmiennej wielkości, próbując zwiększyć wydajność i rozszerzyć kodowanie. Następnie moduł kompresji, który dalej kondensuje tokeny obrazu generowane przez kodery wizualne. Wreszcie schemat przestrzenny, który organizuje tokeny wycinków dla dużych modeli językowych. Kompleksowe eksperymenty wskazują, że platforma LLaVA-UHD jest w stanie przewyższyć najnowocześniejsze modele dużych języków w 9 testach porównawczych. Co więcej, wykorzystując jedynie 94% obliczeń wnioskowania, platforma LLaVA-UHD jest w stanie obsługiwać obrazy o 6 razy większej rozdzielczości, tj. 672 × 1088. 

 

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.