Kontakt z nami

Artificial Intelligence

MoE-LLaVA: Mieszanka ekspertów w zakresie dużych modeli wzrokowo-językowych

mm
Zaktualizowano on
MoE-LLaVA: Mieszanka ekspertów w zakresie dużych modeli wzrokowo-językowych

Niedawne postępy w modelach dużego języka wizyjnego (LVLM) pokazały, że skalowanie tych struktur znacznie zwiększa wydajność w różnych dalszych zadaniach. LVLM, w tym MiniGPT, LLaMA i inne, osiągnęły niezwykłe możliwości poprzez włączenie do swojej architektury warstw projekcji wizualnej i kodera obrazu. Implementując te komponenty, LVLM zwiększają możliwości percepcji wizualnej modeli wielkojęzycznych (LLM). Wydajność można jeszcze bardziej poprawić, zwiększając rozmiar modelu i liczbę parametrów, a także rozszerzając skalę zbioru danych.

Modele takie jak InternVL rozszerzyły swój koder obrazu do ponad 6 miliardów parametrów, podczas gdy inne rozszerzyły zaplecze LVLM do 13 miliardów parametrów, osiągając doskonałą wydajność w szerokim zakresie zadań. IDEFICS wyszkolił LVLM z ponad 80 miliardami parametrów. Te metody skalowania dorównują lub przekraczają wydajność LLM wstępnie przeszkolonych na ponad 34, 70, a nawet 100 miliardach parametrów. Skalowanie ma jednak wadę: znacznie zwiększa koszty szkolenia i wnioskowania. Dzieje się tak, ponieważ wymaga, aby wszystkie parametry były aktywne dla każdego tokena podczas obliczeń, co prowadzi do dużych potrzeb obliczeniowych, a w konsekwencji do wyższych kosztów.

W artykule omówiono MoE-LLaVA, rzadką architekturę LVLM opartą na mieszance ekspertów (MoE), która wykorzystuje skuteczną strategię szkoleniową MoE-Tuning dla LVLM. MoE-Tuning w innowacyjny sposób rozwiązuje problem pogorszenia wydajności w wielomodalnym uczeniu się metodą rzadkości, czego efektem jest model o dużej liczbie parametrów, ale o stałych kosztach szkolenia i wnioskowania. Architektura MoE-LLaVA została zaprojektowana tak, aby podczas wdrażania aktywować tylko najlepszych ekspertów, pozostawiając resztę nieaktywną.

Zbadamy platformę MoE-LLaVA, sprawdzając jej mechanizm, metodologię, architekturę i porównanie z wiodącymi platformami generowania obrazu i wideo.

MoE-LLaVA: Niedrogie skalowanie modeli języka o dużym zasięgu wzroku

Oprócz wykorzystania warstw projekcji wizualnej i koderów obrazu, modele Large Vision Language umożliwiają również skalowanie rozmiaru modelu poprzez zwiększenie liczby parametrów w celu zwiększenia wydajności modelu. Godnymi uwagi przykładami modeli języka wielkowzrokowego, które zastosowały to podejście w celu zwiększenia swojej wydajności, są MiniGPT-4, InternGPT, InternVL i inne. W rzeczywistych zastosowaniach skalowanie modelu wielkojęzykowego lub modelu wielkojęzykowego z wysokiej jakości danymi szkoleniowymi często staje się koniecznością w celu poprawy wydajności modelu. Chociaż skalowanie rozmiaru modelu poprawia wydajność, zwiększa również koszty obliczeniowe szkolenia i wdrażania modelu, a ponadto zwiększa komplikacje i efektywność jednoczesnego wdrażania modelu na urządzeniach równoległych. Główną przyczyną zwiększonych kosztów szkolenia i wnioskowania wraz z wymaganiami obliczeniowymi jest to, że każdy token w strukturze wymaga obliczeń z każdym pojedynczym parametrem w modelu znanym jako model gęsty. 

Z drugiej strony rzadkie MoE lub mieszanka modeli eksperckich wykazały skuteczne skalowanie frameworków poprzez przetwarzanie danych za pomocą stałych aktywowanych parametrów, co jest podejściem powszechnie przyjętym w dziedzinie przetwarzania języka naturalnego. Jednakże użycie mieszanki ekspertów do bezpośredniego uczenia rzadkich modeli języka dużego wzroku jest wyzwaniem, ponieważ konwersja LLM na LVLM i jednoczesne sparsyfikacja modelu powoduje znaczny spadek wydajności. Aby zaimplementować mieszankę modeli w celu skalowania LLM i LVLM, konieczne jest najpierw zainicjowanie LVLM w celu sparsyfikacji. Aby to osiągnąć, ramy MoE-LLaVA wprowadzają MoE-Tuning, prostą, ale skuteczną trójfazową strategię szkoleniową. 

Jak pokazano na powyższym rysunku, proces MoE-Tuning najpierw szkoli MLP, czyli wielowarstwowy perceptron, który w pierwszym etapie dostosowuje tokeny wizualne do modelu dużego języka. Następnie platforma szkoli wszystkie parametry LLM, aby wstępnie wyposażyć Model Języka Dużej Wizji w ogólne możliwości zrozumienia multimodalnego. Wreszcie w trzecim etapie struktura replikuje sieć FFN lub Feed Forward Network jako wagi inicjujące dla ekspertów i szkoli tylko mieszankę warstw ekspertów. Ogólnie rzecz biorąc, proces uczenia pomaga w stopniowym przejściu modelu rzadkiego od inicjalizacji LVLM do rzadkiej mieszaniny modeli eksperckich. 

Po omówieniu procesu szkoleniowego rzućmy trochę światła na MoE-LLaVA, linię bazową dla modeli języka wielkowzrokowego z mieszanką modeli eksperckich, która obejmuje routery z możliwością uczenia się i modele MoE. W swej istocie model MoE-LLaVA składa się z wielu rzadkich ścieżek, a framework wykorzystuje te ścieżki do wysyłania każdego tokenu do różnych ekspertów za pośrednictwem uczącego się routera. Tokeny są następnie przetwarzane wspólnie przez aktywowanych ekspertów, przy czym nieaktywne ścieżki pozostają ciche. Następnie platforma układa iteracyjnie mieszankę warstw kodera Expert, aby zapewnić rzadką ścieżkę do większego i potężniejszego LVLM. 

Dzięki podejściu realizowanemu przez framework MoE-LLaVA jest w stanie przewyższyć modele o podobnej liczbie aktywowanych parametrów i przewyższyć je dużą różnicą w benchmarku halucynacji obiektu POPE, mimo że ma tylko 2.2 miliarda parametrów. Co więcej, platforma MoE-LLaVA z 2.2 miliardami parametrów jest w stanie osiągnąć wydajność porównywalną ze strukturą InternVL-Chat-19B z prawie 8-krotną liczbą aktywowanych parametrów. 

Zaimplementowano potężne modele wielkojęzykowe z silnym uogólnianiem i możliwością wykonywania instrukcji Duże modele języka widzenia. Wczesne LLM, takie jak BLIP, kodowały sygnały wizualne w sekwencję tokenów wizualnych, umożliwiając im skuteczne dostosowanie widzenia do LLM przy użyciu wielu warstw projekcji. Jednocześnie ostatnie prace koncentrują się na poprawie wydajności modelu poprzez wdrożenie metod takich jak rozszerzanie zbioru danych dostrajających instrukcje, zwiększanie rozdzielczości obrazu, optymalizacja strategii uczenia, wyrównywanie danych wejściowych, ulepszanie koderów obrazu i wiele innych. Podejścia te pomogły zapewnić LVLM potężne możliwości rozumienia wizualnego poprzez rozszerzenie zestawu danych i skal modeli dostrajających instrukcje wizualne. Co więcej, niektóre LVLM posiadają również szczegółowe możliwości rozumienia obrazu, takie jak zrozumienie regionu i wielu regionów, wraz z możliwościami uziemiania pikseli. Jednak koszt obliczeniowy związany ze skalowaniem gęstych danych wizualnych i modeli jest często znacznie wysoki, co utrudnia noszenie. Z drugiej strony ramy MoE-LLaVA mają na celu zwiększenie przystępności cenowej badań nad LVLM poprzez wykorzystanie możliwości modeli MoE. 

MoE-LLaVA: Metoda i architektura

W swej istocie platforma MoE-LLaVA składa się z warstwy projekcji wizualnej (Multilayer Perceptron), kodera wizyjnego, bloków MoE, wielu ułożonych w stos bloków LLM i warstwy osadzającej słowa. 

Architektura

Poniższa tabela podsumowuje szczegółowe konfiguracje struktury MoE-LLaVA. 

Dla danego obrazu RGB koder wizyjny przetwarza obrazy w celu uzyskania sekwencji tokenów wizualnych z warstwą projekcji wizualnej odwzorowującą sekwencję tokenów wizualnych na obrazy wejściowe. Wprowadzany tekst jest przetwarzany przez warstwę osadzania słów, która następnie wyświetla go w celu uzyskania tokenów sekwencji. Jednocześnie struktura MoE-LLaVA łączy ze sobą tokeny tekstowe i wizualne i przekazuje je do LLM. Jednak platforma trenuje jedynie warstwę projekcji wizualnej za pomocą dużego modelu językowego składającego się z sieci neuronowych FFN lub Feedforward i warstw samouwagi z wieloma głowami. Na koniec struktura stosuje resztkowe połączenia i normalizację warstw do każdego bloku. 

Idąc dalej, struktura MoE-LLaVA replikuje sieci neuronowe FFN lub Feedforward z drugiego etapu, aby utworzyć zespół ekspertów na etapie inicjalizacji. Router będący warstwą liniową przewiduje prawdopodobieństwo przypisania każdego tokena do każdego eksperta. Każdy token jest przetwarzany przez ekspertów z najwyższej półki z maksymalnym prawdopodobieństwem i oblicza sumę ważoną w oparciu o wynik softmax prawdopodobieństw. 

Tuning MoE

MoE-Tuning to prosta, ale skuteczna trójfazowa strategia szkoleniowa, która najpierw trenuje MLP, czyli perceptron wielowarstwowy, który w pierwszym etapie dostosowuje tokeny wizualne do modelu dużego języka. Następnie platforma szkoli wszystkie parametry LLM, aby wstępnie wyposażyć Model Języka Dużej Wizji w ogólne możliwości zrozumienia multimodalnego. Wreszcie w trzecim etapie struktura replikuje sieć FFN lub Feed Forward Network jako wagi inicjujące dla ekspertów i szkoli tylko mieszankę warstw ekspertów. 

Etap 1

Na pierwszym etapie głównym celem jest dostosowanie tokenów obrazu do dużego modelu językowego, który pozwala LLM zrozumieć instancje na obrazie. Struktura MoE-LLaVA wykorzystuje wielowarstwowy perceptron do projekcji tokenów obrazu do domeny wejściowej dużego modelu językowego i traktuje fragmenty obrazu jako tokeny pseudotekstowe. Na tym etapie struktura MoE-LLaVA szkoli LLM w zakresie opisywania obrazów i nie stosuje na tym etapie warstw MoE do LLM.

Etap 2

W drugim etapie MoE-LLaVA próbuje zwiększyć możliwości i sterowność platformy poprzez dostrojenie modelu za pomocą danych instrukcji multimodalnych. Ramy MoE-LLaVA osiągają ten cel poprzez dostosowanie LLM tak, aby stał się LVLM z możliwościami zrozumienia multimodalnego. Struktura wykorzystuje bardziej złożone instrukcje, w tym zadania rozpoznawania tekstu i logicznego wnioskowania obrazu, które wymagają od modelu silniejszych możliwości multimodalnych. Tradycyjnie proces uczenia gęstych modeli uważa się za zakończony na tym etapie. Jednak ramy MoE-LLaVA napotkały wyzwania związane z przekształceniem LLM w LVLM jednocześnie ze sparsyfikacją LVLM. Aby stawić czoła temu wyzwaniu, framework wykorzystuje wagi z etapu jako inicjalizację dla następnego etapu, próbując złagodzić trudności w uczeniu się modelu rzadkiego. 

Etap 3

W trzecim etapie model kilkakrotnie replikuje sieć neuronową z wyprzedzeniem, aby zainicjować ekspertów w ramach procedury inicjalizacji. Następnie platforma przekazuje tokeny tekstowe i graficzne do mieszanki warstw eksperckich, po czym router oblicza pasujące wagi między ekspertami i każdym tokenem. Każdy token jest następnie przetwarzany przez najlepszych ekspertów, a zagregowany wynik jest obliczany poprzez sumowanie ważone na podstawie wag routera. Po aktywowaniu najlepszych ekspertów model zamyka pozostałych ekspertów, co jest podejściem, które wyposaża platformę MoE-LLaVA w nieskończenie możliwe rzadkie ścieżki, wyposażając w ten sposób model w szeroki zakres możliwości. 

MoE-LLaVA: Wyniki i eksperymenty

Struktura MoE-LLaVA wykorzystuje CLIP-Large jako koder wizyjny z wielowarstwowym perceptronem składającym się z dwóch warstw z oddzielającą je warstwą aktywacyjną GELU. Domyślnie platforma wykorzystuje naprzemienne zastępowanie sieci neuronowych ze sprzężeniem zwrotnym mieszanką warstw eksperckich, co oznacza, że ​​mieszanina warstw eksperckich stanowi 50% całkowitej liczby warstw. Poniższa tabela zawiera różne zbiory danych wraz z wielkością próby użyte do szkolenia i oceny struktury MoE-LLaVA. 

Odpowiedź na pytanie dotyczące obrazu zerowego

Poniższy rysunek pokazuje, że MoE-LLaVA jest rzadkim modelem z miękkim routerem opartym na LVLM. Framework jest oceniany na podstawie 5 pytań obrazowych odpowiadających na testy porównawcze i jak można zaobserwować, framework MoE-LLaVA wykazuje niezwykłe możliwości rozumienia obrazu i zapewnia wydajność porównywalną z najnowocześniejszym frameworkiem LLaVA 1.5 w pięciu różnych testach porównawczych. 

Ocena halucynacji obiektowej

Aby ocenić halucynacje obiektowe, struktura MoE-LLaVA przyjmuje potok oceny POPE, metodę zapytań opartą na odpytywaniu, a wyniki przedstawiono w poniższej tabeli. Jak można zaobserwować, spośród wszystkich frameworków, MoE-LLaVA daje najsilniejsze wyniki, wskazując na zdolność frameworka do generowania obiektów zgodnych z obrazem wejściowym. Dodatkowo warto zauważyć, że model MoE-LLaVA dobrze równoważy współczynnik tak, wskazując na zdolność modelu rzadkiego do zapewnienia dokładnej informacji zwrotnej na dane pytanie. 

Poniższy obraz przedstawia rozkład ładunków eksperckich, gdzie nieciągłe linie przedstawiają dobrze zrównoważoną dystrybucję tokenów wśród modalności lub ekspertów. Pierwszy rysunek ilustruje obciążenie pracą ekspertów, natomiast pozostałe obrazy przedstawiają wyniki ekspertów w zakresie różnych modalności. 

Ponadto poniższy rysunek przedstawia rozkład modalności wśród różnych ekspertów. 

Final Thoughts

W tym artykule mówiliśmy o MoE-LLaVA, linii bazowej dla dużych modeli języka wizyjnego z mieszanką modeli eksperckich, która obejmuje routery z możliwością uczenia się i modele MoE. W swej istocie model MoE-LLaVA składa się z wielu rzadkich ścieżek, a framework wykorzystuje te ścieżki do wysyłania każdego tokenu do różnych ekspertów za pośrednictwem uczącego się routera. Tokeny są następnie przetwarzane wspólnie przez aktywowanych ekspertów, przy czym nieaktywne ścieżki pozostają ciche. Następnie platforma układa iteracyjnie mieszankę warstw kodera Expert, aby zapewnić rzadką ścieżkę do większego i potężniejszego LVLM. Strategia MoE-Tuning w innowacyjny sposób rozwiązuje powszechny problem pogorszenia wydajności w wielomodalnym uczeniu się metodą rzadkości, w konsekwencji konstruując model ze znacznie dużą liczbą parametrów, ale przy stałych kosztach szkolenia i wnioskowania. Architektura platformy MoE-LLaVA została zaprojektowana w taki sposób, że podczas wdrażania aktywuje tylko najlepszych ekspertów, pozostawiając pozostałych ekspertów nieaktywnych. 

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.