Artificial Intelligence
Uni-MoE: Skalowanie ujednoliconych multimodalnych LLM z mieszanką ekspertów

Ostatnie postępy w architekturze i wydajności multimodalnych modeli wielkojęzykowych (MLLM) uwydatniły znaczenie skalowalnych danych i modeli dla zwiększenia wydajności. Chociaż to podejście poprawia wydajność, wiąże się ze znacznymi kosztami obliczeniowymi, co ogranicza praktyczność i użyteczność takich podejść. Z biegiem lat połączenie modeli eksperckich lub modeli MoE okazało się skutecznym alternatywnym podejściem do wydajnego skalowania modeli obrazu i tekstu oraz dużych modeli językowych, ponieważ połączenie modeli eksperckich charakteryzuje się znacznie niższymi kosztami obliczeniowymi i dużą wydajnością. Jednak pomimo swoich zalet, Mieszanka Modeli nie jest idealnym podejściem do skalowania dużych modeli językowych, ponieważ często angażuje mniejszą liczbę ekspertów i ograniczone modalności, ograniczając w ten sposób zastosowania.
Aby stawić czoła przeszkodom napotykanym przez obecne podejścia i efektywnie skalować duże modele językowe, w tym artykule omówimy Uni-MoE, ujednolicony wielomodalny model dużego języka z architekturą MoE lub Mixture of Expert, który jest w stanie obsłużyć szeroką gamę szereg metod i ekspertów. Struktura Uni-MoE implementuje również rzadką mieszankę architektury eksperckiej w obrębie dużych modeli językowych, próbując zwiększyć efektywność procesu uczenia i wnioskowania poprzez zastosowanie równoległości modeli na poziomie eksperckim i równoległości danych. Ponadto, aby usprawnić generalizację i współpracę wielu ekspertów, ramy Uni-MoE przedstawiają progresywną strategię szkoleniową, która jest kombinacją trzech różnych procesów. W pierwszym przypadku platforma Uni-MoE osiąga dopasowanie międzymodalne przy użyciu różnych złączy z różnymi danymi międzymodalnymi. Po drugie, ramy Uni-MoE aktywują preferencje komponentów eksperckich poprzez szkolenie ekspertów specyficznych dla danej modalności z wykorzystaniem danych dotyczących instrukcji dotyczących różnych modalności. Wreszcie model Uni-MoE implementuje technikę uczenia się LoRA lub adaptację niskiego rzędu na mieszanych danych instrukcji multimodalnych w celu dostrojenia modelu. Kiedy dostosowaną do instrukcji platformę Uni-MoE oceniano na kompleksowym zestawie multimodalnych zbiorów danych, obszerne wyniki eksperymentów uwydatniły główną zaletę platformy Uni-MoE w znaczącym zmniejszeniu błędu wydajnościowego w obsłudze mieszanych multimodalnych zbiorów danych. Wyniki wskazały również na znaczną poprawę współpracy wielu ekspertów i generalizacji.
Celem tego artykułu jest szczegółowe omówienie frameworku Uni-MoE, a także zbadanie mechanizmu, metodologii, architektury frameworku wraz z jego porównaniem z najnowocześniejszymi frameworkami. Więc zacznijmy.
Uni-MoE: skalowanie ujednoliconych multimodalnych LLM
Pojawienie się multimodalnych modeli wielojęzykowych typu open source, w tym LLama i InstantBlip, ukazało znaczący sukces i postęp w zadaniach obejmujących zrozumienie obrazu i tekstu w ciągu ostatnich kilku lat. Co więcej, społeczność sztucznej inteligencji aktywnie pracuje nad zbudowaniem ujednoliconego wielomodalnego modelu dużego języka, który mógłby obsłużyć szeroką gamę modalności, w tym obraz, tekst, dźwięk, wideo i inne, wykraczając poza tradycyjny paradygmat obrazu i tekstu. Powszechnym podejściem stosowanym przez społeczność open source w celu zwiększenia możliwości wielomodalnych modeli dużych języków jest zwiększenie rozmiaru podstawowych modeli wizji i zintegrowanie ich z dużymi modelami językowymi z miliardami parametrów oraz wykorzystanie różnorodnych multimodalnych zbiorów danych w celu usprawnienia dostrajania instrukcji. Zmiany te uwydatniły rosnącą zdolność wielomodalnych modeli języków do wnioskowania i przetwarzania wielu modalności, ukazując znaczenie rozszerzania multimodalnych danych instruktażowych i skalowalności modeli.
Chociaż skalowanie modelu w górę to wypróbowane i przetestowane podejście, które zapewnia znaczące wyniki, skalowanie modelu jest procesem kosztownym obliczeniowo, zarówno w przypadku procesów uczenia, jak i wnioskowania.
Aby przeciwdziałać problemowi wysokich ogólnych kosztów obliczeniowych, społeczność open source zmierza w kierunku integracji MoE lub mieszanka ekspertów architektura modeli w dużych modelach językowych w celu zwiększenia efektywności uczenia i wnioskowania. W przeciwieństwie do wielomodalnych modeli dużych języków i dużych języków, które wykorzystują wszystkie dostępne parametry do przetwarzania każdego sygnału wejściowego, co skutkuje gęstym podejściem obliczeniowym, architektura Mieszana Ekspertów wymaga jedynie od użytkowników aktywowania podzbioru parametrów eksperckich dla każdego wejścia. W rezultacie podejście oparte na mieszance ekspertów okazuje się realną drogą do zwiększenia wydajności dużych modeli bez rozległej aktywacji parametrów i wysokich ogólnych kosztów obliczeniowych. Chociaż istniejące prace wykazały pomyślną implementację i integrację modeli mieszanych eksperckich w konstrukcji dużych modeli zawierających wyłącznie tekst i obrazy tekstowe, badacze muszą jeszcze w pełni zbadać potencjał opracowania architektury mieszanki eksperckiej w celu skonstruowania potężnych, ujednoliconych dużych modeli wielomodalnych modele językowe.
Uni-MoE to wielomodalny model dużego języka, który wykorzystuje rzadką mieszankę modeli eksperckich do interpretacji wielu modalności i zarządzania nimi, próbując zbadać skalowanie ujednoliconych wielomodalnych modeli dużych języków za pomocą architektury MoE. Jak pokazano na poniższym obrazie, platforma Uni-MoE najpierw uzyskuje kodowanie różnych modalności przy użyciu koderów specyficznych dla modalności, a następnie odwzorowuje to kodowanie w przestrzeń reprezentacji językowej dużych modeli językowych przy użyciu różnych zaprojektowanych łączników. Złącza te zawierają możliwy do wyszkolenia model transformatora z kolejnymi rzutami liniowymi do destylacji i rzutowania reprezentacji wyjściowych zamrożonego kodera. Struktura Uni-MoE wprowadza następnie rzadką mieszankę warstw eksperckich w wewnętrznym bloku gęstego modelu dużego języka. W rezultacie każdy blok oparty na mieszance ekspertów zawiera wspólną warstwę samouważności mającą zastosowanie we wszystkich modalnościach, rzadki router do przydzielania wiedzy specjalistycznej na poziomie tokena oraz różnorodnych ekspertów opartych na sieci ze sprzężeniem zwrotnym. Dzięki takiemu podejściu platforma Uni-MoE jest w stanie zrozumieć wiele modalności, w tym mowę, dźwięk, tekst, wideo i obraz, i wymaga jedynie aktywacji częściowych parametrów podczas wnioskowania.
Ponadto, aby usprawnić współpracę i generalizację wielu ekspertów, ramy Uni-MoE wdrażają trzyetapową strategię szkoleniową. Na pierwszym etapie framework wykorzystuje obszerne pary obrazu/dźwięku/mowy do języka w celu uczenia odpowiedniego łącznika dzięki ujednoliconej reprezentacji modalności w przestrzeni językowej dużego modelu językowego. Po drugie, model Uni-MoE szkoli ekspertów specyficznych dla danej modalności, wykorzystując osobno zbiory danych międzymodalnych, próbując udoskonalić biegłość każdego eksperta w odpowiedniej dziedzinie. Na trzecim etapie platforma Uni-MoE integruje tych przeszkolonych ekspertów z warstwą Mixture of Expert dużego modelu językowego i szkoli całą platformę Uni-MoE przy użyciu mieszanych danych instrukcji multimodalnych. Aby jeszcze bardziej obniżyć koszty szkolenia, ramy Uni-MoE wykorzystują podejście do uczenia się LoRA w celu dostrojenia warstw samouważności i wstępnie dostrojonych ekspertów.
Uni-MoE: Metodologia i architektura
Podstawową motywacją stojącą za frameworkiem Uni-MoE są wysokie koszty szkolenia i wnioskowania skalowania multimodalnych modeli dużych języków wraz z wydajnością modeli Mixture of Expert oraz zbadanie możliwości stworzenia wydajnego, wydajnego i ujednoliconego multimodalnego modelu dużego języka z wykorzystaniem the Architektura MO. Poniższy rysunek przedstawia reprezentację architektury zaimplementowanej w ramach Uni-MoE, demonstrując projekt obejmujący indywidualne kodery dla różnych modalności, tj. dźwięku, mowy i obrazu, wraz z ich odpowiednimi złączami modalnymi.
Struktura Uni-MoE integruje następnie architekturę Mixture of Expert z podstawowymi blokami modelu dużego języka, co jest procesem kluczowym dla zwiększenia ogólnej wydajności zarówno procesu uczenia, jak i wnioskowania. Struktura Uni-MoE osiąga to poprzez wdrożenie rzadkiego mechanizmu routingu. Ogólny proces szkolenia w ramach Uni-MoE można podzielić na trzy fazy: dostosowanie międzymodalne, szkolenie ekspertów zajmujących się konkretną modalnością oraz dostrajanie Uni-MoE przy użyciu zróżnicowanego zestawu zbiorów danych instrukcji multimodalnych. Aby skutecznie przekształcać różnorodne wejścia modalne w format językowy, platforma Uni-MoE została zbudowana na bazie LLaVA, wstępnie wytrenowanej platformy języka wizualnego. Model podstawowy LLaVA integruje CLIP jako koder wizualny z warstwą projekcji liniowej, która przekształca cechy obrazu w odpowiadające im tokeny obrazu miękkiego. Co więcej, aby przetwarzać zawartość wideo, platforma Uni-MoE wybiera osiem reprezentatywnych klatek z każdego wideo i przekształca je w tokeny wideo poprzez średnie łączenie w celu agregacji ich obrazu lub reprezentacji opartej na klatkach. W przypadku zadań audio platforma Uni-MoE wykorzystuje dwa kodery, BEAT i Whisper, aby usprawnić ekstrakcję funkcji. Następnie model wyodrębnia cechy dźwiękowe mowy wektorowej i o stałej długości oraz mapuje je odpowiednio na tokeny mowy i miękki dźwięk za pomocą warstwy projekcji liniowej.
Strategia szkoleniowa
Ramy Uni-MoE wprowadzają progresywną strategię szkoleniową w celu stopniowego rozwoju modelu. Progresywna strategia szkoleniowa wprowadziła próby wykorzystania odrębnych możliwości różnych ekspertów, zwiększenia efektywności współpracy wielu ekspertów i zwiększenia ogólnej możliwości uogólnienia ram. Proces szkoleniowy podzielony jest na trzy etapy, których celem jest urzeczywistnienie MLLM struktura zbudowana na bazie zintegrowanej mieszanki ekspertów.
Etap 1: Dopasowanie krzyżowe
Na pierwszym etapie ramy Uni-MoE próbują ustalić powiązania między różnymi językoznawstwami i modalnościami. Struktura Uni-MoE osiąga to poprzez tłumaczenie danych modalnych na miękkie tokeny poprzez konstruowanie łączników. Podstawowym celem pierwszego etapu uczenia jest zminimalizowanie generatywnej utraty entropii. W ramach Uni-MoE LLM jest zoptymalizowany pod kątem generowania opisów danych wejściowych w różnych modalnościach, a model poddaje jedynie łączniki szkoleniu, co jest strategią, która umożliwia ramom Uni-MoE integrację różnych modalności w ramach ujednoliconego języka.
Etap 2: Szkolenie ekspertów zajmujących się konkretną modalnością
Na drugim etapie ramy Uni-MoE skupiają się na rozwoju ekspertów w zakresie pojedynczej modalności poprzez szkolenie modelu w oparciu o konkretne dane dotyczące różnych modalności. Podstawowym celem jest udoskonalenie biegłości każdego eksperta w odpowiedniej dziedzinie, zwiększając w ten sposób ogólną wydajność systemu Mieszanka Ekspertów w szerokim zakresie danych multimodalnych. Co więcej, ramy Uni-MoE dostosowują sieci wyprzedzające, aby lepiej dopasować je do charakterystyki modalności, zachowując jednocześnie generatywną utratę entropii jako ogniskowe szkolenie metryczne.
Etap 3: Strojenie Uni-MoE
W trzecim i ostatnim etapie framework Uni-MoE integruje wagi dostrojone przez ekspertów podczas Etapu 2 w mieszankę warstw eksperckich. Następnie platforma Uni-MoE dostraja MLLM, wykorzystując wspólnie mieszane dane instrukcji multimodalnych. Krzywe strat na poniższym obrazku odzwierciedlają postęp procesu uczenia.
Analiza porównawcza konfiguracji Mixture of Expert ujawniła, że eksperci udoskonaleni przez model podczas drugiego etapu uczenia wykazali zwiększoną stabilność i osiągnęli szybszą zbieżność w mieszanych zbiorach danych modalnych. Co więcej, w przypadku zadań obejmujących złożone dane multimodalne, w tym tekst, obrazy, dźwięk i wideo, platforma Uni-MoE wykazała bardziej spójne wyniki szkoleń i zmniejszoną zmienność strat przy zatrudnieniu czterech ekspertów niż przy zatrudnieniu dwóch ekspertów.
Uni-MoE: Eksperymenty i wyniki
Poniższa tabela podsumowuje specyfikacje architektoniczne platformy Uni-MoE. Podstawowym celem frameworku Uni-MoE, zbudowanego na architekturze LLaMA-7B, jest skalowanie rozmiaru modelu.
Poniższa tabela podsumowuje projekt i optymalizację struktury Uni-MoE zgodnie ze specjalistycznymi zadaniami szkoleniowymi. Zadania te odgrywają zasadniczą rolę w udoskonalaniu możliwości warstw MLP, wykorzystując w ten sposób ich specjalistyczną wiedzę w celu zwiększenia wydajności modelu. Ramy Uni-MoE obejmują osiem zadań eksperckich dotyczących pojedynczej modalności w celu wyjaśnienia zróżnicowanego wpływu różnych metodologii szkoleniowych.
Model ocenia wydajność różnych wariantów modelu w oparciu o zróżnicowany zestaw testów porównawczych, który obejmuje dwa zadania rozumienia obrazu wideo, trzy zadania rozumienia dźwięku i pięć zadań związanych z mową. Najpierw testuje się model pod kątem jego zdolności do rozumienia zadań mowa-obraz i mowa-tekst, a wyniki przedstawiono w poniższej tabeli.
Jak można zaobserwować, poprzednie modele bazowe zapewniają gorsze wyniki w zadaniach rozumienia mowy, co dodatkowo wpływa na wydajność zadań związanych z wnioskowaniem obrazowo-mową. Wyniki wskazują, że wprowadzenie architektury Mixture of Expert może zwiększyć możliwość uogólniania MLLM w przypadku niewidocznych zadań wnioskowania na podstawie obrazu audialnego. Poniższa tabela przedstawia wyniki eksperymentów dotyczących zadań rozumienia obrazu i tekstu. Jak można zaobserwować, najlepsze wyniki modeli Uni-MoE przewyższają wartości bazowe i przewyższają zadanie dostrajania średnio o 4 punkty.
Uwagi końcowe
W tym artykule mówiliśmy o Uni-MoE, ujednoliconym wielomodalnym modelu dużego języka z architekturą MoE lub Mixture of Expert, który jest w stanie obsłużyć szeroką gamę modalności i ekspertów. Struktura Uni-MoE implementuje również rzadką mieszankę architektury eksperckiej w obrębie dużych modeli językowych, próbując zwiększyć efektywność procesu uczenia i wnioskowania poprzez zastosowanie równoległości modeli na poziomie eksperckim i równoległości danych. Ponadto, aby usprawnić generalizację i współpracę wielu ekspertów, ramy Uni-MoE przedstawiają progresywną strategię szkoleniową, która jest kombinacją trzech różnych procesów. W pierwszym przypadku platforma Uni-MoE osiąga dopasowanie międzymodalne przy użyciu różnych złączy z różnymi danymi międzymodalnymi. Po drugie, ramy Uni-MoE aktywują preferencje komponentów eksperckich poprzez szkolenie ekspertów specyficznych dla danej modalności z wykorzystaniem danych dotyczących instrukcji dotyczących różnych modalności. Wreszcie model Uni-MoE implementuje technikę uczenia się LoRA lub adaptację niskiego rzędu na mieszanych danych instrukcji multimodalnych w celu dostrojenia modelu.