Sztuczna inteligencja
Uni-MoE: Skalowanie Zjednoczonych Wielomodalnych Modeli LLM z Mieszaniną Ekspertów
Ostatnie postępy w architekturze i wydajności wielomodalowych dużych modeli językowych (MLLM) podkreśliły znaczenie skalowalnych danych i modeli w celu poprawy wydajności. Chociaż ten podejście rzeczywiście poprawia wydajność, generuje znaczne koszty obliczeniowe, co ogranicza praktyczność i użyteczność takich podejść. Przez lata modele Mieszaniny Ekspertów (MoE) wyłoniły się jako udane alternatywne podejście do efektywnej skali large language models i modeli obrazu-tekstu, ponieważ modele Mieszaniny Ekspertów mają znacznie niższe koszty obliczeniowe i silną wydajność. Jednak pomimo ich zalet, modele Mieszaniny Ekspertów nie są idealnym podejściem do skalowania dużych modeli językowych, ponieważ często obejmują mniejszą liczbę ekspertów i ograniczone modalności, co ogranicza ich zastosowanie.
Aby przeciwdziałać przeszkodom napotkanym przez obecne podejścia i w celu efektywnego skalowania dużych modeli językowych, w tym artykule omówimy Uni-MoE, zjednoczony wielomodalny duży model językowy z architekturą Mieszaniny Ekspertów (MoE), który jest w stanie obsłużyć szeroki zakres modalności i ekspertów. Rama Uni-MoE implementuje również rozproszoną architekturę Mieszaniny Ekspertów wewnątrz dużych modeli językowych w celu uczynienia procesu szkolenia i inferencji bardziej efektywnym poprzez zastosowanie równoległości modelu i danych na poziomie eksperta. Ponadto, w celu poprawy uogólnienia i współpracy wielu ekspertów, rama Uni-MoE przedstawia stopniową strategię szkolenia, która jest połączeniem trzech różnych procesów. W pierwszym, rama Uni-MoE osiąga wyrównanie między modalnościami za pomocą różnych łączników z różnymi danymi między modalnościami. W drugim, rama Uni-MoE aktywuje preferencje komponentów ekspertów poprzez szkolenie ekspertów specyficznych dla modalności z danymi instrukcji między modalnościami. Wreszcie, model Uni-MoE implementuje technikę uczenia Low-Rank Adaptation (LoRA) na mieszanych multimodalnych danych instrukcji w celu dostrojenia modelu. Gdy ramę Uni-MoE dostrojono na kompleksowym zestawie multimodalnych zbiorów danych, obszernych wyników eksperymentalnych podkreśliły podstawową zaletę ramy Uni-MoE w redukowaniu biasu wydajności w obsłudze mieszanych multimodalnych zbiorów danych w znacznym stopniu. Wyniki wskazały również znaczną poprawę we współpracy wielu ekspertów i uogólnieniu.
… (reszta treści)












