Umělá inteligence

MoE-LLaVA: Směs odborníků pro velké modely zobrazení a jazyka

Published April 1, 2024

Updated April 27, 2026

Kunal Kejriwal

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Recentní pokroky ve velkých modelech zobrazení a jazyka (LVLMs) ukázaly, že škálování těchto rámců výrazně zvyšuje výkon napříč různými úkoly. LVLMs, včetně MiniGPT, LLaMA a dalších, dosáhly pozoruhodných schopností tím, že začlenily vrstvy vizuálního projekce a obrazový kódovací do své architektury. Implementací těchto komponent LVLMs vylepšují vizuální vnímací schopnosti velkých jazykových modelů (LLMs). Výkon lze dále zlepšit zvýšením velikosti modelu a počtu parametrů, stejně jako rozšířením rozsahu dat.

Modely jako InternVL rozšířily svůj obrazový kódovací na více než 6 miliard parametrů, zatímco jiné rozšířily zadní část LVLMs na 13 miliard parametrů, dosahující lepšího výkonu v širokém spektru úkolů. IDEFICS trénoval LVLM s více než 80 miliardami parametrů. Tyto metody škálování odpovídají nebo překračují výkon LLMs, které byly předtrénovány na více než 34, 70 nebo dokonce 100 miliardách parametrů. Nicméně, škálování má nevýhodu: výrazně zvyšuje náklady na trénink a inferenci. To je způsobeno tím, že vyžaduje aktivaci všech parametrů pro každý token v kalkulaci, což vede k vysokým výpočetním potřebám a následně k vyšším nákladům.

Tento článek diskutuje o MoE-LLaVA, architektuře založené na směsi odborníků (MoE) pro LVLMs, která využívá efektivní trénovací strategii, MoE-Tuning, pro LVLMs. MoE-Tuning inovativně řeší degradaci výkonu při multi-modálním učení s řídkostí, vedoucí k modelu s velkým počtem parametrů, ale konzistentními náklady na trénink a inferenci. Architektura MoE-LLaVA je navržena tak, aby aktivovala pouze top-k odborníků během nasazení, zatímco ostatní zůstávají neaktivní.

Budeme prozkoumávat rámec MoE-LLaVA, zkoumající jeho mechanismus, metodologii, architekturu a srovnání s předními rámci generování obrazů a videa.

MoE-LLaVA: Škálování velkých modelů zobrazení a jazyka dostupně

Kromě využití vizuálních projekčních vrstev a obrazových kódovacích, velké modely zobrazení a jazyka také škáluje velikost modelu zvýšením počtu parametrů, aby vylepšily výkon modelu. Některé pozoruhodné příklady velkých modelů zobrazení a jazyka, které následovaly tento přístup ke zlepšení výkonu, jsou MiniGPT-4, InternGPT, InternVL a další. V reálných aplikacích se často stává nezbytností škálovat velký jazykový model nebo velký model zobrazení a jazyka s vysoce kvalitními trénovacími daty, aby se zlepšil výkon modelu. Ačkoli škálování modelu velikosti zlepšuje výkon, také zvyšuje výpočetní náklady na trénink a nasazení modelu a dále zvyšuje komplikace a efektivitu nasazení modelu na paralelních zařízeních současně. Hlavním důvodem zvýšených nákladů na trénink a inferenci spolu s výpočetními požadavky je, že každý token v rámci vyžaduje výpočet s každým jednotlivým parametrem v modelu, známým jako hustý model.

Na druhé straně, řídké MoE nebo modely založené na směsi odborníků prokázaly efektivní škálování rámců zpracováním dat pomocí pevně aktivovaných parametrů, přístup, který byl široce přijat v oblasti zpracování přirozeného jazyka. Nicméně, použití směsi odborníků pro trénink řídkých velkých modelů zobrazení a jazyka přímo je náročné, protože konverze LLMs na LVLMs a řídkost modelu současně vede k významnému poklesu výkonu. Pro implementaci modelů založených na směsi odborníků pro škálování LLMs a LVLMs je nezbytné nejdříve inicializovat LVLM pro řídkost. K dosažení tohoto cíle, rámec MoE-LLaVA představuje MoE-Tuning, jednoduchou, ale efektivní tří-fázovou trénovací strategii.

Jak je ukázáno na výše uvedeném obrázku, proces MoE-Tuning nejprve trénuje MLP nebo multilayerový perceptron, který přizpůsobuje vizuální tokeny velkému jazykovému modelu ve první fázi. Rámec pak trénuje všechny parametry LLM, aby předem vybily velký model zobrazení a jazyka s obecnými multi-modálními pochopeními schopnostmi. Nakonec, ve třetí fázi, rámec replikuje FFN nebo feedforwardovou síť jako inicializační váhy pro odborníky a trénuje pouze vrstvy založené na směsi odborníků. Celý trénovací proces pomáhá při postupném přechodu řídkého modelu z inicializace LVLM na řídký model založený na směsi odborníků.

S trénovacím procesem pokrytým, podívejme se na MoE-LLaVA, základní rámec pro velké modely zobrazení a jazyka se směsí odborníků, který zahrnuje učitelné routery a modely založené na směsi odborníků. V jádru, model MoE-LLaVA se skládá z více řídkých cest a rámec využívá tyto cesty k rozdělení každého tokenů na různé odborníky prostřednictvím učitelného routera. Tokeny jsou pak zpracovány společně aktivovanými odborníky, zatímco neaktivní cesty zůstávají tiché. Rámec pak skládá vrstvy kódovacích založených na směsi odborníků iterativně, aby poskytl řídkou cestu k většímu a silnějšímu LVLM.

Díky přístupu implementovanému rámcem MoE-LLaVA, je schopen překonat modely se stejným počtem aktivovaných parametrů a překonat je o velkou část na POPE objektové halucinace benchmarku, navzdory tomu, že má pouze 2,2 miliardy parametrů. Kromě toho, rámec MoE-LLaVA s 2,2 miliardami parametrů, je schopen dosáhnout výkonu srovnatelného s rámcem InternVL-Chat-19B s téměř 8krát větším počtem aktivovaných parametrů.

Mocné velké jazykové modely se silnými generalizačními a instrukčními schopnostmi byly implementovány do velkých modelů zobrazení a jazyka. Rané LLMs, jako je BLIP, zakódovaly vizuální signály do sekvence vizuálních tokenů, aby přizpůsobily vidění LLMs úspěšně pomocí více projekčních vrstev. Současně, recentní práce se zaměřují na zlepšení výkonu modelu implementací metod, jako je rozšíření instrukční-tuning dat, zvýšení rozlišení obrazu, optimalizace trénovacích strategií, zarovnání vstupu, vylepšení obrazových kódovacích a mnoho dalších. Tyto přístupy pomohly vybavit LVLMs silnými vizuálními pochopeními schopnostmi rozšířením vizuálního instrukčního jemného ladění dat a modelových měřítek. Kromě toho, některé LVLMs také disponují jemnými obrazovými pochopeními schopnostmi, jako je regionální a multi-regionální pochopení spolu s pixelovými zakotveními schopnostmi. Nicméně, výpočetní náklady spojené se škálováním hustých vizuálních dat a modelů jsou často značně vysoké, což ztěžuje jejich použití. Na druhé straně, rámec MoE-LLaVA se snaží učinit výzkum LVLMs dostupnějším využitím schopností modelů založených na směsi odborníků.

MoE-LLaVA : Metoda a architektura

V jádru, rámec MoE-LLaVA se skládá z vizuální projekční vrstvy (multilayerový perceptron), obrazového kódovacím, bloků založených na směsi odborníků, více vrstev LLM a vrstvy word embedding.

Architektura

Následující tabulka souhrnně popisuje podrobné konfigurace rámcu MoE-LLaVA.

Pro daný RGB obraz, obrazový kódovací zpracovává obrazy, aby získal sekvenci vizuálních tokenů s vizuální projekční vrstvou, která mapuje sekvenci vizuálních tokenů na vstupní obrazy. Textové vstupy jsou zpracovány vrstvou word embedding, která pak projektuje, aby získala sekvenci tokenů. Současně, rámec MoE-LLaVA spojuje textové a vizuální tokeny, a krmit je do LLM. Nicméně, rámec trénuje pouze vizuální projekční vrstvu s velkým jazykovým modelem, skládajícím se z FFN nebo feedforwardových neuronových sítí a multi-head self-attention vrstev. Nakonec, rámec aplikuje reziduální spoje a normalizaci vrstev na každou blok.

Pokračujícím, rámec MoE-LLaVA replikuje FFN nebo feedforwardovou síť několikrát, aby inicializoval odborníky jako inicializační krok. Router, který je lineární vrstva, předpovídá pravděpodobnost každého tokenů přiřazení k каждému odborníkovi. Každý token je zpracován top-k odborníky s agregovaným výstupem vypočteným pomocí váženého součtu založeného na váhách routera. Jakmile jsou top-k odborníci aktivováni, model vypne zbývající odborníky, přístup, který vybavuje rámec MoE-LLaVA nekonečným možným řídkým cestám, čímž vybavuje model širokým spektrem schopností.

MoE-Tuning

MoE-Tuning je jednoduchá, ale efektivní tří-fázová trénovací strategie, která nejprve trénuje MLP nebo multilayerový perceptron, který přizpůsobuje vizuální tokeny velkému jazykovému modelu ve první fázi. Rámec pak trénuje všechny parametry LLM, aby předem vybily velký model zobrazení a jazyka s obecnými multi-modálními pochopeními schopnostmi. Nakonec, ve třetí fázi, rámec replikuje FFN nebo feedforwardovou síť jako inicializační váhy pro odborníky a trénuje pouze vrstvy založené na směsi odborníků.

Fáze 1

V první fázi, primárním cílem je přizpůsobit obrazové tokeny velkému jazykovému modelu, aby LLM mohl pochopit instance v obraze. Rámec MoE-LLaVA využívá multilayerový perceptron k projekci obrazových tokenů do vstupní domény velkého jazykového modelu a zachází s obrazovými patche jako pseudo-textovými tokeny. V této fázi, rámec MoE-LLaVA trénuje LLM, aby popsal obrazy a neaplikuje vrstvy založené na směsi odborníků na LLM během této fáze.

Fáze 2

V druhé fázi, rámec MoE-LLaVA se snaží vylepšit schopnosti a ovladatelnost rámcu tím, že ladí model s multi-modálními instrukčními daty. Rámec MoE-LLaVA dosahuje tohoto cíle tím, že nastavuje LLM, aby se stal LVLM s multi-modálními pochopeními schopnostmi. Rámec využívá komplexnější instrukce, včetně textového rozpoznávání a logického obrazového rozumu, které vyžadují, aby model disponoval silnějšími multi-modálními schopnostmi. Tradičně, trénovací proces pro husté modely je považován za kompletní tímto krokem. Nicméně, rámec MoE-LLaVA narazil na výzvy při transformaci LLMs na LVLMs současně s řídkostí LVLM. Pro překonání této výzvy, rámec využívá váhy z této fáze jako inicializace pro následující fázi, aby se snížila obtížnost učení řídkého modelu.

Fáze 3

V třetí fázi, model replikuje feedforwardovou neuronovou síť několikrát, aby inicializoval odborníky jako inicializační krok. Rámec pak krmit textové a obrazové tokeny do vrstev založených na směsi odborníků, po kterých router vypočítá shodné váhy mezi odborníky a každým tokenem. Každý token je pak zpracován top-k odborníky s agregovaným výstupem vypočteným pomocí váženého součtu založeného na váhách routera. Jakmile jsou top-k odborníci aktivováni, model vypne zbývající odborníky, přístup, který vybavuje rámec MoE-LLaVA nekonečným možným řídkým cestám, čímž vybavuje model širokým spektrem schopností.

MoE-LLaVA : Výsledky a experimenty

Rámec MoE-LLaVA přijímá CLIP-Large jako obrazový kódovací s multilayerovým perceptronem, skládajícím se ze dvou vrstev s GELU aktivací vrstvou, která odděluje dvě. Ve výchozím nastavení, rámec využívá střídavou náhradu feedforwardových neuronových sítí s vrstvami založených na směsi odborníků, což znamená, že vrstvy založené na směsi odborníků tvoří 50% celkového počtu vrstev. Následující tabulka obsahuje různé datové sady spolu s jejich vzorkovou velikostí, které se používají pro trénink a hodnocení rámcu MoE-LLaVA.

Nulový útok na obrazové otázky

Následující obrázek demonstruje, že MoE-LLaVA je řídký model se soft routerem založeným na LVLM. Rámec je hodnocen na 5 obrazových otázkových benchmarků a jak je vidět, rámec MoE-LLaVA demonstruje pozoruhodné obrazové pochopení schopnosti a dodává srovnatelný výkon se státním uměním LLaVA 1.5 rámcem na pěti různých benchmarků.

Hodnocení objektové halucinace

Pro hodnocení objektové halucinace, rámec MoE-LLaVA přijímá POPE hodnocení pipeline, polling-založený dotazovací metodu a výsledky jsou demonstrovány v následující tabulce. Jak je vidět, z všech rámců, rámec MoE-LLaVA dodává nejsilnější výsledky, což naznačuje schopnost rámcu generovat objekty konsistentní s vstupním obrazem. Kromě toho, je třeba poznamenat, že rámec MoE-LLaVA vyvažuje ano poměr dobře, což naznačuje schopnost řídkého modelu poskytnout přesnou zpětnou vazbu pro danou otázku.

Následující obrázek obsahuje distribuci expertních zátěží, kde nespojité čáry reprezentují dobře vyváženou distribuci tokenů mezi modalitami nebo odborníky. První obrázek ilustruje zátěž uvnitř odborníků, zatímco zbývající obrázky demonstrují výkon odborníků vůči různým modalitám.

Kromě toho, následující obrázek demonstruje distribuci modalit napříč různými odborníky.

Závěrečné myšlenky

V tomto článku jsme diskutovali o MoE-LLaVA, základním rámcu pro velké modely zobrazení a jazyka se směsí odborníků, který zahrnuje učitelné routery a modely založené na směsi odborníků. V jádru, model MoE-LLaVA se skládá z více řídkých cest a rámec využívá tyto cesty k rozdělení každého tokenů na různé odborníky prostřednictvím učitelného routera. Tokeny jsou pak zpracovány společně aktivovanými odborníky, zatímco neaktivní cesty zůstávají tiché. Rámec pak skládá vrstvy kódovacích založených na směsi odborníků iterativně, aby poskytl řídkou cestu k většímu a silnějšímu LVLM. Strategie MoE-Tuning řeší společný problém degradace výkonu při multi-modálním učení s řídkostí inovativně, čímž konstruuje model se značně velkým počtem parametrů, ale konzistentními náklady na trénink a inferenci. Architektura rámcu MoE-LLaVA je navržena tak, aby aktivovala pouze top-k odborníků během nasazení, zatímco zbývající odborníci zůstávají neaktivní.

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.