Umělá inteligence

Uni-MoE: Škálování sjednocených multimodálních LLM s Mixture of Experts

Publikováno 31. května 2024

Aktualizováno 15. května 2026

Kunal Kejriwal

Poslední pokroky v architektuře a výkonu multimodálních velkých jazykových modelů (MLLM) zdůraznily význam škálovatelných dat a modelů pro zlepšení výkonu. Ačkoli tento přístup zlepšuje výkon, incuruje podstatné výpočetní náklady, které omezují praktičnost a použitelnost takových přístupů. V průběhu let se modely Mixture of Experts (MoE) staly úspěšným alternativním přístupem k efektivnímu škálování obrazových a velkých jazykových modelů, protože modely MoE mají podstatně nižší výpočetní náklady a silný výkon. Nicméně, navzdory jejich výhodám, nejsou modely MoE ideálním přístupem k škálování velkých jazykových modelů, protože často zahrnují méně expertů a omezené modality, což omezuje aplikace.

Aby se překonaly překážky současné přístupy, a aby se efektivní škálování velkých jazykových modelů, v tomto článku budeme mluvit o Uni-MoE, sjednoceném multimodálním velkém jazykovém modelu s architekturou MoE nebo Mixture of Experts, který je schopen zpracovat širokou škálu modalit a expertů. Rámec Uni-MoE také implementuje řídkou architekturu MoE uvnitř velkých jazykových modelů v pokusu učinit proces školení a inference efektivnějším pomocí expertní úrovně modelové paralelizace a datové paralelizace. Kromě toho, aby se zlepšila generalizace a multi-expertová spolupráce, rámec Uni-MoE představuje progresivní školicí strategii, která je kombinací tří různých procesů. V prvním, rámec Uni-MoE dosahuje cross-modality alignment pomocí různých konektorů s různými cross-modality daty. Druhý, rámec Uni-MoE aktivuje preference expertních komponentů školením modality-specifických expertů s cross-modality instrukčními daty. Nakonec, model Uni-MoE implementuje techniku Low-Rank Adaptation (LoRA) na smíšeném multimodálním instrukčním datu, aby naladil model. Když byl instrukčně nalazený rámec Uni-MoE vyhodnocen na komplexní sadě multimodálních dat, rozsáhlé experimentální výsledky zdůraznily hlavní výhodu rámce Uni-MoE při snižování biasu výkonu při zpracování smíšeného multimodálního dat významně. Výsledky také naznačily podstatné zlepšení multi-expertové spolupráce a generalizace.

Tento článek si klade za cíl pokrýt rámec Uni-MoE do hloubky, a prozkoumáme mechanismus, metodologii, architekturu rámce spolu s jeho srovnáním se stávajícími rámci. Takže pojďme začít.

Uni-MoE: Škálování sjednocených multimodálních LLM

Příchod otevřených multimodálních velkých jazykových modelů, včetně LLama a InstantBlip, ukázal na významný úspěch a pokrok v úkolech zahrnujících obrazový a textový understanding v posledních letech. Kromě toho, komunita AI aktivně pracuje na budování sjednoceného multimodálního velkého jazykového modelu, který by mohl zahrnovat širokou škálu modalit, včetně obrazu, textu, audio, videa a více, přesahující tradiční obrazový a textový paradigm. Společný přístup, který následuje otevřená komunita, aby zvýšila schopnosti multimodálních velkých jazykových modelů, je zvýšit velikost vizuálních základních modelů a integrovat je s velkými jazykovými modely s miliardami parametrů a používat rozmanité multimodální datové sady pro zlepšení instrukční úpravy. Tyto vývojové trendy zdůraznily rostoucí schopnost multimodálních velkých jazykových modelů rozumět a zpracovávat více modalit, ukazující na význam rozšíření multimodálních instrukčních dat a škálovatelnosti modelů.

Ačkoli škálování modelu je vyzkoušený a ověřený přístup, který přináší podstatné výsledky, škálování modelu je výpočetně nákladný proces pro obě školicí a inferenční procesy.

Aby se překonala otázka vysokých výpočetních nákladů, otevřená komunita se pohybuje směrem k integraci architektury MoE nebo Mixture of Experts do velkých jazykových modelů, aby zlepšila obě školicí a inferenční efektivitu. Na rozdíl od multimodálních velkých jazykových a velkých jazykových modelů, které používají všechny dostupné parametry pro zpracování každého vstupu, výsledkem čehož je hustý výpočetní přístup, architektura MoE vyžaduje pouze aktivaci podmnožiny expertních parametrů pro každý vstup. Jako výsledek, architektura MoE se ukazuje jako životaschopná cesta ke zlepšení efektivnosti velkých modelů bez rozsáhlé aktivace parametrů a vysokých výpočetních nákladů. Ačkoli stávající práce zdůraznily úspěšnou implementaci a integraci modelů MoE do konstrukce textových a textově-obrazových velkých modelů, výzkumníci dosud plně neprozkoumali potenciál vývoje architektury MoE pro konstrukci silných sjednocených multimodálních velkých jazykových modelů.

Uni-MoE je multimodální velký jazykový model, který využívá řídké modely MoE k interpretaci a správě více modalit v pokusu prozkoumat škálování sjednocených multimodálních velkých jazykových modelů s architekturou MoE. Jako je ukázáno na následujícím obrázku, rámec Uni-MoE nejprve získá kódování různých modalit pomocí modality-specifických kódovačů a poté mapuje tato kódování do jazykové reprezentační prostoru velkých jazykových modelů pomocí různých navržených konektorů. Tyto konektory obsahují školicí transformátorový model s následnými lineárními projekcemi, aby destilovaly a projektovaly výstupní reprezentace zmrazeného kódovače. Rámec Uni-MoE poté zavádí řídké vrstvy MoE uvnitř vnitřního bloku hustého velkého jazykového modelu. Jako výsledek, každý blok založený na MoE obsahuje sdílenou samo-pozornostní vrstvu aplikovatelnou napříč všemi modalitami, řídký router pro alokaci odbornosti na úrovni tokenů a různé experty založené na feedforward síti. Díky tomuto přístupu, rámec Uni-MoE je schopen rozumět více modalitám, včetně řeči, audio, textu, videa, obrazu a vyžaduje pouze aktivaci částečných parametrů během inference.

Kromě toho, aby se zlepšila multi-expertová spolupráce a generalizace, rámec Uni-MoE implementuje tří-stupňovou školicí strategii. V prvním stupni, rámec používá rozsáhlé obrazový/audio/řeč na jazykové páry pro školení odpovídajících konektorů díky sjednocené modality reprezentaci v jazykovém prostoru velkého jazykového modelu. Druhý, model Uni-MoE školení modality-specifických expertů zaměstnávající cross-modality datové sady samostatně v pokusu rafinovat odbornost každého experta v rámci jeho příslušného domény. Ve třetím stupni, rámec Uni-MoE integruje tyto školené experty do vrstvy MoE velkého jazykového modelu a školení celého rámce Uni-MoE s mixed multimodálním instrukčním datem. Aby se snížily školicí náklady dále, rámec Uni-MoE zaměstnává přístup LoRA k jemnému naladění samo-pozornostních vrstev a před-nalazených expertů.

Uni-MoE : Metodologie a architektura

Základní motivace za rámcem Uni-MoE je vysoká školicí a inferenční cena škálování multimodálních velkých jazykových modelů spolu s efektivitou modelů MoE a prozkoumat možnost vytvoření efektivní, silné a sjednocené multimodální velké jazykové modely využívající architekturu MoE. Následující obrázek představuje reprezentaci architektury implementované v rámcu Uni-MoE, demonstrující design, který zahrnuje jednotlivé kódovače pro různé modality, tj. audio, řeč a vizuály, spolu s jejich příslušnými modality konektory.

Rámec Uni-MoE poté integruje architekturu MoE s jádrem velkých jazykových modelů, proces, který je zásadní pro zlepšení celkové efektivnosti obou školicího a inferenčního procesu. Rámec Uni-MoE dosahuje tohoto implementací řídké směrovací mechanismus. Celkový školicí proces rámce Uni-MoE lze rozdělit do tří fází: cross-modality alignment, školení modality-specifických expertů a naladění Uni-MoE pomocí rozmanité sady multimodálních instrukčních dat. Aby se efektivně transformovaly rozmanité modální vstupy do lingvistické formy, rámec Uni-MoE je postaven na základě LLaVA, předškoleno vizuálně-lingvistického rámce. Základní model LLaVA integruje CLIP jako vizuálního kódovače spolu s lineární projekční vrstvou, která převádí obrazové funkce do jejich odpovídajících soft obrazových tokenů. Kromě toho, aby se zpracovaly video obsahy, rámec Uni-MoE vybírá osm reprezentativních snímků z každého videa a transformuje je do video tokenů průměrným poolováním, aby se agregovala jejich obrazová nebo frame-based reprezentace. Pro audio úkoly, rámec Uni-MoE nasazuje dva kódovače, BEATs a Whisper kódovač, aby se zlepšila extrakce funkcí. Model poté destiluje audio funkce vektor a pevnou délku řeči a mapuje je do řečových tokenů a soft audio, resp. prostřednictvím lineární projekční vrstvy.

Školicí strategie

Rámec Uni-MoE zavádí progresivní školicí strategii pro inkrementální vývoj modelu. Progresivní školicí strategie zavedená se snaží využít rozdílné schopnosti různých expertů, zlepšit multi-expertovou spolupráci a zvýšit celkovou generalizaci rámce. Školicí proces je rozdělen do tří stupňů se snahou realizovat strukturu MLLM postavenou na integrovaných expertech MoE.

Stupeň 1 : Cross Modality Alignment

V prvním stupni, rámec Uni-MoE se snaží etablovat spojení mezi různými lingvistikami a modalitami. Rámec Uni-MoE dosahuje tohoto překladem modálních dat do soft tokenů konstrukcí konektorů. Hlavním cílem prvního školicího stupně je minimalizovat generativní entropii ztráty. Uvnitř rámce Uni-MoE, velký jazykový model je optimalizován pro generování popisů pro vstupy napříč různými modalitami a model pouze vystavuje konektory školení, strategie, která umožňuje rámcu Uni-MoE integrovat různé modality do sjednoceného lingvistického rámce.

Stupeň 2: Školení modality-specifických expertů

V druhém stupni, rámec Uni-MoE se zaměřuje na vývoj jednotlivých modality expertů školením modelu věnovaného specifické cross-modality datové sadě. Hlavním cílem je rafinovat odbornost každého experta v rámci jeho příslušného domény, tím zlepšuje celkový výkon systému MoE na široké škále multimodálních dat. Kromě toho, rámec Uni-MoE přizpůsobuje feedforward sítě, aby se blíže shodovaly s charakteristikami modality, zatímco zachovává generativní entropii ztráty jako ohniskovou metriku školení.

Stupeň 3: Naladění Uni-MoE

Ve třetím a konečném stupni, rámec Uni-MoE integruje váhy nalazené experty během stupně 2 do vrstev MoE. Rámec Uni-MoE poté jemně naladí MLLM pomocí smíšeného multimodálního instrukčního datu společně. Ztrátové křivky na následujícím obrázku odrážejí pokrok školicího procesu.

Srovnávací analýza mezi konfiguracemi MoE odhalila, že experti, které model rafinoval během 2. školicího stupně, prokázali zlepšenou stabilitu a dosáhli rychlejší konvergence na smíšeném multimodálním datovém sadě. Kromě toho, na úkolech, které zahrnovaly komplexní multimodální data, včetně textu, obrazu, audio a videa, rámec Uni-MoE prokázal konzistentnější školicí výkon a sníženou variabilitu ztrát, když využíval čtyři experty než když využíval dva experty.

Uni-MoE : Experimenty a výsledky

Následující tabulka shrnuje architektonické specifikace rámce Uni-MoE. Hlavním cílem rámce Uni-MoE, postaveného na architektuře LLaMA-7B, je škálovat velikost modelu.

Následující tabulka shrnuje design a optimalizaci rámce Uni-MoE, jak je vedeno speciálními školicími úkoly. Tyto úkoly jsou instrumentální při rafinování schopností vrstev MLP, tím využívajících jejich specializované znalosti pro zlepšení modelového výkonu. Rámec Uni-MoE podniká osm jednotlivých modality expertních úkolu, aby prokázal diferenciální dopady různých školicích metodologií.

Model vyhodnocuje výkon různých modelových variant napříč rozmanitou sadou benchmarků, která zahrnuje dvě video-porozumění, tři audio-porozumění a pět řečových úkolu. Nejprve, model je testován na jeho schopnost porozumět řeči-obrazu a řeči-textu úkolu, a výsledky jsou obsaženy v následující tabulce.

Jak je vidět, předchozí základnové modely dodávají horší výsledky napříč řečovým porozuměním úkoly, což dále ovlivňuje výkon na obraz-řeč rozumění úkolech. Výsledky naznačují, že zavedení architektury MoE může zlepšit generalizaci MLLM na neviditelných multimodálních úkolech. Následující tabulka představuje experimentální výsledky na obraz-text porozumění úkolech. Jak je vidět, nejlepší výsledky z modelů Uni-MoE překonávají základnové modely a překonávají úkoly jemného naladění v průměru o 4 body.

Konečné myšlenky

V tomto článku jsme mluvili o Uni-MoE, sjednoceném multimodálním velkém jazykovém modelu s architekturou MoE nebo Mixture of Experts, který je schopen zpracovat širokou škálu modalit a expertů. Rámec Uni-MoE také implementuje řídkou architekturu MoE uvnitř velkých jazykových modelů v pokusu učinit proces školení a inference efektivnějším pomocí expertní úrovně modelové paralelizace a datové paralelizace. Kromě toho, aby se zlepšila generalizace a multi-expertová spolupráce, rámec Uni-MoE představuje progresivní školicí strategii, která je kombinací tří různých procesů. V prvním, rámec Uni-MoE dosahuje cross-modality alignment pomocí různých konektorů s různými cross-modality daty. Druhý, rámec Uni-MoE aktivuje preference expertních komponentů školením modality-specifických expertů s cross-modality instrukčními daty. Nakonec, model Uni-MoE implementuje techniku Low-Rank Adaptation (LoRA) na smíšeném multimodálním instrukčním datu, aby naladil model.

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.