Umelá inteligencia

Vzostup mixu odborníkov pre efektívne veľké jazykové modely

Aktualizované on March 21, 2024

Vo svete spracovania prirodzeného jazyka (NLP) bola snaha o vytváranie väčších a schopnejších jazykových modelov hnacou silou mnohých nedávnych pokrokov. S rastúcou veľkosťou týchto modelov sa však výpočtové požiadavky na školenie a odvodzovanie stávajú čoraz náročnejšími, čo naráža na limity dostupných hardvérových zdrojov.

Zadajte Mixture-of-Experts (MoE), techniku, ktorá sľubuje zmiernenie tejto výpočtovej záťaže a zároveň umožní trénovanie väčších a výkonnejších jazykových modelov. V tomto technickom blogu sa ponoríme do sveta MoE, preskúmame jeho pôvod, vnútorné fungovanie a jeho aplikácie v jazykových modeloch založených na transformátoroch.

Pôvod zmesi odborníkov

Koncept Mixture-of-Experts (MoE) možno vysledovať do začiatku 1990-tych rokov, keď výskumníci skúmali myšlienku podmieneného výpočtu, kde sú časti neurónovej siete selektívne aktivované na základe vstupných údajov. Jedným z priekopníckych diel v tejto oblasti bolo „Adaptívna zmes miestnych expertovpráca od Jacobsa a kol. v roku 1991, ktorý navrhol riadený vzdelávací rámec pre súbor neurónových sietí, z ktorých každá sa špecializuje na inú oblasť vstupného priestoru.

Hlavnou myšlienkou MH je mať viacero „expertných“ sietí, z ktorých každá je zodpovedná za spracovanie podmnožiny vstupných údajov. Hradlovací mechanizmus, zvyčajne samotná neurónová sieť, určuje, ktorí experti by mali spracovať daný vstup. Tento prístup umožňuje modelu efektívnejšie alokovať svoje výpočtové zdroje aktiváciou iba relevantných expertov pre každý vstup, namiesto toho, aby využíval plnú kapacitu modelu pre každý vstup.

V priebehu rokov rôzni výskumníci skúmali a rozširovali myšlienku podmieneného výpočtu, čo viedlo k vývoju, ako sú hierarchické MoE, nízke aproximácie pre podmienené výpočty a techniky na odhadovanie gradientov prostredníctvom stochastických neurónov a aktivačných funkcií s pevným prahom.

Zmes odborníkov na transformátory

Zmes odborníkov

Zatiaľ čo myšlienka MŽP existuje už desaťročia, jeho aplikácia na jazykové modely založené na transformátoroch je relatívne nedávna. Transformátory, ktoré sa stali de facto štandardom pre najmodernejšie jazykové modely, sú zložené z viacerých vrstiev, z ktorých každá obsahuje mechanizmus vlastnej pozornosti a doprednú neurónovú sieť (FFN).

Kľúčovou inováciou pri aplikácii MoE na transformátory je nahradenie hustých vrstiev FFN riedkymi vrstvami MoE, z ktorých každá pozostáva z viacerých expertných FFN a hradlového mechanizmu. Mechanizmus hradlovania určuje, ktorí experti by mali spracovať každý vstupný token, čo umožňuje modelu selektívne aktivovať iba podmnožinu expertov pre danú vstupnú sekvenciu.

Jednou z prvých prác, ktoré demonštrovali potenciál MoE v transformátoroch, bola práca „Neskutočne veľké neurónové siete: Vrstva riedko hradených zmesí expertov“ od Shazeera a kol. v roku 2017. Táto práca zaviedla koncept riedko hradlovej vrstvy MŽP, ktorá využívala hradlovací mechanizmus, ktorý pridával do procesu výberu expertov riedkosť a šum, čím sa zabezpečilo, že pre každý vstup bola aktivovaná iba podskupina expertov.

Odvtedy niekoľko ďalších prác ďalej pokročilo v aplikácii MoE na transformátory a riešilo problémy, ako je nestabilita tréningu, vyrovnávanie záťaže a efektívna inferencia. Pozoruhodné príklady zahŕňajú Transformátor prepínača (Fedus a kol., 2021), ST-MŽP (Zoph a kol., 2022) a GLaM (Du a kol., 2022).

Výhody zmesi odborníkov pre jazykové modely

Primárnou výhodou využitia MoE v jazykových modeloch je schopnosť zväčšiť veľkosť modelu pri zachovaní relatívne konštantných výpočtových nákladov počas inferencie. Selektívnou aktiváciou iba podskupiny odborníkov pre každý vstupný token môžu modely MoE dosiahnuť výrazovú silu oveľa väčších hustých modelov, pričom vyžadujú podstatne menej výpočtov.

Uvažujme napríklad jazykový model s hustou vrstvou FFN so 7 miliardami parametrov. Ak túto vrstvu nahradíme vrstvou MŽP pozostávajúcou z ôsmich expertov, z ktorých každý má 7 miliárd parametrov, celkový počet parametrov sa zvýši na 56 miliárd. Ak však počas odvodzovania aktivujeme iba dvoch expertov na token, výpočtové náklady sú ekvivalentné modelu s hustotou 14 miliárd parametrov, pretože počíta dve násobenia matice parametrov so 7 miliardami.

Táto výpočtová efektivita počas odvodzovania je obzvlášť cenná v scenároch nasadenia, kde sú zdroje obmedzené, ako sú mobilné zariadenia alebo okrajové počítačové prostredia. Okrem toho môžu znížené výpočtové požiadavky počas školenia viesť k výrazným úsporám energie a nižšej uhlíkovej stope, čo je v súlade s rastúcim dôrazom na udržateľné postupy AI.

Výzvy a úvahy

Zatiaľ čo modely MoE ponúkajú presvedčivé výhody, ich prijatie a nasadenie prináša aj niekoľko výziev a úvah:

Stabilita tréningu: Modely MoE sú známe tým, že sú náchylnejšie na tréningovú nestabilitu v porovnaní s ich hustými náprotivkami. Tento problém vzniká z riedkej a podmienenej povahy expertných aktivácií, čo môže viesť k problémom pri šírení gradientu a konvergencii. Na zmiernenie týchto nestabilít boli navrhnuté techniky, ako je strata smerovača z (Zoph et al., 2022), ale stále je potrebný ďalší výskum.
Jemné ladenie a overfitting: Modely MoE majú tendenciu sa počas jemného ladenia ľahšie prepĺňať, najmä ak má nadväzujúca úloha relatívne malý súbor údajov. Toto správanie sa pripisuje zvýšenej kapacite a vzácnosti modelov MŽP, čo môže viesť k nadmernej špecializácii na tréningové dáta. Na zmiernenie tohto problému je potrebná starostlivá regularizácia a stratégie dolaďovania.
Požiadavky na pamäť: Zatiaľ čo modely MoE môžu znížiť výpočtové náklady počas odvodzovania, často majú vyššie požiadavky na pamäť v porovnaní s hustými modelmi podobnej veľkosti. Je to preto, že všetky expertné váhy je potrebné načítať do pamäte, aj keď pre každý vstup je aktivovaná iba podmnožina. Pamäťové obmedzenia môžu obmedziť škálovateľnosť modelov MoE na zariadeniach s obmedzenými zdrojmi.
Rozdelenie výkonu: Na dosiahnutie optimálnej výpočtovej efektivity je kľúčové vyvážiť záťaž medzi odborníkmi, aby sa zabezpečilo, že žiadny jeden odborník nebude preťažený, zatiaľ čo ostatní zostanú nevyužití. Toto vyrovnávanie záťaže sa zvyčajne dosahuje pomocou pomocných strát počas tréningu a starostlivého vyladenia kapacitného faktora, ktorý určuje maximálny počet tokenov, ktoré možno priradiť každému odborníkovi.
Komunikačná réžia: V scenároch distribuovaného školenia a vyvodzovania môžu modely MŽP zaviesť dodatočnú réžiu komunikácie v dôsledku potreby výmeny informácií o aktivácii a gradiente medzi odborníkmi sídliacimi na rôznych zariadeniach alebo urýchľovačoch. Na zmiernenie tejto réžie sú nevyhnutné efektívne komunikačné stratégie a návrh modelu s ohľadom na hardvér.

Napriek týmto výzvam potenciálne prínosy modelov MŽP pri umožňovaní väčších a schopnejších jazykových modelov podnietili značné výskumné úsilie na riešenie a zmiernenie týchto problémov.

Príklad: Mixtral 8x7B a GLaM

Na ilustráciu praktickej aplikácie MoE v jazykových modeloch uvažujme dva pozoruhodné príklady: Mixtral 8x7B a GLaM.

Mixtral 8x7B je variant MŽP Mistrálny jazykový model, vyvinutý spoločnosťou Anthropic. Pozostáva z ôsmich odborníkov, z ktorých každý má 7 miliárd parametrov, čo má za následok celkovo 56 miliárd parametrov. Počas inferencie sú však aktivovaní iba dvaja experti na token, čím sa efektívne znížia výpočtové náklady na model s hustotou 14 miliárd parametrov.

Mixtral 8x7B preukázal pôsobivý výkon, prekonal model Llama so 70 miliardami parametrov a zároveň ponúka oveľa rýchlejšie časy odvodenia. Vydaná bola aj inštrukciou ladená verzia Mixtral 8x7B, nazvaná Mixtral-8x7B-Instruct-v0.1, ktorá ešte viac vylepšuje jej možnosti pri dodržiavaní inštrukcií v prirodzenom jazyku.

Ďalším pozoruhodným príkladom je GLaM (Google Language Model), rozsiahly model ministerstva životného prostredia vyvinutý spoločnosťou Google. GLaM využíva iba dekodérovú transformátorovú architektúru a bol vyškolený na obrovskom 1.6 bilióne tokenových údajov. Model dosahuje pôsobivý výkon pri niekoľkých a jednorazových hodnoteniach, pričom zodpovedá kvalite GPT-3, pričom využíva iba jednu tretinu energie potrebnej na výcvik GPT-3.

Úspech GLaM možno pripísať jeho efektívnej architektúre MoE, ktorá umožnila trénovať model s obrovským množstvom parametrov pri zachovaní primeraných výpočtových požiadaviek. Model tiež demonštroval potenciál modelov MŽP byť energeticky efektívnejšími a environmentálne udržateľnejšími v porovnaní s ich hustými náprotivkami.

Architektúra Grok-1

GROK ZMES ODBORNÍKOV

Grok-1 je model MoE založený na transformátore s jedinečnou architektúrou navrhnutou na maximalizáciu účinnosti a výkonu. Poďme sa ponoriť do hlavných špecifikácií:

parametre: S ohromujúcim počtom 314 miliárd parametrov je Grok-1 doteraz najväčším otvoreným LLM. Vďaka architektúre MŽP je však aktívnych iba 25 % váh (približne 86 miliárd parametrov), čo zvyšuje možnosti spracovania.
architektúra: Grok-1 využíva architektúru Mixture-of-8-Experts, pričom každý token spracovávajú dvaja experti počas vyvodzovania.
Vrstvy: Model sa skladá zo 64 vrstiev transformátora, z ktorých každá obsahuje viachlavovú pozornosť a husté bloky.
tokenizácia: Grok-1 využíva tokenizér SentencePiece s veľkosťou slovnej zásoby 131,072 XNUMX tokenov.
Vkladanie a pozičné kódovanie: Model obsahuje 6,144 XNUMX-rozmerné vloženia a využíva rotačné pozičné vloženia, čo umožňuje dynamickejšiu interpretáciu údajov v porovnaní s tradičnými pevnými pozičnými kódovaniami.
pozor: Grok-1 používa 48 hláv pozornosti pre dopyty a 8 hláv pozornosti pre kľúče a hodnoty, každá s veľkosťou 128.
Dĺžka kontextu: Model dokáže spracovať sekvencie s dĺžkou až 8,192 16 tokenov s využitím presnosti bfloatXNUMX na efektívny výpočet.

Podrobnosti o výkone a implementácii

Grok-1 preukázal pôsobivý výkon, prekonal LLaMa 2 70B a Mixtral 8x7B so skóre MMLU 73%, čím ukázal svoju účinnosť a presnosť v rôznych testoch.

Je však dôležité poznamenať, že Grok-1 vyžaduje značné zdroje GPU kvôli svojej veľkej veľkosti. Aktuálna implementácia vo verzii s otvoreným zdrojovým kódom sa zameriava na overenie správnosti modelu a využíva neefektívnu implementáciu vrstvy MoE, aby sa predišlo potrebe vlastných jadier.

Napriek tomu model podporuje aktivačné sharding a 8-bitovú kvantizáciu, čo môže optimalizovať výkon a znížiť požiadavky na pamäť.

Pozoruhodným krokom, xAI vydala Grok-1 pod licenciou Apache 2.0, čím sa jeho váhy a architektúra sprístupňujú globálnej komunite na použitie a príspevky.

Vydanie s otvoreným zdrojovým kódom obsahuje vzorové úložisko kódu JAX, ktoré ukazuje, ako načítať a spustiť model Grok-1. Používatelia si môžu stiahnuť váhy kontrolných bodov pomocou torrent klienta alebo priamo cez HuggingFace Hub, čo uľahčuje prístup k tomuto prelomovému modelu.

Budúcnosť mixu expertov v jazykových modeloch

Keďže dopyt po väčších a schopnejších jazykových modeloch neustále rastie, očakáva sa, že osvojenie techník MŽP naberie ďalšiu dynamiku. Prebiehajúce výskumné úsilie sa zameriava na riešenie zostávajúcich výziev, ako je zlepšenie stability tréningu, zmiernenie nadmerného vybavenia počas jemného ladenia a optimalizácia požiadaviek na pamäť a komunikáciu.

Jedným zo sľubných smerov je skúmanie hierarchických architektúr MŽP, kde každý expert sám pozostáva z viacerých pododborníkov. Tento prístup by potenciálne mohol umožniť ešte väčšiu škálovateľnosť a výpočtovú efektivitu pri zachovaní výrazovej sily veľkých modelov.

Okrem toho je aktívnou oblasťou výskumu vývoj hardvérových a softvérových systémov optimalizovaných pre modely MŽP. Špecializované akcelerátory a distribuované tréningové rámce navrhnuté tak, aby efektívne zvládli riedke a podmienené výpočtové vzory modelov MŽP, by mohli ďalej zvýšiť ich výkon a škálovateľnosť.

Okrem toho integrácia techník MŽP s ďalšími pokrokmi v jazykovom modelovaní, ako sú mechanizmy riedkej pozornosti, efektívne stratégie tokenizácie a multimodálne reprezentácie, by mohla viesť k ešte výkonnejším a všestrannejším jazykovým modelom schopným riešiť širokú škálu úloh.

záver

Technika Mixture-of-Experts sa ukázala ako mocný nástroj pri hľadaní väčších a schopnejších jazykových modelov. Selektívnou aktiváciou expertov na základe vstupných údajov ponúkajú modely MŽP sľubné riešenie výpočtových výziev spojených so škálovaním hustých modelov. Aj keď stále existujú výzvy, ktoré je potrebné prekonať, ako je nestabilita tréningu, preťaženie a požiadavky na pamäť, potenciálne výhody modelov MoE z hľadiska výpočtovej efektívnosti, škálovateľnosti a environmentálnej udržateľnosti z nich robia vzrušujúcu oblasť výskumu a vývoja.

Keďže oblasť spracovania prirodzeného jazyka naďalej posúva hranice možného, prijatie techník MH pravdepodobne zohrá kľúčovú úlohu pri vytváraní jazykových modelov ďalšej generácie. Kombináciou MŽP s ďalšími pokrokmi v architektúre modelov, tréningových techník a optimalizácie hardvéru sa môžeme tešiť na ešte výkonnejšie a všestrannejšie jazykové modely, ktoré dokážu skutočne rozumieť ľuďom a komunikovať s nimi prirodzeným a bezproblémovým spôsobom.

Súvisiace témy:grok HuggingFace lama LLM mistral Zmes odborníkov transformátory

Nasledujúci

AI GPT pre databázu PostgreSQL: Môžu fungovať?

Nenechajte si ujsť

Čo by ste mali vedieť o novom superčipe a architektúre AI Blackwell od NVIDIA

Aayush Mittal

Posledných päť rokov som strávil ponorením sa do fascinujúceho sveta strojového učenia a hlbokého učenia. Moja vášeň a odborné znalosti ma viedli k tomu, že som prispel k viac ako 50 rôznym projektom softvérového inžinierstva s osobitným zameraním na AI/ML. Moja neustála zvedavosť ma tiež priviedla k spracovaniu prirodzeného jazyka, oblasti, ktorú by som chcel ďalej skúmať.