Connect with us

Mistral AI’s Latest Mixture of Experts (MoE) 8x7B Model

Umělá inteligence

Mistral AI’s Latest Mixture of Experts (MoE) 8x7B Model

mm
Mixture of Experts mistral ai

Mistral AI

která je pařížskou open-source modelovou startupem, vybízí normy vydáním svého nejnovějšího velkého jazykového modelu (LLM), MoE 8x7B, prostřednictvím jednoduchého torrent odkazu. To je v kontrastu s tradičním přístupem Googlu s jejich Gemini vydáním, což vyvolává konverzace a vzrušení v AI komunitě.

Mistral AI’s přístup k vydáním byl vždy nekonvenční. Často se vzdává obvyklých doprovodů papírů, blogů nebo tiskových zpráv, jejich strategie byla jedinečně efektivní v zachycení AI komunity pozornosti.

Nedávno společnost dosáhla pozoruhodné $2 miliardové valuace po kole fundingu vedeném Andreessen Horowitz. Tento funding kolo bylo historické, stanovilo rekord s $118 milionovým seed kolem, největší v evropské historii. Kromě funding úspěchů, Mistral AI’s aktivní zapojení do diskusí kolem EU AI zákona, prosazující snížení regulace v open-source AI.

Proč MoE 8x7B přitahuje pozornost

Popisovaný jako “škálovatelný GPT-4,” Mixtral 8x7B využívá Mixture of Experts (MoE) framework s osmi experty. Každý expert má 111B parametrů, spojený s 55B sdílenými pozornostními parametry, aby poskytli celkem 166B parametrů na model. Tento designový výběr je významný, protože umožňuje, aby se pouze dva experti účastnili inference každého tokenu, což zdůrazňuje posun směrem k více efektivním a zaměřeným AI procesům.

Jednou z hlavních výšek Mixtralu je jeho schopnost spravovat rozsáhlý kontext 32 000 tokenů, poskytující dostatek prostoru pro zpracování složitých úkolů. Modelovy multilingvní schopnosti zahrnují robustní podporu pro angličtinu, francouzštinu, italštinu, němčinu a španělštinu, sloužící globální vývojářské komunitě.

Předškolní vzdělávání Mixtralu zahrnuje data z otevřené sítě, souběžné školení pro experty a routery. Tato metoda zajišťuje, že model není pouze rozsáhlý ve svém parametrickém prostoru, ale také jemně naladěn na nuance rozsáhlých dat, kterým byl vystaven.

Mixtral 8x7B dosahuje působivého skóre

Mixtral 8x7B dosahuje působivého skóre

Mixtral 8x7B překonává LLaMA 2 70B a rivalizuje s GPT-3.5, zejména pozoruhodně v MBPP úkolu s 60,7% úspěchem, což je výrazně vyšší než jeho protějšky. I v přísném MT-Bench přizpůsobeném pro modely, které následují instrukce, Mixtral 8x7B dosahuje působivého skóre, téměř se rovnající GPT-3.5

Pochopení Mixture of Experts (MoE) Frameworku

Mixture of Experts (MoE) model, zatímco získává nedávnou pozornost kvůli jeho začlenění do špičkových jazykových modelů, jako je Mistral AI’s MoE 8x7B, je vlastně založen na základních konceptech, které sahají několik let zpět. Připomeňme si původní myšlenku prostřednictvím seminárních výzkumných papírů.

Koncept MoE

Mixture of Experts (MoE) představuje paradigmatický posun v neuronové síťové architektuře. Na rozdíl od tradičních modelů, které používají singularitní, homogenní síť pro zpracování všech typů dat, MoE přijímá specializovanější a modulárnější přístup. Skládá se z více “expertních” sítí, každá navržená pro zpracování specifických typů dat nebo úkolů, dohlížených “gating síť”, která dynamicky směruje vstupní data k nejpříslušivějšímu expertovi.

Mixture of Experts (MoE) vrstva vložená do rekurentního jazykového modelu

Mixture of Experts (MoE) vrstva vložená do rekurentního jazykového modelu (Zdroj)

 

Výše uvedený obrázek představuje vysokou úroveň MoE vrstvy vložené do jazykového modelu. V jeho podstatě se MoE vrstva skládá z více feed-forward sub-sítí, nazývaných “experti”, každý s potenciálem specializovat se na zpracování různých aspektů dat. Gating síť, zvýrazněná v diagramu, určuje, která kombinace těchto expertů se zapojí pro daný vstup. Tato podmíněná aktivace umožňuje síti významně zvýšit svou kapacitu bez odpovídajícího nárůstu výpočetní náročnosti.

Funkce MoE Vrstvy

V praxi gating síť vyhodnocuje vstup (označený jako G(x) v diagramu) a vybírá řídkou sadu expertů pro jeho zpracování. Tento výběr je modulován výstupy gating sítě, efektivní určující “hlas” nebo příspěvek každého experta k finálnímu výstupu. Například, jak je ukázáno v diagramu, mohou být pro výpočet výstupu pro každý konkrétní vstupní token vybráni pouze dva experti, což činí proces efektivním soustředěním výpočetních zdrojů tam, kde jsou nejvíce potřeba.

 

Transformer Encoder s MoE Vrstvami (Zdroj)

Druhý obrázek výše kontrastuje tradiční Transformer encoder s tím, který je doplněn MoE vrstvami. Transformer architektura, široce známá pro svou efektivitu v jazykových úkolech, tradičně se skládá z self-attention a feed-forward vrstev navrstvených v sekvenci. Zavedení MoE vrstev nahrazuje některé z těchto feed-forward vrstev, umožňující modelu lépe škálovat s ohledem na kapacitu.

V doplněném modelu jsou MoE vrstvy rozděleny napříč několika zařízeními, ukazující model-paralelní přístup. To je kritické při škálování na velmi velké modely, protože umožňuje distribuci výpočetní zátěže a paměťových požadavků napříč clusterem zařízení, jako jsou GPU nebo TPU. Tento rozdělování je nezbytné pro efektivní školení a nasazení modelů s miliardami parametrů, jak je demonstrováno školením modelů s stovkami miliard až přes bilion parametrů na velkých výpočetních clusterech.

Řídký MoE Přístup s Instrukční Tuningem na LLM

Článek nazvaný “Řídký Mixture-of-Experts (MoE) pro Škálovatelné Jazykové Modelování” diskutuje inovativní přístup ke zlepšení Large Language Modelů (LLM) integrující Mixture of Experts architekturu s instrukčními tuningovými technikami.

To zdůrazňuje společnou výzvu, kde MoE modely podávají horší výkon ve srovnání s hustými modely stejné výpočetní kapacity, když jsou jemně naladěny pro specifické úkoly kvůli nesrovnalostem mezi obecným předškolním vzděláváním a úkol-specifickým jemným naladěním.

Instrukční tuning je školicí metodologie, kde modely jsou rafinovány, aby lépe následovaly přirozené jazykové instrukce, efektivní zlepšování jejich úkolového výkonu. Článek naznačuje, že MoE modely vykazují pozoruhodné zlepšení, když jsou kombinovány s instrukčním tunelem, více než jejich husté protějšky. Tato technika zarovnává modelovy předškolně vzdělané reprezentace, aby lépe následovaly instrukce, vedoucí k významným výkonovým impulzům.

Výzkumníci provedli studie napříč třemi experimentálními nastaveními, odhalující, že MoE modely původně podávají horší výkon v přímém úkol-specifickém jemném naladěním. Nicméně, když je aplikován instrukční tuning, MoE modely vynikají, zejména když jsou dále doplněny úkol-specifickým jemným naladěním. To naznačuje, že instrukční tuning je vitální krok pro MoE modely, aby překonaly husté modely v downstream úkolech.

Účinek instrukčního tuningu na MOE

Účinek instrukčního tuningu na MOE

To také představuje FLAN-MOE32B, model, který demonstruje úspěšné uplatnění těchto konceptů. Pozoruhodně, překonává FLAN-PALM62B, hustý model, na benchmark úkolech, zatímco využívá pouze jednu třetinu výpočetních zdrojů. To ukazuje potenciál pro řídké MoE modely kombinované s instrukčním tunelem, aby nastavily nové standardy pro LLM efektivitu a výkon.

Implementace Mixture of Experts v Reálných Scénářích

Univerzálnost MoE modelů je činí ideálními pro řadu aplikací:

  • Přirozené Jazykové Zpracování (NLP): MoE modely mohou lépe zpracovávat nuance a komplexity lidského jazyka, činí je ideálními pro pokročilé NLP úkoly.
  • Obraz a Video Zpracování: V úkolech vyžadujících vysokou rozlišovací schopnost, MoE může zpracovávat různé aspekty obrazů nebo video snímků, zlepšující jak kvalitu, tak zpracování rychlost.
  • Vlastní AI Řešení: Podniky a výzkumníci mohou přizpůsobit MoE modely specifickým úkolům, vedoucí k více cíleným a efektivnímu AI řešením.

Výzvy a Úvahy

Zatímco MoE modely nabízejí řadu výhod, také představují jedinečné výzvy:

  • Složitost ve Školení a Tuningu: Distribuovaná povaha MoE modelů může komplikovat školicí proces, vyžadující pečlivé vyvážení a naladění expertů a gating sítě.
  • Správa Zdrojů: Efektivní správa výpočetních zdrojů napříč několika experty je kritická pro maximalizaci výhod MoE modelů.

Incorporace MoE vrstev do neuronových sítí, zejména v oblasti jazykových modelů, nabízí cestu ke škálování modelů na velikosti, které byly dříve nevhodné kvůli výpočetním omezením. Kondicionální výpočet umožněný MoE vrstvami umožňuje více efektivnější distribuci výpočetních zdrojů, činí možné školení větších, schopnějších modelů. Jak budeme dále vyžadovat více od našich AI systémů, architektury, jako je MoE vybavený Transformer, jsou pravděpodobně stanou standardem pro zpracování složitých, velkých úkolů napříč různými doménami.

Já jsem strávil posledních pět let ponořen do fascinujícího světa Machine Learning a Deep Learning. Moje vášeň a odbornost mě vedly k tomu, abych přispěl k více než 50 různým softwarovým inženýrským projektům, se zvláštním zaměřením na AI/ML. Moje pokračující zvědavost mě také táhne směrem k Natural Language Processing, oblasti, kterou jsem ochoten dále prozkoumat.