výhonek Nejnovější model mixu expertů Mistral AI (MoE) 8x7B – Unite.AI
Spojte se s námi

Umělá inteligence

Nejnovější model směsi odborníků Mistral AI (MoE) 8x7B

mm

Zveřejněno

 on

Směs odborníků mistral ai

Mistral AI což je start-up s otevřeným zdrojovým kódem se sídlem v Paříži, který zpochybnil normy tím, že vydal svůj nejnovější model velkého jazyka (LLM), MoE 8x7B, prostřednictvím jednoduchého odkaz na torrent. To kontrastuje s tradičním přístupem společnosti Google s jejich vydáním Gemini, což podněcuje konverzace a vzrušení v komunitě AI.

Přístup Mistral AI k vydáním byl vždy nekonvenční. Jejich strategie, která se často vzdala obvyklého doprovodu článků, blogů nebo tiskových zpráv, byla jedinečně účinná při upoutání pozornosti komunity AI.

Nedávno společnost dosáhla pozoruhodného $ 2 miliarda ocenění po kole financování vedeném Andreessenem Horowitzem. Toto kolo financování bylo historické a vytvořilo rekord s počátečním kolem 118 milionů dolarů, největším v evropské historii. Kromě úspěchů ve financování se Mistral AI aktivně zapojuje do diskusí o EU AI Act, obhajuje omezení regulace v open source AI.

Proč MoE 8x7B přitahuje pozornost

Mixtral 4x8B, popisovaný jako „zmenšený GPT-7“, využívá rámec Mixture of Experts (MoE) s osmi experty. Každý expert má 111B parametrů spolu s 55B parametry sdílené pozornosti, což dává celkem 166B parametrů na model. Tato volba designu je významná, protože umožňuje, aby se do vyvozování každého tokenu zapojili pouze dva odborníci, což zdůrazňuje posun směrem k efektivnějšímu a cílenějšímu zpracování AI.

Jednou z klíčových předností Mixtralu je jeho schopnost spravovat rozsáhlý kontext 32,000 XNUMX tokenů, což poskytuje široký prostor pro zpracování složitých úkolů. Vícejazyčné schopnosti modelu zahrnují robustní podporu pro angličtinu, francouzštinu, italštinu, němčinu a španělštinu, což vyhovuje globální komunitě vývojářů.

Předškolní příprava Mixtralu zahrnuje data získaná z otevřeného webu se simultánním školením pro odborníky i routery. Tato metoda zajišťuje, že model není jen rozsáhlý ve svém parametrovém prostoru, ale také jemně vyladěný na nuance obrovských dat, kterým byl vystaven.

Mixtral 8x7B dosahuje působivého skóre

Mixtral 8x7B dosahuje působivého skóre

Mixtral 8x7B překonává LLaMA 2 70B a konkurenční GPT-3.5, zvláště pozoruhodný v úloze MBPP s úspěšností 60.7 %, což je výrazně vyšší než jeho protějšky. Dokonce i v přísné MT-Bench přizpůsobené pro modely podle instrukcí dosahuje Mixtral 8x7B působivého skóre, téměř odpovídající GPT-3.5

Pochopení rámce směsi odborníků (MŽP).

Model Mixture of Experts (MoE), i když si v poslední době získal pozornost díky svému začlenění do nejmodernějších jazykových modelů, jako je Mistral AI MoE 8x7B, je ve skutečnosti zakořeněn v základních konceptech, které se datují několik let do minulosti. Pojďme znovu navštívit původ této myšlenky prostřednictvím klíčových výzkumných prací.

Koncepce MŽP

Mixture of Experts (MoE) představuje posun paradigmatu v architektuře neuronových sítí. Na rozdíl od tradičních modelů, které používají singulární, homogenní síť pro zpracování všech typů dat, MŽP využívá specializovanější a modulární přístup. Skládá se z několika „expertních“ sítí, z nichž každá je navržena tak, aby zpracovávala specifické typy dat nebo úkolů, na které dohlíží „bránová síť“, která dynamicky směruje vstupní data nejvhodnějšímu odborníkovi.

Vrstva Mixture of Experts (MoE) vložená do modelu opakujícího se jazyka

Vrstva Mixture of Experts (MoE) vložená do modelu opakujícího se jazyka (Zdroj)

 

Výše uvedený obrázek představuje pohled na vysoké úrovni na vrstvu MŽP vnořenou do jazykového modelu. Vrstva MŽP ve své podstatě zahrnuje několik dopředných podsítí, nazývaných „experti“, z nichž každá se může specializovat na zpracování různých aspektů dat. Hradlová síť, zvýrazněná v diagramu, určuje, která kombinace těchto expertů je pro daný vstup použita. Tato podmíněná aktivace umožňuje síti výrazně zvýšit její kapacitu bez odpovídajícího nárůstu výpočetní poptávky.

Funkčnost vrstvy MŽP

V praxi hradlová síť vyhodnocuje vstup (označený jako G(x) v diagramu) a pro jeho zpracování vybere řídkou skupinu odborníků. Tento výběr je modulován výstupy hradlové sítě, což efektivně určuje „hlas“ nebo příspěvek každého experta ke konečnému výstupu. Například, jak je znázorněno na diagramu, pro výpočet výstupu pro každý konkrétní vstupní token mohou být vybráni pouze dva experti, což činí proces efektivním soustředěním výpočetních zdrojů tam, kde jsou nejvíce potřeba.

 

Transformátorový kodér s vrstvami MoE (Zdroj)

Druhý obrázek výše kontrastuje tradiční kodér Transformer s jedním rozšířeným o vrstvu MoE. Architektura Transformer, široce známá svou efektivitou v úlohách souvisejících s jazykem, se tradičně skládá z vrstev sebepozorování a dopředných dopředných vrstev naskládaných za sebou. Zavedení vrstev MŽP nahrazuje některé z těchto dopředných vrstev, což umožňuje efektivnější škálování modelu s ohledem na kapacitu.

V rozšířeném modelu jsou vrstvy MoE rozděleny mezi více zařízení, což představuje modelově paralelní přístup. To je kritické při škálování na velmi velké modely, protože to umožňuje rozložení výpočetní zátěže a požadavků na paměť mezi clustery zařízení, jako jsou GPU nebo TPU. Toto sharding je nezbytné pro efektivní trénování a nasazování modelů s miliardami parametrů, jak dokazuje trénování modelů se stovkami miliard až více než bilion parametrů na rozsáhlých výpočetních clusterech.

Přístup Sparse MoE s laděním instrukcí na LLM

List s názvem „Sparse Mixture-of-Experts (MoE) pro škálovatelné jazykové modelování“ popisuje inovativní přístup ke zlepšení velkých jazykových modelů (LLM) integrací architektury Mixture of Experts s technikami ladění instrukcí.

Zdůrazňuje společný problém, kdy modely MŽP nedosahují výkonnosti ve srovnání s hustými modely stejné výpočetní kapacity, když jsou doladěny pro konkrétní úlohy, kvůli nesrovnalostem mezi obecným předškolením a doladěním specifickým pro daný úkol.

Ladění instrukcí je školicí metodologie, kde jsou modely zdokonalovány tak, aby lépe dodržovaly pokyny v přirozeném jazyce, čímž se efektivně zvyšuje jejich plnění úkolů. Článek naznačuje, že modely MoE vykazují výrazné zlepšení v kombinaci s laděním instrukcí, více než jejich husté protějšky. Tato technika zarovnává předem natrénované reprezentace modelu tak, aby se efektivněji řídily pokyny, což vede k výraznému zvýšení výkonu.

Výzkumníci provedli studie napříč třemi experimentálními nastaveními a odhalili, že modely MoE zpočátku nedosahují výkonnosti v přímém dolaďování specifickém pro daný úkol. Při použití ladění instrukcí však modely MoE vynikají, zvláště když jsou dále doplněny o jemné ladění specifické pro daný úkol. To naznačuje, že ladění instrukcí je pro modely MoE zásadním krokem k překonání hustých modelů v navazujících úkolech.

Vliv ladění instrukcí na MOE

Vliv ladění instrukcí na MOE

Představuje také FLAN-MOE32B, model, který demonstruje úspěšnou aplikaci těchto konceptů. Je pozoruhodné, že překonává FLAN-PALM62B, hustý model, ve srovnávacích úlohách a využívá pouze jednu třetinu výpočetních zdrojů. To ukazuje potenciál pro řídké modely MoE v kombinaci s laděním instrukcí pro stanovení nových standardů pro efektivitu a výkon LLM.

Implementace směsi expertů ve scénářích reálného světa

Díky všestrannosti modelů MoE jsou ideální pro řadu aplikací:

  • Zpracování přirozeného jazyka (NLP): Modely MoE dokážou efektivněji zvládat nuance a složitosti lidského jazyka, díky čemuž jsou ideální pro pokročilé úkoly NLP.
  • Zpracování obrázků a videa: V úlohách vyžadujících zpracování ve vysokém rozlišení může MŽP spravovat různé aspekty snímků nebo video snímků, čímž se zvyšuje kvalita i rychlost zpracování.
  • Přizpůsobitelná řešení AI: Firmy a výzkumní pracovníci mohou přizpůsobit modely MoE konkrétním úkolům, což vede k cílenějším a efektivnějším řešením AI.

Výzvy a úvahy

Zatímco modely MoE nabízejí řadu výhod, představují také jedinečné výzvy:

  • Složitost tréninku a ladění: Distribuovaný charakter modelů MŽP může zkomplikovat tréninkový proces, což vyžaduje pečlivé vyvážení a vyladění expertní a hradlové sítě.
  • Správa zdrojů: Pro maximalizaci přínosů modelů MŽP je zásadní efektivní řízení výpočetních zdrojů mezi více odborníky.

Začlenění vrstev MoE do neuronových sítí, zejména v oblasti jazykových modelů, nabízí cestu ke škálování modelů na velikosti, které byly dříve nemožné kvůli výpočetním omezením. Podmíněné výpočty, které umožňují vrstvy MŽP, umožňují efektivnější distribuci výpočetních zdrojů, což umožňuje trénovat větší a schopnější modely. Vzhledem k tomu, že od našich systémů umělé inteligence stále požadujeme více, architektury, jako je transformátor vybavený MoE, se pravděpodobně stanou standardem pro zpracování složitých a rozsáhlých úkolů v různých doménách.

Posledních pět let jsem strávil ponořením se do fascinujícího světa strojového učení a hlubokého učení. Moje vášeň a odborné znalosti mě vedly k tomu, abych se podílel na více než 50 různých projektech softwarového inženýrství se zvláštním zaměřením na AI/ML. Moje neustálá zvědavost mě také přivedla ke zpracování přirozeného jazyka, což je obor, který bych rád dále prozkoumal.