AI 101

Vzestup Mixture-of-Experts: Jak řídké modely AI tvarují budoucnost strojového učení

mm

Mixture-of-Experts (MoE) modely revolucíují způsob, jakým škálujeme AI. Aktivací pouze podmnožiny komponent modelu v daném okamžiku nabízí MoE novou metodu pro řízení kompromisu mezi velikostí modelu a výpočetní efektivitou. Na rozdíl od tradičních hustých modelů, které používají všechny parametry pro každý vstup, MoE dosahují enormního počtu parametrů, zatímco inference a tréninkové náklady zůstávají zvládnutelné. Tento průlom vedl k vlně výzkumu a vývoje, což vedlo jak technologické giganty, tak startupy k investicím do MoE-založených architektur.

Jak fungují modely Mixture-of-Experts

V jádru se modely MoE skládají z více specializovaných sub-sítí nazývaných “experti”, které jsou řízeny mechanismem brány, který rozhoduje, které experty by měly zpracovat každý vstup. Například věta zpracovaná v jazykovém modelu může zapnout pouze dva z osmi expertů, což dramaticky snižuje výpočetní zátěž.

Tato koncepce byla uvedena do mainstreamu s Google’s Switch Transformer a GLaM modely, kde experti nahradili tradiční feed-forward vrstvy v Transformerech. Switch Transformer například směruje tokeny do jednoho experta na vrstvu, zatímco GLaM používá top-2 směrování pro zlepšení výkonu. Tyto návrhy prokázaly, že MoE mohou odpovídat nebo překonávat husté modely, jako je GPT-3, zatímco používají podstatně méně energie a výpočetních zdrojů.

Klíčová inovace spočívá v podmíněném výpočtu. Místo aktivace celého modelu MoE aktivují pouze nejrelevantnější části, což znamená, že model s stovkami miliard nebo dokonce biliony parametrů může běžet s efektivitou modelu, který je řádově menší. To umožňuje výzkumníkům škálovat kapacitu bez lineárního zvýšení výpočtu, což je čin unikátním pro tradiční metody škálování.

Reálné aplikace MoE

Modely MoE již zanechaly svou stopu v několika oblastech. Google’s GLaM a Switch Transformer prokázaly špičkový výkon v jazykovém modelování s nižšími tréninkovými a inferenčními náklady. Microsoft’s Z-Code MoE je provozován v jeho Překladatelském nástroji, který zpracovává více než 100 jazyků s lepší přesností a efektivitou než dříve. Tyto nejsou pouze výzkumné projekty – jsou poháněny živými službami.

V počítačovém vidění Google’s V-MoE architektura zlepšila klasifikační přesnost na benchmarcích, jako je ImageNet, a model LIMoE prokázal silný výkon v multimodálních úkolech zahrnujících obraz a text. Schopnost expertů specializovat se – někteří zpracovávají text, jiní obraz – přidává novou vrstvu schopností do systémů AI.

Systémy doporučení a platformy pro vícesloučkové učení také profitovaly z MoE. Například doporučující engine YouTube využívá MoE-podobnou architekturu pro zvládnutí cílů, jako je doba přehrávání a míra kliknutí, efektivněji. Přiřazením různých expertů k různým úkolům nebo chování uživatelů MoE pomáhají budovat robustnější motory personalizace.

Výhody a výzvy

Hlavní výhodou MoE je efektivita. Umožňují škálovat obrovské modely a nasazovat je s podstatně nižšími náklady. Například model Mistral AI’s Mixtral 8×7B má 47B parametrů, ale aktivuje pouze 12,9B na token, což mu dává nákladovou efektivitu 13B modelu, zatímco soutěží s modely, jako je GPT-3.5, v kvalitě.

MoE také podporují specializaci. Protože různé experty mohou naučit se rozdílné vzory, celkový model se stává lépe vybaven pro zpracování rozmanitých vstupů. To je zvláště užitečné v multijazyčných, vícesloučkových nebo multimodálních úkolech, kde hustý model může být nedostatečný.

MoE však přinášejí i technické výzvy. Jejich trénink vyžaduje pečlivé vyvážení, aby se zajistilo, že všichni experty budou efektivně využiti. Další obavou je paměťová zátěž – zatímco pouze zlomek parametrů je aktivován pro každou inferenci, všechny musí být načteny do paměti. Efektivní distribuce výpočtu napříč GPU nebo TPU není triviální a vedla k vývoji specializovaných rámců, jako je Microsoft’s DeepSpeed a Google’s GShard.

Přes tyto překážky jsou výkonnostní a nákladové výhody dostatečně podstatné, aby MoE byly nyní považovány za kritickou součást velkých AI návrhů. Jakmile se více nástrojů a infrastruktury zrátí, tyto výzvy jsou postupně překonávány.

Jak MoE srovnává s jinými metodami škálování

Tradiční husté škálování zvyšuje velikost modelu a výpočetní zdroje proporcionálně. MoE porušují tuto lineární závislost zvyšováním celkového počtu parametrů bez zvýšení výpočtu na vstup. To umožňuje škálovat modely s biliony parametrů na hardwaru, který byl dříve omezen na desítky miliard.

V porovnání s modelem ensemblu, který také zavádí specializaci, ale vyžaduje několik plných forward passů, MoE jsou mnohem efektivnější. Místo běhu několika modelů paralelně MoE běží pouze jeden – ale s výhodou několika expertních cest.

MoE také doplňují strategie, jako je škálování tréninkových dat (například metoda Chinchilla). Zatímco Chinchilla zdůrazňuje použití více dat s menšími modely, MoE rozšiřují kapacitu modelu, zatímco udržují výpočetní zdroje stabilní, což je činí ideálními pro případy, kdy je výpočetním zdrojem omezujícím faktorem.

Nakonec, zatímco techniky, jako je prořezávání a kvantizace, zmenšují modely po tréninku, MoE zvyšují kapacitu modelu během tréninku. Není to náhrada za kompresi, ale ortogonální nástroj pro efektivní růst.

Společnosti, které vedou MoE revoluci

Technologické giganty

Google pionýrsky vedl většinu dnešního MoE výzkumu. Jejich Switch Transformer a GLaM modely škálovaly na 1,6T a 1,2T parametrů. GLaM odpovídal výkonu GPT-3, zatímco spotřeboval pouze třetinu energie. Google také aplikoval MoE na vidění (V-MoE) a multimodální úkoly (LIMoE), což odpovídá jejich širší vizi pro univerzální AI modely.

Microsoft integroval MoE do produkce prostřednictvím svého Z-Code modelu v Microsoft Translator. Také vyvinul DeepSpeed-MoE, umožňující rychlý trénink a nízkou latenci pro modely s biliony parametrů. Jejich příspěvky zahrnují směrovací algoritmy a knihovnu Tutel pro efektivní MoE výpočet.

Meta prozkoumala MoE v velkých jazykových modelech a systémech doporučení. Jejich 1,1T MoE model ukázal, že může odpovídat hustému modelu kvality, zatímco používá 4× méně výpočetních zdrojů. Zatímco modely LLaMA jsou husté, výzkum Meta do MoE pokračuje informovat širší komunitu.

Amazon podporuje MoE prostřednictvím své platformy SageMaker a interních úsilí. Umožnili trénink modelu Mistral’s Mixtral a mají se domnívat, že používají MoE ve službách, jako je Alexa AI. AWS dokumentace aktivně propaguje MoE pro škálování velkých modelů.

Huawei a BAAI v Číně také vyvinuli rekordní MoE modely, jako je PanGu-Σ (1,085T parametrů). To ukazuje potenciál MoE v jazykových a multimodálních úkolech a zdůrazňuje jejich globální atraktivitu.

Startupy a výzvy

Mistral AI je nejlepším příkladem inovace MoE v otevřeném zdroji. Jejich modely Mixtral 8×7B a 8×22B prokázaly, že MoE mohou překonat husté modely, jako je LLaMA-2 70B, zatímco běží na zlomek nákladů. S více než 600 miliony eur ve financování Mistral vsází velké na řídké architektury.

xAI, založená Elonem Muskem, údajně prozkoumává MoE ve svém modelu Grok. Zatímco detaily jsou omezené, MoE nabízí způsob, jakým startupy, jako je xAI, mohou soutěžit s většími hráči bez potřeby masivních výpočetních zdrojů.

Databricks, prostřednictvím své akvizice MosaicML, vydal DBRX, otevřený MoE model navržen pro efektivitu. Také poskytují infrastrukturu a recepty pro MoE trénink, snižující bariéru pro přijetí.

Další hráči, jako Hugging Face, integrovali MoE podporu do svých knihoven, což usnadňuje vývojářům stavět na těchto modelech. I když sami nevyvíjejí MoE, platformy, které je umožňují, jsou zásadní pro ekosystém.

Závěr

Modely Mixture-of-Experts nejsou pouze trendem – představují fundamentální posun v tom, jak jsou AI systémy budovány a škálovány. Selektivně aktivací pouze částí sítě MoE nabízí sílu masivních modelů bez jejich prohibitivních nákladů. Jakmile se softwarová infrastruktura zrátí a směrovací algoritmy se verbessí, MoE jsou připraveny stát se výchozí architekturou pro vícesloučkové, multijazyčné a multimodální AI.

Bez ohledu na to, zda jste výzkumník, inženýr nebo investor, MoE nabízí pohled do budoucnosti, kde je AI více výkonná, efektivnější a přizpůsobivější než kdykoli předtím.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.