Anslut dig till vÄrt nÀtverk!

AI 101

Uppkomsten av expertmix: Hur glesa AI-modeller formar framtiden för maskininlÀrning

mm
Uppdaterad on

Blandning av experter (MoE) Modeller revolutionerar hur vi skalar AI. Genom att endast aktivera en delmÀngd av en modells komponenter vid varje given tidpunkt erbjuder MoEs en ny metod för att hantera avvÀgningen mellan modellstorlek och berÀkningseffektivitet. Till skillnad frÄn traditionella tÀta modeller som anvÀnder alla parametrar för varje indata, uppnÄr MoEs enorma parameterantal samtidigt som inferens- och utbildningskostnaderna hÄlls hanterbara. Detta genombrott har drivit pÄ en vÄg av forskning och utveckling, vilket har lett till att bÄde teknikjÀttar och startups har investerat kraftigt i MoE-baserade arkitekturer.

Hur expertblandningsmodeller fungerar

I grund och botten bestÄr MoE-modeller av flera specialiserade delnÀtverk som kallas "experter", som övervakas av en grindmekanism som avgör vilka experter som ska hantera varje inmatning. Till exempel kan en mening som matas in i en sprÄkmodell bara engagera tvÄ av Ätta experter, vilket drastiskt minskar berÀkningsarbetsbelastningen.

Detta koncept blev allmÀnt kÀnt med Googles Switch Transformer och GLaM-modeller, dÀr experter ersatte traditionella feedforward-lager i Transformers. Switch Transformer, till exempel, routar tokens till en enda expert per lager, medan GLaM anvÀnder top-2-routing för förbÀttrad prestanda. Dessa designer visade att MoE:er kunde matcha eller övertrÀffa tÀta modeller som GPT-3 samtidigt som de anvÀnde betydligt mindre energi och berÀkningsförmÄga.

Den viktigaste innovationen ligger i villkorlig berÀkning. IstÀllet för att starta hela modellen aktiverar MoE:er bara de mest relevanta delarna, vilket innebÀr att en modell med hundratals miljarder eller till och med biljoner parametrar kan köras med effektiviteten hos en som Àr flera storleksordningar mindre. Detta gör det möjligt för forskare att skala kapaciteten utan linjÀra ökningar i berÀkningen, en prestation som Àr ouppnÄelig med traditionella skalningsmetoder.

Verkliga tillÀmpningar av MoE

MoE-modeller har redan satt sina spĂ„r inom flera omrĂ„den. Googles GLaM och Switch Transformer visade toppmoderna resultat inom sprĂ„kmodellering med lĂ€gre utbildnings- och inferenskostnader. Microsofts Z-Code MoE Ă€r operativt i deras Translator-verktyg och hanterar över 100 sprĂ„k med bĂ€ttre noggrannhet och effektivitet Ă€n tidigare modeller. Det hĂ€r Ă€r inte bara forskningsprojekt – de driver livetjĂ€nster.

Inom datorseende, Googles V-MoE-arkitektur har förbĂ€ttrat klassificeringsnoggrannheten pĂ„ riktmĂ€rken som ImageNet, och LIMoE-modellen har visat stark prestanda i multimodala uppgifter som involverar bĂ„de bilder och text. Experternas förmĂ„ga att specialisera sig – vissa hanterar text, andra bilder – ger ett nytt lager av kapacitet till AI-system.

Rekommendationssystem och plattformar för fleruppgiftsinlÀrning har ocksÄ gynnats av MoEs. Till exempel, YouTubes rekommendationsmotor har anvÀnt en MoE-liknande arkitektur för att hantera mÄl som visningstid och klickfrekvens mer effektivt. Genom att tilldela olika experter olika uppgifter eller anvÀndarbeteenden hjÀlper MoEs till att bygga mer robusta personaliseringsmotorer.

Fördelar och utmaningar

Den största fördelen med MoE:er Ă€r effektivitet. De gör det möjligt att trĂ€na och driftsĂ€tta massiva modeller med betydligt mindre berĂ€kningskraft. Till exempel har Mistral AI:s Mixtral 8×7B-modell 47 miljarder parametrar totalt men aktiverar bara 12.9 miljarder per token, vilket ger den kostnadseffektiviteten hos en 13B-modell samtidigt som den konkurrerar med modeller som GPT-3.5 i kvalitet.

MoEs frÀmjar ocksÄ specialisering. Eftersom olika experter kan lÀra sig distinkta mönster blir den övergripande modellen bÀttre pÄ att hantera olika input. Detta Àr sÀrskilt anvÀndbart i flersprÄkiga, multidomÀn- eller multimodala uppgifter dÀr en kompakt modell som passar alla kan underprestera.

Minnesöverskott (MoEs) medför dock tekniska utmaningar. Att trĂ€na dem krĂ€ver noggrann avvĂ€gning för att sĂ€kerstĂ€lla att alla experter anvĂ€nds effektivt. Minnesöverskott Ă€r ett annat problem – medan endast en brĂ„kdel av parametrarna Ă€r aktiva per inferens, mĂ„ste alla laddas in i minnet. Att effektivt distribuera berĂ€kningar över GPU:er eller TPU:er Ă€r inte trivialt och har lett till utvecklingen av specialiserade ramverk som Microsofts DeepSpeed ​​och Googles GShard.

Trots dessa hinder Àr prestanda- och kostnadsfördelarna tillrÀckligt betydande för att MoEs nu ses som en kritisk komponent i storskalig AI-design. I takt med att fler verktyg och infrastruktur mognar övervinns dessa utmaningar gradvis.

Hur MoE jÀmförs med andra skalningsmetoder

Traditionell tÀt skalning ökar modellstorleken och berÀkningsmÀngden proportionellt. MoE:er bryter denna linjÀritet genom att öka den totala parametren utan att öka berÀkningsmÀngden per ingÄng. Detta gör det möjligt att trÀna modeller med biljoner parametrar pÄ samma hÄrdvara, vilket tidigare var begrÀnsat till tiotals miljarder.

JĂ€mfört med modellsammansĂ€ttning, som ocksĂ„ introducerar specialisering men krĂ€ver flera fullstĂ€ndiga framĂ„tpass, Ă€r MoE:er betydligt effektivare. IstĂ€llet för att köra flera modeller parallellt kör MoE:er bara en – men med fördelen av flera expertvĂ€gar.

MoE:er kompletterar ocksÄ strategier som att skala trÀningsdata (t.ex. Chinchilla-metoden). Medan Chinchilla betonar anvÀndningen av mer data med mindre modeller, utökar MoE:er modellkapaciteten samtidigt som de hÄller berÀkningsförmÄgan stabil, vilket gör dem idealiska för fall dÀr berÀkningsförmÄgan Àr flaskhalsen.

Slutligen, medan tekniker som beskÀrning och kvantisering krymper modeller efter trÀning, ökar MoE:er modellens kapacitet under trÀning. De Àr inte en ersÀttning för kompression utan ett ortogonalt verktyg för effektiv tillvÀxt.

Företagen som leder MoE-revolutionen

Tekniska jÀttar

Google var pionjÀr i mycket av dagens MoE-forskningDeras Switch Transformer- och GLaM-modeller skalades till parametrar pÄ 1.6 T respektive 1.2 T. GLaM matchade GPT-3-prestanda och anvÀnde bara en tredjedel av energin. Google har ocksÄ tillÀmpat MoEs pÄ vision (V-MoE) och multimodala uppgifter (LIMoE), vilket överensstÀmmer med deras bredare Pathways-vision för universella AI-modeller.

Microsoft har integrerade MoE i produktionen genom sin Z-Code-modell i Microsoft TranslatorDe utvecklade Àven DeepSpeed-MoE, vilket möjliggör snabb trÀning och inferens med lÄg latens för biljonparametermodeller. Deras bidrag inkluderar routingalgoritmer och Tutel-biblioteket för effektiv MoE-berÀkning.

meta utforskas MoEs i storskaliga sprĂ„kmodeller och rekommendationssystem. Deras 1.1T MoE-modell visade att den kunde matcha tĂ€t modellkvalitet med 4× mindre berĂ€kningskraft. Medan LLaMA-modeller Ă€r tĂ€ta fortsĂ€tter Metas forskning om MoE att informera den bredare gemenskapen.

Amazon stöder MoEs genom sin SageMaker-plattform och interna insatser. De underlÀttade trÀningen av Mistrals Mixtral-modell och det ryktas att de anvÀnder MoE:er i tjÀnster som Alexa AI. AWS-dokumentationen marknadsför aktivt MoE:er för storskalig modelltrÀning.

huawei och BAAI i Kina har ocksÄ utvecklat rekordbrytande MoE-modeller som PanGu-Σ (1.085T parametrar). Detta visar upp MoE:s potential inom sprÄk och multimodala uppgifter och belyser dess globala attraktionskraft.

Startups och utmanare

Mistral AI Ă€r affischbarnet för MoE-innovation inom öppen kĂ€llkodDeras Mixtral 8×7B- och 8×22B-modeller har bevisat att MoE:er kan övertrĂ€ffa tĂ€ta modeller som LLaMA-2 70B samtidigt som de körs till en brĂ„kdel av kostnaden. Med över 600 miljoner euro i finansiering satsar Mistral stort pĂ„ glesa arkitekturer.

xAI, grundad av Elon Musk, Ă€r enligt uppgift utforskar MoEs i sin Grok-modell. Även om detaljerna Ă€r begrĂ€nsade, erbjuder MoEs ett sĂ€tt för startups som xAI att konkurrera med större aktörer utan att behöva massiv berĂ€kningskraft.

Databrickorhar, via förvÀrvet av MosaicML, slÀppt DBRX, en öppen MoE-modell utformad för effektivitet. De tillhandahÄller ocksÄ infrastruktur och recept för MoE-utbildning, vilket sÀnker barriÀren för implementering.

Andra aktörer som Hugging Face har integrerat stöd för MoE i sina bibliotek, vilket gör det enklare för utvecklare att bygga vidare pĂ„ dessa modeller. Även om de inte sjĂ€lva bygger MoE:er Ă€r plattformar som möjliggör dem avgörande för ekosystemet.

Slutsats

Expertmixmodeller Ă€r inte bara en trend – de representerar ett fundamentalt skifte i hur AI-system byggs och skalas. Genom att selektivt aktivera endast delar av ett nĂ€tverk erbjuder expertmixer kraften i massiva modeller utan deras oöverkomliga kostnad. I takt med att programvaruinfrastrukturen kommer ikapp och routingalgoritmer förbĂ€ttras Ă€r expertmixer redo att bli standardarkitekturen för AI med flera domĂ€ner, flersprĂ„kig och multimodal.

Oavsett om du Àr forskare, ingenjör eller investerare, erbjuder MoEs en glimt av en framtid dÀr AI Àr kraftfullare, effektivare och mer anpassningsbar Àn nÄgonsin tidigare.

Antoine Àr en visionÀr ledare och grundande partner till Unite.AI, driven av en orubblig passion för att forma och frÀmja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika störande för samhÀllet som elektricitet, och fÄngas ofta pÄ att tjata om potentialen hos störande teknologier och AGI.

Som en futurist, Àr han dedikerad till att utforska hur dessa innovationer kommer att forma vÄr vÀrld. Dessutom Àr han grundare av Securities.io, en plattform fokuserad pÄ att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.