AI 101

Mixture-of-Experts-modellernes opkomst: Hvordan sparse AI-modeller former fremtiden for maskinlæring

mm

Mixture-of-Experts (MoE)-modeller revolutionerer måden, vi skalerer AI på. Ved at aktivere kun en undermængde af modellens komponenter på et givet tidspunkt, tilbyder MoE’er en ny tilgang til at håndtere trade-off’en mellem modellstørrelse og beregningseffektivitet. I modsætning til traditionelle tætte modeller, der bruger alle parametre til hver input, opnår MoE’er enorme parameterantal samtidig med, at de holder inferens- og træningsomkostninger på et acceptable niveau. Dette gennembrud har ført til en bølge af forskning og udvikling, der har fået både tech-giganter og startups til at investere kraftigt i MoE-baserede arkitekturer.

How Mixture-of-Experts-modeller fungerer

I deres kerne består MoE-modeller af multiple specialiserede undernetværk kaldet “eksperter”, der overvåges af en gating-mekanisme, der beslutter, hvilke eksperter der skal håndtere hver input. For eksempel kan en sætning, der indføres i et sprogmodel, kun engagere to af otte eksperter, hvilket dramatisk reducerer den beregningsmæssige arbejdsbyrde.

Dette koncept blev ført ind i mainstream med Googles Switch Transformer og GLaM-modeller, hvor eksperter erstattede traditionelle feed-forward-lag i Transformers. Switch Transformer routerer for eksempel tokens til en enkelt ekspert per lag, mens GLaM bruger top-2-routing for forbedret performance. Disse design demonstrerede, at MoE’er kunne matche eller overgå tætte modeller som GPT-3, mens de brugte betydeligt mindre energi og beregningskraft.

Nøgleinnovationen ligger i betinget beregning. I stedet for at aktivere hele modellen, aktiverer MoE’er kun de mest relevante dele, hvilket betyder, at en model med hundredvis af milliarder eller endda billioner af parametre kan køre med samme effektivitet som en, der er flere størrelsesordener mindre. Dette ermögiller forskere at skala kapacitet uden lineære øgninger i beregning, en bedrift der ikke kan opnås med traditionelle skaleringsmetoder.

Reale anvendelser af MoE

MoE-modeller har allerede gjort deres indtryk på flere domæner. Googles GLaM og Switch Transformer viste state-of-the-art-resultater i sprogmodelering med lavere trænings- og inferensomkostninger. Microsofts Z-Code MoE er operativ i deres Translator-værktøj, der håndterer over 100 sprog med bedre nøjagtighed og effektivitet end tidligere modeller. Disse er ikke kun forskningsprojekter – de driver live-tjenester.

I computerseende har Googles V-MoE-arkitektur forbedret klassifikationsnøjagtighed på benchmarks som ImageNet, og LIMoE-modellen har demonstreret stærk performance i multimodale opgaver, der involverer både billeder og tekst. Evnen af eksperter til at specialisere sig – nogle håndterer tekst, andre billeder – tilføjer en ny lag af funktioner til AI-systemer.

Anbefalingsystemer og multi-task-læringsplatforme har også haft gavn af MoE’er. For eksempel har YouTubes anbefalingsmotor anvendt en MoE-lignende arkitektur til at håndtere mål som visningstid og klik-gennem-raten mere effektivt. Ved at tildele forskellige eksperter til forskellige opgaver eller brugeradfærd, hjælper MoE’er med at bygge mere robuste personliggørelsesmotorer.

Fordele og udfordringer

Det primære fordel af MoE’er er effektivitet. De tillader massive modeller at blive trænet og deployet med betydeligt mindre beregningskraft. For eksempel har Mistral AI’s Mixtral 8×7B-model 47B parametre i alt, men aktiverer kun 12,9B per token, hvilket giver det samme omkostningsniveau som en 13B-model, mens det konkurrerer med modeller som GPT-3 i kvalitet.

MoE’er fremmer også specialisering. Fordi forskellige eksperter kan lære forskellige mønstre, bliver den samlede model bedre til at håndtere diverse input. Dette er særligt nyttigt i multilingvale, multi-domæne eller multimodale opgaver, hvor en tæt model måske underpræsterer.

MoE’er kommer dog med ingeniør-udfordringer. Træning af dem kræver omhyggelig afbalancering for at sikre, at alle eksperter bruges effektivt. Hukommelsesoverhead er en anden bekymring – selvom kun en brøkdel af parametrene er aktive per inferens, skal alle parametre være indlæst i hukommelsen. Effektiv distribution af beregning over GPU’er eller TPU’er er ikke trivialt og har ført til udviklingen af specialiserede framework som Microsofts DeepSpeed og Googles GShard.

Trods disse hindringer er performances- og omkostningsfordelene så store, at MoE’er nu ses som en kritisk komponent i stor-skala AI-design. Da flere værktøjer og infrastruktur modnes, overvindes disse udfordringer gradvist.

How MoE sammenlignes med andre skaleringsmetoder

Traditionel tæt skaleringsmetode øger modellens størrelse og beregningskraft proportionalt. MoE’er bryder denne lineære sammenhæng ved at øge det totale antal parametre uden at øge beregning per input. Dette ermögiller modeller med billioner af parametre at blive trænet på samme hardware, der tidligere var begrænset til titusinder af millioner.

I sammenligning med model-ensembling, der også introducerer specialisering, men kræver multiple fulde forward-pass, er MoE’er langt mere effektive. I stedet for at køre flere modeller i parallel, kører MoE’er kun en – men med fordelene af multiple ekspert-veje.

MoE’er supplerer også strategier som skalerings-træningsdata (f.eks. Chinchilla-metoden). Mens Chinchilla fremhæver brugen af mere data med mindre modeller, udvider MoE’er modellens kapacitet, mens de holder beregning stabilt, hvilket gør dem ideelle til tilfælde, hvor beregning er flaskenhalen.

Til sidst, mens tekniker som pruning og kvantificering reducerer modeller post-træning, øger MoE’er modellens kapacitet under træning. De er ikke en erstatning for kompression, men et ortogonalt værktøj til effektiv vækst.

De virksomheder, der leder MoE-revolutionen

Tech-giganter

Google pionerede meget af dagens MoE-forskning. Deres Switch Transformer og GLaM-modeller skalaerede til 1,6T og 1,2T parametre henholdsvis. GLaM matchede GPT-3’s performance, mens det brugte kun en tredjedel af energien. Google har også anvendt MoE’er i vision (V-MoE) og multimodale opgaver (LIMoE), hvilket er i overensstemmelse med deres bredere Pathways-vision for universelle AI-modeller.

Microsoft har integreret MoE i produktion gennem deres Z-Code-model i Microsoft Translator. De har også udviklet DeepSpeed-MoE, der ermögiller hurtig træning og lav-latens-inferens for trillion-parameter-modeller. Deres bidrag omfatter routing-algoritmer og Tutel-biblioteket til effektiv MoE-beregning.

Meta har udforsket MoE’er i stor-skala sprogmodeller og anbefalingsystemer. Deres 1,1T MoE-model viste, at den kunne matche tæt modellens kvalitet, mens den brugte 4 gange mindre beregning. Selvom LLaMA-modellerne er tætte, informerer Metas forskning i MoE den bredere fællesskab.

Amazon støtter MoE’er gennem deres SageMaker-platform og interne bestræbelser. De har faciliteret træningen af Mistral’s Mixtral-model og rygtes at bruge MoE’er i tjenester som Alexa AI. AWS-dokumentation fremhæver aktivt MoE’er til stor-skala modelltræning.

Huawei og BAAI i Kina har også udviklet rekord-brydende MoE-modeller som PanGu-Σ (1.085T parametre). Dette viser MoE’ers potentiale i sprog- og multimodale opgaver og fremhæver dens globale appel.

Startups og udfordrere

Mistral AI er det førende eksempel på MoE-innovation i open-source. Deres Mixtral 8×7B og 8×22B-modeller har bevist, at MoE’er kan overgå tætte modeller som LLaMA-2 70B, mens de kører med en brøkdel af omkostningerne. Med over €600M i funding satser Mistral stort på sparse-arkitekturer.

xAI, grundlagt af Elon Musk, undersøger angiveligt MoE’er i deres Grok-model. Selvom detaljer er begrænsede, tilbyder MoE’er en måde for startups som xAI at konkurrere med større spillere uden at skulle have massive beregningsressourcer.

Databricks, via deres MosaicML-erhvervelse, har udgivet DBRX, en open MoE-model designet til effektivitet. De tilbyder også infrastruktur og recepter til MoE-træning, hvilket sænker barrieren for adoption.

Andre spillere som Hugging Face har integreret MoE-understøttelse i deres biblioteker, hvilket gør det lettere for udviklere at bygge på disse modeller. Selvom de ikke selv bygger MoE’er, er platforme, der ermögiller dem, afgørende for økosystemet.

Konklusion

Mixture-of-Experts-modeller er ikke kun en trend – de repræsenterer en fundamental ændring i, hvordan AI-systemer bygges og skaleres. Ved at aktivere kun dele af et netværk, tilbyder MoE’er kraften af massive modeller uden deres prohibitive omkostninger. Da software-infrastruktur og routing-algoritmer forbedres, er MoE’er på vej til at blive den standard-arkitektur for multi-domæne, multilinguale og multimodale AI.

Uanset om du er forsker, ingeniør eller investor, tilbyder MoE’er et glimt af en fremtid, hvor AI er mere kraftfuld, effektiv og tilpasningsdygtig end nogensinde før.

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.