Kunstig intelligens
Oppsvingelsen av Mixture-of-Experts for Effektive Store Språkmodeller

By
Aayush Mittal Mittal
I verden av naturlig språkbehandling (NLP) har jakten på å bygge større og mer kapable språkmodeller vært en drivende kraft bak mange nylige fremgang. Imidlertid, når disse modellene vokser i størrelse, blir de komputasjonelle kravene for trening og inferens mer og mer krevende, og presser mot grensene for tilgjengelige maskinressurser.
Enter Mixture-of-Experts (MoE), en teknikk som lover å lettet denne komputasjonelle byrden samtidig som den muliggjør trening av større og mer powerful språkmodeller. Under, skal vi diskutere MoE, utforske dens opphav, indre mekanismer og dens anvendelser i transformer-baserte språkmodeller.
Opphavet til Mixture-of-Experts
Begrepet Mixture-of-Experts (MoE) kan spores tilbake til begynnelsen av 1990-tallet, da forskere utforsket ideen om betinget beregning, der deler av et neuralt nettverk selektivt aktiveres basert på inndata. En av de pionerende arbeidene i dette feltet var “Adaptive Mixture of Local Experts“-artikkelen av Jacobs et al. i 1991, som foreslo et overvåket læringssystem for et ensemble av neurale nettverk, hver spesialisert i en annen region av inndatarommet.
Kjerneideen bak MoE er å ha flere “ekspert”-nettverk, hver ansvarlig for å prosessere en undermengde av inndata. En porteringsmekanisme, vanligvis et neuralt nettverk selv, bestemmer hvilke ekspert(er) som skal prosessere en gitt inndata. Dette tilnærmingen tillater modellen å allokerer sine komputasjonelle ressurser mer effektivt ved å aktivere bare de relevante ekspertene for hver inndata, i stedet for å anvende full modellkapasitet for hver inndata.
Over årene har forskere utforsket og utvidet ideen om betinget beregning, noe som har ført til utviklinger som hierarkiske MoE, lav-rang-approksimasjoner for betinget beregning og teknikker for å estimere gradienter gjennom stokastiske nerver og hard-terskel-aktiveringsfunksjoner.
Mixture-of-Experts i Transformers
Selv om ideen om MoE har vært rundt i årevis, er dens anvendelse i transformer-baserte språkmodeller relativt nylig. Transformers, som har blitt standarden for state-of-the-art språkmodeller, består av flere lag, hver inneholdende en selv-oppmerksomhetsmekanisme og et feed-forward neuralt nettverk (FFN).
Nøkkelinnovasjonen i å anvende MoE til transformers er å erstatte de tette FFN-lagene med sparse MoE-lag, hver bestående av flere ekspert-FFN og en porteringsmekanisme. Porteringsmekanismen bestemmer hvilke ekspert(er) som skal prosessere hver inndata-token, og muliggjør modellen å selektivt aktivere bare en undermengde av ekspertene for en gitt inndata-sekvens.
En av de tidlige arbeidene som demonstrerte potensialet for MoE i transformers var “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”-artikkelen av Shazeer et al. i 2017. Dette arbeidet innførte begrepet om et sparsely-gated MoE-lag, som anvendte en porteringsmekanisme som la til sparsitet og støy til ekspertvalgsprosessen, og sikret at bare en undermengde av ekspertene ble aktivert for hver inndata.
Siden da har flere andre arbeider videreutviklet anvendelsen av MoE til transformers, og har adressert utfordringer som trening-instabilitet, lastbalansering og effektiv inferens. Notable eksempler inkluderer Switch Transformer (Fedus et al., 2021), ST-MoE (Zoph et al., 2022) og GLaM (Du et al., 2022).
Fordelene med Mixture-of-Experts for Språkmodeller
Den primære fordelen med å anvende MoE i språkmodeller er evnen til å skalerer opp modellstørrelsen samtidig som den holder en relativt konstant komputasjonell kostnad under inferens. Ved å selektivt aktivere bare en undermengde av ekspertene for hver inndata-token, kan MoE-modeller oppnå den uttrykksfulle kraften til mye større tette modeller samtidig som de krever betydelig mindre komputasjon.
For eksempel, betrakt en språkmodell med et tett FFN-lag på 7 milliarder parametre. Hvis vi erstatter dette laget med et MoE-lag bestående av åtte ekspertene, hver med 7 milliarder parametre, øker det totale antallet parametre til 56 milliarder. Imidlertid, under inferens, hvis vi bare aktiverer to ekspertene per token, er den komputasjonelle kostnaden ekvivalent til en 14 milliarder parameter tett modell, siden det beregner to 7 milliarder parameter matrisemultiplikasjoner.
Denne komputasjonelle effisiensen under inferens er spesielt verdifull i distribusjonsscenarioer hvor ressurser er begrensede, som mobilenheter eller edge-computing-miljøer. I tillegg kan de reduserte komputasjonelle kravene under trening føre til betydelige energibesparelser og en lavere karbonavtrykk, i tråd med den økende fokuset på bærekraftige AI-praksiser.
Utfordringer og Overveielser
Selv om MoE-modeller tilbyr overbevisende fordeler, kommer deres adopsjon og distribusjon også med flere utfordringer og overveielser:
- Trening-instabilitet: MoE-modeller er kjent for å være mer utsatt for trening-instabilitet sammenlignet med deres tette motparter. Dette problemet oppstår fra den sparse og betingede naturen til ekspertaktiveringene, som kan føre til utfordringer i gradientpropagasjon og konvergens. Teknikker som router z-loss (Zoph et al., 2022) har blitt foreslått for å mildne disse instabilitetene, men videre forskning er fortsatt nødvendig.
- Finjustering og Overfitting: MoE-modeller har en tendens til å overfitte mer lett under finjustering, spesielt når nedstrømsoppgaven har et relativt lite datasett. Dette atferd er tilskrevet den økte kapasiteten og sparsiteten til MoE-modeller, som kan føre til overspesialisering på treningdata. Omsorgsfulle regularisering og finjusteringstrategier er nødvendige for å mildne dette problemet.
- Minnekrav: Selv om MoE-modeller kan redusere komputasjonelle kostnader under inferens, har de ofte høyere minnekrav sammenlignet med tette modeller av samme størrelse. Dette skyldes at alle ekspertvektene må lastes inn i minnet, selv om bare en undermengde aktiveres for hver inndata. Minnebegrensninger kan begrense skalerbarheten til MoE-modeller på ressurssvake enheter.
- Lastbalansering: For å oppnå optimal komputasjonell effisiens, er det avgjørende å balansere lasten over ekspertene, og sikre at ingen enkelt ekspert er overbelastet mens andre forblir underutnyttet. Denne lastbalanseringen oppnås vanligvis gjennom hjelpeforluster under trening og omsorgsfulle justering av kapasitetsfaktoren, som bestemmer det maksimale antallet token som kan tilordnes hver ekspert.
- Kommunikasjons-overhodet: I distribuert trening og inferens-scenarier kan MoE-modeller introdusere ekstra kommunikasjons-overhodet på grunn av behovet for å utveksle aktiverings- og gradientinformasjon over ekspertene som bor på forskjellige enheter eller akseleratorer. Effektive kommunikasjonsstrategier og maskin- og programvare-design er essensielle for å mildne dette overhodet.
Til tross for disse utfordringene, har det potensielle fordelene til MoE-modeller i å muliggjøre større og mer kapable språkmodeller spurt betydelige forskningsinnsats for å adressere og mildne disse problemene.
Eksempel: Mixtral 8x7B og GLaM
For å illustrere den praktiske anvendelsen av MoE i språkmodeller, la oss betrakte to notable eksempler: Mixtral 8x7B og GLaM.
Mixtral 8x7B er en MoE-variant av Mistral-språkmodellen, utviklet av Anthropic. Den består av åtte ekspertene, hver med 7 milliarder parametre, noe som resulterer i en total på 56 milliarder parametre. Imidlertid, under inferens, aktiveres bare to ekspertene per token, og den komputasjonelle kostnaden reduseres til å være ekvivalent til en 14 milliarder parameter tett modell.
Mixtral 8x7B har demonstrert imponerende ytelse, og overgår 70 milliarder parameter Llama-modellen samtidig som den tilbyr mye raskere inferenstider. En instruksjons-justert versjon av Mixtral 8x7B, kalt Mixtral-8x7B-Instruct-v0.1, har også blitt lansert, og ytterligere forbedret dens evner i å følge naturlige språkinstruksjoner.
Et annet verdig eksempel er GLaM (Google Language Model), en stor MoE-modell utviklet av Google. GLaM anvender en decoder-only transformer-arkitektur og ble trent på et massivt 1,6 billion token datasett. Modellen oppnår imponerende ytelse på few-shot og one-shot-evalueringer, og matcher kvaliteten til GPT-3 samtidig som den bruker bare en tredjedel av energien som trengs for å trene GPT-3.
GLaMs suksess kan tilskrives dens effektive MoE-arkitektur, som muliggjorde trening av en modell med et enormt antall parametre samtidig som den holdt en rimelig komputasjonell kostnad. Modellen demonstrerte også potensialet for MoE-modeller til å være mer energi-effektive og miljøvennlige sammenlignet med deres tette motparter.
Grok-1-Arkitekturen
Grok-1 er en transformer-basert MoE-modell med en unik arkitektur designet for å maksimere effisiens og ytelse. La oss dykke inn i de viktigste spesifikasjonene:
- Parametre: Med en imponerende 314 milliarder parametre, er Grok-1 den største åpne LLM til dato. Imidlertid, takket være MoE-arkitekturen, er bare 25% av vektene (cirka 86 milliarder parametre) aktive på et gitt tidspunkt, og forbedrer prosesseringskapasiteten.
- Arkitektur: Grok-1 anvender en Mixture-of-8-Experts-arkitektur, hvor hver token prosesseres av to ekspertene under inferens.
- Lag: Modellen består av 64 transformer-lag, hver inneholdende multihead-oppmerksomhet og tette blokker.
- Tokenisering: Grok-1 anvender en SentencePiece-tokenisator med en ordforråd på 131 072 token.
- Emnisjon og posisjonskoding: Modellen har 6 144-dimensjonale emnisjoner og anvender rotary posisjonskoding, som muliggjør en mer dynamisk tolkning av data sammenlignet med tradisjonelle faste posisjonskodinger.
- Oppmerksomhet: Grok-1 anvender 48 oppmerksomhets-hoder for spørsmål og 8 oppmerksomhets-hoder for nøkler og verdier, hver med en størrelse på 128.
- Kontekstlengde: Modellen kan prosessere sekvenser opp til 8 192 token i lengde, og anvender bfloat16-presisjon for effektiv beregning.
Ytelse og Implementeringsdetaljer
Grok-1 har demonstrert imponerende ytelse, og overgår LLaMa 2 70B og Mixtral 8x7B med en MMLU-poeng på 73%, og viser dens effisiens og nøyaktighet over flere tester.
Imidlertid er det viktig å merke seg at Grok-1 krever betydelige GPU-resurser på grunn av sin enorme størrelse. Den nåværende implementeringen i den åpne kildekoden fokuserer på å validere modellens riktighet og anvender en ineffektiv MoE-lag-implementering for å unngå behovet for tilpassede kjerner.
Likevel støtter modellen aktiverings-sharding og 8-bit-kvantifisering, som kan optimalisere ytelse og redusere minnekrav.
I en bemerkelsesverdig bevegelse, har xAI lansert Grok-1 under Apache 2.0-lisensen, og gjort vektene og arkitekturen tilgjengelig for den globale samfunnet for bruk og bidrag.
Den åpne kildekoden inkluderer en JAX-eksempelkode-repository som demonstrerer hvordan man kan laste og kjøre Grok-1-modellen. Brukere kan laste ned checkpoint-vektene ved hjelp av en torrent-klient eller direkte gjennom HuggingFace Hub, og lett tilgang til denne banebrytende modellen.
Fremtiden for Mixture-of-Experts i Språkmodeller
Ettersom etterspørselen etter større og mer kapable språkmodeller fortsetter å vokse, er det å vente at adopsjonen av MoE-teknikker vil øke ytterligere. Pågående forskningsinnsatser fokuserer på å adressere de gjenværende utfordringene, som å forbedre trening-stabilitet, mildne overfitting under finjustering og optimalisere minne- og kommunikasjonskrav.
En lovende retning er utforskningen av hierarkiske MoE-arkitekturer, hvor hver ekspert selv består av flere under-ekspertene. Dette tilnærmingen kan potensielt muliggjøre enda større skalerbarhet og komputasjonell effisiens samtidig som den opprettholder den uttrykksfulle kraften til store modeller.
I tillegg er utviklingen av maskin- og programvare-systemer som er optimalisert for MoE-modeller et aktivt forskningsområde. Spesialiserte akseleratorer og distribuert trening-rammeverk designet for å håndtere de sparse og betingede beregningsmønstrene til MoE-modeller kan ytterligere forbedre deres ytelse og skalerbarhet.
Fremover kan integreringen av MoE-teknikker med andre fremgang i språkmodellering, som sparse oppmerksomhets-mekanismer, effektive tokenisering-strategier og multi-modale representasjoner, føre til enda mer powerful og fleksible språkmodeller som kan håndtere en rekke oppgaver.
Konklusjon
Mixture-of-Experts-teknikken har oppstått som et kraftfullt verktøy i jakten på større og mer kapable språkmodeller. Ved å selektivt aktivere ekspertene basert på inndata, tilbyr MoE-modeller et løfte om å lettet de komputasjonelle utfordringene forbundet med å skalerer opp tette modeller. Selv om det fortsatt er utfordringer å overvinne, som trening-instabilitet, overfitting og minnekrav, har det potensielle fordelene til MoE-modeller i terms of komputasjonell effisiens, skalerbarhet og miljøvennligheit gjort dem til et spennende forskningsområde.
Ettersom feltet naturlig språkbehandling fortsetter å presse grensene for hva som er mulig, er det å vente at adopsjonen av MoE-teknikker vil spille en avgjørende rolle i å muliggjøre den neste generasjonen av språkmodeller. Ved å kombinere MoE med andre fremgang i modell-arkitektur, treningsteknikker og maskin- og programvare-optimalisering, kan vi se frem til enda mer powerful og fleksible språkmodeller som kan virkelig forstå og kommunisere med mennesker på en naturlig og ubesværet måte.
Jeg har brukt de siste fem årene til å dykke ned i den fasiniserende verden av Machine Learning og Deep Learning. Min lidenskap og ekspertise har ført meg til å bidra til over 50 forskjellige prosjekter innen programvareutvikling, med særlig fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot Natural Language Processing, et felt jeg er ivrig etter å utforske videre.
You may like
-


Hvorfor de fleste moderne apper vil være ubrukelige i AI-alderen
-


Mistral AI sikrer 830 millioner dollar i gjeld for å bygge Paris datacenter
-


Gemini 3.1 Pro Hits Record Reasoning Gains
-


Menneskelig kode fra 2020 knuste vibe-kodede agenter i agensitest
-
Google presenterer Gemini 3 Pro med rekordbruddende ytelse
-


MoE-revolusjonen: Hvordan avansert ruting og spesialisering transformerer LLM-er

