Kunstig intelligens

Fremkomsten af blandinger af eksperter til effektive store sprogmodeller

Opdateret on April 23, 2024

I verden af naturlig sprogbehandling (NLP) har jagten på at bygge større og mere dygtige sprogmodeller været en drivkraft bag mange nyere fremskridt. Men efterhånden som disse modeller vokser i størrelse, bliver de beregningsmæssige krav til træning og inferens stadig mere krævende, hvilket skubber mod grænserne for tilgængelige hardwareressourcer.

Gå ind i Mixture-of-Experts (MoE), en teknik, der lover at lette denne beregningsmæssige byrde, samtidig med at den muliggør træning af større og mere kraftfulde sprogmodeller. Nedenfor vil vi diskutere MoE, udforske dets oprindelse, indre funktioner og dets anvendelser i transformatorbaserede sprogmodeller.

Oprindelsen af blanding af eksperter

Begrebet Mixture-of-Experts (MoE) kan spores tilbage til begyndelsen af 1990'erne, da forskere udforskede ideen om betinget beregning, hvor dele af et neuralt netværk aktiveres selektivt baseret på inputdata. Et af pionerarbejdet på dette område var "Adaptiv blanding af lokale eksperter” papir af Jacobs et al. i 1991, som foreslog en overvåget læringsramme for et ensemble af neurale netværk, der hver især specialiserede sig i en anden region af inputrummet.

Kerneideen bag MoE er at have flere "ekspert" netværk, der hver især er ansvarlige for at behandle en delmængde af inputdataene. En gating-mekanisme, typisk et neuralt netværk selv, bestemmer, hvilke eksperter der skal behandle et givet input. Denne tilgang giver modellen mulighed for at allokere sine beregningsressourcer mere effektivt ved kun at aktivere de relevante eksperter for hvert input, i stedet for at anvende den fulde modelkapacitet for hvert input.

I årenes løb har forskellige forskere udforsket og udvidet ideen om betinget beregning, hvilket førte til udviklinger såsom hierarkiske MoE'er, lav-rangs tilnærmelser til betinget beregning og teknikker til at estimere gradienter gennem stokastiske neuroner og hårdtærskelaktiveringsfunktioner.

Blanding af eksperter i transformere

Blanding af eksperter

Mens ideen om MoE har eksisteret i årtier, er dets anvendelse på transformer-baserede sprogmodeller relativt ny. Transformere, som er blevet de facto-standarden for avancerede sprogmodeller, er sammensat af flere lag, der hver indeholder en selvopmærksomhedsmekanisme og et feed-forward neuralt netværk (FFN).

Den vigtigste innovation i at anvende MoE til transformere er at erstatte de tætte FFN-lag med sparsomme MoE-lag, der hver består af flere ekspert-FFN'er og en gating-mekanisme. Gatemekanismen bestemmer, hvilke eksperter der skal behandle hvert inputtoken, hvilket gør det muligt for modellen selektivt kun at aktivere en undergruppe af eksperter for en given inputsekvens.

Et af de tidlige værker, der demonstrerede potentialet af MoE i transformere, var papiret "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" af Shazeer et al. i 2017. Dette arbejde introducerede konceptet med et sparsely-gatet MoE-lag, som brugte en gating-mekanisme, der tilføjede sparsitet og støj til ekspertudvælgelsesprocessen, hvilket sikrede, at kun en undergruppe af eksperter blev aktiveret for hvert input.

Siden da har adskillige andre værker fremmet anvendelsen af MoE på transformere yderligere, idet de adresserer udfordringer som træningsustabilitet, belastningsbalancering og effektiv inferens. Bemærkelsesværdige eksempler inkluderer Switch Transformer (Fedus et al., 2021), ST-MoE (Zoph et al., 2022), og GLAM (Du et al., 2022).

Fordele ved blanding af eksperter til sprogmodeller

Den primære fordel ved at anvende MoE i sprogmodeller er evnen til at opskalere modelstørrelsen og samtidig opretholde en relativt konstant beregningsomkostning under inferens. Ved selektivt at aktivere kun en undergruppe af eksperter for hvert inputtoken, kan MoE-modeller opnå udtrykskraften fra meget større tætte modeller, mens de kræver betydeligt mindre beregning.

Overvej for eksempel en sprogmodel med et tæt FFN-lag på 7 milliarder parametre. Hvis vi erstatter dette lag med et MoE-lag bestående af otte eksperter, hver med 7 milliarder parametre, stiger det samlede antal parametre til 56 milliarder. Men under inferens, hvis vi kun aktiverer to eksperter pr. token, svarer beregningsomkostningerne til en 14 milliarder parameter tæt model, da den beregner to 7 milliarder parameter matrix multiplikationer.

Denne beregningseffektivitet under inferens er især værdifuld i implementeringsscenarier, hvor ressourcerne er begrænsede, såsom mobile enheder eller edge computing-miljøer. Derudover kan de reducerede beregningsmæssige krav under træning føre til betydelige energibesparelser og et lavere CO2-fodaftryk, hvilket stemmer overens med den voksende vægt på bæredygtig AI-praksis.

Udfordringer og overvejelser

Mens MoE-modeller tilbyder overbevisende fordele, kommer deres indførelse og implementering også med flere udfordringer og overvejelser:

Trænings ustabilitet: MoE-modeller er kendt for at være mere tilbøjelige til træningsustabilitet sammenlignet med deres tætte modstykker. Dette problem opstår på grund af den sparsomme og betingede karakter af ekspertaktiveringerne, hvilket kan føre til udfordringer i gradientudbredelse og konvergens. Teknikker såsom routeren z-loss (Zoph et al., 2022) er blevet foreslået for at afbøde disse ustabiliteter, men yderligere forskning er stadig nødvendig.
Finjustering og overpasning: MoE-modeller har en tendens til at overfitte lettere under finjustering, især når downstream-opgaven har et relativt lille datasæt. Denne adfærd tilskrives den øgede kapacitet og sparsomhed af MoE-modeller, hvilket kan føre til overspecialisering af træningsdataene. Der kræves omhyggelige regulariserings- og finjusteringsstrategier for at afhjælpe dette problem.
Hukommelseskrav: Mens MoE-modeller kan reducere beregningsomkostninger under inferens, har de ofte højere hukommelseskrav sammenlignet med tætte modeller af lignende størrelse. Dette skyldes, at alle ekspertvægte skal indlæses i hukommelsen, selvom kun et undersæt er aktiveret for hver indgang. Hukommelsesbegrænsninger kan begrænse skalerbarheden af MoE-modeller på ressourcebegrænsede enheder.
Load Balancing: For at opnå optimal beregningseffektivitet er det afgørende at balancere belastningen på tværs af eksperter og sikre, at ingen enkelt ekspert bliver overbelastet, mens andre forbliver underudnyttede. Denne belastningsbalancering opnås typisk gennem hjælpetab under træning og omhyggelig justering af kapacitetsfaktoren, som bestemmer det maksimale antal tokens, der kan tildeles hver ekspert.
Kommunikation overhead: I distribuerede trænings- og slutningsscenarier kan MoE-modeller introducere yderligere kommunikationsoverhead på grund af behovet for at udveksle aktiverings- og gradientinformation på tværs af eksperter, der bor på forskellige enheder eller acceleratorer. Effektive kommunikationsstrategier og hardwarebevidst modeldesign er afgørende for at afbøde denne overhead.

På trods af disse udfordringer har de potentielle fordele ved MoE-modeller ved at muliggøre større og mere dygtige sprogmodeller ansporet en betydelig forskningsindsats for at adressere og afbøde disse problemer.

Eksempel: Mixtral 8x7B og GLaM

For at illustrere den praktiske anvendelse af MoE i sprogmodeller, lad os overveje to bemærkelsesværdige eksempler: Mixtral 8x7B og GLaM.

Mixtral 8x7B er en MoE-variant af Mistral sprogmodel, udviklet af Anthropic. Den består af otte eksperter, hver med 7 milliarder parametre, hvilket resulterer i i alt 56 milliarder parametre. Men under inferens aktiveres kun to eksperter pr. token, hvilket effektivt reducerer beregningsomkostningerne til en 14 milliarder parametertæt model.

Mixtral 8x7B har demonstreret en imponerende ydeevne og overgået Llama-modellen med 70 milliarder parametre, mens den tilbyder meget hurtigere inferenstider. En instruktionsjusteret version af Mixtral 8x7B, kaldet Mixtral-8x7B-Instruct-v0.1, er også blevet frigivet, hvilket yderligere forbedrer dens muligheder for at følge instruktionerne i naturligt sprog.

Et andet bemærkelsesværdigt eksempel er GLaM (Google Language Model), en storstilet MoE-model udviklet af Google. GLaM anvender en transformerarkitektur, der kun er dekoder, og blev trænet på et massivt 1.6 billioner token-datasæt. Modellen opnår en imponerende ydeevne på få-skuds- og one-shot-evalueringer, der matcher kvaliteten af GPT-3, mens den kun bruger en tredjedel af den energi, der kræves for at træne GPT-3.

GLaM's succes kan tilskrives dens effektive MoE-arkitektur, som gjorde det muligt at træne en model med et stort antal parametre, samtidig med at rimelige beregningskrav blev opretholdt. Modellen demonstrerede også MoE-modellernes potentiale til at være mere energieffektive og miljømæssigt bæredygtige sammenlignet med deres tætte modstykker.

Grok-1-arkitekturen

GROK BLANDING AF EKSPERT

Grok-1 er en transformer-baseret MoE-model med en unik arkitektur designet til at maksimere effektivitet og ydeevne. Lad os dykke ned i de vigtigste specifikationer:

parametre: Med svimlende 314 milliarder parametre er Grok-1 den største åbne LLM til dato. Men takket være MoE-arkitekturen er kun 25% af vægtene (ca. 86 milliarder parametre) aktive på et givet tidspunkt, hvilket forbedrer behandlingsmulighederne.
arkitektur: Grok-1 anvender en Mixture-of-8-Experts-arkitektur, hvor hvert token bliver behandlet af to eksperter under inferens.
Lag: Modellen består af 64 transformerlag, der hver indeholder multihead opmærksomhed og tætte blokke.
tokenization: Grok-1 bruger en SentencePiece-tokenizer med en ordforrådsstørrelse på 131,072 tokens.
Indlejringer og Positional Encoding: Modellen har 6,144-dimensionelle indlejringer og anvender roterende positionsindlejringer, hvilket muliggør en mere dynamisk fortolkning af data sammenlignet med traditionelle faste positionsindkodninger.
Opmærksomhed: Grok-1 bruger 48 opmærksomhedshoveder til forespørgsler og 8 opmærksomhedshoveder til nøgler og værdier, hver med en størrelse på 128.
Kontekstlængde: Modellen kan behandle sekvenser op til 8,192 tokens i længden, ved at bruge bfloat16-præcision til effektiv beregning.

Ydeevne og implementeringsdetaljer

Grok-1 har demonstreret en imponerende ydeevne og overgået LLaMa 2 70B og Mixtral 8x7B med en MMLU-score på 73%, hvilket viser dens effektivitet og nøjagtighed på tværs af forskellige tests.

Det er dog vigtigt at bemærke, at Grok-1 kræver betydelige GPU-ressourcer på grund af dens store størrelse. Den nuværende implementering i open source-udgivelsen fokuserer på at validere modellens rigtighed og anvender en ineffektiv MoE-lagimplementering for at undgå behovet for brugerdefinerede kerner.

Ikke desto mindre understøtter modellen aktiveringssharding og 8-bit kvantisering, som kan optimere ydeevnen og reducere hukommelseskravene.

I et bemærkelsesværdigt træk, xAI har udgivet Grok-1 under Apache 2.0-licensen, hvilket gør dets vægte og arkitektur tilgængelig for det globale samfund til brug og bidrag.

Open source-udgivelsen inkluderer et JAX-eksempelkodelager, der demonstrerer, hvordan man indlæser og kører Grok-1-modellen. Brugere kan downloade checkpoint-vægtene ved hjælp af en torrent-klient eller direkte gennem HuggingFace Hub, hvilket letter nem adgang til denne banebrydende model.

Fremtiden for blanding af eksperter i sprogmodeller

Efterhånden som efterspørgslen efter større og mere dygtige sprogmodeller fortsætter med at vokse, forventes vedtagelsen af MoE-teknikker at tage yderligere fart. Den igangværende forskningsindsats er fokuseret på at løse de resterende udfordringer, såsom at forbedre træningsstabiliteten, mindske overfitting under finjustering og optimere hukommelses- og kommunikationskrav.

En lovende retning er udforskningen af hierarkiske MoE-arkitekturer, hvor hver ekspert selv er sammensat af flere undereksperter. Denne tilgang kunne potentielt muliggøre endnu større skalerbarhed og beregningseffektivitet, samtidig med at store modellers udtrykskraft bevares.

Derudover er udvikling af hardware- og softwaresystemer optimeret til MoE-modeller et aktivt forskningsområde. Specialiserede acceleratorer og distribuerede træningsrammer designet til effektivt at håndtere de sparsomme og betingede beregningsmønstre for MoE-modeller kan yderligere forbedre deres ydeevne og skalerbarhed.

Desuden kan integrationen af MoE-teknikker med andre fremskridt inden for sprogmodellering, såsom sparsomme opmærksomhedsmekanismer, effektive tokeniseringsstrategier og multimodale repræsentationer, føre til endnu mere kraftfulde og alsidige sprogmodeller, der er i stand til at tackle en bred vifte af opgaver.

Konklusion

Mixture-of-Experts-teknikken er dukket op som et stærkt værktøj i jagten på større og mere dygtige sprogmodeller. Ved selektivt at aktivere eksperter baseret på inputdataene tilbyder MoE-modeller en lovende løsning på de beregningsmæssige udfordringer forbundet med opskalering af tætte modeller. Selvom der stadig er udfordringer at overvinde, såsom træningsustabilitet, overtilpasning og hukommelseskrav, gør de potentielle fordele ved MoE-modeller i form af beregningseffektivitet, skalerbarhed og miljømæssig bæredygtighed dem til et spændende forsknings- og udviklingsområde.

Da området for naturlig sprogbehandling fortsætter med at skubbe grænserne for, hvad der er muligt, vil vedtagelsen af MoE-teknikker sandsynligvis spille en afgørende rolle for at muliggøre den næste generation af sprogmodeller. Ved at kombinere MoE med andre fremskridt inden for modelarkitektur, træningsteknikker og hardwareoptimering kan vi se frem til endnu mere kraftfulde og alsidige sprogmodeller, der virkelig kan forstå og kommunikere med mennesker på en naturlig og problemfri måde.

Relaterede emner:grok KrammerFace Llama LLM Mistral Blanding af eksperter transformers

Næste

AI GPT'er til PostgreSQL-database: Kan de fungere?

Gå ikke glip af

Hvad skal du vide om NVIDIAs nye Blackwell AI Superchip og arkitektur

Aayush Mittal

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.