Artificiell intelligens

Ökningen av blandning av experter för effektiva stora språkmodeller

Uppdaterad on Mars 21, 2024

I världen av naturlig språkbehandling (NLP) har strävan efter att bygga större och mer kapabla språkmodeller varit en drivkraft bakom många senaste framsteg. Men när dessa modeller växer i storlek, blir beräkningskraven för utbildning och slutledning alltmer krävande, vilket pressar mot gränserna för tillgängliga hårdvaruresurser.

Gå in i Mixture-of-Experts (MoE), en teknik som lovar att lindra denna beräkningsbörda samtidigt som den möjliggör träning av större och kraftfullare språkmodeller. I den här tekniska bloggen kommer vi att fördjupa oss i MoEs värld och utforska dess ursprung, inre funktioner och dess tillämpningar i transformatorbaserade språkmodeller.

Ursprunget till blandning av experter

Begreppet Mixture-of-Experts (MoE) kan spåras tillbaka till början av 1990-talet när forskare utforskade idén om villkorlig beräkning, där delar av ett neuralt nätverk aktiveras selektivt baserat på indata. Ett av pionjärarbetena inom detta område var "Adaptiv blandning av lokala experter” papper av Jacobs et al. 1991, som föreslog ett ramverk för övervakat lärande för en ensemble av neurala nätverk, som var och en specialiserade sig på olika regioner i inmatningsutrymmet.

Kärnidén bakom MoE är att ha flera "expert" nätverk, var och en ansvarig för att bearbeta en delmängd av indata. En grindmekanism, vanligtvis ett neuralt nätverk i sig, bestämmer vilken eller vilka experter som ska behandla en given input. Detta tillvägagångssätt gör det möjligt för modellen att fördela sina beräkningsresurser mer effektivt genom att endast aktivera relevanta experter för varje ingång, snarare än att använda hela modellkapaciteten för varje input.

Under åren har olika forskare utforskat och utökat idén om villkorlig beräkning, vilket ledde till utvecklingar såsom hierarkiska MoEs, lågrankade approximationer för villkorlig beräkning och tekniker för att uppskatta gradienter genom stokastiska neuroner och aktiveringsfunktioner med hårda tröskelvärden.

Blandning av experter på transformatorer

Blandning av experter

Medan tanken på MoE har funnits i decennier, dess tillämpning på transformatorbaserade språkmodeller är relativt ny. Transformatorer, som har blivit de facto-standarden för toppmoderna språkmodeller, är sammansatta av flera lager, som vart och ett innehåller en självuppmärksamhetsmekanism och ett neuralt nätverk för feed-forward (FFN).

Den viktigaste innovationen i att tillämpa MoE på transformatorer är att ersätta de täta FFN-lagren med glesa MoE-lager, som vart och ett består av flera expert-FFN och en grindmekanism. Grindmekanismen bestämmer vilken eller vilka experter som ska behandla varje inmatningstoken, vilket gör det möjligt för modellen att selektivt aktivera endast en undergrupp av experter för en given inmatningssekvens.

Ett av de tidiga verken som visade potentialen hos MoE i transformatorer var uppsatsen "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" av Shazeer et al. 2017. Detta arbete introducerade konceptet med ett gles-gatet MoE-lager, som använde en grindmekanism som lade till gleshet och brus till experturvalsprocessen, vilket säkerställde att endast en undergrupp av experter aktiverades för varje ingång.

Sedan dess har flera andra arbeten ytterligare avancerat tillämpningen av MoE på transformatorer, och hanterar utmaningar som träningsinstabilitet, lastbalansering och effektiv slutledning. Anmärkningsvärda exempel inkluderar Växla transformator (Fedus et al., 2021), ST-MoE (Zoph et al., 2022), och GLAM (Du et al., 2022).

Fördelar med blandning av experter för språkmodeller

Den främsta fördelen med att använda MoE i språkmodeller är möjligheten att skala upp modellstorleken samtidigt som en relativt konstant beräkningskostnad bibehålls under slutledning. Genom att selektivt aktivera endast en undergrupp av experter för varje inmatningstoken, kan MoE-modeller uppnå uttryckskraften hos mycket större täta modeller samtidigt som de kräver betydligt mindre beräkning.

Tänk till exempel på en språkmodell med ett tätt FFN-lager på 7 miljarder parametrar. Om vi ersätter detta lager med ett MoE-lager som består av åtta experter, var och en med 7 miljarder parametrar, ökar det totala antalet parametrar till 56 miljarder. Men under slutledning, om vi bara aktiverar två experter per token, motsvarar beräkningskostnaden en 14 miljarder parametertät modell, eftersom den beräknar två 7 miljarder parametermatrismultiplikationer.

Denna beräkningseffektivitet under slutledning är särskilt värdefull i driftsättningsscenarier där resurserna är begränsade, såsom mobila enheter eller avancerade datormiljöer. Dessutom kan de minskade beräkningskraven under utbildning leda till avsevärda energibesparingar och ett lägre koldioxidavtryck, i linje med den växande betoningen på hållbara AI-metoder.

Utmaningar och överväganden

Även om MoE-modeller erbjuder övertygande fördelar, kommer deras användning och implementering också med flera utmaningar och överväganden:

Träningsinstabilitet: MoE-modeller är kända för att vara mer benägna att träna instabilitet jämfört med deras täta motsvarigheter. Detta problem uppstår på grund av den sparsamma och villkorliga karaktären hos expertaktiveringarna, vilket kan leda till utmaningar i gradientutbredning och konvergens. Tekniker som routern z-loss (Zoph et al., 2022) har föreslagits för att mildra dessa instabiliteter, men ytterligare forskning behövs fortfarande.
Finjustering och övermontering: MoE-modeller tenderar att överanpassa lättare under finjustering, särskilt när nedströmsuppgiften har en relativt liten datauppsättning. Detta beteende tillskrivs den ökade kapaciteten och glesheten hos MoE-modeller, vilket kan leda till överspecialisering av träningsdata. Noggranna reglerings- och finjusteringsstrategier krävs för att lindra detta problem.
Minneskrav: Även om MoE-modeller kan minska beräkningskostnaderna under slutledning, har de ofta högre minneskrav jämfört med täta modeller av liknande storlek. Detta beror på att alla expertvikter måste laddas in i minnet, även om endast en delmängd är aktiverad för varje ingång. Minnesbegränsningar kan begränsa skalbarheten för MoE-modeller på resursbegränsade enheter.
Lastbalansering: För att uppnå optimal beräkningseffektivitet är det avgörande att balansera belastningen mellan experter, vilket säkerställer att ingen enskild expert överbelastas medan andra förblir underutnyttjade. Denna lastbalansering uppnås vanligtvis genom extra förluster under träning och noggrann inställning av kapacitetsfaktorn, som bestämmer det maximala antalet tokens som kan tilldelas varje expert.
Kommunikation Overhead: I scenarier för distribuerad utbildning och slutledning kan MoE-modeller introducera ytterligare kommunikationsoverhead på grund av behovet av att utbyta aktiverings- och gradientinformation mellan experter som bor på olika enheter eller acceleratorer. Effektiva kommunikationsstrategier och hårdvarumedveten modelldesign är avgörande för att mildra denna omkostnad.

Trots dessa utmaningar har de potentiella fördelarna med MoE-modeller för att möjliggöra större och mer kapabla språkmodeller stimulerat betydande forskningsansträngningar för att ta itu med och mildra dessa problem.

Exempel: Mixtral 8x7B och GLaM

För att illustrera den praktiska tillämpningen av MoE i språkmodeller, låt oss överväga två anmärkningsvärda exempel: Mixtral 8x7B och GLaM.

Mixtral 8x7B är en MoE-variant av Mistral språkmodell, utvecklad av Anthropic. Den består av åtta experter, var och en med 7 miljarder parametrar, vilket resulterar i totalt 56 miljarder parametrar. Men under slutledning aktiveras endast två experter per token, vilket effektivt reducerar beräkningskostnaden till den för en 14 miljarder parametertät modell.

Mixtral 8x7B har visat imponerande prestanda, överträffat Llama-modellen med 70 miljarder parametrar samtidigt som den erbjuder mycket snabbare slutledningstider. En instruktionsjusterad version av Mixtral 8x7B, kallad Mixtral-8x7B-Instruct-v0.1, har också släppts, vilket ytterligare förbättrar dess förmåga att följa instruktioner på naturligt språk.

Ett annat anmärkningsvärt exempel är GLaM (Google Language Model), en storskalig MoE-modell utvecklad av Google. GLaM använder en transformatorarkitektur som endast är avkodare och tränades på en massiv 1.6 biljoner token-datauppsättning. Modellen uppnår imponerande prestanda vid få- och engångsutvärderingar, som matchar kvaliteten på GPT-3 samtidigt som den bara använder en tredjedel av energin som krävs för att träna GPT-3.

GLaM:s framgång kan tillskrivas dess effektiva MoE-arkitektur, som möjliggjorde träning av en modell med ett stort antal parametrar samtidigt som rimliga beräkningskrav bibehölls. Modellen visade också potentialen hos MoE-modeller att vara mer energieffektiva och miljömässigt hållbara jämfört med deras täta motsvarigheter.

Grok-1-arkitekturen

GROK BLANDNING AV EXPERT

Grok-1 är en transformatorbaserad MoE-modell med en unik arkitektur designad för att maximera effektivitet och prestanda. Låt oss dyka ner i de viktigaste specifikationerna:

parametrar: Med svindlande 314 miljarder parametrar är Grok-1 den största öppna LLM hittills. Men tack vare MoE-arkitekturen är endast 25 % av vikterna (cirka 86 miljarder parametrar) aktiva vid varje given tidpunkt, vilket förbättrar bearbetningsmöjligheterna.
arkitektur: Grok-1 använder en Mixture-of-8-Experts-arkitektur, där varje token bearbetas av två experter under slutledning.
skikt: Modellen består av 64 transformatorlager, som vart och ett innehåller multihead uppmärksamhet och täta block.
tokenization: Grok-1 använder en SentencePiece-tokenizer med en ordförrådsstorlek på 131,072 XNUMX tokens.
Inbäddningar och positionskodning: Modellen har 6,144 XNUMX-dimensionella inbäddningar och använder roterande positionsinbäddningar, vilket möjliggör en mer dynamisk tolkning av data jämfört med traditionella fasta positionskodningar.
Uppmärksamhet: Grok-1 använder 48 uppmärksamhetshuvuden för frågor och 8 uppmärksamhetshuvuden för nycklar och värden, var och en med en storlek på 128.
Kontext Längd: Modellen kan bearbeta sekvenser upp till 8,192 16 tokens i längd, med bfloatXNUMX-precision för effektiv beräkning.

Prestanda och implementeringsdetaljer

Grok-1 har visat imponerande prestanda, överträffat LLaMa 2 70B och Mixtral 8x7B med ett MMLU-poäng på 73 %, vilket visar dess effektivitet och noggrannhet i olika tester.

Det är dock viktigt att notera att Grok-1 kräver betydande GPU-resurser på grund av dess stora storlek. Den nuvarande implementeringen i open source-versionen fokuserar på att validera modellens korrekthet och använder en ineffektiv implementering av MoE-lager för att undvika behovet av anpassade kärnor.

Icke desto mindre stöder modellen aktiveringsskärning och 8-bitars kvantisering, vilket kan optimera prestanda och minska minneskraven.

I ett anmärkningsvärt drag, xAI har släppt Grok-1 under Apache 2.0-licensen, vilket gör dess vikter och arkitektur tillgänglig för det globala samhället för användning och bidrag.

Utgåvan med öppen källkod innehåller ett JAX-exempelkodlager som visar hur man laddar och kör Grok-1-modellen. Användare kan ladda ner checkpointvikterna med en torrentklient eller direkt via HuggingFace Hub, vilket underlättar enkel åtkomst till denna banbrytande modell.

Framtiden för blandning av experter på språkmodeller

Eftersom efterfrågan på större och mer kapabla språkmodeller fortsätter att växa, förväntas införandet av MoE-tekniker ta ytterligare fart. Pågående forskningsinsatser är fokuserade på att ta itu med de återstående utmaningarna, såsom att förbättra träningsstabiliteten, mildra överanpassning under finjustering och optimera minnes- och kommunikationskrav.

En lovande riktning är utforskningen av hierarkiska MoE-arkitekturer, där varje expert själv är sammansatt av flera underexperter. Detta tillvägagångssätt kan potentiellt möjliggöra ännu större skalbarhet och beräkningseffektivitet samtidigt som den uttrycksfulla kraften hos stora modeller bibehålls.

Dessutom är utvecklingen av hård- och mjukvarusystem optimerade för MoE-modeller ett aktivt forskningsområde. Specialiserade acceleratorer och distribuerade utbildningsramverk utformade för att effektivt hantera de sparsamma och villkorade beräkningsmönstren för MoE-modeller kan ytterligare förbättra deras prestanda och skalbarhet.

Dessutom kan integrationen av MoE-tekniker med andra framsteg inom språkmodellering, såsom glesa uppmärksamhetsmekanismer, effektiva tokeniseringsstrategier och multimodala representationer, leda till ännu mer kraftfulla och mångsidiga språkmodeller som kan hantera ett brett spektrum av uppgifter.

Slutsats

Tekniken Mixture-of-Experts har dykt upp som ett kraftfullt verktyg i jakten på större och mer kapabla språkmodeller. Genom att selektivt aktivera experter baserat på indata, erbjuder MoE-modeller en lovande lösning på de beräkningsutmaningar som är förknippade med att skala upp täta modeller. Även om det fortfarande finns utmaningar att övervinna, såsom träningsinstabilitet, överanpassning och minneskrav, gör de potentiella fördelarna med MoE-modeller i termer av beräkningseffektivitet, skalbarhet och miljömässig hållbarhet dem till ett spännande område för forskning och utveckling.

Eftersom området för naturlig språkbehandling fortsätter att tänja på gränserna för vad som är möjligt, kommer antagandet av MoE-tekniker sannolikt att spela en avgörande roll för att möjliggöra nästa generations språkmodeller. Genom att kombinera MoE med andra framsteg inom modellarkitektur, träningstekniker och hårdvaruoptimering kan vi se fram emot ännu mer kraftfulla och mångsidiga språkmodeller som verkligen kan förstå och kommunicera med människor på ett naturligt och sömlöst sätt.

Strax

AI GPT:er för PostgreSQL-databas: Kan de fungera?

Missa inte

Vad du ska veta om NVIDIAs nya Blackwell AI Superchip och arkitektur

Aayush Mittal

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.