Kunstig intelligens
Mistral AI’s Seneste Blanding af Ekspertmodeller (MoE) 8x7B Model

som er en Paris-baseret open-source model startup, har udfordret normerne ved at udgive deres seneste store sprogmodel (LLM), MoE 8x7B, gennem en simpel torrent link. Dette modsiger Googles traditionelle tilgang med deres Gemini-udgivelse, hvilket har ført til diskussioner og begejstring inden for AI-fællesskabet.
Mistral AI’s tilgang til udgivelser har altid været ukonventionel. Ofte har de afstået fra de sædvanlige ledsagende artikler, blogs eller pressemeddelelser, og deres strategi har været unikt effektiv til at tiltrække AI-fællesskabets opmærksomhed.
For nylig opnåede virksomheden en bemærkelsesværdig $2 milliards vurdering efter en kapitalrunde ledet af Andreessen Horowitz. Denne kapitalrunde var historisk og satte en rekord med en $118 millioner seed-runde, den største i europæisk historie. Ud over finansiel succes har Mistral AI været aktivt involveret i diskussioner om EU’s AI-lov, hvor de har fremført krav om reduceret regulering af open-source AI.
Hvorfor MoE 8x7B tiltrækker opmærksomhed
MoE 8x7B, der beskrives som en “skaleret ned GPT-4”, udnytter en Mixture of Experts (MoE)-ramme med otte eksperter. Hver ekspert har 111 milliarder parametre, kombineret med 55 milliarder fælles opmærksomhedsparametre, hvilket giver en samlet total på 166 milliarder parametre pr. model. Dette designvalg er betydeligt, da det kun kræver, at to eksperter er involveret i inferensen af hver token, hvilket fremhæver en skiftning mod mere effektiv og fokuseret AI-behandling.
En af de vigtigste højdepunkter ved MoE 8x7B er dens evne til at håndtere en omfattende kontekst på 32.000 token, hvilket giver god plads til at håndtere komplekse opgaver. Modellens multilingvale egenskaber omfatter robust støtte til engelsk, fransk, italiensk, tysk og spansk, hvilket tilgodeser en global udviklerfællesskab.
Forudforudningen af MoE 8x7B indebærer data fra det åbne web, med en samtidig træningsmetode for både eksperter og routere. Denne metode sikrer, at modellen ikke kun er omfattende i sin parameterspace, men også fint stemt til nuancerne i den omfattende data, den er blevet udsat for.

MoE 8x7B opnår et imponerende score
MoE 8x7B overgår LLaMA 2 70B og rivaliserer GPT-3.5, især bemærkelsesværdigt i MBPP-opgaven med en 60,7% succesrate, hvilket er betydeligt højere end dens modparter. Selv i den strenge MT-Bench, der er tilpasset instruktionsfølgende modeller, opnår MoE 8x7B et imponerende score, næsten på niveau med GPT-3.5
Forståelse af Mixture of Experts (MoE)-rammen
Mixture of Experts (MoE)-modellen, der har fået fornyet opmærksomhed på grund af dens integration i state-of-the-art sprogmodeller som Mistral AI’s MoE 8x7B, har faktisk rødder i grundlæggende koncepter, der daterer tilbage flere år. Lad os gensende idéens oprindelse gennem seminale forskningsartikler.
Konceptet MoE
Mixture of Experts (MoE) repræsenterer en paradigmeskift i neurale netværksarkitektur. I modsætning til traditionelle modeller, der bruger et enkelt, homogent netværk til at behandle alle typer data, antager MoE en mere specialiseret og modulær tilgang. Det består af multiple “ekspert”-netværk, hver designet til at håndtere bestemte typer data eller opgaver, overvåget af et “gating network”, der dynamisk dirigerer inddata til den mest egnede ekspert.

En Mixture of Experts (MoE)-lag indbygget i en rekurrent sprogmodel (Kilde)
Ovenstående billede præsenterer en højniveauoversigt over en MoE-lag indbygget i en sprogmodel. I dens kerne består MoE-laget af multiple feed-forward undernetværk, betegnet “eksperter”, hver med potentialet til at specialisere sig i at behandle forskellige aspekter af data. Et gating network, fremhævet i diagrammet, bestemmer, hvilken kombination af disse eksperter, der er involveret for en given indgang. Denne betingede aktivering tillader netværket at øge sin kapacitet betydeligt uden en tilsvarende stigning i computermæssigt krav.
Funktionalitet af MoE-laget
I praksis evaluerer gating networket indgangen (betegnet som G(x) i diagrammet) og vælger en sparsom mængde eksperter til at behandle den. Denne valg er moduleret af gating networkets udgang, hvilket effektivt bestemmer “stemmen” eller bidraget fra hver ekspert til den endelige udgang. For eksempel, som vist i diagrammet, kan kun to eksperter være valgt til at beregne udgangen for hver bestemt indgangstoken, hvilket gør processen effektiv ved at koncentrere computermæssige ressourcer, hvor de er mest nødvendige.

Transformer Encoder med MoE-lag (Kilde)
Den anden illustration ovenfor kontrasterer en traditionel Transformer-encoder med en, der er forstærket med en MoE-lag. Transformer-arkitekturen, der er bredt kendt for sin effektivitet i sprogrelaterede opgaver, består traditionelt af selv-attention og feed-forward-lag, stablet sekventielt. Indføringen af MoE-lag erstatter nogle af disse feed-forward-lag, hvilket muliggør, at modellen kan skaleres med hensyn til kapacitet mere effektivt.
I den forstærkede model er MoE-lagene shardet over multiple enheder, hvilket viser en model-parallell tilgang. Dette er kritisk, når man skal skalerer til meget store modeller, da det tillader en distribution af computermæssigt krav og hukommelseskrav over en klasse af enheder, såsom GPU’er eller TPU’er. Denne shardning er afgørende for at træne og udgive modeller med milliarder af parametre effektivt, som det ses i træningen af modeller med hundredvis af milliarder til over en billion parametre på store computorklynger.
Den sparsomme MoE-tilgang med instruktionsafstemning på LLM
Artiklen med titlen “Sparse Mixture-of-Experts (MoE) for Scalable Language Modeling” diskuterer en innovativ tilgang til at forbedre Large Language Models (LLM) ved at integrere Mixture of Experts-arkitekturen med instruktionsafstemningsmetoder.
Den fremhæver en fælles udfordring, hvor MoE-modeller underpræsterer i forhold til tætte modeller af samme computermæssige kapacitet, når de afstemmes til bestemte opgaver på grund af diskrepancer mellem generel forudtræning og opgave-specifik afstemning.
Instruktionsafstemning er en træningsmetode, hvor modellerne afstemmes til at følge naturlige sproginstruktioner bedre, hvilket effektivt forbedrer deres opgavepræstation. Artiklen foreslår, at MoE-modeller viser en bemærkelsesværdig forbedring, når de kombineres med instruktionsafstemning, mere end deres tætte modparter. Denne teknik stemmer modellens forudtrænede repræsentationer til at følge instruktioner mere effektivt, hvilket fører til betydelige præstationsforbedringer.
Forskerne gennemførte studier i tre eksperimentelle opsætninger, der afslørede, at MoE-modellerne initialt underpræsterer i direkte opgave-specifik afstemning. Men når instruktionsafstemning anvendes, overgår MoE-modellerne, især når de suppleres yderligere med opgave-specifik afstemning. Dette antyder, at instruktionsafstemning er et afgørende trin for MoE-modeller til at overgå tætte modeller i downstream-opgaver.
Den introducerer FLAN-MOE32B, en model, der demonstrerer den succesfulde anvendelse af disse koncepter. Bemærkelsesværdigt overgår den FLAN-PALM62B, en tæt model, på benchmark-opgaver, mens den kun bruger en tredjedel af de computermæssige ressourcer. Dette viser potentialet for sparsomme MoE-modeller kombineret med instruktionsafstemning til at sætte nye standarder for LLM-effektivitet og præstation.
Implementering af Mixture of Experts i virkelige scenarier
MoE-modellernes fleksibilitet gør dem ideelle til en række anvendelser:
- Naturlig Sprogbehandling (NLP): MoE-modeller kan håndtere nuancerne og kompleksiteten af menneskesprog mere effektivt, hvilket gør dem ideelle til avancerede NLP-opgaver.
- Billede- og videobehandling: I opgaver, der kræver højopløst behandling, kan MoE håndtere forskellige aspekter af billeder eller video-frames, hvilket forbedrer både kvalitet og behandlingstid.
- Tilpassede AI-løsninger: Virksomheder og forskere kan tilpasse MoE-modeller til bestemte opgaver, hvilket fører til mere målrettede og effektive AI-løsninger.
Udfordringer og overvejelser
- Kompleksitet i træning og afstemning: Den distribuerede natur af MoE-modeller kan komplicere træningsprocessen, hvilket kræver omhyggelig afstemning og balancering af eksperterne og gating networket.
- Ressourcestyring: Effektivt at håndtere computermæssige ressourcer på tværs af multiple eksperter er afgørende for at maksimere fordelene ved MoE-modeller.
Indføring af MoE-lag i neurale netværk, især i domænet for sprogmodeller, tilbyder en vej mod at skalerer modeller til størrelser, der tidligere var umulige på grund af computermæssige begrænsninger. Den betingede beregning, der er aktiveret af MoE-lag, tillader en mere effektiv distribution af computermæssige ressourcer, hvilket gør det muligt at træne større, mere kapable modeller. Da vi fortsætter med at kræve mere af vores AI-systemer, er arkitekturer som MoE-udstyrede Transformer sandsynligvis til at blive standarden for at håndtere komplekse, storstilede opgaver på tværs af forskellige domæner.













