Kunstig intelligens
Mistral AI’s siste blanding av eksperter (MoE) 8x7B-modell

som er en Paris-basert open-source modellstartupp, har utfordret normene ved å slippe sin siste store språkmodell (LLM), MoE 8x7B, gjennom en enkel torrent-lenke. Dette er i kontrast til Googles tradisjonelle tilnærming med deres Gemini-utgivelse, og har ført til samtaler og begeistring innen AI-samfunnet.
Mistral AI’s tilnærming til utgivelser har alltid vært uvanlig. Ofte har de forkastet de vanlige tilleggene som papirer, blogger eller pressemeldinger, og deres strategi har vært unikt effektiv i å fange AI-samfunnets oppmerksomhet.
Nylig oppnådde selskapet en bemerkelsesverdig $2 milliarder verdi etter en finansieringsrunde ledet av Andreessen Horowitz. Denne finansieringsrunden var historisk og satte en rekord med en $118 millioner seed-runde, den største i europeisk historie. Forbi finansieringssuksesser, er Mistral AI aktivt engasjert i diskusjoner omkring EU AI-loven, og forkjemper for redusert regulering av open-source AI.
Hvorfor MoE 8x7B trekker oppmerksomhet
Beskrevet som en “skalert ned GPT-4”, bruker Mixtral 8x7B en Mixture of Experts (MoE)-ramme med åtte eksperter. Hver ekspert har 111B parametre, kombinert med 55B felles oppmerksomhetsparametre, for å gi en total på 166B parametre per modell. Dette designvalget er betydelig, da det tillater bare to eksperter å være involvert i inferensen av hver token, og markerer en skifte mot mer effektiv og fokusert AI-behandling.
En av de viktigste høydepunktene med Mixtral er dens evne til å håndtere en omfattende kontekst på 32 000 token, og gir god plass for å håndtere komplekse oppgaver. Modellens flerspråklige egenskaper inkluderer robust støtte for engelsk, fransk, italiensk, tysk og spansk, og betjener en global utviklersamfunn.
Forutreningen av Mixtral innebærer data hentet fra det åpne nettet, med en samtidig treningstilnærming for både eksperter og routere. Denne metoden sikrer at modellen ikke bare er omfattende i sin parameterrom, men også fint stemt til nyansene i den omfattende datamengden den er blitt eksponert for.

Mixtral 8x7B oppnår en imponerende score
Mixtral 8x7B overgår LLaMA 2 70B og rivaliserer GPT-3.5, særlig merkbart i MBPP-oppgaven med en 60,7 % suksessrate, betydelig høyere enn sine motparter. Selv i den strenge MT-Bench tilpasset instruksjonsbaserte modeller, oppnår Mixtral 8x7B en imponerende score, nesten like god som GPT-3.5
Forståelsen av Mixture of Experts (MoE)-rammen
Mixture of Experts (MoE)-modellen, som har fått nylig oppmerksomhet på grunn av dens inkorporering i state-of-the-art språkmodeller som Mistral AI’s MoE 8x7B, er faktisk rotfestet i grunnleggende konsepter som går tilbake flere år. La oss se på opphavet til denne ideen gjennom seminale forskningspapirer.
Konseptet MoE
Mixture of Experts (MoE) representerer en paradigmeskifte i neural nettverksarkitektur. I motsetning til tradisjonelle modeller som bruker en enkelt, homogen nettverk til å prosessere alle typer data, adopterer MoE en mer spesialisert og modulær tilnærming. Det består av flere “ekspert”-nettverk, hver designet for å håndtere spesifikke typer data eller oppgaver, overvåket av en “gating network” som dynamisk dirigerer inndata til den mest passende eksperten.

En Mixture of Experts (MoE)-lag innbygget i en rekurrerende språkmodell (Kilde)
Bildet over presenterer en høytnivå-oversikt over en MoE-lag innbygget i en språkmodell. I sin essens består MoE-laget av flere feed-forward undernettverk, betegnet som “eksperter”, hver med potensialet til å spesialisere seg i å prosessere forskjellige aspekter av data. En gating network, høydepunktet i diagrammet, bestemmer hvilken kombinasjon av disse ekspertene som engasjeres for en gitt inndata. Denne betingede aktivering tillater nettverket å øke sin kapasitet uten en tilsvarende økning i beregningskrav.
Funksjonen til MoE-laget
I praksis vurderer gating networket inndata (betegnet som G(x) i diagrammet) og velger en sparsomt sett av eksperter til å prosessere det. Dette valget er modulert av gating networkets utdata, og bestemmer effektivt “stemmen” eller bidraget til hver ekspert til den endelige utdataen. For eksempel, som vist i diagrammet, kan bare to eksperter være valgt for å beregne utdataen for hver bestemt inndata-token, og gjør prosessen effektiv ved å konsentrere beregningsressursene der de er mest nødvendige.

Transformer Encoder med MoE-lag (Kilde)
Den andre illustrasjonen over kontrasterer en tradisjonell Transformer-encoder med en som er utvidet med en MoE-lag. Transformer-arkitekturen, som er vidt kjent for sin effektivitet i språkrelaterte oppgaver, består tradisjonelt av selv-oppmerksomhet og feed-forward-lag stakk i sekvens. Innføringen av MoE-lag erstatter noen av disse feed-forward-lagene, og muliggjør at modellen kan skaleres med hensyn til kapasitet mer effektivt.
I den utvidede modellen er MoE-lagene shardet over flere enheter, og viser en modell-parallell tilnærming. Dette er kritisk når man skal skalerer til svært store modeller, da det tillater en distribusjon av beregningslasten og minnekrev across en cluster av enheter, som for eksempel GPU-er eller TPU-er. Denne shardingen er essensiell for å trene og distribuere modeller med milliarder av parametre effektivt, som det er bevist ved treningen av modeller med hundrevis av milliarder til over en billion parametre på store skala databehandlingscluster.
Den sparsomme MoE-tilnærmingen med instruksjonstuning på LLM
Papiret med tittelen “Sparse Mixture-of-Experts (MoE) for Scalable Language Modeling” diskuterer en innovativ tilnærming for å forbedre store språkmodeller (LLM) ved å integrere Mixture of Experts-arkitekturen med instruksjonstuningsteknikker.
Det høydepunkter en vanlig utfordring hvor MoE-modeller underpresterer sammenlignet med tette modeller av lik beregningskapasitet når de finjusteres for spesifikke oppgaver på grunn av diskrepanser mellom generell forutrening og oppgave-spesifik finjustering.
Instruksjonstuning er en treningsteknikk hvor modeller refines til å følge naturlige språkinstruksjoner bedre, og effektivt forbedrer deres oppgaveprestasjon. Papiret foreslår at MoE-modeller viser en merkbar forbedring når de kombineres med instruksjonstuning, mer enn sine tette motparter. Denne teknikken stemmer modellens forutrente representasjoner for å følge instruksjoner mer effektivt, og fører til betydelige prestasjonsgodtgjørelser.
Forskerne gjennomførte studier over tre eksperimentelle oppsett, og avdekket at MoE-modeller opprinnelig underpresterer i direkte oppgave-spesifik finjustering. Men når instruksjonstuning ble brukt, overgikk MoE-modeller, særlig når de ble supplert med oppgave-spesifik finjustering. Dette antyder at instruksjonstuning er et kritisk skritt for MoE-modeller for å overgå tette modeller på nedstrøms oppgaver.
Det introduserer også FLAN-MOE32B, en modell som demonstrerer den suksessfulle anvendelsen av disse konseptene. Merkverdig, overgår det FLAN-PALM62B, en tett modell, på benchmark-oppgaver mens det bruker bare en tredjedel av beregningsressursene. Dette viser potensialet for sparsomme MoE-modeller kombinert med instruksjonstuning for å sette nye standarder for LLM-effektivitet og prestasjon.
Implementering av Mixture of Experts i virkelige scenarier
Den fleksible MoE-modellen gjør den ideell for en rekke applikasjoner:
- Naturlig språkbehandling (NLP): MoE-modeller kan håndtere nyansene og kompleksiteten i menneskespråk mer effektivt, og gjør dem ideelle for avanserte NLP-oppgaver.
- Bilde- og video-behandling: I oppgaver som krever høyoppløst behandling, kan MoE håndtere forskjellige aspekter av bilder eller video-rammer, og forbedrer både kvalitet og behandlingshastighet.
- Tilpassede AI-løsninger: Bedrifter og forskere kan tilpasse MoE-modeller til spesifikke oppgaver, og fører til mer målrettede og effektive AI-løsninger.
Utfordringer og overveielser
- Kompleksitet i trening og finjustering: Den distribuerte naturen til MoE-modeller kan komplisere treningsprosessen, og krever omhyggelig balansering og finjustering av eksperter og gating network.
- Ressursforvaltning: Effektivt forvaltning av beregningsressursene over flere eksperter er kritisk for å maksimere fordelene med MoE-modeller.
Å inkorporere MoE-lag i neurale nettverk, særlig i domenet av språkmodeller, tilbyr en vei mot å skalerer modeller til størrelser som tidligere var umulige på grunn av beregningsbegrensninger. Den kondisjonelle beregningen som er muliggjort av MoE-lag tillater en mer effektiv distribusjon av beregningsressursene, og gjør det mulig å trene større og mer kapable modeller. Ettersom vi fortsetter å kreve mer av våre AI-systemer, er arkitekturer som MoE-utstyrt Transformer sannsynlig å bli standarden for å håndtere komplekse og store oppgaver over flere domener.













