Connect with us

Mistral AI’s senaste Mixture of Experts (MoE) 8x7B-modell

Artificiell intelligens

Mistral AI’s senaste Mixture of Experts (MoE) 8x7B-modell

mm
Mixture of Experts mistral ai

Mistral AI

som är ett Parisbaserat företag som utvecklar öppen källkod, har utmanat normer genom att släppa sin senaste stora språkmodell (LLM), MoE 8x7B, via en enkel torrentlänk. Detta skiljer sig från Googles traditionella tillvägagångssätt med deras Gemini-utgåva, vilket väcker diskussioner och entusiasm inom AI-samhället.

Mistral AI:s tillvägagångssätt för utgåvor har alltid varit okonventionellt. Ofta har de avstått från de vanliga åtföljande handlingarna som papper, bloggar eller pressmeddelanden, och deras strategi har varit unikt effektiv för att fånga AI-samhällets uppmärksamhet.

Nyligen uppnådde företaget en anmärkningsvärd $2 miljarder värdering efter en finansieringsrunda ledd av Andreessen Horowitz. Denna finansieringsrunda var historisk och satte en rekord med en $118 miljoner seedrunda, den största i europeisk historia. Utöver finansieringsframgångar är Mistral AI aktivt engagerat i diskussioner kring EU:s AI-lag, och förespråkar minskad reglering av öppen källkod inom AI.

Varför MoE 8x7B väcker uppmärksamhet

Beskriven som en “nedskalad GPT-4”, använder Mixtral 8x7B en Mixture of Experts (MoE)-ramverk med åtta experter. Varje expert har 111 miljarder parametrar, kombinerat med 55 miljarder delade uppmärksamhetsparametrar, för att ge totalt 166 miljarder parametrar per modell. Detta designval är betydelsefullt eftersom det tillåter att endast två experter är involverade i inferensen av varje token, vilket betonar en förskjutning mot mer effektiv och fokuserad AI-behandling.

En av de viktigaste funktionerna i Mixtral är dess förmåga att hantera en omfattande kontext på 32 000 token, vilket ger tillräckligt med utrymme för att hantera komplexa uppgifter. Modellens flerspråkiga funktioner inkluderar robust stöd för engelska, franska, italienska, tyska och spanska, vilket tillgodoser en global utvecklarsamhälle.

Förträningen av Mixtral involverar data från den öppna webben, med en samtidig träningsmetod för både experter och routrar. Denna metod säkerställer att modellen inte bara är omfattande i sin parameterrymd utan också finjusterad till nyanserna i den omfattande datan den har exponerats för.

Mixtral 8x7B uppnår ett imponerande poäng

Mixtral 8x7B uppnår ett imponerande poäng

Mixtral 8x7B överträffar LLaMA 2 70B och rivaliserar GPT-3.5, särskilt noterbart i MBPP-uppgiften med en 60,7% framgångsgrad, vilket är betydligt högre än dess motståndare. Även i den rigorösa MT-Bench, som är anpassad för modeller som följer instruktioner, uppnår Mixtral 8x7B ett imponerande poäng, nästan i nivå med GPT-3.5

Att förstå Mixture of Experts (MoE)-ramverket

Mixture of Experts (MoE)-modellen, som nyligen har fått uppmärksamhet på grund av dess inkorporering i state-of-the-art-språkmodeller som Mistral AI:s MoE 8x7B, har faktiskt sina rötter i grundläggande koncept som går tillbaka flera år. Låt oss återbesöka ursprunget till denna idé genom seminella forskningsartiklar.

Konceptet MoE

Mixture of Experts (MoE) representerar en paradigmförändring i neurala nätverksarkitektur. Till skillnad från traditionella modeller som använder ett enda, homogent nätverk för att bearbeta alla typer av data, antar MoE en mer specialiserad och modulär approach. Det består av flera “expertnätverk”, var och en utformad för att hantera specifika typer av data eller uppgifter, övervakade av ett “gatingnätverk” som dynamiskt dirigerar indata till den mest lämpliga experten.

En Mixture of Experts (MoE)-lager inbäddad i en rekurrent språkmodell

En Mixture of Experts (MoE)-lager inbäddad i en rekurrent språkmodell (Källa)

 

Bilden ovan presenterar en högnivåvy över ett MoE-lager inbäddat i en språkmodell. I sin essens består MoE-lagret av flera feed-forward-undernätverk, benämnda “experter”, var och en med potentialen att specialisera sig i att bearbeta olika aspekter av datan. Ett gatingnätverk, markerat i diagrammet, bestämmer vilken kombination av dessa experter som engageras för en given indata. Denna villkorsaktivering tillåter nätverket att signifikant öka sin kapacitet utan en motsvarande ökning av beräkningskraven.

Funktionaliteten i MoE-lagret

I praktiken utvärderar gatingnätverket indata (betecknad som G(x) i diagrammet) och väljer en sparse uppsättning experter för att bearbeta den. Detta val är modulerat av gatingnätverkets utdata, vilket effektivt bestämmer “rösten” eller bidraget från varje expert till den slutliga utdatan. Till exempel, som visas i diagrammet, kan endast två experter väljas för att beräkna utdata för varje specifik indata-token, vilket gör processen effektiv genom att koncentrera beräkningsresurser där de behövs mest.

 

Transformer-encoder med MoE-lager (Källa)

Den andra illustrationen ovan kontrasterar en traditionell Transformer-encoder med en som är förstärkt med ett MoE-lager. Transformer-arkitekturen, som är välkänd för sin effektivitet i språkrelaterade uppgifter, består traditionellt av självuppmärksamhets- och feed-forward-lager staplade i sekvens. Införandet av MoE-lager ersätter några av dessa feed-forward-lager, vilket möjliggör för modellen att skala med avseende på kapacitet mer effektivt.

I den förstärkta modellen är MoE-lagren shardade över flera enheter, vilket visar en modellparallell approach. Detta är kritiskt när man skalar till mycket stora modeller, eftersom det tillåter en distribution av beräkningsbördan och minneskraven över en kluster av enheter, såsom GPU:er eller TPU:er. Denna shardning är avgörande för att träna och distribuera modeller med miljarder av parametrar effektivt, som bevisas av träningen av modeller med hundratals miljarder till över en biljon parametrar på storskaliga beräkningskluster.

Den glesa MoE-approachen med instruktionsjustering på LLM

Artikeln med titeln “Sparse Mixture-of-Experts (MoE) för skalbar språkmodellering” diskuterar en innovativ approach för att förbättra stora språkmodeller (LLM) genom att integrera Mixture of Experts-arkitekturen med instruktionsjusteringstekniker.

Det betonar en vanlig utmaning där MoE-modeller underpresterar jämfört med täta modeller med samma beräkningskapacitet när de finjusteras för specifika uppgifter på grund av diskrepanser mellan allmän förträning och uppgiftsspecifik finjustering.

Instruktionsjustering är en träningsmetodik där modeller förfinas för att bättre följa naturliga språkinstruktioner, vilket effektivt förbättrar deras uppgiftsprestanda. Artikeln föreslår att MoE-modeller visar en betydande förbättring när de kombineras med instruktionsjustering, mer så än deras täta motsvarigheter. Denna teknik justerar modellens förtränade representationer för att följa instruktioner mer effektivt, vilket leder till signifikanta prestandaförbättringar.

Forskarna genomförde studier i tre experimentella uppsättningar, vilket visade att MoE-modeller initialt underpresterar i direkt uppgiftsspecifik finjustering. Men när instruktionsjustering tillämpas, överträffar MoE-modellerna, särskilt när de kompletteras med uppgiftsspecifik finjustering. Detta tyder på att instruktionsjustering är ett viktigt steg för MoE-modeller för att överträffa täta modeller på nedströmsuppgifter.

Effekten av instruktionsjustering på MOE

Effekten av instruktionsjustering på MOE

Det introducerar också FLAN-MOE32B, en modell som demonstrerar den framgångsrika tillämpningen av dessa koncept. Noterbart överträffar den FLAN-PALM62B, en tät modell, på benchmarkuppgifter medan den endast använder en tredjedel av beräkningsresurserna. Detta visar potentialen för glesa MoE-modeller kombinerade med instruktionsjustering för att sätta nya standarder för LLM-effektivitet och prestanda.

Att implementera Mixture of Experts i realvärldsscenarier

MoE-modellernas flexibilitet gör dem idealiska för en rad tillämpningar:

  • Naturlig språkbehandling (NLP): MoE-modeller kan hantera nyanserna och komplexiteterna i mänskligt språk mer effektivt, vilket gör dem idealiska för avancerade NLP-uppgifter.
  • Bild- och videobearbetning: I uppgifter som kräver högupplöst bearbetning kan MoE hantera olika aspekter av bilder eller videofrimer, vilket förbättrar både kvalitet och bearbetningshastighet.
  • Anpassade AI-lösningar: Företag och forskare kan anpassa MoE-modeller till specifika uppgifter, vilket leder till mer riktade och effektiva AI-lösningar.

Utmaningar och överväganden

  • Komplexitet i träning och justering: Den distribuerade naturen hos MoE-modeller kan komplicera träningsprocessen, vilket kräver noggrann balansering och justering av experterna och gatingnätverket.
  • Resursshantering: Effektiv hantering av beräkningsresurser över flera experter är avgörande för att maximera fördelarna med MoE-modeller.

Att införa MoE-lager i neurala nätverk, särskilt inom området språkmodeller, erbjuder en väg mot att skala modeller till storlekar som tidigare var omöjliga på grund av beräkningsbegränsningar. Den villkorsaktivering som möjliggörs av MoE-lagren tillåter en mer effektiv distribution av beräkningsresurser, vilket gör det möjligt att träna större, mer kapabla modeller. När vi fortsätter att kräva mer av våra AI-system kommer arkitekturer som MoE-utrustade Transformer sannolikt att bli standarden för att hantera komplexa, storskaliga uppgifter inom olika områden.

Jag har under de senaste fem åren dykt ner i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruutvecklingsprojekt, med särskild fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är angelägen om att utforska vidare.