stub Mistral AI:s senaste blandning av experter (MoE) 8x7B-modell - Unite.AI
Anslut dig till vårt nätverk!

Artificiell intelligens

Mistral AI:s senaste blandning av experter (MoE) 8x7B-modell

mm

publicerade

 on

Blandning av experter mistral ai

Mistral AI som är en Paris-baserad modellstartup med öppen källkod har utmanat normer genom att släppa sin senaste stora språkmodell (LLM), MoE 8x7B, genom en enkel torrent länk. Detta kontrasterar Googles traditionella tillvägagångssätt med deras Gemini-släpp, vilket väckte konversationer och spänning inom AI-gemenskapen.

Mistral AI:s inställning till releaser har alltid varit okonventionell. Ofta avstått från de vanliga ackompanjemangen i tidningar, bloggar eller pressmeddelanden, har deras strategi varit unikt effektiv för att fånga AI-gemenskapens uppmärksamhet.

Nyligen uppnådde företaget en anmärkningsvärd 2 miljarder dollar värdering efter en finansieringsrunda ledd av Andreessen Horowitz. Denna finansieringsrunda var historisk och satte rekord med en startrunda på 118 miljoner dollar, den största i Europas historia. Utöver finansieringsframgångarna, Mistral AI:s aktiva engagemang i diskussioner kring EU:s AI-lag, som förespråkar minskad reglering av AI med öppen källkod.

Varför MoE 8x7B drar uppmärksamhet

Mixtral 4x8B, som beskrivs som en "nedskalad GPT-7", använder ett ramverk för Mixture of Experts (MoE) med åtta experter. Varje expert har 111B parametrar, tillsammans med 55B parametrar för delad uppmärksamhet, för att ge totalt 166B parametrar per modell. Detta designval är viktigt eftersom det tillåter endast två experter att vara involverade i slutsatsen av varje token, vilket lyfter fram en förändring mot mer effektiv och fokuserad AI-bearbetning.

En av de viktigaste höjdpunkterna i Mixtral är dess förmåga att hantera ett omfattande sammanhang med 32,000 XNUMX tokens, vilket ger gott om utrymme för att hantera komplexa uppgifter. Modellens flerspråkiga möjligheter inkluderar robust stöd för engelska, franska, italienska, tyska och spanska, vilket vänder sig till en global utvecklargemenskap.

Förutbildningen av Mixtral involverar data hämtade från den öppna webben, med en samtidig träningsmetod för både experter och routrar. Den här metoden säkerställer att modellen inte bara är enorm i sitt parameterutrymme utan också finjusterad till nyanserna i den enorma data den har exponerats för.

Mixtral 8x7B uppnår ett imponerande resultat

Mixtral 8x7B uppnår en imponerande poäng

Mixtral 8x7B överträffar LLaMA 2 70B och konkurrerande GPT-3.5, särskilt anmärkningsvärt i MBPP-uppgiften med en framgångsfrekvens på 60.7 %, betydligt högre än sina motsvarigheter. Även i den rigorösa MT-bänken som är skräddarsydd för modeller som följer instruktioner, uppnår Mixtral 8x7B ett imponerande resultat som nästan matchar GPT-3.5

Förstå ramverket för blandning av experter (MoE).

Mixture of Experts (MoE)-modellen, samtidigt som den fick uppmärksamhet nyligen på grund av dess inkorporering i toppmoderna språkmodeller som Mistral AI:s MoE 8x7B, är faktiskt rotad i grundläggande koncept som går tillbaka flera år. Låt oss återkomma till ursprunget till denna idé genom framstående forskningsartiklar.

Begreppet MoE

Blandning av experter (MoE) representerar ett paradigmskifte i neurala nätverksarkitektur. Till skillnad från traditionella modeller som använder ett singulärt, homogent nätverk för att bearbeta alla typer av data, antar MoE ett mer specialiserat och modulärt tillvägagångssätt. Det består av flera "expert"-nätverk, var och en utformad för att hantera specifika typer av data eller uppgifter, övervakade av ett "gating-nätverk" som dynamiskt dirigerar indata till den mest lämpliga experten.

Ett lager av blandning av experter (MoE) inbäddat i en återkommande språkmodell

A Mixture of Experts (MoE) lager inbäddat i en återkommande språkmodell (Källa)

 

Bilden ovan visar en högnivåvy av ett MoE-lager inbäddat i en språkmodell. I huvudsak består MoE-skiktet av flera undernätverk för feed-forward, kallade "experter", var och en med potential att specialisera sig på att bearbeta olika aspekter av data. Ett grindnätverk, markerat i diagrammet, bestämmer vilken kombination av dessa experter som är engagerad för en given ingång. Denna villkorade aktivering tillåter nätverket att avsevärt öka sin kapacitet utan en motsvarande ökning av beräkningsefterfrågan.

Funktionalitet hos MoE-skiktet

I praktiken utvärderar grindnätverket ingången (betecknad som G(x) i diagrammet) och väljer en gles uppsättning experter för att bearbeta det. Detta val moduleras av grindnätverkets utsignaler, vilket effektivt bestämmer "röst" eller bidrag från varje expert till den slutliga utmatningen. Till exempel, som visas i diagrammet, kan endast två experter väljas för att beräkna utdata för varje specifik inmatningstoken, vilket gör processen effektiv genom att koncentrera beräkningsresurser där de behövs som mest.

 

Transformatorkodare med MoE-lager (Källa)

Den andra illustrationen ovan kontrasterar en traditionell transformatorkodare med en förstärkt med ett MoE-lager. Transformer-arkitekturen, allmänt känd för sin effektivitet i språkrelaterade uppgifter, består traditionellt av självuppmärksamhet och feed-forward-lager staplade i sekvens. Införandet av MoE-lager ersätter några av dessa frammatningslager, vilket gör att modellen kan skalas med avseende på kapacitet mer effektivt.

I den utökade modellen delas MoE-lagren över flera enheter, vilket visar upp ett modellparallellt tillvägagångssätt. Detta är avgörande när du skalar till mycket stora modeller, eftersom det möjliggör fördelning av beräkningsbelastningen och minneskraven över ett kluster av enheter, såsom GPU:er eller TPU:er. Denna skärning är avgörande för att träna och distribuera modeller med miljarder parametrar effektivt, vilket bevisas av utbildningen av modeller med hundratals miljarder till över en biljon parametrar på storskaliga datorkluster.

Den sparsamma MoE-metoden med instruktionsinställning på LLM

Tidningen med titeln "Sparse Mixture-of-Experts (MoE) för skalbar språkmodellering” diskuterar ett innovativt tillvägagångssätt för att förbättra stora språkmodeller (LLM) genom att integrera arkitekturen Mixture of Experts med instruktionsjusteringstekniker.

Den belyser en vanlig utmaning där MoE-modeller underpresterar jämfört med täta modeller med samma beräkningskapacitet när de är finjusterade för specifika uppgifter på grund av skillnader mellan allmän förträning och uppgiftsspecifik finjustering.

Instruktionsjustering är en träningsmetodik där modeller förfinas för att bättre följa instruktionerna för naturligt språk, vilket effektivt förbättrar deras uppgiftsutförande. Uppsatsen antyder att MoE-modeller uppvisar en anmärkningsvärd förbättring när de kombineras med instruktionsjustering, mer än deras täta motsvarigheter. Denna teknik anpassar modellens förtränade representationer för att följa instruktionerna mer effektivt, vilket leder till betydande prestandaökningar.

Forskarna genomförde studier över tre experimentella uppställningar, som avslöjade att MoE-modeller initialt underpresterar i direkt uppgiftsspecifik finjustering. Men när instruktionsjustering används utmärker MoE-modeller, särskilt när de kompletteras ytterligare med uppgiftsspecifik finjustering. Detta tyder på att instruktionsinställning är ett viktigt steg för MoE-modeller att överträffa täta modeller i nedströmsuppgifter.

Effekten av instruktionsinställning på MOE

Effekten av instruktionsinställning på MOE

Den introducerar också FLAN-MOE32B, en modell som visar den framgångsrika tillämpningen av dessa koncept. Noterbart är att den överträffar FLAN-PALM62B, en tät modell, på benchmarkuppgifter samtidigt som den bara använder en tredjedel av beräkningsresurserna. Detta visar potentialen för glesa MoE-modeller i kombination med instruktionsjustering för att sätta nya standarder för LLM-effektivitet och prestanda.

Implementera blandning av experter i verkliga scenarier

Mångsidigheten hos MoE-modeller gör dem idealiska för en rad applikationer:

  • Naturlig språkbehandling (NLP): MoE-modeller kan hantera nyanserna och komplexiteten i mänskligt språk mer effektivt, vilket gör dem idealiska för avancerade NLP-uppgifter.
  • Bild- och videobehandling: I uppgifter som kräver högupplöst bearbetning kan MoE hantera olika aspekter av bilder eller videorutor, vilket förbättrar både kvalitet och bearbetningshastighet.
  • Anpassningsbara AI-lösningar: Företag och forskare kan skräddarsy MoE-modeller för specifika uppgifter, vilket leder till mer riktade och effektiva AI-lösningar.

Utmaningar och överväganden

Även om MoE-modeller erbjuder många fördelar, erbjuder de också unika utmaningar:

  • Komplexitet i träning och trimning: Den distribuerade karaktären hos MoE-modeller kan komplicera utbildningsprocessen, vilket kräver noggrann balansering och inställning av experterna och gating-nätverket.
  • Resurshantering: Att effektivt hantera beräkningsresurser mellan flera experter är avgörande för att maximera fördelarna med MoE-modeller.

Att införliva MoE-lager i neurala nätverk, särskilt inom området språkmodeller, erbjuder en väg mot att skala modeller till storlekar som tidigare var omöjliga på grund av beräkningsbegränsningar. Den villkorliga beräkningen som möjliggörs av MoE-lager möjliggör en mer effektiv fördelning av beräkningsresurser, vilket gör det möjligt att träna större, mer kapabla modeller. När vi fortsätter att kräva mer av våra AI-system kommer arkitekturer som den MoE-utrustade transformatorn sannolikt att bli standarden för att hantera komplexa, storskaliga uppgifter inom olika domäner.

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.