stubs Mistral AI jaunākais ekspertu maisījums (MoE) 8x7B modelis — Unite.AI
Savienoties ar mums

Mākslīgais intelekts

Mistral AI jaunākais ekspertu maisījums (EM) 8x7B modelis

mm

Izdots

 on

Ekspertu maisījums mistral ai

Mistral AI kas ir Parīzē bāzēts atvērtā pirmkoda modeļa starta uzņēmums, ir apstrīdējis normas, izlaižot savu jaunāko lielo valodu modeli (LLM), MoE 8x7B, izmantojot vienkāršu torrent saite. Tas ir pretstatā Google tradicionālajai pieejai ar Gemini versiju, radot sarunas un satraukumu AI kopienā.

Mistral AI pieeja laidieniem vienmēr ir bijusi netradicionāla. Bieži vien atsakoties no parastajiem rakstu, emuāru vai preses relīžu pavadīšanas, viņu stratēģija ir bijusi unikāli efektīva, piesaistot AI kopienas uzmanību.

Nesen uzņēmums sasniedza ievērojamu rezultātu USD 2 miljardu vērtējums pēc Andreesena Horovica vadītās finansēšanas kārtas. Šī finansēšanas kārta bija vēsturiska, uzstādot rekordu ar 118 miljonu ASV dolāru sēklu kārtu, kas ir lielākā Eiropas vēsturē. Papildus finansējuma panākumiem, Mistral AI aktīvā iesaistīšanās diskusijās par ES AI likumu, atbalstot atvērtā pirmkoda AI regulējuma samazināšanu.

Kāpēc EM 8x7B pievērš uzmanību?

Mixtral 4x8B, kas aprakstīts kā “samazināts GPT-7”, izmanto ekspertu sajaukumu (EM) ar astoņiem ekspertiem. Katram ekspertam ir 111 B parametri kopā ar 55 B dalītas uzmanības parametriem, lai kopā iegūtu 166 B parametrus vienam modelim. Šī dizaina izvēle ir nozīmīga, jo tā ļauj tikai diviem ekspertiem iesaistīties katra marķiera izsecināšanā, uzsverot pāreju uz efektīvāku un mērķtiecīgāku AI apstrādi.

Viens no galvenajiem Mixtral aspektiem ir tā spēja pārvaldīt plašu kontekstu ar 32,000 XNUMX marķieriem, nodrošinot plašas iespējas sarežģītu uzdevumu veikšanai. Modeļa daudzvalodu iespējas ietver spēcīgu atbalstu angļu, franču, itāļu, vācu un spāņu valodām, kas nodrošina globālo izstrādātāju kopienu.

Mixtral iepriekšēja apmācība ietver datus, kas iegūti no atvērtā tīmekļa, ar vienlaicīgu apmācību pieeju gan ekspertiem, gan maršrutētājiem. Šī metode nodrošina, ka modelis ir ne tikai plašs tā parametru telpā, bet arī precīzi pielāgots plašo datu niansēm, kuriem tas ir bijis pakļauts.

Mixtral 8x7B sasniedz iespaidīgu rezultātu

Mixtral 8x7B sasniedz iespaidīgu rezultātu

Mixtral 8x7B pārspēj LLaMA 2 70B un konkurējošo GPT-3.5, īpaši MBPP uzdevumā ar 60.7% panākumu līmeni, kas ir ievērojami augstāks nekā tā kolēģi. Pat stingrajā MT-Bench, kas pielāgots instrukcijām sekojošiem modeļiem, Mixtral 8x7B sasniedz iespaidīgu rezultātu, kas gandrīz atbilst GPT-3.5

Izpratne par ekspertu sajaukumu (EM) ietvaru

Modelis Mixture of Experts (MoE), lai gan nesen ir ieguvis uzmanību, jo tas ir iekļauts modernākos valodu modeļos, piemēram, Mistral AI MoE 8x7B, patiesībā sakņojas vairāku gadu senās pamatkoncepcijās. Apskatīsim šīs idejas izcelsmi, izmantojot nozīmīgus pētījumus.

EM koncepcija

Ekspertu sajaukums (EM) ir paradigmas maiņa neironu tīklu arhitektūrā. Atšķirībā no tradicionālajiem modeļiem, kuros visu veidu datu apstrādei tiek izmantots viendabīgs, viendabīgs tīkls, EM izmanto specializētāku un modulārāku pieeju. Tas sastāv no vairākiem “ekspertu” tīkliem, no kuriem katrs ir paredzēts noteikta veida datu vai uzdevumu apstrādei, un tos pārrauga “varēšanas tīkls”, kas dinamiski novirza ievades datus vispiemērotākajam ekspertam.

Ekspertu maisījuma (EM) slānis, kas iegults atkārtotā valodas modelī

Ekspertu maisījuma (EM) slānis, kas iegults atkārtotā valodas modelī (avots)

 

Iepriekš redzamajā attēlā parādīts valodas modelī iegultā EM slāņa augsta līmeņa skats. Pēc būtības EM slānis ietver vairākus tālākvirzīšanas apakštīklus, ko sauc par “ekspertiem”, un katrs no tiem var specializēties dažādu datu aspektu apstrādē. Diagrammā iezīmētais vārtu tīkls nosaka, kura šo ekspertu kombinācija ir piesaistīta konkrētai ievadei. Šī nosacītā aktivizēšana ļauj tīklam ievērojami palielināt savu jaudu bez atbilstoša skaitļošanas pieprasījuma pieauguma.

EM slāņa funkcionalitāte

Praksē vārtu tīkls novērtē ievadi (apzīmēta kā G(x) diagrammā) un atlasa retu ekspertu kopu, lai to apstrādātu. Šo atlasi modulē vārtu tīkla rezultāti, efektīvi nosakot katra eksperta “balsu” vai ieguldījumu gala iznākumā. Piemēram, kā parādīts diagrammā, katra konkrētā ievades marķiera izvades aprēķināšanai var izvēlēties tikai divus ekspertus, padarot procesu efektīvu, koncentrējot skaitļošanas resursus tur, kur tie ir visvairāk nepieciešami.

 

Transformatora kodētājs ar MoE slāņiem (avots)

Otrajā attēlā iepriekš ir kontrastēts tradicionālais transformatora kodētājs ar tādu, kas papildināts ar MoE slāni. Transformatora arhitektūra, kas plaši pazīstama ar savu efektivitāti ar valodu saistītos uzdevumos, tradicionāli sastāv no sevis uzmanības un padeves uz priekšu slāņiem, kas sakārtoti secīgi. EM slāņu ieviešana aizstāj dažus no šiem uz priekšu vērstiem slāņiem, ļaujot modelim efektīvāk mērogot attiecībā uz jaudu.

Papildinātajā modelī EM slāņi ir sadalīti vairākās ierīcēs, demonstrējot modeļa paralēlu pieeju. Tas ir ļoti svarīgi, mērogojot uz ļoti lieliem modeļiem, jo ​​tas ļauj sadalīt skaitļošanas slodzi un atmiņas prasības starp ierīču kopu, piemēram, GPU vai TPU. Šī sadalīšana ir būtiska, lai efektīvi apmācītu un ieviestu modeļus ar miljardiem parametru, par ko liecina modeļu apmācība ar simtiem miljardu līdz vairāk nekā triljonam parametru liela mēroga skaitļošanas klasteros.

Reta EM pieeja ar instrukciju regulēšanu LLM

Papīrs ar nosaukumu "Sparse Mixture of-Experts (EM) mērogojamu valodu modelēšanai” apspriež novatorisku pieeju lielo valodu modeļu (LLM) uzlabošanai, integrējot ekspertu maisījumu arhitektūru ar instrukciju regulēšanas metodēm.

Tas izceļ kopīgu izaicinājumu, kurā EM modeļiem ir zemāka veiktspēja salīdzinājumā ar blīviem modeļiem ar vienādu skaitļošanas jaudu, kad tie ir precīzi pielāgoti konkrētiem uzdevumiem, jo ​​pastāv neatbilstības starp vispārējo pirmsapmācību un uzdevumam specifisko precizēšanu.

Instrukciju regulēšana ir apmācības metodika, kurā modeļi tiek pilnveidoti, lai labāk ievērotu dabiskās valodas norādījumus, efektīvi uzlabojot to uzdevumu izpildi. Rakstā norādīts, ka EM modeļiem ir ievērojams uzlabojums, ja to apvieno ar instrukciju regulēšanu, vairāk nekā to blīvie kolēģi. Šis paņēmiens saskaņo modeļa iepriekš sagatavotos attēlojumus, lai efektīvāk ievērotu norādījumus, tādējādi ievērojami uzlabojot veiktspēju.

Pētnieki veica pētījumus trīs eksperimentālos uzstādījumos, atklājot, ka EM modeļi sākotnēji nedarbojas tiešā uzdevuma precizēšanā. Tomēr, ja tiek izmantota instrukciju regulēšana, EM modeļi ir izcili, jo īpaši, ja tie tiek papildināti ar uzdevumam specifisku precizēšanu. Tas liek domāt, ka instrukciju regulēšana ir būtisks solis EM modeļiem, lai pārspētu blīvos modeļus pakārtotajos uzdevumos.

Instrukciju regulēšanas ietekme uz MOE

Instrukciju regulēšanas ietekme uz MOE

Tas arī iepazīstina ar FLAN-MOE32B — modeli, kas demonstrē šo koncepciju veiksmīgu pielietojumu. Jo īpaši tas pārspēj FLAN-PALM62B, blīvo modeli, etalonuzdevumos, vienlaikus izmantojot tikai vienu trešdaļu no skaitļošanas resursiem. Tas parāda retu MoE modeļu potenciālu apvienojumā ar instrukciju regulēšanu, lai noteiktu jaunus LLM efektivitātes un veiktspējas standartus.

Ekspertu kombinācijas ieviešana reālos scenārijos

EM modeļu daudzpusība padara tos ideāli piemērotus dažādiem lietojumiem:

  • Dabiskās valodas apstrāde (NLP): EM modeļi var efektīvāk tikt galā ar cilvēku valodas niansēm un sarežģītību, padarot tos ideāli piemērotus progresīviem NLP uzdevumiem.
  • Attēlu un video apstrāde: Veicot uzdevumus, kuriem nepieciešama augstas izšķirtspējas apstrāde, EM var pārvaldīt dažādus attēlu vai video kadru aspektus, uzlabojot gan kvalitāti, gan apstrādes ātrumu.
  • Pielāgojami AI risinājumi: Uzņēmumi un pētnieki var pielāgot EM modeļus konkrētiem uzdevumiem, tādējādi radot mērķtiecīgākus un efektīvākus AI risinājumus.

Izaicinājumi un apsvērumi

Lai gan EM modeļi piedāvā daudzas priekšrocības, tie rada arī unikālas problēmas:

  • Apmācības un regulēšanas sarežģītība: EM modeļu izkliedētais raksturs var sarežģīt apmācības procesu, kas prasa rūpīgu ekspertu un vārtu tīkla līdzsvarošanu un regulēšanu.
  • Resursu pārvaldība: Efektīva skaitļošanas resursu pārvaldība, izmantojot vairākus ekspertus, ir ļoti svarīga, lai maksimāli palielinātu EM modeļu priekšrocības.

EM slāņu iekļaušana neironu tīklos, jo īpaši valodu modeļu jomā, piedāvā ceļu uz modeļu mērogošanu līdz izmēriem, kas iepriekš nebija iespējami skaitļošanas ierobežojumu dēļ. Nosacītā aprēķins, ko nodrošina EM slāņi, ļauj efektīvāk sadalīt skaitļošanas resursus, ļaujot apmācīt lielākus, spējīgākus modeļus. Tā kā mēs turpinām pieprasīt vairāk no mūsu AI sistēmām, tādas arhitektūras kā ar EM aprīkotais transformators, visticamāk, kļūs par standartu sarežģītu, liela mēroga uzdevumu veikšanai dažādās jomās.

Pēdējos piecus gadus esmu pavadījis, iegremdējot sevi aizraujošajā mašīnmācīšanās un dziļās mācīšanās pasaulē. Mana aizraušanās un pieredze lika man piedalīties vairāk nekā 50 dažādos programmatūras inženierijas projektos, īpašu uzmanību pievēršot AI/ML. Mana pastāvīgā ziņkārība mani ir piesaistījusi arī dabiskās valodas apstrādei, jomai, kuru vēlos izpētīt tālāk.