stuacach BlackMamba: Meascán Saineolaithe le haghaidh Múnlaí Stáit-Spáis - Unite.AI
Ceangail le linn

Faisnéise Saorga

BlackMamba: Meascán Saineolaithe le haghaidh Múnlaí Stáit-Spáis

mm

foilsithe

 on

BlackMamba: Meascán Saineolaithe le haghaidh Múnlaí Stáit-Spáis

Bhí ról ríthábhachtach ag forbairt Samhlacha Móra Teanga (LLManna) a tógadh ó mhúnlaí claochladán díchódóra-amháin maidir leis an bhfearann ​​​​Próiseáil Teanga Nádúrtha (NLP) a athrú, chomh maith le feidhmeanna éagsúla domhainfhoghlama a chur chun cinn lena n-áirítear foghlaim a threisiú, anailís sraith ama, próiseáil íomhá, agus go leor eile. Mar sin féin, in ainneoin a n-inscalaitheachta agus a bhfeidhmíocht láidir, tá easnaimh shuntasacha fós le sárú ag LLManna a tógadh ó mhúnlaí claochladáin díchódóra-amháin. Cé go bhfuil sé sainráiteach, éilíonn an mheicníocht aird i LLManna a dhíorthaítear ó chlaochladán acmhainní arda ríomhaireachta le linn tátail agus oiliúna araon, rud a éilíonn cuimhne shubstaintiúil d'fhad an tseichimh agus do FLOPanna cearnacha. Cuireann an ceanglas ard ríomhaireachtúil seo teorainn le fad comhthéacs na samhlacha claochladáin, rud a fhágann go bhfuil tascanna giniúna uath-aischéimnitheacha costasach i gcomhréir le scála, agus cuireann sé bac ar fhoghlaim ó shruthanna sonraí leanúnacha agus an cumas chun seicheamh a phróiseáil go fírinneach gan teorainn.

Le blianta beaga anuas, Múnlaí Spáis Stáit (SSManna) tá cumais agus feidhmíocht iontach léirithe, ag iomaíocht le samhlacha claochladán-ailtireachta i tagarmharcanna samhaltú ar scála mór agus castacht chuimhne á baint amach mar fheidhm d'fhad seichimh agus am líneach. Ina theannta sin, léirigh Mamba, Samhail Spáis Stáit a eisíodh le déanaí, sárfheidhmíocht i raon de shamhaltú teanga agus de thascanna próiseála fadseichimh. Ag an am céanna, tá feidhmíocht shuntasach léirithe ag samhlacha Meascán Saineolaithe (MoE) agus ag an am céanna laghdaigh siad go mór na costais fholaithe agus ríomhaireachtúla tátail, cé gur ar chostas lorg cuimhne níos mó. Ag tógáil ar mhúnlaí Mamba agus MoE, pléifidh an t-alt seo BlackMamba, ailtireacht úrscéal a chomhcheanglaíonn Múnla Spáis Stáit Mamba le samhlacha MoE chun na buntáistí a thairgeann an dá chreat a ghiaráil. Tá sé léirithe ag turgnaimh ar BlackMamba go bhfuil sé ar a chumas sárobair a dhéanamh ar chreat reatha Mamba agus ar bhunlínte an chlaochladáin maidir le FLOPanna oiliúna agus tátail araon. Léiríonn feidhmíocht eisceachtúil chreat BlackMamba gur féidir leis cumais chreataí Mamba agus MoE a chomhcheangal go héifeachtach, ag tairiscint tátal tapa agus cost-éifeachtach ó MoE le giniúint líneach-castachta ó Mamba.

Tá sé mar aidhm ag an alt seo creat BlackMamba a chlúdach go domhain. Déanaimid iniúchadh ar mheicníocht, ar mhodheolaíocht agus ar ailtireacht an chreata, mar aon lena chomparáid le creataí giniúna íomhá agus físe den scoth. Ar aghaidh linn.

BlackMamba : Réamhrá don MoE le haghaidh Múnlaí Spáis Stáit

Bhí tionchar suntasach ag dul chun cinn na Samhlacha Móra Teanga (LLManna), go háirithe iad siúd atá bunaithe ar ailtireachtaí claochladán díchódóra amháin, ar an Próiseáil Teanga Nádúrtha (NLP) réimse agus leathnaíodh é i bhfeidhmchláir dhomhainfhoghlama éagsúla, lena n-áirítear foghlaim athneartaithe, anailís sraith ama, próiseáil íomhá, agus ina dhiaidh sin. Mar sin féin, in ainneoin a inscálaithe agus a bhfeidhmíocht láidir, tá dúshláin shuntasacha roimh na LLManna seo atá bunaithe ar chlaochladán díchódaithe amháin. An mheicníocht aird, príomhghné de claochladán-bhunaithe LLMannas, éilíonn sé acmhainní ríomhaireachta fairsinge le haghaidh tátail agus oiliúna araon. Is éard atá i gceist leis seo ná gá le cuimhne a fhásann le fad an tseichimh agus na hoibríochtaí ríomhaireachtúla (FLOPanna) a mhéadaíonn go ceathairneach. Cuireann dianriachtanas ríomhaireachta den sórt sin srian le fad comhthéacs na samhlacha, ardaíonn siad costais tascanna giniúna uath-aischéimnithí mar na scálaí samhla, agus cuireann siad bac ar chumas na samhlacha foghlaim ó shruthanna sonraí leanúnacha nó ó sheichimh phróiseála d’fhad neamhtheoranta go héifeachtach. 

Tá iarrachtaí suntasacha déanta le blianta beaga anuas chun iarracht a dhéanamh na teorainneacha seo a shárú, agus tá aird á tabhairt ar roghanna ailtireachta eile a cheapadh seachas na samhlacha canónacha de chlaochladáin aird dhlúithe agus samhlacha SSM agus MoE ar na hailtireachtaí is mó a bhfuil gealladh fúthu. Is é an príomhbhuntáiste a bhaineann le Múnlaí Spáis an Stáit a chur i bhfabhar samhlacha ailtireachta claochladán ná an chastacht líneach ríomha maidir le fad seichimh ionchuir a thairgeann SSManna i gcomparáid leis an gcastacht chearnach a thairgeann claochladáin. Go teoiriciúil, cuireann castacht líneach ríomhaireachtúil maidir le fad seichimh ionchuir ar chumas Múnlaí Spáis an Stáit seichimh níos mó ná samhlacha ailtireachta claochladán a phróiseáil le haghaidh FLOPanna nó oibríochtaí snámhphointe in aghaidh an tsoicind ar leith, agus giniúint uathchéimnitheach a dhéanamh tairiseach i ríomh gan taisce KV. Léirigh Múnlaí Spáis Stáit a forbraíodh le déanaí, lena n-áirítear Mamba, RetNet agus roinnt eile, tátal agus oiliúint fhadtréimhseach éifeachtach, mar aon le feidhmíocht iomaíoch tasc samhaltú teanga do chlaochladáin a bhfuil airíonna scálaithe comhchosúla acu. Ar an láimh eile, tá an-tóir ar ailtireachtaí samhlacha Meascán de Shaineolaithe mar mhalairt ar chlaochladáin dlútha toisc go n-éascaíonn sé laghdú suntasach ar thátal agus ar oiliúint FLOPanna atá riachtanach chun cáilíocht inchomparáide a bhaint amach le múnla dlúth. Feidhmíonn samhlacha MoE (Meascán Saineolaithe) trí roghnú gann de na paraiméadair iomlána a ghníomhachtú le linn pas amháin chun cinn. Úsáideann siad feidhm ródaithe chun a fháil amach cé na 'saineolaithe' a dtugtar gníomh dóibh bunaithe ar an gcomhthéacs a thugtar. Cruthaíonn an cur chuige seo deighilt idir costas ríomhaireachtúil na tátail agus líon iomlán na bparaiméadar, rud a cheadaíonn feidhmíocht fheabhsaithe laistigh de bhuiséad seasta tátail, cé go bhfuil líon méadaithe paraiméadair agus riachtanas cuimhne níos mó.

Tá buntáistí suntasacha ag baint leis an dul chun cinn seo san ailtireacht thar na claochladáin thraidisiúnta agus léiríonn sé treo spreagúil le haghaidh tuilleadh forbartha. Dearbhaímid go bhféadfaí na feabhsuithe seo a chomhtháthú isteach i múnla comhcheangailte Mamba-MoE dlús suntasach a chur le cumas agus éifeachtúlacht samhaltaithe teanga thar na samhlacha caighdeánacha claochladán. I measc na mbuntáistí a bhfuiltear ag súil leo a bhaineann le hailtireacht Mamba-MoE i gcomparáid le múnla traidisiúnta claochladán dlúth tá:

Mamba: Baintear amach castacht líneach ríomhaireachtúil i gcoibhneas le fad an tseichimh ionchuir do na céimeanna oiliúna agus tátail araon. Cuireann sé ar chumas giniúint uath-aischéimnitheach tarlú laistigh de fhráma ama seasta agus le húsáid leanúnach cuimhne.

MoE: Tairiscíonn an luas tátal agus an oiliúint éifeachtúlacht ríomhaireachtúil atá inchomparáide le múnla bonnlíne níos lú, dlúth agus ag an am céanna leibhéal cáilíochta múnla a choinneáil atá in iomaíocht le samhail le líon comhionann paraiméadair leis an leagan níos dlúithe.

Agus é sin ráite, tá sé riachtanach a lua go bhfuil samhlacha ailtireachta claochladáin fós den chéad scoth, agus go bhfuil feidhmíocht láidir comhsheasmhach agus iontach léirithe acu ar thascanna samhaltaithe teanga agus ar thascanna próiseála seichimh. Ina chroílár, úsáideann ailtireacht an chlaochladáin féin-aird a dhéanann comparáid chearnach uile-le-duine ar chosúlachtaí an táirge ponc idir leabú comharthaí éagsúla i seicheamh, agus a fheidhmíonn léarscáil líneach le veicteoir aschuir. Is éard atá sa mhúnla claochladán ná bloic féin-aire atá cruachta idir bloic MLP nó Ilshraith Perceptron a chuimsíonn MLP dhá chiseal a bhfuil feidhm gníomhachtaithe ar leith acu. 

BlackMamba : Ailtireacht agus Modheolaíocht

Múnlaí Spáis Stáit

Baineann Múnlaí Spáis Luaigh leis an ngrúpa de mhúnlaí seichimh a bhfuil castacht líneach acu maidir le fad an tseichimh ionchuir. Ailíníonn ailtireacht Múnlaí Spáis Stáit níos mó le Líonraí Néaracha Athfhillteacha agus Líonraí Néaracha Comhráiteacha seachas ailtireacht aire-bhunaithe, agus tá sé spreagtha ó chóras dinimiciúil leanúnach a mhapálann feidhm aontoiseach trí spás folaigh intuigthe. Déanann córas dinimiceach líneach ríomhanna comhthreomhara éifeachtach trí úsáid a bhaint as scanadh comhthiomsaitheach nó scanadh conbhlóide. I gcásanna praiticiúla, is é nádúr athfhillteach Múnlaí Spáis an Stáit an chúis go bhfuil sé fós le glacadh ar chrua-earraí AI ard-chomhthreomhara cosúil le GPUanna. Mar sin féin, tá teacht chun cinn SSManna cosúil le RWKV agus mamba bhain siad úsáid as eithne scanadh comhthreomhara chun oibríochtaí athfhillteacha a mhapáil go héifeachtúil chuig GPUanna, rud a éascaíonn oiliúint ailtireachta núíosacha le héifeachtúlacht atá inchomparáide leo siúd a baineadh amach ag samhlacha claochladán. 

Is teorannú aitheanta í an chastacht chearnach bhunúsach maidir le fad seichimh laistigh de chlaochladáin a chuireann bac ar réasúnaíocht agus ar thuiscint thar chomhthéacsanna an-fhada. Thug nuálaíochtaí le déanaí isteach an smaoineamh fad an chomhthéacs a shíneadh, rud a chuir ar chumas claochladáin a bheith oilte ar scála indéanta sula gcuirtear i bhfeidhm iad i gcomhthéacsanna i bhfad níos faide le linn tátail. In ainneoin na dul chun cinn seo, éilíonn an próiseas tátal fós go leor acmhainní ríomhaireachtúla agus cuimhne, go háirithe chun an taisce Eochairluacha (KV) a chothabháil, rud a fhágann gur dianiarracht acmhainní é. Dhírigh iarrachtaí taighde le déanaí ar fheabhas a chur ar chumais léirithe na samhlacha spáis-stáit trí mheicníochtaí geataithe ionchuir-spleách a ionchorprú, cosúil leis na maitrísí Ceist, Eochair, Luach (QKV) a fhaightear i meicníochtaí aire. 

Tá sé mar aidhm ag na hiarrachtaí seo dul chun cinn líneach ó dhúchas aisdúichiú spáis an stáit a chaomhnú, rud a cheadaíonn forghníomhú éifeachtúil trí chomhbhrón nó trí phróiseas scanta roghnach. Laghdaíonn an cur chuige seo go mór an difríocht feidhmíochta le claochladáin in iarratais phraiticiúla. I measc na n-dul chun cinn seo, seasann Mamba amach mar mhúnla stáit-spáis a léiríonn cuspóirí taighde roimhe seo, ag taispeáint leibhéil feidhmíochta iontacha atá inchomparáide le claochladáin ag scálaí suas le 2.8 billiún paraiméadair. Baintear é seo amach trí gheataí ionchuir-spleách a chur i bhfeidhm ar ionchuir athfhillteach na samhla spáis-stáit (SSM), agus ag an am céanna áiritheoidh sé ríomh éifeachtach trí úsáid a bhaint as eithne scanacháin roghnach.

Meascán de Mhúnlaí Saineolaithe

Déanann samhlacha Meascán Saineolaithe (MoE) deighilt a bhaint amach idir an costas tátail agus an t-iomlán paraiméadar a chomhaireamh trí pharaiméadair a ghníomhachtú go roghnach le linn an pas chun cinn. In ionad na paraiméadair go léir a úsáid, díríonn na samhlacha seo comharthaí do shaineolaithe ilchisealacha Perceptron (MLP). Go hidéalach, déantar gach saineolaí a shaincheapadh chun cineál áirithe ionchuir a phróiseáil, le meicníocht ródaithe, go bunúsach líonra dlúth néareolaíoch, a chinneann an saineolaí is oiriúnaí do gach comhartha. Tá sé mar aidhm ag an gcur chuige seo cumhacht léirithe cuimsitheach samhail a chaomhnú le líon comhionann paraiméadair i gcumraíocht níos dlúithe, ach le héilimh ríomhaireachtúla laghdaithe go mór. Go hiondúil, is é atá sa ródaire ná mapáil ar na sraitheanna líneacha ó chomharthaí go hinnéacsanna saineolaithe agus níl i gceist le gach saineolaí ach claochladán caighdeánach Ilchiseal Perceptron. Mar sin féin, níl forbróirí fós le déanamh amach an modh oiliúna is fearr don ródaire ós rud é go bhfuil an fhadhb sannadh saineolaí neamh-difriúil, agus is minic a bhíonn deacrachtaí ag samhlacha Meascán Saineolaithe le cothromaíocht ualaigh agus cobhsaíocht oiliúna idir saineolaithe éagsúla maidir le héifeachtacht crua-earraí. 

ailtireacht

Ag a chroílár, úsáideann BlackMamba múnla caighdeánach claochladán ar a bhfuil bloic MLP idirdhuilleacha agus bloic aird a chuirtear in ord feadh srutha iarmharach. Anois, ní dhéanann tromlach na múnlaí Meascán Saineolaithe ach sraith shaineolach a chur in ionad na mbloic perceptron ilchiseal. Ar an láimh eile, ní hamháin go gcuireann creat BlackMamba in ionad an bhloc perceptron ilchiseal sa chlaochladán le sraith shaineolach, ach cuireann sé ciseal Múnla Spáis Stáit Mamba in ionad an chiseal aird freisin. Léirítear ailtireacht chreat BlackMamba san fhigiúr seo a leanas. 

Oiliúint agus Tacar Sonraí

Tá an tsamhail BlackMamba traenáilte ar níos mó ná 300 billiún comhartha ar thacar sonraí saincheaptha, agus úsáideann sé feidhm gníomhachtaithe SwiGLU do na peirceptrons ilchisealacha saineolacha. Cuirtear oiliúint ar 8 saineolaí sa chreat, uimhir a fuair forbróirí a bheith ar an gcothromaíocht cheart agus a dhéanann malairt idir lorg cuimhne agus costas tátail na samhla. Is éard atá sa tacar sonraí saincheaptha a úsáidtear chun an creat BlackMamba a oiliúint ná meascán de thacair shonraí foinse oscailte atá ann cheana féin lena n-áirítear Starcoder, SlimPajama, Pile, agus go leor eile. Léiríonn an tábla seo a leanas meáchain gach tacar sonraí a úsáideadh chun an creat BlackMamba a thraenáil. Ar an iomlán, tá 1.8 trilliún comharthaí sa tacar sonraí. 

BlackMamba : Torthaí

Chun comparáid chothrom a chinntiú idir Mamba agus BlackMamba, tá an dá mhúnla leis na paraiméadair oiliúna céanna oilte ag forbróirí ar na sonraí oiliúna céanna. Tá creat BlackMamba in ann sárfheidhmíocht a dhéanamh ar mhúnlaí Mamba agus claochladáin araon maidir le méid comhionann samhail pas chun cinn ag an am tátail chomh maith le hoibríochtaí snámhphointe in aghaidh an tsoicind a oiliúint. Léiríonn an figiúr seo a leanas an t-am a thógann sé seicheamh d’fhad tugtha a ghiniúint go huathoibríoch ó leid aonchomhartha tosaigh mar fheidhm d’fhad an tseichimh. 

Ina theannta sin, comhcheanglaítear buntáistí latency na múnlaí Meascán de Shaineolaithe agus Mamba araon i gcreat BlackMamba, rud a fhágann go mbíonn amanna tátail i bhfad níos tapúla i gcomparáid le samhlacha claochladán, samhlacha Mamba íona, agus samhlacha MoE. Ina theannta sin, tá buntáiste tátail chreat BlackMamba comhréireach go díreach le faid na seicheamh, rud a fhágann go bhfuil BlackMamba thar a bheith éifeachtach ag giniúint seicheamh fada. Ag bogadh ar aghaidh, léiríonn an figiúr seo a leanas líon na comharthaí a sannadh do mhúnlaí BlackMamba le 340 milliún agus 640 milliún paraiméadair faoi seach. Mar is léir, léiríonn tromlach na sraitheanna leibhéal ard cothromaíochta saineolaithe mar thoradh ar algartam feabhsaithe Sinkhorn a chuir samhlacha BlackMamba i bhfeidhm. 

Clúdaíonn an tábla seo a leanas scóir mheastóireachta chreat BlackMamba i gcomparáid le raon samhlacha foinse oscailte teanga réamhoilte. Mar is féidir a thabhairt faoi deara, tá creat BlackMamba in ann dul san iomaíocht agus feidhmiú níos fearr le tromlach na gcreataí ar fud na mbonnlínte go léir. Ina theannta sin, is fiú a thabhairt faoi deara go bhfuil líon i bhfad níos airde paraiméadair ag na samhlacha a sháraíonn BlackMamba, agus is beag an bhearna feidhmíochta, rud a léiríonn cumas chreat BlackMamba le níos lú paraiméadair. 

Smaointe Deiridh

San Airteagal seo, labhair muid faoi BlackMamba, ailtireacht úrscéal a chomhcheanglaíonn Múnla Spáis Stáit Mamba le samhlacha Meascán de Shaineolaithe chun na buntáistí a bhaineann leis an dá chreat seo a bhaint amach. Tá sé léirithe ag turgnaimh ar BlackMamba go sáraíonn sé an creat Mamba atá ann cheana féin agus bunlínte an chlaochladáin maidir le FLOPanna oiliúna agus tátail araon. Léiríonn feidhmíocht eisceachtúil chreat BlackMamba go bhfuil sé in ann cumais chreataí Mamba agus MoE a oidhreacht agus a chomhcheangal go han-mhaith toisc go gceanglaíonn sé an tátal saor tapa ó MoE le giniúint líneach-castachta ó Mamba. Táimid tar éis labhairt faoi conas is féidir le hailtireacht chreat BlackMamba sárobair a dhéanamh ar Mhúnlaí Móra Teangacha láidre oilte, ar an gcreat Mamba atá ann cheana féin, agus ar Mheascán Saineolach i dtéarmaí FLOPanna oiliúna agus costais tátail. Ina theannta sin, tugann creat BlackMamba oidhreacht do na FLOPanna giniúna agus oiliúint laghdaithe ó mhúnlaí Meascán de Shaineolaithe agus ón gcreat Mamba araon ag an am céanna. 

 

"Innealtóir de réir gairme, scríbhneoir ó chroí". Is scríbhneoir teicniúil é Kunal a bhfuil grá agus tuiscint dhomhain aige ar AI agus ar ML, atá tiomanta do choincheapa casta sna réimsí seo a shimpliú trína dhoiciméadú mealltach agus faisnéiseach.