Faisnéise Saorga

Méadú ar Mheascán Saineolais do Mhúnlaí Éifeachtúla Teangacha

Nuashonraithe on Márta 21, 2024

I saol na próiseála teanga nádúrtha (NLP), tá an tóir ar mhúnlaí teanga níos mó agus níos cumasaí a thógáil ina fhórsa tiomána taobh thiar de go leor dul chun cinn le déanaí. Mar sin féin, de réir mar a théann na samhlacha seo i méid, tá na riachtanais ríomhaireachtúla le haghaidh oiliúna agus tátail ag éirí níos éilithí, ag brú i gcoinne teorainneacha na n-acmhainní crua-earraí atá ar fáil.

Cuir isteach Meascán de Shaineolaithe (MoE), teicníocht a gheallann an t-ualach ríomhaireachtúil seo a mhaolú agus ag an am céanna cumasaítear oiliúint ar mhúnlaí teanga níos mó agus níos cumhachtaí. Sa bhlagmhír theicniúil seo, scrúdóimid saol an MoE, ag fiosrú a bhunús, a oibriú istigh, agus a fheidhmchláir i múnlaí teanga atá bunaithe ar chlaochladán.

Bunús na Meascán de Shaineolaithe

Is féidir an coincheap Meascán de Shaineolaithe (MoE) a rianú siar go dtí na 1990idí luatha nuair a rinne taighdeoirí iniúchadh ar an smaoineamh maidir le ríomh coinníollach, áit a gcuirtear codanna de líonra néaraíoch i ngníomh go roghnach bunaithe ar na sonraí ionchuir. Ar cheann de na saothair cheannródaíocha sa réimse seo bhí an “Meascán Oiriúnaitheach de Shaineolaithe Áitiúla” páipéar le Jacobs et al. i 1991, inar moladh creat foghlama maoirsithe le haghaidh ensemble de líonraí néaracha, gach ceann acu ag speisialú i réigiún difriúil den spás ionchuir.

Is é an bunsmaoineamh taobh thiar de MoE ná go mbeadh líonraí “saineolaithe” iolracha ann, gach ceann acu freagrach as fothacar de na sonraí ionchuir a phróiseáil. Cinneann meicníocht geataithe, go hiondúil líonra néarúil é féin, cé acu saineolaí/saineolaithe ar cheart ionchur ar leith a phróiseáil. Ligeann an cur chuige seo don tsamhail a acmhainní ríomhaireachtúla a leithdháileadh ar bhealach níos éifeachtaí trí na saineolaithe ábhartha amháin a ghníomhachtú le haghaidh gach ionchuir, seachas acmhainn iomlán na samhla a úsáid le haghaidh gach ionchuir.

Thar na blianta, rinne taighdeoirí éagsúla iniúchadh agus leathnú ar an smaoineamh maidir le ríomhaireacht choinníollach, as ar tháinig forbairtí ar nós MoEanna ordlathacha, comhmheastacháin íseal-ranga do ríomh coinníollach, agus teicnící chun grádáin a mheas trí néaróin stocastaíocha agus feidhmeanna gníomhachtaithe tairsí crua.

Meascán de Shaineolaithe i gClaochladáin

Meascán Saineolaithe

Cé go bhfuil an smaoineamh ar MoE le blianta fada anuas, is le déanaí a cuireadh i bhfeidhm é ar mhúnlaí teanga atá bunaithe ar chlaochladán. Tá trasfhoirmeoirí, a tháinig chun bheith ina gcaighdeán de facto do mhúnlaí teanga úrscothacha, comhdhéanta d’ilshraitheanna, gach ceann acu ina bhfuil meicníocht féin-aire agus líonra néaraíoch beathú ar aghaidh (FFN).

Is í an phríomh-nuálaíocht maidir le MoE a chur i bhfeidhm ar chlaochladáin ná sraitheanna tanaí MoE a chur in ionad na sraitheanna dlúth FFN, ina mbeidh FFNanna saineolaithe iolracha agus meicníocht geataithe. Cinneann an mheicníocht geataíochta cé acu saineolaí/saineolaithe ar cheart dóibh gach comhartha ionchuir a phróiseáil, rud a chuireann ar chumas an mhúnla gan ach fo-thacar saineolaithe a ghníomhachtú go roghnach le haghaidh seicheamh ionchuir ar leith.

Ar cheann de na saothair luatha a léirigh acmhainneacht MoE i gclaochladáin bhí an páipéar “Outrageously Large Nural Networks: The Scarsely-Gated Meascán de Shaineolaithe” le Shazeer et al. in 2017. Thug an obair seo isteach an coincheap de chiseal MoE le geataí tearca, a d’úsáid meicníocht geataithe a chuir tearcrochtain agus torann leis an bpróiseas roghnaithe saineolaithe, ag cinntiú nár cuireadh i ngníomh ach fo-thacar saineolaithe le haghaidh gach ionchuir.

Ó shin i leith, tá roinnt oibreacha eile tar éis cur i bhfeidhm MoE ar chlaochladáin a chur chun cinn tuilleadh, ag tabhairt aghaidh ar dhúshláin amhail éagobhsaíocht oiliúna, cothromú ualaigh, agus tátal éifeachtach. I measc na samplaí suntasacha tá an Athraigh Trasfhoirmeoir (Fedus et al., 2021), ST-MoE (Zoph et al., 2022), agus GLaM (Du et al., 2022).

Na Buntáistí a bhaineann le Meascán de Shaineolaithe le haghaidh Múnlaí Teanga

Is é an príomhbhuntáiste a bhaineann le MoE a úsáid i múnlaí teanga ná an cumas méid na samhla a mhéadú de réir a chéile agus ag an am céanna costas ríomhaireachta réasúnta seasta a choinneáil le linn tátail. Trí ach fo-thacar saineolaithe a ghníomhachtú go roghnach do gach comhartha ionchuir, is féidir le samhlacha MoE cumhacht léiritheach samhlacha dlúth i bhfad níos mó a bhaint amach agus iad i bhfad níos lú ríomha ag teastáil.

Mar shampla, smaoinigh ar mhúnla teanga le ciseal dlúth FFN de 7 billiún paraiméadair. Má táimid in ionad an tsraith seo le ciseal MoE comhdhéanta d'ocht saineolaithe, gach ceann acu le 7 billiún paraiméadair, méadaíonn líon iomlán na paraiméadair go 56 billiún. Mar sin féin, le linn tátail, mura ngníomhóimid ach dhá shaineolaí in aghaidh an chomhartha, tá an costas ríomha comhionann le múnla dlúth 14 billiún paraiméadar, toisc go ríomhtar dhá iolrú maitrís paraiméadar 7 billiún.

Tá an éifeachtúlacht ríomhaireachtúil seo le linn tátail thar a bheith luachmhar i gcásanna imlonnaithe ina bhfuil acmhainní teoranta, amhail gléasanna soghluaiste nó timpeallachtaí ríomhaireachta imeallacha. Ina theannta sin, d’fhéadfadh coigilteas substaintiúil fuinnimh agus lorg carbóin níos ísle a bheith mar thoradh ar na riachtanais ríomhaireachta laghdaithe le linn na hoiliúna, ag teacht leis an mbéim mhéadaithe ar chleachtais AI inbhuanaithe.

Dúshláin agus Breithnithe

Cé go dtugann samhlacha MoE tairbhí láidre, tagann roinnt dúshlán agus breithniúcháin lena nglacadh agus lena n-imscaradh:

Éagobhsaíocht Oiliúna: Tá sé ar eolas go bhfuil samhlacha MoE níos mó seans ann d’éagobhsaíocht oiliúna i gcomparáid lena gcomhghleacaithe dlúth. Eascraíonn an tsaincheist seo as nádúr gann agus coinníollach na ngníomhartha saineolacha, rud a d’fhéadfadh dúshláin a bheith mar thoradh ar iomadú grádáin agus coinbhéirseacht. Moladh teicnící ar nós an ródaire z-loss (Zoph et al., 2022) chun na héagobhsaíochtaí sin a mhaolú, ach tá gá le tuilleadh taighde fós.
Mionchoigeartú agus Rófheistiú: Is gnách go n-oireann samhlacha MoE rófheisteas níos éasca le linn mionchoigeartaithe, go háirithe nuair a bhíonn tacar sonraí sách beag ag an tasc iartheachtach. Cuirtear an t-iompar seo i leith an mhéadaithe ar acmhainn agus ar theine na samhlacha MoE, rud a d’fhéadfadh ró-speisialú a bheith mar thoradh ar na sonraí oiliúna. Tá gá le straitéisí cúramacha rialtachta agus mionchoigeartaithe chun an cheist seo a mhaolú.
Riachtanais Chuimhne: Cé gur féidir le samhlacha MoE costais ríomhaireachtúla a laghdú le linn tátail, is minic a bhíonn riachtanais chuimhne níos airde acu i gcomparáid le samhlacha dlúth den mhéid céanna. Tá sé seo amhlaidh toisc nach mór gach meáchain saineolaí a luchtú isteach sa chuimhne, cé nach gcuirtear ach fo-thacar i ngníomh do gach ionchur. Is féidir le srianta cuimhne teorainn a chur le hinscálaitheacht samhlacha MoE ar fheistí a bhfuil srian acmhainní orthu.
Comhardaithe Luchtaigh: Chun an éifeachtúlacht ríomhaireachtúil is fearr a bhaint amach, tá sé ríthábhachtach an t-ualach a chothromú ar fud na saineolaithe, ag cinntiú nach ndéantar aon saineolaí amháin a ró-ualú agus go bhfuil cuid eile tearcúsáidte. Is gnách go mbaintear amach an cothromú ualaigh seo trí chaillteanais chúnta le linn na hoiliúna agus tiúnadh cúramach ar an bhfachtóir acmhainne, a chinneann an t-uaslíon comharthaí is féidir a shannadh do gach saineolaí.
Cumarsáid Lastuas: I gcásanna oiliúna agus tátail dáilte, is féidir le samhlacha MoE forchostais chumarsáide breise a thabhairt isteach mar gheall ar an ngá atá le faisnéis gníomhachtaithe agus grádáin a mhalartú thar shaineolaithe a bhfuil cónaí orthu ar fheistí nó ar luasairí éagsúla. Tá straitéisí cumarsáide éifeachtacha agus dearadh múnla atá feasach ar chrua-earraí riachtanach chun an forchostas seo a mhaolú.

In ainneoin na ndúshlán seo, spreag na tairbhí féideartha a bhaineann le samhlacha MoE ó thaobh samhlacha teanga níos mó agus níos cumasaí a chumasú iarrachtaí suntasacha taighde chun aghaidh a thabhairt ar na saincheisteanna seo agus iad a mhaolú.

Sampla: Mixtral 8x7B agus GLaM

Chun cur i bhfeidhm praiticiúil MoE i múnlaí teanga a léiriú, déanaimis machnamh ar dhá shampla shuntasacha: Mixtral 8x7B agus GLaM.

Is leagan MoE den MoE é Mixtral 8x7B Múnla teanga Mistral, arna fhorbairt ag Anthropic. Tá sé comhdhéanta d'ochtar saineolaí, gach ceann acu le 7 billiún paraiméadair, a eascraíonn i iomlán de 56 billiún paraiméadair. Mar sin féin, le linn tátail, ní dhéantar ach dhá shaineolaí a ghníomhachtú in aghaidh an chomhartha, rud a laghdóidh go héifeachtach an costas ríomhaireachta go dtí múnla dlúth 14 billiún paraiméadar.

Tá feidhmíocht iontach léirithe ag Mixtral 8x7B, ag déanamh níos fearr ná samhail paraiméadar 70 billiún Llama agus ag an am céanna ag tairiscint amanna tátail i bhfad níos tapúla. Tá leagan teagasc-tiúnta de Mixtral 8x7B, ar a dtugtar Mixtral-8x7B-Instruct-v0.1, eisithe freisin, ag cur tuilleadh lena chumas chun treoracha teanga nádúrtha a leanúint.

Sampla suntasach eile is ea GLaM (Google Language Model), múnla mórscála MoE arna fhorbairt ag Google. Fostaíonn GLaM ailtireacht chlaochladáin díchódóra amháin agus cuireadh oiliúint air ar thacar sonraí comhartha ollmhór 1.6 trilliún. Baineann an tsamhail feidhmíocht shuntasach amach ar mheasúnuithe cúpla urchar agus aon urchar, ag teacht le cáilíocht GPT-3 agus ag baint úsáide as ach aon trian den fhuinneamh a theastaíonn chun GPT-3 a oiliúint.

Is féidir rath GLaM a chur i leith a ailtireachta MoE éifeachtach, a cheadaigh oiliúint ar shamhail le líon mór paraiméadair agus riachtanais ríomhaireachtúla réasúnta á gcoinneáil ag an am céanna. Léirigh an tsamhail freisin an cumas atá ag samhlacha MoE a bheith níos tíosaí ar fhuinneamh agus níos inbhuanaithe ó thaobh an chomhshaoil de i gcomparáid lena gcomhghleacaithe dlúth.

Ailtireacht Grok-1

GROK MEASCÁN SAINEOLAITHE

Groc-1 is samhail MoE atá bunaithe ar chlaochladán é le hailtireacht uathúil atá deartha chun éifeachtúlacht agus feidhmíocht a uasmhéadú. Léimimis isteach sna príomhshonraíochtaí:

paraiméadair: Le 314 billiún paraiméadar ollmhór, is é Grok-1 an LLM oscailte is mó go dtí seo. Mar sin féin, a bhuíochas leis an ailtireacht MoE, níl ach 25% de na meáchain (thart ar 86 billiún paraiméadair) gníomhach ag aon am ar leith, rud a chuireann feabhas ar chumas próiseála.
ailtireacht: Fostaíonn Grok-1 ailtireacht Meascán-de-8-Saineolaí, agus gach comhartha á phróiseáil ag beirt shaineolaithe le linn tátail.
Sraitheanna: Tá an tsamhail comhdhéanta de 64 sraitheanna claochladáin, gach ceann acu ag ionchorprú aird multihead agus bloic dlúth.
Comhaontú: Úsáideann Grok-1 tokenizer SentencePiece a bhfuil méid stór focal 131,072 air.
Leabú agus Ionchódú Poist: Gnéithe an tsamhail leabú 6,144-tríthoiseach agus fostaíonn sé leabaithe suímh rothlacha, rud a chumasaíonn léirmhíniú níos dinimiciúla ar shonraí i gcomparáid le ionchóduithe suímh seasta traidisiúnta.
Aird: Úsáideann Grok-1 48 ceann aird le haghaidh fiosrúcháin agus 8 cinn aird le haghaidh eochracha agus luachanna, agus 128 ceann acu ar fad.
Comhthéacs Fad: Is féidir leis an múnla seichimh suas le 8,192 comhartha a phróiseáil, ag baint úsáide as cruinneas bfloat16 le haghaidh ríomh éifeachtach.

Sonraí Feidhmíochta agus Cur i bhFeidhm

Tá feidhmíocht shuntasach léirithe ag Grok-1, ag déanamh níos fearr ná LLaMa 2 70B agus Mixtral 8x7B le scór MMLU de 73%, ag taispeáint a éifeachtúlachta agus a chruinneas i dtástálacha éagsúla.

Mar sin féin, tá sé tábhachtach a thabhairt faoi deara go dteastaíonn acmhainní suntasacha GPU ó Grok-1 mar gheall ar a mhéid. Díríonn an cur chun feidhme reatha sa scaoileadh foinse oscailte ar bhailíochtú a dhéanamh ar chruinneas an mhúnla agus baintear úsáid as cur chun feidhme ciseal MoE neamhéifeachtúil chun an gá le eithne saincheaptha a sheachaint.

Mar sin féin, tacaíonn an tsamhail le bearrtha gníomhachtaithe agus cainníochtú 8-giotán, ar féidir leo feidhmíocht a bharrfheabhsú agus riachtanais chuimhne a laghdú.

I mbeart iontach, Tá Grok-1 eisithe ag xAI faoi cheadúnas Apache 2.0, a chuid meáchain agus ailtireachta inrochtana don phobal domhanda le húsáid agus le ranníocaíochtaí.

Áirítear leis an scaoileadh foinse oscailte stór cód samplach JAX a thaispeánann conas an tsamhail Grok-1 a luchtú agus a rith. Is féidir le húsáideoirí na meáchain seicphointí a íoslódáil ag baint úsáide as cliant torrent nó go díreach tríd an Mol HuggingFace, ag éascú rochtain éasca ar an tsamhail cheannródaíoch seo.

Todhchaí Meascán de Shaineolaithe i Múnlaí Teanga

De réir mar a leanann an t-éileamh ar mhúnlaí teanga níos mó agus níos cumasaí ag dul i méid, táthar ag súil go dtiocfaidh breis móiminteam de bharr glacadh le teicnící MoE. Tá iarrachtaí taighde leanúnacha dírithe ar aghaidh a thabhairt ar na dúshláin atá fós ann, amhail cobhsaíocht oiliúna a fheabhsú, rófheisteas a mhaolú le linn mionchoigeartaithe, agus barrfheabhsú a dhéanamh ar riachtanais chuimhne agus chumarsáide.

Treo amháin atá tuar dóchais inti is ea iniúchadh a dhéanamh ar ailtireachtaí ordlathacha MoE, ina bhfuil gach saineolaí féin comhdhéanta d’ilfho-shaineolaithe. D’fhéadfadh an cur chuige seo inscálaitheacht agus éifeachtúlacht ríomhaireachtúil níos mó fós a chumasú agus cumhacht léiritheach na múnlaí móra á gcoinneáil ag an am céanna.

Ina theannta sin, is réimse gníomhach taighde é forbairt na gcóras crua-earraí agus bogearraí atá optamaithe le haghaidh samhlacha MoE. D’fhéadfadh luasairí speisialaithe agus creataí oiliúna dáilte atá deartha chun pátrúin ríofa gann agus choinníollach na samhlacha MoE a láimhseáil go héifeachtúil a gcuid feidhmíochta agus inscálaithe a fheabhsú tuilleadh.

Ina theannta sin, d’fhéadfadh samhlacha teanga níos cumhachtaí agus níos ilmhódúla fós a bheith mar thoradh ar chomhtháthú na dteicnící MoE le dul chun cinn eile sa samhaltú teanga, mar mheicníochtaí gann airde, straitéisí éifeachtúla comharthaithe, agus léirithe ilmhódacha, a bheadh in ann dul i ngleic le raon leathan tascanna.

Conclúid

Tá an teicníc Meascán de Shaineolaithe tagtha chun cinn mar uirlis chumhachtach sa tóir ar shamhlacha teanga níos mó agus níos cumasaí. Trí shaineolaithe atá bunaithe ar na sonraí ionchuir a ghníomhachtú go roghnach, tairgeann samhlacha MoE réiteach a bhfuil gealladh fúthu ar na dúshláin ríomhaireachtúla a bhaineann le samhlacha dlúth a mhéadú. Cé go bhfuil dúshláin fós le sárú, amhail éagobhsaíocht oiliúna, rófheisteas, agus riachtanais chuimhne, is réimse spreagúil taighde agus forbartha iad na buntáistí a d’fhéadfadh a bheith ag samhlacha MoE i dtéarmaí éifeachtúlachta ríomhaireachtúla, inscálaitheacht agus inbhuanaitheacht comhshaoil.

De réir mar a leanann réimse na próiseála teanga nádúrtha ar aghaidh ag brú teorainneacha an méid is féidir, is dócha go mbeidh ról ríthábhachtach ag glacadh teicnící MoE chun an chéad ghlúin eile de shamhlacha teanga a chumasú. Trí MoE a chomhcheangal le dul chun cinn eile in ailtireacht mhúnla, teicnící oiliúna, agus barrfheabhsú crua-earraí, is féidir linn a bheith ag tnúth le samhlacha teanga níos cumhachtaí agus níos ilúsáidí ar féidir leo fíorthuiscint agus cumarsáid a dhéanamh le daoine ar bhealach nádúrtha gan uaim.

Ar Aghaidh Ar Aghaidh

GPTanna AI do Bhunachar Sonraí PostgreSQL: An Féidir leo Obair?

Ná Mise

Cad atá ar Eolas Faoi Superchip agus Ailtireacht New Blackwell AI NVIDIA

Aayush Mittal

Tá cúig bliana anuas caite agam ag tumadh mé féin i ndomhan iontach na Foghlama Meaisín agus an Fhoghlaim Dhomhain. Chuir mo phaisean agus mo shaineolas orm cur le breis agus 50 tionscadal innealtóireachta bogearraí éagsúla, le fócas ar leith ar AI/ML. Tá mo fiosracht leanúnach tar éis mé a tharraingt i dtreo Próiseáil Teanga Nádúrtha, réimse a bhfuil fonn orm tuilleadh a chíoradh.