Faisnéise Saorga
Múnlaí Móra Teangacha Bunaithe ar Dhíchódóir: Treoir Iomlán
Múnlaí Móra Teanga (LLManna) tar éis réimse na próiseála teanga nádúrtha (NLP) a athbheochan trí chumais shuntasacha a léiriú maidir le téacs atá cosúil le daoine a ghiniúint, ceisteanna a fhreagairt, agus cuidiú le raon leathan tascanna a bhaineann le teanga. Ag croílár na samhlacha cumhachtacha seo tá an ailtireacht claochladán díchódóra amháin, leagan den bhunailtireacht claochladáin atá molta sa pháipéar seimineach “Tá aird ar fad a theastaíonn uait” le Vaswani et al.
Sa treoir chuimsitheach seo, déanfaimid iniúchadh ar oibriú inmheánach LLManna atá bunaithe ar dhíchódóir, ag mionscrúdú ar na bloic thógála bunúsacha, na nuálaíochtaí ailtireachta, agus na sonraí cur chun feidhme a chuir na samhlacha seo chun tosaigh i dtaighde agus feidhmchláir NLP.
Ailtireacht an Trasfhoirmeora: Athnuachan
Sula tumfaidh tú isteach i sonraí LLM atá bunaithe ar dhíchódóir, tá sé riachtanach breathnú arís ar ailtireacht an chlaochladáin, an bonn ar a dtógtar na samhlacha seo. Thug an claochladán isteach cur chuige nua maidir le samhaltú seichimh, ag brath go hiomlán ar mheicníochtaí aird chun spleáchais fadraoin sna sonraí a ghabháil, gan gá le sraitheanna athfhillteacha nó conbhlóideacha.
Tá dhá phríomhchuid ag ailtireacht bhunaidh an claochladáin: ionchódóir agus díchódóir. Próiseálann an t-ionchódóir an seicheamh ionchuir agus gineann sé léiriú comhthéacsaithe, a ídíonn an díchódóir ansin chun an seicheamh aschuir a tháirgeadh. Dearadh an ailtireacht seo ar dtús le haghaidh tascanna meaisínaistriúcháin, áit a bpróiseálann an t-ionchódóir an abairt ionchuir sa teanga fhoinseach, agus gineann an díchódóir an abairt chomhfhreagrach sa sprioctheanga.
Féinaird: An Eochair do Rath an Trasfhoirmeora
Ag croílár na claochladán luíonn an mheicníocht féin-aire, teicníocht chumhachtach a ligeann don mhúnla faisnéis ó shuímh éagsúla sa seicheamh ionchuir a mheá agus a chomhiomlánú. Murab ionann agus múnlaí seichimh traidisiúnta, a phróiseálann comharthaí ionchuir go seicheamhach, cuireann féinaird ar chumas an mhúnla spleáchais a ghabháil idir aon phéire comharthaí, beag beann ar a suíomh sa seicheamh.
Is féidir an oibríocht féin-aire a bhriseadh síos i dtrí phríomhchéim:
- Ceist, Eochair, agus Réamh-mheastacháin Luach: Déantar an seicheamh ionchuir a theilgean i dtrí léiriú ar leith: ceisteanna (Q), eochracha (K), agus luachanna (V). Faightear na réamh-mheastacháin seo tríd an ionchur a iolrú le maitrísí meáchain foghlamtha.
- Áireamh Scór Airde: I gcás gach suíomh sa seicheamh ionchuir, ríomhtar scóir aird tríd an táirge ponc a thógáil idir an veicteoir ceisteanna comhfhreagrach agus na heochair-veicteora. Léiríonn na scóir seo ábharthacht gach suímh leis an staid reatha atá á phróiseáil.
- Suim Ualaithe Luachanna: Déantar na scóir aird a ghnáthú ag baint úsáide as feidhm softmax, agus úsáidtear na meáchain aird mar thoradh air sin chun suim ualaithe na veicteoirí luacha a ríomh, ag táirgeadh an ionadaíocht aschuir don suíomh reatha.
Ligeann aird ilcheann, leagan eile den mheicníocht féin-aire, don mhúnla cineálacha éagsúla caidrimh a ghabháil trí scóir aird a ríomh thar iolraí “ceannairí” ag an am céanna, gach ceann acu lena shraith féin de cheisteanna, eochair, agus réamh-mheastacháin luach.
Athruithe agus Cumraíochtaí Ailtireachta
Cé go bhfuil bunphrionsabail LLM bunaithe ar dhíchódóir comhsheasmhach i gcónaí, tá iniúchadh déanta ag taighdeoirí ar éagsúlachtaí agus cumraíochtaí ailtireachta éagsúla chun feidhmíocht, éifeachtúlacht agus cumas ginearálaithe a fheabhsú. Sa chuid seo, scrúdóimid na roghanna ailtireachta éagsúla agus a n-impleachtaí.
Cineálacha Ailtireachta
Is féidir LLManna bunaithe ar dhíchódóir a rangú go ginearálta i dtrí phríomhchineál: ionchódóir-díchódóir, díchódóir cúiseach, agus díchódóir réimírí. Léiríonn gach cineál ailtireachta patrúin aird ar leith.
Ailtireacht Ionchódóra-Díchódóra
Bunaithe ar an tsamhail Trasfhoirmeoir fanaile, tá dhá chruach san ailtireacht ionchódóra-díchódóra: ionchódóir agus díchódóir. Úsáideann an t-ionchódóir sraitheanna féin-aire ilcheann cruachta chun an seicheamh ionchuir a ionchódú agus chun léirithe folaigh a ghiniúint. Ansin déanann an díchódóir crosaire ar na léirithe seo chun an seicheamh sprice a ghiniúint. Cé go bhfuil sé éifeachtach i dtascanna éagsúla NLP, is beag LLM, mar shampla Flan-T5, an ailtireacht seo a ghlacadh.
Ailtireacht Decoder Cúiseach
Ionchorpraíonn ailtireacht an díchódóra chúise masc aird aontreoch, rud a ligeann do gach comhartha ionchuir freastal ar na comharthaí san am atá caite agus air féin amháin. Próiseáiltear comharthaí ionchuir agus aschuir laistigh den díchódóir céanna. Is maith le samhlacha suntasacha GPT-1Tá , GPT-2, agus GPT-3 tógtha ar an ailtireacht seo, le GPT-3 ag taispeáint cumais iontacha foghlama i gcomhthéacs. Ghlac go leor LLManna, lena n-áirítear OPT, BLOOM, agus Gopher, go forleathan le díchódóirí cúiseacha.
Ailtireacht Díchódóra Réimír
Ar a dtugtar an díchódóir neamhchúiseach freisin, athraíonn ailtireacht an díchódóra réimíre meicníocht chumhdaigh na ndíchódóirí cúiseacha chun aird dhéthreoch a chumasú ar chomharthaí réimír agus aird aontreoch ar chomharthaí ginte. Cosúil leis an ailtireacht ionchódóra-díchódóra, is féidir le díchódóirí réimíreanna seicheamh na réimír a ionchódú go déthreo agus comharthaí aschuir a thuar go huathoibríoch ag úsáid paraiméadair chomhroinnte. Áirítear le LLManna atá bunaithe ar dhíchódóirí réimír GLM130B agus U-PaLM.
Is féidir na trí chineál ailtireachta a leathnú trí úsáid a bhaint as an meascán de shaineolaithe (MoE) teicníocht scálaithe, a ghníomhaíonn go hannamh fothacar de mheáchan líonra néarúil do gach ionchur. Baineadh leas as an gcur chuige seo i múnlaí cosúil le Switch Transformer agus GLaM, agus tá feabhsuithe suntasacha feidhmíochta le sonrú ar líon na saineolaithe nó ar mhéid iomlán na bparaiméadar.
Claochladán Díchódóra Amháin: Glacadh leis an Nádúr Uath-chéimnitheach
Cé gur dearadh ailtireacht bhunaidh an chlaochladáin do thascanna seicheamh-go-seicheamh cosúil le haistriúchán meaisín, is féidir go leor tascanna NLP, mar shamhaltú teanga agus giniúint téacs, a chumadh mar fhadhbanna uathchéimnitheacha, áit a ngineann an tsamhail comhartha amháin ag an am, faoi choinníoll an comharthaí a gineadh roimhe seo.
Cuir isteach an claochladán díchódóra amháin, leagan simplithe d'ailtireacht an chlaochladáin nach gcoimeádann ach comhpháirt an díchódóra. Tá an ailtireacht seo feiliúnach go háirithe do thascanna uath-aischéimnitheacha, toisc go ngineann sé comharthaí aschuir ceann ar cheann, ag baint úsáide as na comharthaí a gineadh roimhe seo mar chomhthéacs ionchuir.
Is sa mheicníocht féin-aird atá an phríomhdhifríocht idir an claochladán díchódóra amháin agus an díchódóir claochladán bunaidh. Sa suíomh díchódóra amháin, athraítear an oibríocht féin-aire chun an múnla a chosc ó fhreastal ar chomharthaí amach anseo, maoin ar a dtugtar cúisíocht. Baintear é seo amach trí theicníc ar a dtugtar “féin-aird faoi cheilt,” ina leagtar scóir aird a fhreagraíonn do sheasaimh sa todhchaí chuig éigríocht dhiúltach, rud a chumhdaíonn go héifeachtach iad le linn chéim normalaithe softmax.
Comhpháirteanna Ailtireachta LLManna Díchódaithe-Bhunaithe
Cé go bhfanann na bunphrionsabail maidir le féin-aire agus féin-aird chumhdaithe mar a chéile, tá roinnt nuálaíochtaí ailtireachta tugtha isteach ag LLManna nua-aimseartha atá bunaithe ar dhíchódóir chun feidhmíocht, éifeachtúlacht agus cumas ginearálaithe a fheabhsú. Déanaimis iniúchadh ar chuid de na príomhchodanna agus teicníochtaí a úsáidtear i LLManna den scoth.
Ionchuir Ionadaíocht
Sula ndéantar an seicheamh ionchuir a phróiseáil, úsáideann LLManna atá bunaithe ar dhíchódóir teicnící tokenization agus leabaithe chun an téacs amh a thiontú ina léiriú uimhriúil atá oiriúnach don mhúnla.
Comhaontú: Tiontaíonn an próiseas tokenization an téacs ionchuir isteach i seicheamh comharthaí, ar féidir leo a bheith ina bhfocail, ina bhfofhocail, nó fiú ina gcarachtar aonair, ag brath ar an straitéis chomharthaíochta a úsáidtear. I measc na dteicnící tokenization coitianta do LLManna tá Ionchódú Byte-Pair (BPE), SentencePiece, agus WordPiece. Tá sé mar aidhm ag na modhanna seo cothromaíocht a bhaint amach idir méid stór focal agus gráinneacht ionadaíochta, rud a ligeann don mhúnla focail neamhchoitianta nó as stór focal a láimhseáil go héifeachtach.
Leabú Comhartha: Tar éis tokenization, déantar gach comhartha a mhapáil chuig léiriú dlúth veicteoireach ar a dtugtar leabú comharthaí. Foghlaimítear na leabuithe seo le linn an phróisis oiliúna agus gabhann siad caidrimh shéimeantacha agus chomhréire idir comharthaí.
Leabú Poist: Próiseálann samhlacha trasfhoirmeoirí an t-ord ionchuir iomlán ag an am céanna, agus níl an nóisean bunúsach ann maidir le suímh chomharthaí i múnlaí athfhillteacha. Chun faisnéis suímh a ionchorprú, cuirtear leabaithe suímh leis na leabaithe comharthaí, rud a ligeann don mhúnla idirdhealú a dhéanamh idir comharthaí bunaithe ar a suíomhanna sa seicheamh. Bhain LLManna luatha úsáid as leabú suímh sheasta a bhí bunaithe ar fheidhmeanna sinusóideacha, agus rinne samhlacha níos déanaí iniúchadh ar leabaithe suímh infhoghlama nó ar theicnící malartacha um ionchódú suímh amhail leabaithe suímh rothlacha.
Bloic Aird Il-Cheann
Is sraitheanna aird ilcheann iad na bloic thógála lárnacha de LLManna atá bunaithe ar dhíchódóir, a chomhlíonfaidh an oibríocht féin-aire folaithe ar a ndearnadh cur síos níos luaithe. Déantar na sraitheanna seo a chruachadh go minic, agus déanann gach ciseal freastal ar aschur na sraithe roimhe sin, rud a ligeann don mhúnla spleáchais agus léiriúcháin atá ag éirí níos casta a ghabháil.
Cinn Aird: Is éard atá i ngach ciseal aird ilcheann il “cinn aird,” gach ceann acu lena shraith féin de cheist, eochair, agus réamh-mheastacháin luach. Ligeann sé seo don mhúnla freastal ar ghnéithe éagsúla den ionchur ag an am céanna, ag gabháil le caidrimh agus patrúin éagsúla.
Naisc Iarmharacha agus Normalú Ciseal: Chun oiliúint líonraí domhain a éascú agus an fhadhb grádán atá ag dul in olcas a mhaolú, úsáideann LLManna atá bunaithe ar dhíchódóir naisc iarmharacha agus teicnící normalaithe ciseal. Cuireann naisc iarmharacha ionchur ciseal lena aschur, rud a ligeann do ghrádáin sileadh níos éasca le linn iomadaithe droma. Cuidíonn normalú ciseal leis na gníomhachtaí agus na grádáin a chobhsú, ag feabhsú cobhsaíocht agus feidhmíocht oiliúna a thuilleadh.
Sraitheanna Feed-Ar Aghaidh
Chomh maith le sraitheanna aird il-cheann, ionchorpraíonn LLManna díchódaithe-bhunaithe sraitheanna beathaithe ar aghaidh, a chuireann líonra néarach simplí beathaithe ar aghaidh i bhfeidhm ar gach suíomh sa seicheamh. Tugann na sraitheanna seo neamhlíneachtaí isteach agus cuireann siad ar chumas an mhúnla léirithe níos casta a fhoghlaim.
Feidhmeanna Gníomhachtaithe: Is féidir leis an rogha feidhm gníomhachtaithe sna sraitheanna beathaithe ar aghaidh tionchar suntasach a imirt ar fheidhmíocht an mhúnla. Cé go raibh LLManna níos luaithe ag brath ar ghníomhachtú ReLU a úsáidtear go forleathan, ghlac samhlacha níos déanaí le feidhmeanna gníomhachtaithe níos sofaisticiúla cosúil leis an Aonad Líneach Earráide Gaussach (GELU) nó gníomhachtú SwiGLU, a léirigh feidhmíocht fheabhsaithe.
Aire Gann agus Claochladáin Éifeachtacha
Cé go bhfuil an mheicníocht féin-aire cumhachtach, tagann sé le castacht chearnach ríomhaireachta maidir le fad an tseichimh, rud a fhágann go bhfuil seichimh fhada costasach ó thaobh ríomhaireacht de. Chun aghaidh a thabhairt ar an dúshlán seo, tá roinnt teicníochtaí molta chun na riachtanais ríomha agus cuimhne a bhaineann le féinaird a laghdú, rud a chumasaíonn próiseáil éifeachtach seichimh níos faide.
Aire gann: Freastalaíonn teicníochtaí aire tanaí, mar an ceann a úsáidtear sa tsamhail GPT-3, go roghnach ar fho-thacar de phoist sa seicheamh ionchuir, seachas scóir aird a ríomh do gach post. Is féidir leis seo an chastacht ríomhaireachtúil a laghdú go suntasach agus feidhmíocht réasúnta á chothabháil.
Aire Sleamhnáin Fuinneog: Tugadh isteach sa tsamhail Mistral 7B , is teicníocht simplí fós éifeachtach é aird na bhfuinneog sleamhnáin (SWA) a chuireann srian le raon aird gach chomhartha go méid seasta fuinneoige. Cuireann an cur chuige seo giaráil ar chumas na gciseal claochladán faisnéis a tharchur thar sraitheanna iolracha, rud a mhéadaíonn go héifeachtach an réise aird gan castacht chearnach an fhéinaird iomlán.
Rolling Buffer Taisce: Chun riachtanais chuimhne a laghdú tuilleadh, go háirithe le haghaidh seicheamháin fhada, úsáideann an tsamhail Mistral 7B taisce maolánach rollta. Déanann an teicníocht seo an eochair ríofa agus na veicteoirí luacha a stóráil agus a athúsáid ar feadh méid seasta fuinneoige, ag seachaint ríomhanna iomarcacha agus ag íoslaghdú úsáide cuimhne.
Ceist Grúpáilte Aird: A tugadh isteach i múnla LLaMA 2, is leagan den mheicníocht aird il-fhiosrúcháin é aird cheist ghrúpáilte (GQA) a roinntear cinn aird ina ngrúpaí, agus comhroinneann gach grúpa eochair agus maitrís luach coitianta. Buaileann an cur chuige seo cothromaíocht idir éifeachtúlacht aird ilcheisteanna agus feidhmíocht an fhéinaird chaighdeánaigh, ag soláthar amanna tátal feabhsaithe agus ag an am céanna ag cothabháil torthaí ardchaighdeáin.