Artificial Intelligence
Modalan Cànain Mòr stèidhichte air Decoder: Iùl coileanta
Modailean mòra cànain (LLMn) air raon giollachd cànain nàdarra (NLP) atharrachadh le bhith a’ nochdadh comasan iongantach ann a bhith a’ gineadh teacsa coltach ri duine, a’ freagairt cheistean, agus a’ cuideachadh le raon farsaing de ghnìomhan co-cheangailte ri cànan. Aig cridhe nam modalan cumhachdach sin tha an ailtireachd cruth-atharrachaidh decoder a-mhàin, caochladh den ailtireachd cruth-atharrachaidh tùsail a chaidh a mholadh anns a’ phàipear adhartach “Is e an aire a tha a dhìth ort” le Vaswani et al.
Anns an stiùireadh coileanta seo, nì sinn sgrùdadh air obrachadh a-staigh LLMn stèidhichte air decoder, a’ sgrùdadh nam blocaichean togail bunaiteach, innleachdan ailtireil, agus mion-fhiosrachadh buileachaidh a tha air na modailean sin a ghluasad gu fìor thoiseach rannsachadh agus tagraidhean NLP.
Ailtireachd an Transformer: Ùrachadh
Mus tèid thu a-steach do mhion-fhiosrachadh LLMn stèidhichte air decoder, tha e deatamach gun tèid thu a-rithist air ailtireachd cruth-atharrachaidh, am bunait air a bheil na modalan sin air an togail. Thug an cruth-atharrachaidh a-steach dòigh-obrach ùr a thaobh modaladh sreath, le bhith an urra ri uidheamachdan aire a-mhàin gus eisimeileachd fad-ùine a ghlacadh anns an dàta, gun fheum air sreathan ath-chuairteach no connspaideach.
Tha dà phrìomh phàirt anns an ailtireachd cruth-atharrachaidh tùsail: encoder agus decoder. Bidh an encoder a’ giullachd an t-sreath cuir a-steach agus a’ gineadh riochdachadh co-theacsail, a bhios an uairsin air a chaitheamh leis an decoder gus an t-sreath toraidh a thoirt gu buil. Chaidh an ailtireachd seo a dhealbhadh an toiseach airson gnìomhan eadar-theangachadh inneal, far am bi an encoder a’ pròiseasadh an t-seantans cuir a-steach sa chànan stòr, agus an decoder a’ gineadh an t-seantans co-fhreagarrach sa chànan amais.
Fèin-aire: An iuchair gu soirbheachas Transformer
Aig cridhe a ’chridhe Transformer na laighe an uidheamachd fèin-aire, dòigh chumhachdach a leigeas leis a’ mhodail fiosrachadh a thomhas agus a chruinneachadh bho dhiofar shuidheachaidhean san t-sreath cuir a-steach. Eu-coltach ri modalan sreath traidiseanta, a bhios a’ làimhseachadh comharran cuir a-steach ann an òrdugh, tha fèin-aire a’ toirt cothrom don mhodail eisimeileachd a ghlacadh eadar paidhir chomharran sam bith, ge bith dè an suidheachadh a th’ aca san t-sreath.
Faodar an obair fèin-aire a bhriseadh sìos ann an trì prìomh cheumannan:
- Ceist, Prìomh, agus Ro-mheasaidhean Luach: Tha an t-sreath cuir a-steach air a ro-mheasadh ann an trì riochdachaidhean eadar-dhealaichte: ceistean (Q), iuchraichean (K), agus luachan (V). Gheibhear na ro-mheasaidhean sin le bhith ag iomadachadh an cuir a-steach le matrices cuideam ionnsaichte.
- Coimpiutaireachd Sgòr aire: Airson gach suidheachadh san t-sreath cuir a-steach, thathas a’ tomhas sgòran aire le bhith a’ toirt an toradh dot eadar an vectar ceist co-fhreagarrach agus a h-uile prìomh vectar. Tha na sgòran sin a’ riochdachadh iomchaidheachd gach suidheachadh don t-suidheachadh làithreach a thathar a’ giullachd.
- Suim Luachan Meudaichte: Tha na sgòran aire air an gnàthachadh le bhith a’ cleachdadh gnìomh softmax, agus tha na cuideaman aire a thig às air an cleachdadh gus suim cuideam de na vectaran luach a thomhas, a’ toirt a-mach riochdachadh toraidh airson an t-suidheachaidh làithreach.
Tha aire ioma-cheann, caochladair den uidheamachd fèin-aire, a’ leigeil leis a’ mhodail diofar sheòrsaichean de dhàimhean a ghlacadh le bhith a’ coimpiutaireachd sgòran aire thar ioma-"cinn” aig an aon àm, gach fear le a sheata fhèin de cheist, iuchair, agus ro-mheasaidhean luach.
Caochlaidhean ailtireachd agus rèiteachaidhean
Fhad ‘s a tha prìomh phrionnsapalan LLM stèidhichte air decoder fhathast cunbhalach, tha luchd-rannsachaidh air grunn atharrachaidhean ailtireil agus rèiteachaidhean a sgrùdadh gus coileanadh, èifeachdas agus comasan coitcheannachaidh a leasachadh. Anns an earrainn seo, nì sinn sgrùdadh air na diofar roghainnean ailtireachd agus na buaidhean aca.
Seòrsan ailtireachd
Faodar LLMn stèidhichte air decoder a sheòrsachadh gu farsaing ann an trì prìomh sheòrsan: encoder-decoder, decoder adhbharach, agus decoder ro-leasachan. Tha gach seòrsa ailtireachd a’ nochdadh pàtrain aire sònraichte.
Ailtireachd Encoder-Decoder
Stèidhichte air modal vanilla Transformer, tha dà chruach anns an ailtireachd encoder-decoder: encoder agus decoder. Bidh an encoder a’ cleachdadh sreathan fèin-aire ioma-chinn cruachan gus an t-sreath cuir a-steach a chòdachadh agus riochdachaidhean falaichte a ghineadh. Bidh an decoder an uairsin a’ dèanamh tar-aire air na riochdachaidhean sin gus an t-sreath targaid a ghineadh. Ged a tha e èifeachdach ann an grunn ghnìomhan NLP, is e glè bheag de LLMn, leithid Flan-T5, gabh ris an ailtireachd seo.
Ailtireachd decoder adhbharach
Tha an ailtireachd decoder adhbharach a ’toirt a-steach masg aire aon-stiùiridh, a’ leigeil le gach comharra cuir a-steach a bhith a ’frithealadh dìreach comharran san àm a dh’ fhalbh agus e fhèin. Tha an dà chuid comharran cuir a-steach agus toraidh air an giullachd taobh a-staigh an aon decoder. Modailean ainmeil mar GPT-1, GPT-2, agus GPT-3 air an togail air an ailtireachd seo, le GPT-3 a’ taisbeanadh comasan ionnsachaidh iongantach ann an co-theacsa. Tha mòran de LLMn, a’ gabhail a-steach OPT, BLOOM, agus Gopher, air gabhail gu farsaing ri decoders adhbharach.
Prefix Decoder Architecture
Cuideachd aithnichte mar an decoder neo-adhbharach, bidh an ailtireachd decoder ro-leasachan ag atharrachadh uidheamachd falaich decoders adhbharach gus aire dà-thaobhach a chomasachadh thairis air comharran ro-leasachan agus aire aon-stiùiridh air comharran gineadh. Coltach ris an ailtireachd encoder-decoder, faodaidh decoders ro-leasachan an t-sreath ro-leasachan a chòdachadh gu dà-thaobhach agus ro-innse comharran toraidh gu fèin-ghluasadach a ’cleachdadh paramadairean co-roinnte. Tha LLMn stèidhichte air decoders ro-leasachan a’ toirt a-steach GLM130B agus U-PaLM.
Faodar na trì seòrsaichean ailtireachd a leudachadh a’ cleachdadh an measgachadh de eòlaichean (MoE) innleachd sgèileadh, a bhios gu gann a’ cur an gnìomh fo-sheata de chuideaman lìonra neural airson gach cuir a-steach. Chaidh an dòigh-obrach seo a chleachdadh ann am modalan mar Switch Transformer agus GLaM, le àrdachadh san àireamh de eòlaichean no meud paramadair iomlan a’ nochdadh leasachaidhean coileanaidh cudromach.
Decoder-Only Transformer: Gabhail a-steach an Autoregressive Nature
Fhad ‘s a chaidh an ailtireachd cruth-atharrachaidh tùsail a dhealbhadh airson gnìomhan sreath-gu-sreath leithid eadar-theangachadh inneal, faodar mòran de ghnìomhan NLP, leithid modaladh cànain agus gineadh teacsa, a dhealbhadh mar dhuilgheadasan fèin-ghluasadach, far am bi am modail a’ gineadh aon chomharra aig an aon àm, le cumhachan air an comharran a chaidh a chruthachadh roimhe seo.
Cuir a-steach an cruth-atharrachaidh decoder a-mhàin, caochladair nas sìmplidhe de dh’ ailtireachd an cruth-atharrachaidh a chumas dìreach am pàirt decoder. Tha an ailtireachd seo gu sònraichte freagarrach airson gnìomhan fèin-ghluasadach, leis gu bheil e a’ gineadh comharran toraidh aon às deidh aon, a ’faighinn buannachd bho na comharran a chaidh a chruthachadh roimhe seo mar cho-theacsa cuir a-steach.
Tha am prìomh eadar-dhealachadh eadar an cruth-atharrachaidh decoder a-mhàin agus an decoder cruth-atharrachaidh tùsail na laighe anns an uidheamachd fèin-aire. Anns an t-suidheachadh decoder a-mhàin, tha an gnìomhachd fèin-aire air atharrachadh gus casg a chuir air a ’mhodail bho bhith a’ frithealadh comharran san àm ri teachd, togalach ris an canar adhbhar. Tha seo air a choileanadh tro dhòigh-obrach ris an canar “fèin-aire falaichte,” far a bheil sgòran aire a tha co-chosmhail ri dreuchdan san àm ri teachd air an suidheachadh gu Infinity àicheil, gu h-èifeachdach gan falach tron cheum gnàthachaidh softmax.
Co-phàirtean ailtireachd de LLMs stèidhichte air decoder
Fhad ‘s a tha prìomh phrionnsapalan fèin-aire agus fèin-aire falaichte fhathast mar an ceudna, tha LLMn ùr-nodha stèidhichte air decoder air grunn innleachdan ailtireil a thoirt a-steach gus coileanadh, èifeachdas agus comasan coitcheannachaidh a leasachadh. Feuch an dèan sinn sgrùdadh air cuid de na prìomh phàirtean agus dhòighean-obrach a thathas a’ cleachdadh ann an LLMn as ùire.
Riochdachadh a-steach
Mus tèid an t-sreath cuir a-steach a ghiullachd, bidh LLMn stèidhichte air decoder a’ cleachdadh dòighean tokenization agus freumhachadh gus an teacsa amh a thionndadh gu riochdachadh àireamhach a tha iomchaidh airson a’ mhodail.
Tòcaireachd: Bidh am pròiseas tokenization ag atharrachadh an teacsa cuir a-steach gu sreath de chomharran, a dh’ fhaodadh a bhith nam faclan, fo-fhaclan, no eadhon caractaran fa leth, a rèir an ro-innleachd tokenization a thathas a ’cleachdadh. Tha dòighean tokenization mòr-chòrdte airson LLMn a’ toirt a-steach còdachadh Byte-Pair (BPE), SentencePiece, agus WordPiece. Tha na modhan sin ag amas air cothromachadh fhaighinn eadar meud briathrachais agus granularity riochdachaidh, a’ leigeil leis a’ mhodail faclan tearc no taobh a-muigh briathrachais a làimhseachadh gu h-èifeachdach.
Bun-stèidh Token: Às deidh tokenization, tha gach comharra air a mhapadh gu riochdachadh dùmhail vectar ris an canar neadachadh tòcan. Bithear ag ionnsachadh na h-inntrigidhean sin tron phròiseas trèanaidh agus a’ glacadh dàimhean semantic agus syntactic eadar comharran.
Gnàthachaidhean suidheachadh: Bidh modalan cruth-atharrachaidh a’ giullachd an t-sreath cuir a-steach gu lèir aig an aon àm, às aonais a’ bheachd ghnèitheasach de shuidheachadh comharran a tha an làthair ann am modalan ath-chuairteach. Gus fiosrachadh suidheachaidh a thoirt a-steach, thèid in-ghabhail suidheachadh a chur ris na h-ionadan comharran, a’ leigeil leis a’ mhodail eadar-dhealachadh a dhèanamh eadar comharran stèidhichte air an suidheachadh san t-sreath. Chleachd LLM tràth in-ghabhail suidheachadh stèidhichte stèidhichte air gnìomhan sinusoidal, agus tha modalan nas ùire air sgrùdadh a dhèanamh air in-ghabhail suidheachaidh ionnsachadh no dòighean còdaidh suidheachaidh eile leithid neadachadh suidheachadh rothlach.
Blocaichean aire ioma-cheann
Is e na prìomh bhlocaichean togail de LLMn stèidhichte air decoder sreathan aire ioma-chinn, a bhios a’ coileanadh an obair fèin-aire falaichte a chaidh a mhìneachadh na bu thràithe. Tha na sreathan sin air an càrnadh grunn thursan, le gach còmhdach a’ frithealadh toradh an t-sreath roimhe, a’ leigeil leis a’ mhodail eisimeileachd agus riochdachaidhean a tha a’ sìor fhàs iom-fhillte a ghlacadh.
Cinn aire: Tha gach còmhdach aire ioma-chinn a’ toirt a-steach grunn “cinn aire,” gach fear le a sheata fhèin de cheist, iuchair, agus ro-mheasaidhean luach. Leigidh seo leis a’ mhodail dèiligeadh ri diofar thaobhan den chur-a-steach aig an aon àm, a’ glacadh diofar dhàimhean agus phàtranan.
Ceanglaichean fuigheall agus gnàthachadh sreathan: Gus trèanadh lìonraidhean domhainn a dhèanamh comasach agus an duilgheadas caisead a tha a’ dol à bith a lughdachadh, bidh LLMs stèidhichte air decoder a’ cleachdadh cheanglaichean fuigheall agus dòighean gnàthachaidh còmhdach. Bidh ceanglaichean fuigheall a’ cur cuir a-steach còmhdach ris an toradh aige, a’ leigeil le caiseadan sruthadh nas fhasa nuair a bhios iad a’ gluasad air ais. Bidh gnàthachadh sreathan a’ cuideachadh le bhith a’ bunailteachadh gnìomhachd agus caiseadan, ag adhartachadh tuilleadh seasmhachd trèanaidh agus coileanadh.
Sreathan Feed-Air adhart
A bharrachd air sreathan aire ioma-chinn, tha LLMn stèidhichte air decoder a’ toirt a-steach sreathan feed-air adhart, a bhios a’ cur lìonra neural biadhaidh air adhart sìmplidh gu gach suidheachadh san t-sreath. Bidh na sreathan sin a’ toirt a-steach neo-loidhneach agus a’ toirt cothrom don mhodail riochdachaidhean nas iom-fhillte ionnsachadh.
Gnìomhan Gnìomhachaidh: Faodaidh an roghainn gnìomh gnìomhachaidh anns na sreathan beathachaidh air adhart buaidh mhòr a thoirt air coileanadh a’ mhodail. Fhad ‘s a bha LLMn na bu thràithe an urra ri gnìomhachd ReLU a chaidh a chleachdadh gu farsaing, tha modalan nas ùire air gabhail ri gnìomhan gnìomhachaidh nas ionnsaichte leithid Aonad Sreathach Mearachd Gaussian (GELU) no gnìomhachd SwiGLU, a tha air coileanadh nas fheàrr a nochdadh.
An aire gann agus cruth-atharraichean èifeachdach
Fhad ‘s a tha an uidheamachd fèin-aire cumhachdach, tha e a’ tighinn le iom-fhillteachd àireamhach ceithir-cheàrnach a thaobh fad an t-sreath, ga dhèanamh daor gu àireamhachd airson sreathan fada. Gus dèiligeadh ris an dùbhlan seo, chaidh grunn dhòighean a mholadh gus riatanasan coimpiutaireachd is cuimhne fèin-aire a lughdachadh, a’ comasachadh giullachd èifeachdach de shreathan nas fhaide.
An aire gann: Bidh dòighean aire gann, mar an tè a tha air a chleachdadh sa mhodail GPT-3, a’ frithealadh gu roghnach air fo-sheata de shuidheachaidhean anns an t-sreath cuir a-steach, seach a bhith a’ cunntadh sgòran aire airson a h-uile suidheachadh. Faodaidh seo lùghdachadh mòr a thoirt air iom-fhillteachd àireamhachd fhad ‘s a chumas e coileanadh reusanta.
An aire uinneag sleamhnachaidh: Air a thoirt a-steach ann am modal Mistral 7B, tha aire uinneig sleamhnachaidh (SWA) na dhòigh sìmplidh ach èifeachdach a tha a’ cuingealachadh farsaingeachd aire gach comharra gu meud uinneag stèidhichte. Tha an dòigh-obrach seo a’ luathachadh comas sreathan cruth-atharrachaidh gus fiosrachadh a tharraing thairis air ioma-fhilleadh, gu h-èifeachdach ag àrdachadh an raon aire às aonais iom-fhillteachd ceithir-cheàrnach làn fèin-aire.
Cache Buffer Rolling: Gus tuilleadh lughdachadh a thoirt air riatanasan cuimhne, gu sònraichte airson sreathan fada, tha am modal Mistral 7B a’ cleachdadh tasgadan bufair leantainneach. Bidh an dòigh seo a’ stòradh agus ag ath-chleachdadh an iuchair àireamhaichte agus vectaran luach airson meud uinneag stèidhichte, a’ seachnadh àireamhachadh gun fheum agus a’ lughdachadh cleachdadh cuimhne.
Ceist Buidheann An aire: Air a thoirt a-steach ann am modal LLaMA 2, tha aire ceist cruinnichte (GQA) na chaochladh den uidheamachd aire ioma-cheist a bhios a’ roinn cinn aire gu buidhnean, le gach buidheann a’ roinn iuchair chumanta agus matrix luach. Tha an dòigh-obrach seo a’ faighinn cothromachadh eadar èifeachdas aire ioma-cheistean agus coileanadh fèin-aire àbhaisteach, a’ toirt seachad amannan co-dhùnaidh nas fheàrr fhad ‘s a chumas iad toraidhean àrd-inbhe.