Sirdoonka Artificial
Qaababka Luuqadaha Waaweyn ee Ku Salaysan Dekodeer: Hage Dhamaystiran
Qaababka Luuqadaha Waaweyn (LLMs) waxay wax ka beddeleen qaybta habaynta luqadda dabiiciga ah (NLP) iyagoo soo bandhigay awoodaha cajiibka ah ee soo saarista qoraalka aadanaha oo kale ah, ka jawaabaya su'aalaha, iyo caawinta hawlo badan oo luqadda la xiriira. Xudunta moodooyinkan xoogga leh ayaa ku jira qaab-dhismeedka beddelka-kaliya-kaliya, nooc ka mid ah qaab dhismeedka transformer-ka asalka ah ee lagu soo jeediyay warqadda seminal "Feejignaan waa Dhammaan waxaad u baahan tahay"Waxaa qoray Vaswani et al.
Hagahan dhammaystiran, waxaanu ku baari doonaa shaqada gudaha ee LLM-yada ku-salaysan-dekodeer-ka, anagoo dhexda ka galayna dhismooyinka aasaasiga ah, hal-abuurnimada qaab dhismeedka, iyo tafaasiisha hirgelinta ee ku kallifay moodooyinkan safka hore ee cilmi-baarista iyo codsiyada NLP.
Qaab-dhismeedka Transformer: Dib-u-cusboonaysiiye
Kahor intaadan u dhex galin waxyaalaha gaarka ah ee LLM-yada ku salaysan decoder-ka, waxaa lama huraan ah in dib loo eego qaab dhismeedka beddelka, aasaaska lagu dhisay moodooyinkan. Transformer-ku waxa uu soo bandhigay hab cusub oo ku saabsan qaabaynta isku xigxiga, isaga oo ku tiirsan kaliya hababka dareenka si uu u qabto ku-tiirsanaanta fog ee xogta, iyada oo aan loo baahnayn lakabyo soo noqnoqda ama isbedbeddelaya.
Nashqada beddelka asalka ah waxay ka kooban tahay laba qaybood oo waaweyn: encoder iyo decoder. Codeeyuhu wuxuu farsameeyaa isku xigxiga soo gelinta wuxuuna soo saaraa matalid qaabaysan, kaas oo markaa uu isticmaalo qalabeeyaha si uu u soo saaro isku xigxiga soo-saarka. Nashqadan waxaa markii hore loogu talagalay hawlaha turjumaada mashiinka, halkaas oo cod-bixiyehu uu ka shaqeeyo jumlada gelinta ee luqadda isha, iyo decoder-ku-sameeyaha uu soo saaro jumlada u dhiganta luqadda bartilmaameedka.
Feejignaanta Nafta: Furaha Guusha Transformer
Wadnaha ee transformer been habka is-fiirsashada, farsamo awood leh oo u oggolaanaysa moodalku inuu miisaamo oo isku daro macluumaadka meelo kala duwan oo isku xigta. Si ka duwan noocyada isku xigxiga ee dhaqameed, kuwaas oo u habeeya calaamadaynta si isku xigta, is-fiirsigu waxa ay awood u siinaysaa moodalku in uu qabto ku-tiirsanaanta inta u dhaxaysa lammaane kasta, iyada oo aan loo eegin booska ay isku xigxigaan.
Hawlgalka is-fiirsiga waxa loo kala qaybin karaa saddex tallaabo oo waaweyn:
- Weydiinta, Furaha, iyo Saadaasha Qiimaha: Isku xigxiga wax gelinta waxa loo saadalinayaa saddex matalaad oo kala duwan: weydiimaha (Q), furayaasha (K), iyo qiyamka (V). Saadaashan waxaa lagu helaa iyadoo lagu dhufto talooyinka iyo miisaanka la bartay.
- Xisaabinta Dhibcaha Feejignaanta: Meel kasta oo ka mid ah isku xigxiga wax gelinta, buundooyinka dareenka waxaa lagu xisaabiyaa iyadoo la qaadayo sheyga dhibicda ee u dhexeeya vector-ka weydiinta u dhigma iyo dhammaan qaybaha muhiimka ah. Dhibcahani waxay ka dhigan yihiin ku habboonaanta boos kasta iyo booska hadda lagu hawlan yahay.
- Wadarta Qiimaha: Dhibcaha dareenka ayaa caadi ahaan loo isticmaalaa iyada oo la adeegsanayo hawlaha softmax, iyo miisaanka dareenka ee ka soo baxa ayaa loo isticmaalaa in lagu xisaabiyo wadarta miisaanka qiimaha qiimaha, soo saarista matalaadda wax soo saarka ee booska hadda jira.
Fiiro gaar ah oo madax badan, kala duwanaansho habka is-fiirsashada, waxay u ogolaataa moodelku inuu qabsado noocyada kala duwan ee cilaaqaadka isagoo xisaabinaya buundooyinka dareenka ee dhowr "madaxa” marka la barbar dhigo, mid waliba waxa uu wataa su’aal u gaar ah, furaha, iyo saadaalinta qiimaha.
Kala duwanaanshiyaha iyo Habaynta
Iyadoo mabaadi'da asaasiga ah ee LLM-yada ku salaysan koodhka-ku-salaysan ay yihiin kuwo joogto ah, cilmi-baarayaashu waxay sahamiyeen noocyo kala duwan oo qaab dhismeedka iyo qaabaynta si loo hagaajiyo waxqabadka, hufnaanta, iyo awoodaha guud. Qaybtan, waxaynu ku daah-furi doonaa noocyada kala duwan ee doorasha dhismaha iyo saamayntooda.
Noocyada Dhismaha
LLMs-ku-saleysan-qodeeyaha waxaa si ballaaran loo kala saari karaa saddex nooc oo waaweyn: cod-dekodeer, cod-dejiye sabab, iyo horgale-sameeyaha. Nooc kasta oo qaab dhismeedka ah waxa uu soo bandhigaa qaabab fiiro gaar ah.
Encoder-Decoder Architecture
Iyada oo ku saleysan qaabka beddelka vaniljka, qaab-dhismeedka encoder-decoder wuxuu ka kooban yahay laba xirmo: cod-dejiyayaal iyo cod-bixiye. Codeeyuhu wuxuu isticmaalaa lakabyo is-fiirsasho oo madax badan oo is dulsaaran si loo codeeyo isku xigxiga gelinta oo u soo saaro matalo qarsoon. Decoder-ku wuxuu markaas sameeyaa feejignaan isdhaafsan oo ku saabsan matalayaashan si uu u dhaliyo taxanaha bartilmaameedka. Iyadoo waxtar u leh hawlaha NLP ee kala duwan, LLM-yo yar, sida Flan-T5, qaataan dhismahan.
Naqshadeeye Decoder-ka Sababta
Naqshadeeyaha naqshadeeyaha sababuhu waxa uu ku daraa maaskaro foojignaan aan jiho lahayn, taas oo u oggolaanaysa calaamad kasta oo gelinta in ay ka qayb gasho oo keliya calaamadihii hore iyo lafteeda. Labada calaamadood ee gelinta iyo soo-saarkaba waxa lagu farsameeyaa isku-dejiye isku mid ah. Moodooyinka caanka ah sida GPT-1, GPT-2, iyo GPT-3 ayaa lagu dhisay qaab dhismeedkan, iyadoo GPT-3 ay muujinayso awoodo waxbarasho oo cajiib ah. LLM-yo badan, oo ay ku jiraan OPT, BLOOM, iyo Gopher, ayaa si weyn u qaatay furayaasha sababaha.
Horgale Naqshadeeye Decoder
Sidoo kale loo yaqaan furaha furaha, horgalayaasha qaab dhismeedka qaab-dhismeedku waxa uu wax ka beddelaa habka waji-xidhka ee furayaasha sababa si uu awood ugu yeesho feejignaanta labada jiho ee calaamadaha horgalayaasha iyo feejignaanta aan jiho lahayn ee calaamadaha la soo saaray. Sida qaab-dhismeedka encoder-decoder-ka, horgalayaasha horgalayaasha waxay u codeeyn karaan taxanaha horgalayaasha laba jiho waxayna saadaaliyaan calaamadaha soo-saarka si toos ah iyagoo isticmaalaya cabbirrada la wadaago. LLM-yada ku salaysan horgalayaasha furayaasha waxaa ka mid ah GLM130B iyo U-PaLM.
Dhammaan saddexda nooc ee naqshadaha waa la kordhin karaa iyadoo la isticmaalayo khubarada isku dhafan (MoE) farsamada is-xoqida, taas oo si yar u hawlgelisa qayb ka mid ah miisaanka shabakada neerfaha ee wax gelin kasta. Habkan waxaa lagu adeegsaday moodooyinka sida Beddelka Beddelka iyo GLaM, iyadoo la kordhinayo tirada khubarada ama cabbirka cabbirka guud ee muujinaya horumarro waxqabad oo la taaban karo.
Beddeliyaha Keliya: Qabashada Dabeecada Is-hortaagista
In kasta oo qaab dhismeedka beddelka asalka ah loogu talagalay hawlaha isku xigxiga sida tarjumaadda mishiinka, hawlo badan oo NLP ah, sida qaabaynta luqadda iyo jiilka qoraalka, ayaa loo qaabayn karaa dhibaatooyin is-daba-joog ah, halkaas oo moodelku uu soo saaro hal calaamad markiiba, oo shuruud ku ah calaamado hore loo soo saaray.
Geli furaha-kaliya furaha, kala duwanaansho la fududeeyay ee qaab dhismeedka beddelka kaas oo haynaya oo keliya qaybta qalabka-dejiya. Nashqadani waxay si gaar ah ugu habboon tahay hawlaha autoregressive, maadaama ay mid mid u soo saarayso calaamadihii wax soo saarka, iyada oo ka faa'iidaysanaysa calaamadihii hore loo soo saaray oo ah macnaha wax gelinta.
Farqiga muhiimka ah ee u dhexeeya beddelka-kaliya-decoder-ka iyo furaha furaha asalka ah wuxuu ku jiraa habka is-fiirsashada. Goobta-dejinta-kaliya, hawlgalka is-fiirsiga ayaa wax laga beddelay si looga hortago moodalku inuu tago calaamadaha mustaqbalka, hantida loo yaqaan sababaha. Tan waxaa lagu gaaraa farsamada loo yaqaan "masked self-ttention", halkaas oo buundooyinka dareenka ee u dhigma boosaska mustaqbalka lagu dejiyay xad la'aan taban, si wax ku ool ah iyaga oo qarinaya inta lagu jiro tallaabada caadiga ah ee softmax.
Qaybaha dhismaha ee LLMs-ku-salaysan wax-qabsada
Iyadoo mabaadi'da asaasiga ah ee is-fiirsashada iyo is-fiirsiga la daboolay ay isku mid yihiin, LLM-yada casriga ah ee ku salaysan decoder-ku waxay soo bandhigeen dhowr hal-abuurnimo naqshadeed si loo hagaajiyo waxqabadka, hufnaanta, iyo awoodaha guud. Aynu sahamno qaar ka mid ah qaybaha iyo farsamooyinka muhiimka ah ee lagu isticmaalo LLM-yada casriga ah.
Matalaadda wax-gelinta
Kahor inta aan la farsamayn isku xigxiga soo galinta, LLM-yada ku salaysan dekodeer-ku waxay shaqaaleeyaan tokenization iyo farsamooyinka ku dhejinta si loogu beddelo qoraalka cayriin matalan tiro ku habboon moodeelka.
CalaamadayntaHabka calaamadaynta waxa uu u beddelaa qoraalka wax gelinta si taxane ah oo calaamado ah, kuwaas oo noqon kara erayo, ereyo-hoosaadyo, ama xitaa xarfo gaar ah, taas oo ku xidhan xeeladda calaamadaynta ee la adeegsaday. Farsamooyinka calaamadaynta caanka ah ee LLMs waxaa ka mid ah Byte-Pair Encoding (BPE), SentencePiece, iyo WordPiece. Hababkani waxay ujeedadoodu tahay in la isku dheelitiro inta u dhaxaysa cabbirka erayada iyo weynaanta matalaadda, taas oo u oggolaanaysa moodalku inuu si wax ku ool ah u qabsado erayada naadir ah ama ka baxsan.
Ku-xidhnaanshaha TokenCalaamadaynta ka dib, calaamad kasta waxaa lagu sawiraa matalaad cufan oo cufan oo la yiraahdo calaamad ku dhejinta. Ku-xidhnaanshahan waxa la bartaa inta lagu jiro habka tababarka oo waxay qabtaan xiriirrada macnaha iyo macnaha guud ee u dhexeeya calaamadaha.
Ku-xidhnaanta booskaMoodooyinka bedelaadaha ayaa isku mar wada socodsiiya dhammaan taxanaha wax gelinta, iyaga oo ka maqan fikradda asalka ah ee boosaska calaamaduhu ku jiraan moodooyinka soo noqnoqda. Si loogu daro macluumaadka mawqifka, dhejinta boosaska ayaa lagu daraa calaamadaynta calaamadaha, taas oo u oggolaanaysa qaabka inuu kala saaro calaamadaha ku salaysan boosaskooda isku xigxiga. LLM-yadii hore waxay isticmaaleen meelayn meelaysan oo go'an oo ku salaysan shaqooyinka sinusoidal, halka moodooyinkii dhawaa ay sahamiyeen meelaynta meelaynta ee la baran karo ama farsamooyinka codaynta booska kale sida ku dhejinta booska wareega.
Xirmooyinka Feejignaanta Madax-badan
Qaybaha asaasiga ah ee LLMs-ku-salaysan-dekodeerku waa lakabyo feejignaan madax-badan leh, kuwaas oo fuliya hawl-qabadka is-fiirsashada ee waji-xidhan ee lagu sharraxay hore. Lakabyadan ayaa la isku dhejiyay dhowr jeer, iyada oo lakab kastaa la socdo wax soo saarka lakabkii hore, taas oo u oggolaanaysa moodalku inuu qabsado ku-tiirsanaanta sii kordhaysa iyo matalayaasha.
Madaxda FeejignaantaLakab kasta oo fiiro gaar ah leh wuxuu ka kooban yahay "madax fiiro gaar ah", mid kastaa wuxuu leeyahay su'aal u gaar ah, furaha, iyo saadaalinta qiimaha. Tani waxay u oggolaanaysaa moodelku inuu ka qaybgalo dhinacyo kala duwan oo wax-is-gudbineed isku mar ah, isagoo qabsanaya xidhiidhyo iyo qaabab kala duwan.
Isku-xidhka Hadhaaga iyo Caadiga Lakabka: Si loo fududeeyo tababbarka shabakadaha qoto dheer oo loo yareeyo dhibatooyinka sii lumida, LLM-yada ku salaysan dekodeerayaasha waxay shaqaaleeyaan isku xirka hadhaaga iyo farsamooyinka caadiga lakabka. Xidhiidhada haraaga ah waxay ku daraan gelinta lakabka wax soo saarkiisa, taasoo u oggolaanaysa gradients inay si fudud u qulqulaan inta lagu jiro faafinta. Caadi ahaan lakabka waxay caawisaa in la dejiyo dhaqdhaqaaqa iyo gradients, sii hagaajinta xasiloonida tababarka iyo waxqabadka.
Lakabyada Quudinta-Hormarinta
Marka laga soo tago lakabyada dareenka madaxa-badan, LLM-yada ku salaysan-dekodeerku waxay ku daraan lakabyo-fidin-horumarineed, kuwaas oo khuseeya shabakad neerfaha quudin-horumarineed oo fudud boos kasta oo isku xigta. Lakabyadani waxay soo bandhigaan waxyaabo aan toos ahayn waxayna awood u siinayaan moodalku inuu barto matalo kakan.
Hawlaha firfircoonida: Doorashada shaqada firfircoonida ee lakabyada quudinta-hormarinta waxay si weyn u saameyn kartaa waxqabadka moodeelka. Iyadoo LLM-yadii hore ay ku tiirsanaayeen firfircoonida ReLU ee aadka loo isticmaalo, moodooyinka dhawaanahan waxay qaateen hawlo firfircooni oo aad u casrisan sida Unugga Khadka Tooska ah ee Gaussian (GELU) ama firfircoonida SwiGLU, kuwaas oo muujiyay waxqabad horumarsan.
Feejignaan yar iyo Transformers hufan
Iyadoo habka is-fiirsiga uu yahay mid awood leh, waxay la timaadaa kakanaanta xisaabinta afar geesoodka ah marka loo eego dhererka isku xigxiga, taasoo ka dhigaysa xisaab ahaan qaali u ah taxanaha dheer. Si wax looga qabto caqabadan, farsamooyin dhowr ah ayaa la soo jeediyay si loo yareeyo shuruudaha xisaabinta iyo xusuusta ee is-fiirsashada, taas oo awood u siinaysa habka hufan ee isku xigxiga dheer.
Fiiro gaar ahFarsamooyinka fiiro gaar ah, sida kan ka shaqeeya qaabka GPT-3, si xushmad leh u xaadir boosaska hoose ee isku xigxiga, halkii aad ku xisaabin lahayd dhibcaha dareenka ee jagooyinka oo dhan. Tani waxay si weyn u yareeyn kartaa kakanaanta xisaabinta iyadoo la ilaalinayo waxqabadka macquulka ah.
Feejignaanta daaqada simbiriirixayaWaxaa lagu soo bandhigay qaabka Mistral 7B, dareenka daaqadaha simbiriirixaya (SWA) waa farsamo fudud oo wax ku ool ah oo xaddidaya inta dareenka calaamad kasta cabbirka daaqadda go'an. Habkani waxa uu ka faa'iidaysanayaa awoodda lakabyada transformer-ka si ay ugu gudbiyaan macluumaadka lakabyo badan, si wax ku ool ah u kordhinta dareenka iyada oo aan kakanaanta afar geesoodka ah ee is-fiirsashada buuxda.
Rolling Buffer Cache: Si loo sii yareeyo shuruudaha xusuusta, gaar ahaan taxanaha dheer, qaabka Mistral 7B wuxuu shaqeeyaa kaydka duuban. Farsamadan waxa ay kaydisaa oo dib u isticmaashaa furaha la xisaabiyay iyo kuwa qiimaha leh ee cabbirka daaqada, iyada oo ka fogaanaysa xisaabaadka aan badnayn iyo yaraynta isticmaalka xusuusta.
Feejignaanta Weydiinta KooxaysanWaxaa lagu soo bandhigay qaabka LLAMA 2, feejignaanta weydiinta kooxaysan (GQA) waa kala duwanaanshiyaha habka dareenka weydiinta badan ee u kala qaybiya madaxda dareenka kooxo, koox kastaa waxay wadaagtaa furaha guud iyo shax qiimaha. Habkani wuxuu muujinayaa dheelitirka u dhexeeya hufnaanta dareenka su'aalaha badan iyo waxqabadka is-fiirinta caadiga ah, iyada oo bixisa waqtiyo fikradeed oo la hagaajiyay iyada oo la ilaalinayo natiijooyin tayo sare leh.