stub BlackMamba: Isku-dhafka Khubarada ee Qaababka-Space State - Unite.AI
Connect nala

Sirdoonka Artificial

BlackMamba: Isku-dhafka Khubarada ee Qaababka-Gobolka

mm

Published

 on

BlackMamba: Isku-dhafka Khubarada ee Qaababka-Gobolka

Horumarinta Hababka Waaweyn ee Luuqadaha (LLMs) ee laga dhisay moodooyinka beddelka-dejiya-kaliya ayaa door muhiim ah ka qaatay beddelka hab-socodka Luuqadda Dabiiciga ah (NLP), iyo sidoo kale horumarinta codsiyada barasho qoto dheer ee kala duwan oo ay ku jiraan barashada xoojinta, falanqaynta taxanaha wakhtiga, habaynta sawirka, iyo qaar kaloo badan. Si kastaba ha ahaatee, inkasta oo ay miisaankooda iyo waxqabadkooda xooggan yihiin, LLM-yada laga dhisay moodooyinka beddelka-kaliya-kaliya ayaa weli wajahaya cillado waaweyn. In kasta oo la caddeeyo, habka dareenka ee beddelka-soo-saare LLMs wuxuu u baahan yahay ilo xisaabeed sare inta lagu jiro soo-jeedinta iyo tababarka labadaba, taasoo lagamamaarmaan u ah xusuusta la taaban karo ee dhererka isku xigxiga iyo FLOP-yada afargeeska ah. Shuruudaha xisaabinta sare waxay xaddidaysaa dhererka macnaha guud ee moodooyinka beddelka, samaynta hawlaha jiilka is-difaaca ah ee u dhigma qaali, waxayna caqabad ku noqotaa barashada qulqulka xogta joogtada ah iyo awoodda habaynta isku xigxiga ee aan xadidnayn.

Waqtiyadi ugu dambeeyay, Models Space State (SSMs) waxay soo bandhigeen karti iyo waxqabad la yaab leh, iyagoo ku tartamaya moodooyinka qaab-dhismeedka qaab-dhismeedka qaab-dhismeedka baaxadda weyn ee jaangooyooyinka iyadoo la gaarayo kakanaanta xusuusta iyadoo loo eegayo dhererka isku xigxiga iyo waqtiga tooska ah. Waxaa intaa dheer, Mamba, oo ah Qaabka Meelaynta Gobolka ee dhawaan la sii daayay, waxa uu muujiyay waxqabad aad u wanaagsan oo ku saabsan qaabaynta luuqadaha iyo hawlaha habaynta muddada dheer. Isla mar ahaantaana, moodooyinka Isku-dhafka Khabiirka (MoE) waxay sidoo kale muujiyeen waxqabad cajiib ah iyagoo si weyn u yareynaya daahitaanka iyo kharashyada xisaabinta ee fikradda, in kasta oo ay ku kacayso raad xusuuseed oo weyn. Dhisida moodooyinka Mamba iyo MoE, maqaalkani waxa uu ka hadli doonaa BlackMamba, naqshad cusub oo isku daraysa Modelka Space State ee Mamba iyo moodooyinka MoE si loo xoojiyo faa'iidooyinka ay bixiyaan labada qaab-dhismeed. Tijaabooyinka BlackMamba waxay muujiyeen awoodda ay u leeyihiin inay ka sarreeyaan qaabka Mamba ee hadda jira iyo saldhigyada isbeddelka ee labadaba tababarka FLOPs iyo fikradda. Waxqabadka gaarka ah ee qaab dhismeedka BlackMamba wuxuu muujinayaa in ay si wax ku ool ah isugu dari karto awoodaha qaabdhismeedka Mamba iyo MoE, iyada oo si degdeg ah oo kharash-ku-ool ah u soo jeedinaysa MoE oo leh jiil isku dhafan oo toosan oo ka socda Mamba.

Maqaalkani wuxuu ujeedkiisu yahay inuu si qoto dheer u daboolo qaabka BlackMamba. Waxaan sahamineynaa habka, habka, iyo qaab-dhismeedka qaabdhismeedka, oo ay weheliso isbarbardhigga sawirka casriga ah iyo qaab-dhismeedka jiilka fiidiyowga. Aan bilowno.

BlackMamba : Horudhac MoE ah oo loogu talagalay Models Space State

Horumarka Moodooyinka Luqadaha Waaweyn (LLMs), gaar ahaan kuwa ku saleysan qaab-dhismeedka beddelka-kaliya, ayaa si gaar ah u saameeyay Dhaqanka Luqadda Birta (NLP) goobta oo lagu ballaariyay codsiyo waxbarasho qoto dheer oo kala duwan, oo ay ku jiraan xoojinta barashada, falanqaynta taxanaha-waqtiga, habaynta sawirka, iyo wixii ka baxsan. Si kastaba ha ahaatee, inkasta oo miisaankooda iyo wax qabadkooda adag, LLM-yadan ku-meel-gaadhka ah ee ku-saleysan beddelka kaliya waxay la kulmaan caqabado muuqda. Habka fiiro gaar ah, sifada muhiimka ah ee transformer ku salaysan LLMss, waxay u baahan tahay ilo xisaabeed ballaaran oo ku saabsan la-talinta iyo tababarka labadaba. Tani waxay ku lug leedahay baahida xusuusta ku koraysa dhererka isku xigxiga iyo hawlgallada xisaabinta (FLOPs) oo kor u kaca afar-geesood. Baahida xisaabinta degdega ah ee noocan oo kale ah waxay xaddidaysaa dhererka macnaha guud ee moodooyinka, waxay sare u qaadaysaa kharashyada hawlaha jiilka is-difaaca ah sida miisaanka moodeelka, waxayna caqabad ku noqotaa awoodda moodooyinka inay wax ka bartaan qulqulka xogta joogtada ah ama habraaca taxanaha dhererka aan xadidnayn si hufan. 

Dadaal muhiim ah ayaa la sameeyay dhowrkii sano ee la soo dhaafay iyadoo la isku dayay in laga gudbo xaddidaadyadan, waxaana fiiro gaar ah loo jeediyay qaabeynta beddelka qaab dhismeedka qaab beddelka moodooyinka dareenka cufan ee canonical oo leh SSM-yada iyo moodooyinka MoE oo ah naqshadaha musharraxiinta ee ugu rajo weyn. Faa'iidada muhiimka ah ee laga helay iyada oo laga door bidayo Models Space Space ee moodooyinka qaab dhismeedka beddelka waa kakanaanta xisaabinta toosan ee la xiriirta dhererka isku xigxiga ee ay bixiyaan SSM-yadu marka loo eego kakanaanta afar geesoodka ah ee ay bixiyaan transformers. Aragti ahaan, kakanaanta xisaabinta tooska ah ee laxiriirta dhererka isku xigxiga ee isku xigxiga ayaa awood u siinaya Models Space State Models in ay farsameeyaan taxane ka weyn qaab beddelka qaab-dhismeedka loogu talagalay FLOPS ama sabbaynaya-point hawlaha la bixiyay miisaaniyadii labaad, iyo in ay ka dhigaan jiilka autoregressive joogto ah xisaabinta iyada oo aan khasnad KV. Models Space State ee dhawaan la sameeyay oo ay ku jiraan Mamba, RetNet iyo kuwo kale oo yar ayaa muujiyay soo jiidasho iyo tabobar isku xigxig oo hufan leh, oo ay la socoto qaabaynta luuqada tartan shaqo oo loogu talagalay transformers oo leh sifooyin miisaan leh oo isku mid ah. Dhanka kale, Isku-dhafka moodooyinka Khabiirada qaab-dhismeedyadu waxay helayaan caan ahaan beddelka beddelkayaal cufan tan iyo markii ay fududaysay hoos u dhigista fikradda iyo tababbarka FLOPs lagama maarmaanka u ah helitaanka tayada la midka ah ee moodeel cufan. Moodooyinka MoE (isku-dhafka khubarada) waxay ku shaqeeyaan iyaga oo dhaqaajinaya kaliya xulasho aan badneyn oo ah wadarta cabbirrada inta lagu jiro hal gudbin oo hore. Waxay adeegsadaan shaqada habaynta si ay u go'aamiyaan 'khubarada' loogu yeero ficil iyadoo lagu saleynayo macnaha guud. Habkani wuxuu abuuraa kala-soocidda kharashka xisaabinta ee soo-jeedinta iyo tirada guud ee qiyaasaha, taas oo u oggolaanaysa waxqabadka la wanaajiyey ee miisaaniyad go'an, in kasta oo tirada korodhka ah ee cabbirada iyo shuruudaha xusuusta oo weyn.

Horumarkan dhismuhu wuxuu bixiyaa faa'iidooyin la taaban karo marka loo eego transformers-dhaqameedka waxayna ka dhigan tahay jihada xiisaha leh ee horumarinta dheeraadka ah. Waxaan cadeyneynaa in ku biirinta kobcintan qaabka isku dhafan ee Mamba-MoE ay si weyn u dardargelin karto awoodaha qaabaynta luqadda iyo hufnaanta ka baxsan noocyada beddelka ee caadiga ah. Faa'iidooyinka la filayo ee dhismaha Mamba-MoE marka la barbar dhigo qaabka beddelka cufan ee dhaqameed waxaa ka mid ah:

Mamba: Wuxuu gaaraa kakanaanta xisaabinta toosan marka loo eego dhererka isku xigxiga wax gelinta ee labada weji ee tababarka iyo ka-fiirsashada. Waxay awood u siinaysaa jiilka autoregressive inuu ku dhaco wakhti go'an oo joogto ah iyo isticmaalka xusuusta joogtada ah.

MOE: Waxay bixisaa xawaaraha ka-soo-jeedinta iyo tababarka hufnaanta xisaabinta oo la barbardhigi karo qaab ka yar, moodeel cufan iyadoo la ilaalinayo heerka tayada moodeelka oo ka soo horjeeda nooca moodeel leh tiro u dhigma oo cabbirro ah sida nooca cufan.

Marka taas la yiraahdo, waxaa lama huraan ah in la sheego in moodooyinka qaab-dhismeedka transformer-ku ay weli yihiin heerka farshaxanka, oo ay muujiyeen waxqabad xooggan oo joogto ah oo la yaab leh oo ku saabsan hawlaha qaabaynta luqadda iyo hawlaha habaynta isku xigxiga. Xuddunta, qaab-dhismeedka transformer-ku waxa uu shaqaalaysiiyaa is-fiirsasho kaas oo sameeya isbarbardhigga afar-geesoodka ah ee dhammaan-dhan-dhan ee isku midka ah ee sheyga dhibicda ee u dhexeeya dhejinta calaamado kala duwan oo isku xigta, oo u sameeya khariidad toosan si uu u soo saaro vector. Qaabka wax-bedelku wuxuu ka kooban yahay baloogyo is-fiirsasho ah oo isku xiran MLP ama Multi-Layer Perceptron blocks kuwaas oo ka kooban laba lakab oo MLP ah oo leh hawl firfircooni. 

BlackMamba: Dhismaha iyo Habka

Models Space State

Models Space State waxay ka tirsan yihiin kooxda moodooyinka taxanaha ah ee leh kakanaanta toosan marka loo eego dhererka isku xigxiga wax gelinta. Nashqada Nashqada Models Space State waxay si aad ah ula jaan qaadaysaa shabakadaha Neural ee soo noqnoqda iyo shabakadaha neerfaha ee Convolutional halkii ay ka ahaan lahaayeen qaabdhismeed ku salaysan feejignaan, waxaana lagu dhiirigeliyay nidaam firfircoon oo joogto ah kaas oo sawiraya shaqo 1-cabbir ah iyada oo loo marayo meel qarsoon oo qarsoon. Nidaam toosan oo firfircooni ah ayaa ka dhigaya xisaabaadka barbar socda si hufan iyadoo la adeegsanayo sawirka associative ama convolution scan. Xaaladaha wax ku oolka ah, dabeecadda soo noqnoqota ee Moodooyinka Hawada Gobolka ayaa ahayd sababta ay wali tahay in lagu qaato qalabka AI ee aadka u barbar socda sida GPU-yada. Si kastaba ha ahaatee, soo ifbaxa SSM-yada sida RWKV iyo Mamba waxay isticmaaleen kernels scan is barbar socda si ay si hufan ugu sawiraan hawlaha soo noqnoqda ee GPU-yada, sidaas darteed fududaynta tababbarka qaab-dhismeedka cusub oo leh hufnaan la mid ah kuwa ay heleen moodooyinka beddelka. 

Kakanaanta afar-geesoodka ah ee dabiiciga ah ee la xiriirta dhererka isku xigxiga ee ku dhex jira Transformers waa xaddidaad la yaqaan oo caqabad ku ah sababaynta iyo fahamka xaaladaha aadka u dheer. Hal-abuurradii u dambeeyay ayaa soo bandhigay fikradda kordhinta dhererka macnaha guud, taas oo u sahlaysa transformers in lagu tababaro miisaan macquul ah ka hor inta aan lagu dabaqin duruufo aad u dheer inta lagu jiro fikradda. In kasta oo ay jiraan horumarradaas, geeddi-socodku waxa uu weli u baahan yahay xaddi badan oo agab xisaabeed ah iyo xusuusta, gaar ahaan ilaalinta kaydka-Qiimaha-furaha (KV), taas oo ka dhigaysa dadaal kheyraad-dhaqaale ah. Dadaaladii cilmi-baadhiseed ee u dambeeyay waxa ay diiradda saareen kor u qaadista awoodaha muujinta ee moodooyinka-meel-dawladeedka iyada oo lagu darayo habab gaabin-ku-tiirsanaan ah, oo la mid ah jaantusyada Weydiinta, Furaha, Qiimaha (QKV) ee laga helay hababka dareenka. 

Dadaalladan ayaa ujeedadoodu tahay in la ilaaliyo horusocodka toosan ee toosan ee soo noqnoqda ee goob dawladeed, taas oo u oggolaanaysa in si hufan loo fuliyo iyada oo loo marayo isku-dhac ama habka iskaanka xulashada. Habkani wuxuu si weyn u yareynayaa farqiga waxqabadka iyo isbeddelka ee codsiyada la taaban karo. Horumaradan waxa ka mid ah, Mamba waxa uu u taagan yahay qaab dawladeed oo ka tarjumaya ujeedooyinkii cilmi-baadhistii hore, taas oo muujinaysa heerar waxqabad oo cajiib ah oo la barbar dhigi kara transformers oo miisaankoodu yahay ilaa 2.8 bilyan oo cabbir. Waxa ay ku gaadhaysaa tan iyada oo adeegsanaysa gating-ku-tiirsanaanta ku-tiirsanaanta agabyada moodeelka-meel-gaadhka ah ee gobolka (SSM), inta oo dhan iyada oo la hubinayo xisaabinta hufan iyada oo la adeegsanayo kernels scan-ka-doorashada ah.

Isku dhafka moodooyinka khabiirada

Isku-dhafka Khabiiradda (MoE) waxay ku gaadhaan kala soocida qiimaha dulsaarka iyo wadarta tirinta cabbirka iyadoo si door ah loo hawlgelinayo inta lagu jiro gudbinta gudbinta. Halkii laga isticmaali lahaa dhammaan xuduudaha, moodooyinkani waxay toosiyaan calaamado khubarada Multilayer Perceptron (MLP) gaar ah. Fikrad ahaan, khabiir kasta waxaa loogu talagalay inuu farsameeyo nooc gaar ah oo wax-is-gudbineed ah, oo leh hawo-marineed, asal ahaan shabakad neural ah oo is haysta, oo go'aaminaya khabiirka ugu habboon calaamad kasta. Habkani waxa uu hiigsanayaa in lagu ilaaliyo awoodda cabbiraadda guud ee moodeelka leh tiro u dhigma oo cabbirro ah oo ku jira qaabayn cufan, laakiin leh baahiyo xisaabeed oo aad loo dhimay. Caadi ahaan, router-ku waa khariidaynta lakabyada toosan ee calaamadaha ilaa tusmooyinka khabiirka iyadoo khabiir kastaa uu si fudud u yahay beddelka caadiga ah ee Multilayer Perceptron. Si kastaba ha noqotee, horumariyayaashu wali ma ogaanayaan habka tababarka ugu fiican ee router maadaama dhibaatada meelaynta khabiirku ay tahay mid aan kala duwanayn, iyo Isku-dhafka moodooyinka Khabiirka ayaa inta badan la halgama isku dheelitirka culeyska iyo xasilloonida tababarka ee u dhexeeya khubarada kala duwan ee hufnaanta qalabka. 

naqshadaha

Xuddunta, BlackMamba waxay shaqaaleysiisaa moodal-bedelka caadiga ah oo ka kooban baloogyada MLP-ga oo is-dhex-gal ah iyo xannibaadyo taxadar leh oo lagu daray si isdaba-joog ah oo la socda qulqulka haraaga ah. Hadda, badi moodooyinka Khabiirrada Isku-dhafka ah waxay si fudud ugu beddelaan blocks-ka 'multilayer perceptron blocks' iyagoo leh lakab khabiir ah oo la leexiyay. Dhanka kale, qaab-dhismeedka BlackMamba kaliya kuma beddelayo xannibaadda multilayer perceptron ee beddelka iyada oo leh lakab khabiir ah oo la leexiyay, laakiin sidoo kale wuxuu ku beddelaa lakabka dareenka lakabka Model Space State Mamba. Naqshadeynta qaabka BlackMamba waxaa lagu muujiyay shaxanka soo socda. 

Tababarka iyo Xogta

Qaabka BlackMamba waxaa lagu tababaray in ka badan 300 bilyan oo calaamado ah oo ku saabsan xog-ururin, wuxuuna u adeegsadaa hawl-qabadka SwiGLU ee khubarada garaadka badan. Qaab-dhismeedkani waxa uu la tabobaraa khubaro 8 ah, tiro ay horumariyayaashu ogaadeen in uu yahay dheelitirnaanta saxda ah oo ay ka beddelaan inta u dhaxaysa raadadka xusuusta iyo qiimaha qiimaha moodeelka. Xogta gaarka ah ee loo isticmaalo in lagu tababaro qaabka BlackMamba waxa uu ka kooban yahay isku dhaf ah xog-ururin hore oo jiray oo ay ku jiraan Starcoder, SlimPajama, Pile, iyo in ka badan. Shaxda soo socotaa waxay muujinaysaa miisaanka mid kasta oo ka mid ah xog-ururinta loo isticmaalo tababbarka qaabka BlackMamba. Guud ahaan, waxaa jira 1.8 tiriliyan calaamado xogta ku jira. 

BlackMamba : Natiijooyinka

Si loo hubiyo isbarbardhigga cadaaladda ah ee u dhexeeya Mamba iyo BlackMamba, horumariyayaashu waxay tababareen labada nooc ee leh cabbirro tababar oo isku mid ah xogta tababarka. Qaab dhismeedka BlackMamba wuxuu awood u leeyahay inuu ka sare maro labada nooc ee Mamba iyo transformer-ka ee cabbir isku mid ah horay u dhaafinta moodeelka waqtiga go'aaminta iyo sidoo kale tababbarka hawlgallada dulbeeynta ilbiriqsi kasta. Jaantuskan soo socdaa wuxuu muujinayaa wakhtiga la qaatay si loo soo saaro isku xigxiga dhererka la bixiyay si toos ah oo toos ah laga bilaabo hal-calaamad bilawga ah oo ah shaqada dhererka isku xigxiga. 

Intaa waxaa dheer, faa'iidooyinka daahitaanka ee labadaba Isku-dhafka Khabiirka iyo moodooyinka Mamba ayaa lagu daray qaabka BlackMamba taasoo keentay waqtiyo aad u dhaqso badan marka la barbardhigo moodooyinka beddelka, moodooyinka Mamba ee saafiga ah, iyo moodooyinka MoE. Intaa waxaa dheer, faa'iidada fikradda qaabka BlackMamba waxay si toos ah u dhigantaa dhererka isku xigxiga, taasoo ka dhigaysa BlackMamba mid aad waxtar u leh jiilka isku xigxiga ee dheer. Dhaqdhaqaaqa, jaantuskan soo socdaa wuxuu muujinayaa tirada calaamadaha loo qoondeeyay moodooyinka BlackMamba oo leh 340 milyan iyo 640 milyan siday u kala horreeyaan. Sida la arki karo, inta badan lakabyada waxay muujinayaan heer sare oo dheellitirka khabiirka ah taasoo ka dhalatay hagaajinta Sinkhorn algorithm oo ay hirgeliyeen moodooyinka BlackMamba. 

Jadwalka soo socdaa waxa uu daboolayaa buundooyinka qiimaynta ee qaabka BlackMamba marka la barbar dhigo noocyo kala duwan oo ah noocyo luqadeed oo horay loo tababaray. Sida la arki karo, qaabka BlackMamba wuxuu awood u leeyahay inuu la tartamo oo ka fiicnaado inta badan qaab-dhismeedka dhammaan saldhigyada. Intaa waxaa dheer, waxaa xusid mudan in moodooyinka ka sarreeya BlackMamba ay leeyihiin tiro aad u sarreeya oo cabbirro ah, farqiga u dhexeeya waxqabadkuna waa mid aad u yar, taas oo muujinaysa awoodda qaabka BlackMamba oo leh cabbirro yar. 

Afkaarta Final

Maqaalkan, waxaan uga hadalnay BlackMamba, naqshad cusub oo isku dara Modelka Space State ee Mamba iyo isku dhafka moodooyinka khabiirada si ay u helaan faa'iidooyinka ay bixiyaan labadan qaab-dhismeedka. Tijaabooyinka BlackMamba waxay muujiyeen inay ka sarreeyaan qaab-dhismeedka Mamba ee jira iyo saldhigyada isbeddelka ee labadaba tababarka FLOPs iyo fikradda. Waxqabadka gaarka ah ee qaab dhismeedka BlackMamba wuxuu muujinayaa inay awood u leedahay inay dhaxliso oo ay isku darto awoodaha qaab dhismeedka Mamba iyo MoE si gaar ah tan iyo markii ay isku darayso raqiis iyo dhaqsaha badan ee MoE iyo jiilka kakanaanta tooska ah ee Mamba. Waxaan ka hadalnay sida qaab-dhismeedka BlackMamba qaab-dhismeedka uu awood u leeyahay inuu ka sarreeyo qaababka luqadda waaweyn ee tababbaran, qaabka Mamba ee jira, iyo isku dhafka moodooyinka khabiirada marka la eego tababarka FLOPs iyo kharashka ka-qaybgalka. Intaa waxaa dheer, qaabka BlackMamba wuxuu sidoo kale dhaxlayaa jiilka FLOPs iyo tababarka dhimista labadaba isku dhafka moodooyinka khabiirada iyo qaabka Mamba isku mar. 

 

"Injineer xirfad ahaan, qoraa qalbigiisa". Kunal waa qoraa farsamo oo leh jacayl qoto dheer & faham AI iyo ML, oo ​​u heellan fududaynta fikradaha adag ee dhinacyadan iyada oo loo marayo dukumeenti hawleed iyo macluumaad leh.