քոթուկ BlackMamba. Փորձագետների խառնուրդ պետական-տիեզերական մոդելների համար - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

BlackMamba. փորձագետների խառնուրդ պետական-տիեզերական մոդելների համար

mm

Հրատարակված է

 on

BlackMamba. փորձագետների խառնուրդ պետական-տիեզերական մոդելների համար

Միայն ապակոդավորող տրանսֆորմատորների մոդելներից կառուցված Large Language Models (LLMs) մշակումը վճռորոշ դեր է խաղացել Բնական լեզվի մշակման (NLP) տիրույթի փոխակերպման գործում, ինչպես նաև խորը ուսուցման բազմազան հավելվածների առաջխաղացման գործում, ներառյալ. ամրապնդման ուսուցում, ժամանակային շարքերի վերլուծություն, պատկերների մշակում և շատ ավելին: Այնուամենայնիվ, չնայած իրենց մասշտաբայնությանը և ուժեղ կատարողականությանը, LLM-ները, որոնք կառուցված են միայն ապակոդավորող տրանսֆորմատորների մոդելներից, դեռևս բախվում են զգալի թերությունների: Թեև արտահայտիչ է, բայց տրանսֆորմատորից ստացված LLM-ներում ուշադրության մեխանիզմը պահանջում է բարձր հաշվողական ռեսուրսներ ինչպես եզրակացության, այնպես էլ ուսուցման ընթացքում, ինչը պահանջում է զգալի հիշողություն հաջորդականության երկարության և քառակուսի FLOP-ների համար: Այս բարձր հաշվողական պահանջը սահմանափակում է տրանսֆորմատորների մոդելների համատեքստի երկարությունը՝ դարձնելով ավտոռեգեսիվ գեներացման առաջադրանքները մասշտաբով համեմատաբար թանկ, և խոչընդոտում է շարունակական տվյալների հոսքերից սովորելուն և իսկապես անսահմանափակ հաջորդականության մշակման կարողությանը:

Վերջին ժամանակներում, Պետական ​​տիեզերական մոդելներ (SSM-ները) ցուցադրել են ուշագրավ կարողություններ և կատարողականություն՝ մրցելով տրանսֆորմատորային ճարտարապետության մոդելների հետ լայնածավալ մոդելավորման հենանիշերում՝ միաժամանակ հասնելով հիշողության բարդության՝ որպես հաջորդականության երկարության և գծային ժամանակի ֆունկցիա: Ավելին, Mamba-ն՝ վերջերս թողարկված պետական ​​տիեզերական մոդելը, ցուցադրել է ակնառու կատարում լեզվի մոդելավորման և երկար հաջորդականության մշակման առաջադրանքների շարքում: Միաժամանակ փորձագետների խառնուրդը (MoE) մոդելները ցուցադրել են նաև տպավորիչ կատարում՝ միևնույն ժամանակ զգալիորեն նվազեցնելով եզրակացության հետաձգման և հաշվարկային ծախսերը, թեև ավելի մեծ հիշողության հետքի հաշվին: Հիմնվելով Mamba և MoE մոդելների վրա՝ այս հոդվածը կքննարկի BlackMamba-ի նոր ճարտարապետությունը, որը համատեղում է Mamba State Space Model-ը MoE մոդելների հետ՝ երկու շրջանակների կողմից առաջարկվող առավելություններն օգտագործելու համար: BlackMamba-ի վրա կատարվող փորձերը ցույց են տվել նրա կարողությունը՝ գերազանցելու գոյություն ունեցող Mamba-ի շրջանակը և տրանսֆորմատորի բազային գծերը և՛ ուսումնական FLOP-ներում, և՛ եզրակացություններում: BlackMamba Framework-ի բացառիկ կատարումը ցույց է տալիս, որ այն կարող է արդյունավետորեն համատեղել Mamba և MoE շրջանակների կարողությունները՝ առաջարկելով արագ և ծախսարդյունավետ եզրակացություններ MoE-ից Mamba-ից գծային բարդության առաջացման հետ:

Այս հոդվածը նպատակ ունի խորությամբ լուսաբանել BlackMamba շրջանակը: Մենք ուսումնասիրում ենք շրջանակի մեխանիզմը, մեթոդաբանությունը և ճարտարապետությունը, ինչպես նաև դրա համեմատությունը նորագույն պատկերների և տեսանյութերի ստեղծման շրջանակների հետ: Եկեք սկսենք.

BlackMamba. Ներածություն ԷՆ-ին պետական ​​տիեզերական մոդելների համար

Խոշոր լեզվական մոդելների (LLM) առաջընթացը, հատկապես նրանք, որոնք հիմնված են միայն ապակոդավորող տրանսֆորմատորների ճարտարապետության վրա, զգալիորեն ազդել են. Բնական լեզուների մշակումը (NLP) դաշտը և ընդլայնվել տարբեր խորը ուսուցման ծրագրերի մեջ, ներառյալ ամրապնդման ուսուցումը, ժամանակային շարքերի վերլուծությունը, պատկերների մշակումը և այլն: Այնուամենայնիվ, չնայած իրենց մասշտաբայնությանը և կայուն աշխատանքին, այս միայն ապակոդավորող տրանսֆորմատորների վրա հիմնված LLM-ները բախվում են նշանակալի մարտահրավերների: Ուշադրության մեխանիզմը, տրանսֆորմատորի վրա հիմնված հիմնական հատկանիշը LLM-ներs, պահանջում է ընդարձակ հաշվողական ռեսուրսներ ինչպես եզրակացության, այնպես էլ ուսուցման համար: Սա ներառում է հիշողության կարիք, որն աճում է հաջորդականության երկարության և հաշվարկային գործողությունների (FLOPs) հետ, որոնք քառակուսիորեն ավելանում են: Նման ինտենսիվ հաշվողական կարիքները սահմանափակում են մոդելների համատեքստի երկարությունը, բարձրացնում են ավտոռեգեսիվ գեներացման առաջադրանքների ծախսերը մոդելի մասշտաբներով և խոչընդոտում են մոդելների կարողությունը սովորել շարունակական տվյալների հոսքերից կամ անսահմանափակ երկարությամբ հաջորդականությունների արդյունավետ մշակման համար: 

Վերջին մի քանի տարիների ընթացքում զգալի ջանքեր են գործադրվել՝ փորձելով հաղթահարել այդ սահմանափակումները, և ուշադրությունն ուղղվել է կանոնական խիտ ուշադրության տրանսֆորմատորների մոդելներին ճարտարապետական ​​այլընտրանքներ մշակելու ուղղությամբ, որոնցից SSM-ները և MoE մոդելները հանդիսանում են ամենահեռանկարային թեկնածու ճարտարապետությունները: Տրանսֆորմատորային ճարտարապետության մոդելների նկատմամբ Պետական ​​Տիեզերական Մոդելների առավելությունը ձեռք բերելու հիմնական օգուտը գծային հաշվողական բարդությունն է՝ կապված SSM-ների կողմից առաջարկվող մուտքային հաջորդականության երկարության հետ՝ ի տարբերություն տրանսֆորմատորների կողմից առաջարկվող քառակուսային բարդության: Տեսականորեն, գծային հաշվողական բարդությունը մուտքային հաջորդականության երկարության նկատմամբ թույլ է տալիս State Space Models-ին մշակել ավելի մեծ հաջորդականություններ, քան տրանսֆորմատոր-ճարտարապետական ​​մոդելները տվյալ FLOPS-ի կամ Լողացող կետով գործողությունների համար մեկ վայրկյանում, և ինքնառեգեսիվ գեներացիան կայուն դարձնել հաշվում առանց KV քեշի: Վերջերս մշակված պետական ​​տիեզերական մոդելները, ներառյալ Mamba-ն, RetNet-ը և մի քանի ուրիշներ, ցուցադրել են արդյունավետ երկար հաջորդականության եզրակացություն և ուսուցում, ինչպես նաև մրցակցային լեզվի մոդելավորման առաջադրանքների կատարումը տրանսֆորմատորների համար, որոնք ունեն նմանատիպ մասշտաբային հատկություններ: Մյուս կողմից, Mixture of Expert մոդելների ճարտարապետությունները դառնում են ժողովրդականություն՝ որպես խիտ տրանսֆորմատորների այլընտրանք, քանի որ այն նպաստում է եզրակացությունների և FLOP-ների ուսուցման զգալի կրճատմանը, որոնք կարևոր են խիտ մոդելի հետ համեմատելի որակի հասնելու համար: MoE (Mixture of Experts) մոդելները գործում են՝ ակտիվացնելով ընդհանուր պարամետրերի միայն սակավ ընտրությունը մեկ առաջ անցնելու ժամանակ: Նրանք օգտագործում են երթուղային ֆունկցիա՝ որոշելու համար, թե որ «փորձագետներին» են կանչում գործողության՝ հիմնվելով տվյալ համատեքստի վրա: Այս մոտեցումը ստեղծում է տարանջատում եզրակացության հաշվողական արժեքի և պարամետրերի ընդհանուր թվի միջև, ինչը թույլ է տալիս կատարելագործել ֆիքսված եզրակացության բյուջեի շրջանակներում, թեև պարամետրերի ավելացված քանակով և ավելի մեծ հիշողության պահանջով:

Ճարտարապետության այս առաջընթացը զգալի առավելություններ է տալիս ավանդական տրանսֆորմատորների նկատմամբ և ներկայացնում է հետաքրքիր ուղղություն հետագա զարգացման համար: Մենք ենթադրում ենք, որ այս բարելավումների ինտեգրումը Mamba-MoE համակցված մոդելի մեջ կարող է զգալիորեն արագացնել լեզվի մոդելավորման հնարավորությունները և արդյունավետությունը՝ գերազանցելով ստանդարտ տրանսֆորմատորային մոդելները: Mamba-MoE ճարտարապետության ակնկալվող առավելությունները ավանդական խիտ տրանսֆորմատորային մոդելի համեմատ ներառում են.

Մամբա: Ձեռք է բերում գծային հաշվողական բարդություն՝ համեմատած մուտքային հաջորդականության երկարության հետ և՛ վերապատրաստման, և՛ եզրակացության փուլերի համար: Այն հնարավորություն է տալիս ավտոռեգեսիվ գեներացիան տեղի ունենալ մշտական ​​ժամանակի շրջանակներում և մշտական ​​հիշողության օգտագործմամբ:

ԷՆ: Առաջարկում է եզրակացության արագություն և ուսուցման հաշվողական արդյունավետություն, որը համեմատելի է ավելի փոքր, խիտ բազային մոդելի հետ՝ միաժամանակ պահպանելով մոդելի որակի մակարդակը, որը մրցակցում է ավելի խիտ տարբերակի պարամետրերով համարժեք թվով մոդելի հետ:

Ասվածով հանդերձ, կարևոր է նշել, որ տրանսֆորմատորային ճարտարապետության մոդելները դեռևս նորագույն են և ցուցադրել են հետևողական և ուշագրավ ուժեղ արդյունքներ լեզվի մոդելավորման առաջադրանքների և հաջորդականության մշակման առաջադրանքներում: Իր հիմքում տրանսֆորմատորային ճարտարապետությունն օգտագործում է ինքնավստահություն, որը կատարում է քառակուսի բոլորից բոլորի համեմատությունը տարբեր նշանների ներկառուցումների միջև հաջորդականությամբ, և կատարում է ելքային վեկտորի գծային քարտեզ: Տրանսֆորմատորի մոդելը բաղկացած է MLP-ի կամ բազմաշերտ պերցեպտրոնի բլոկների միջև դրված ինքնաուշադրության բլոկներից, որոնք հետագայում բաղկացած են երկշերտ MLP-ից՝ տվյալ ակտիվացման ֆունկցիայով: 

BlackMamba: Ճարտարապետություն և մեթոդիկա

Պետական ​​տիեզերական մոդելներ

Պետական ​​տիեզերական մոդելները պատկանում են հաջորդականության մոդելների խմբին, որոնք գծային բարդություն ունեն մուտքային հաջորդականության երկարության նկատմամբ: Պետական ​​տիեզերական մոդելների ճարտարապետությունն ավելի շատ համընկնում է կրկնվող նեյրոնային ցանցերի և կոնվոլյուցիոնալ նեյրոնային ցանցերի հետ, այլ ոչ թե ուշադրության վրա հիմնված ճարտարապետության հետ, և ոգեշնչված է շարունակական դինամիկ համակարգից, որը քարտեզագրում է միաչափ ֆունկցիա անուղղակի լատենտ տարածության միջոցով: Գծային դինամիկ համակարգը զուգահեռ հաշվարկներն արդյունավետ է դարձնում՝ օգտագործելով ասոցիատիվ կամ կոնվուլյացիոն սկանավորում: Գործնական սցենարներում Պետական ​​Տիեզերական Մոդելների կրկնվող բնույթն է պատճառը, որ այն դեռ պետք է ընդունվի բարձր զուգահեռ AI ապարատների վրա, ինչպիսիք են GPU-ները: Այնուամենայնիվ, RWKV-ի նման SSM-ների առաջացումը և mamba օգտագործել են զուգահեռ սկանավորման միջուկներ՝ կրկնվող գործողությունները արդյունավետ կերպով GPU-ների վրա քարտեզագրելու համար՝ այդպիսով հեշտացնելով նոր ճարտարապետությունների ուսուցումը տրանսֆորմատորային մոդելների հետ համեմատելի արդյունավետությամբ: 

Տրանսֆորմատորների ներսում հաջորդականության երկարության հետ կապված բնածին քառակուսի բարդությունը հայտնի սահմանափակում է, որը խանգարում է շատ երկար համատեքստերում դատողություններին և ըմբռնմանը: Վերջին նորամուծությունները ներկայացրել են համատեքստի երկարությունը երկարացնելու գաղափարը, ինչը հնարավորություն է տալիս տրանսֆորմատորներին վարժեցնել իրագործելի մասշտաբով, նախքան եզրակացության ընթացքում շատ ավելի երկար համատեքստերում կիրառելը: Չնայած այս առաջընթացին, եզրակացության գործընթացը դեռևս պահանջում է զգալի քանակությամբ հաշվողական ռեսուրսներ և հիշողություն, հատկապես Key-Value (KV) քեշը պահպանելու համար, ինչը այն դարձնում է ռեսուրսների ինտենսիվ աշխատանք: Վերջին հետազոտական ​​ջանքերը կենտրոնացած են վիճակ-տիեզերական մոդելների արտահայտիչ կարողությունների ընդլայնման վրա՝ ներառելով մուտքից կախված դարպասային մեխանիզմներ, որոնք նման են ուշադրության մեխանիզմներում հայտնաբերված Query, Key, Value (QKV) մատրիցներին: 

Այս ջանքերը նպատակ ունեն պահպանել պետական-տիեզերական ռեկուրսիայի բնածին գծային առաջընթացը՝ թույլ տալով արդյունավետ իրականացում կամ կոնվուլյացիայի կամ ընտրովի սկանավորման գործընթացի միջոցով: Այս մոտեցումը զգալիորեն նեղացնում է տրանսֆորմատորների կատարողականի տարբերությունը գործնական կիրառման մեջ: Այս առաջընթացներից Mamba-ն առանձնանում է որպես պետական-տիեզերական մոդել, որը արտացոլում է նախորդ հետազոտության նպատակները՝ ցույց տալով կատարողականության տպավորիչ մակարդակներ, որոնք համեմատելի են տրանսֆորմատորների հետ մինչև 2.8 միլիարդ պարամետրի մասշտաբով: Այն հասնում է դրան՝ կիրառելով մուտքայինից կախված դարպաս՝ վիճակ-տիեզերական մոդելի (SSM) ռեկուրսիայի մուտքերի վրա՝ միևնույն ժամանակ ապահովելով արդյունավետ հաշվարկ՝ պատվիրված ընտրովի սկան միջուկների օգտագործման միջոցով:

Փորձագիտական ​​մոդելների խառնուրդ

Փորձագետների (MoE) մոդելների խառնուրդը հասնում է եզրահանգման արժեքի և պարամետրերի ընդհանուր քանակի բաժանմանը` ընտրովի ակտիվացնելով պարամետրերը առաջ անցնելու ընթացքում: Բոլոր պարամետրերն օգտագործելու փոխարեն՝ այս մոդելներն ուղղորդում են նշանները հատուկ բազմաշերտ պերցեպտրոնի (MLP) փորձագետներին: Իդեալում, յուրաքանչյուր փորձագետ հարմարեցված է մշակելու որոշակի տեսակի մուտքագրում, երթուղային մեխանիզմով, ըստ էության, կոմպակտ նեյրոնային ցանցի, որը որոշում է ամենահարմար փորձագետը յուրաքանչյուր նշանի համար: Այս մոտեցումը նպատակ ունի պահպանել համարժեք թվով պարամետրերով մոդելի համապարփակ արտահայտիչ ուժը ավելի խիտ կոնֆիգուրացիայով, բայց զգալիորեն կրճատված հաշվողական պահանջներով: Սովորաբար, երթուղիչը գծային շերտերի քարտեզագրումն է նշաններից մինչև փորձագիտական ​​ինդեքսներ, որոնցից յուրաքանչյուրը պարզապես ստանդարտ տրանսֆորմատոր է Բազմաշերտ պերցեպտրոն: Այնուամենայնիվ, մշակողները դեռ պետք է պարզեն երթուղիչի համար ուսուցման օպտիմալ մեթոդը, քանի որ փորձագետների հանձնարարականի խնդիրը տարբերվող չէ, և Mixture of Expert մոդելները հաճախ պայքարում են ծանրաբեռնվածության հավասարակշռման և մարզման կայունության հետ տարբեր փորձագետների միջև ապարատային արդյունավետության համար: 

ճարտարապետություն

Իր հիմքում BlackMamba-ն օգտագործում է ստանդարտ տրանսֆորմատորային մոդել, որը բաղկացած է միահյուսված MLP բլոկներից և ուշադրության բլոկներից, որոնք հաջորդաբար ավելացվում են մնացորդային հոսքի երկայնքով: Այժմ, Mixture of Expert մոդելների մեծ մասը պարզապես փոխարինում է բազմաշերտ պերցեպտրոնային բլոկները ուղղորդված փորձագիտական ​​շերտով: Մյուս կողմից, BlackMamba շրջանակը ոչ միայն փոխարինում է տրանսֆորմատորի բազմաշերտ պերցեպտրոնային բլոկը ուղղորդված փորձագիտական ​​շերտով, այլև փոխարինում է ուշադրության շերտը Mamba State Space Model շերտով: BlackMamba շրջանակի ճարտարապետությունը ցուցադրված է հետևյալ նկարում: 

Ուսուցում և տվյալների հավաքածու

BlackMamba մոդելը վերապատրաստվում է ավելի քան 300 միլիարդ նշանների վրա հատուկ տվյալների բազայի վրա և օգտագործում է SwiGLU ակտիվացման գործառույթը փորձագիտական ​​բազմաշերտ պերցեպտրոնների համար: Շրջանակը մարզվում է 8 փորձագետների հետ, մի շարք, որը մշակողները գտել են, որ ճիշտ հավասարակշռություն է և փոխզիջում են մոդելի հիշողության հետքի և եզրակացության արժեքի միջև: BlackMamba շրջանակը վարժեցնելու համար օգտագործվող հատուկ տվյալների հավաքածուն բաղկացած է արդեն գոյություն ունեցող բաց կոդով տվյալների հավաքածուներից, ներառյալ Starcoder, SlimPajama, Pile և այլն: Հետևյալ աղյուսակը ցույց է տալիս BlackMamba շրջանակի վերապատրաստման համար օգտագործվող տվյալների հավաքածուի յուրաքանչյուր կշիռը: Ընդհանուր առմամբ տվյալների հավաքածուում կա 1.8 տրիլիոն նշան: 

BlackMamba: Արդյունքներ

Mamba-ի և BlackMamba-ի միջև արդար համեմատություն ապահովելու համար մշակողները երկու մոդելներին էլ մարզել են նույն ուսուցման պարամետրերով նույն ուսումնական տվյալների վրա: BlackMamba շրջանակն ի վիճակի է գերազանցել ինչպես Mamba-ի, այնպես էլ տրանսֆորմատորի մոդելները՝ հետևության ժամանակի նույնական առաջ անցման մոդելի չափի համար, ինչպես նաև ուսուցանելով Լողացող կետով գործողություններ վայրկյանում: Հետևյալ նկարը ցույց է տալիս այն ժամանակը, որն անհրաժեշտ է տրված երկարության հաջորդականության ինքնառեգեսիվ ձևավորման համար սկզբնական մեկ նշանի հուշումից՝ որպես հաջորդականության երկարության ֆունկցիա: 

Ավելին, ինչպես փորձագետների խառնուրդի, այնպես էլ Mamba մոդելների հետաձգման առավելությունները համակցված են BlackMamba շրջանակում, ինչը հանգեցնում է զգալիորեն ավելի արագ եզրակացության ժամանակների, երբ համեմատվում են տրանսֆորմատորային մոդելների, մաքուր Mamba մոդելների և MoE մոդելների հետ: Ավելին, BlackMamba շրջանակի եզրակացության առավելությունն ուղիղ համեմատական ​​է հաջորդականության երկարություններին, ինչը BlackMamba-ին չափազանց արդյունավետ է դարձնում երկար հաջորդականության ստեղծման համար: Շարժվելով երկայնքով՝ հետևյալ նկարը ցույց է տալիս BlackMamba մոդելներին հատկացված նշանների քանակը՝ համապատասխանաբար 340 միլիոն և 640 միլիոն պարամետրով: Ինչպես երևում է, շերտերի մեծ մասը ցուցադրում է փորձագիտական ​​հավասարակշռության բարձր մակարդակ՝ BlackMamba մոդելների կողմից իրականացվող բարելավված Sinkhorn ալգորիթմի արդյունքում: 

Հետևյալ աղյուսակը ներառում է BlackMamba շրջանակի գնահատման միավորները՝ համեմատած բաց կոդով նախապես պատրաստված լեզվական մոդելների հետ: Ինչպես երևում է, BlackMamba շրջանակը կարող է մրցակցել և գերազանցել շրջանակների մեծամասնությանը բոլոր բազային գծերում: Ավելին, հարկ է նշել, որ այն մոդելները, որոնք գերազանցում են BlackMamba-ին, ունեն զգալիորեն ավելի մեծ թվով պարամետրեր, և կատարողականի բացը նվազագույն է, ինչը ցույց է տալիս ավելի քիչ պարամետրերով BlackMamba շրջանակի կարողությունը: 

Վերջնական Մտքեր

Այս հոդվածում մենք խոսեցինք BlackMamba-ի մասին՝ նոր ճարտարապետության, որը համատեղում է Mamba State Space Model-ը և Mixture of Expert մոդելները՝ քաղելու այս երկու շրջանակների կողմից առաջարկվող օգուտները: BlackMamba-ի վրա կատարվող փորձերը ցույց են տվել, որ այն գերազանցում է գոյություն ունեցող Mamba-ի շրջանակը և տրանսֆորմատորի բազային գծերը և՛ ուսումնական FLOP-ներում, և՛ եզրակացություններում: BlackMamba Framework-ի բացառիկ կատարումը ցույց է տալիս, որ այն ի վիճակի է ժառանգել և համատեղել Mamba և MoE շրջանակների ունակությունները բացառիկ լավ, քանի որ այն համատեղում է MoE-ի էժան և արագ եզրակացությունը Mamba-ից գծային բարդության առաջացման հետ: Մենք խոսեցինք այն մասին, թե ինչպես է BlackMamba Framework-ի ճարտարապետությունը կարողանում գերազանցել ուժեղ պատրաստված Large Language Models-ը, Mamba-ի գոյություն ունեցող շրջանակը և Mixture of Expert մոդելները՝ FLOP-ների վերապատրաստման և եզրակացության արժեքի առումով: Ավելին, BlackMamba շրջանակը նաև ժառանգում է սերնդի FLOP-ները և նվազեցված ուսուցումը ինչպես Mixture of Expert մոդելներից, այնպես էլ Mamba շրջանակից միաժամանակ: 

 

«Մասնագիտությամբ ինժեներ, անգիր գրող». Կունալը տեխնիկական գրող է, որն ունի AI և ML-ի խորը սեր և հասկացողություն, որը նվիրված է այս ոլորտներում բարդ հասկացությունների պարզեցմանը իր գրավիչ և տեղեկատվական փաստաթղթերի միջոցով: