Արհեստական բանականություն
Decoder-ի վրա հիմնված մեծ լեզուների մոդելներ. ամբողջական ուղեցույց
Լեզուների մեծ մոդելներ (LLM-ները) հեղափոխել են բնական լեզվի մշակման (NLP) ոլորտը՝ ցույց տալով մարդու նմանվող տեքստ ստեղծելու, հարցերին պատասխանելու և լեզվի հետ կապված խնդիրների լայն շրջանակի ստեղծման ուշագրավ կարողություններ: Այս հզոր մոդելների հիմքում ընկած է միայն ապակոդավորող տրանսֆորմատորային ճարտարապետություն, սկզբնական տրանսֆորմատորային ճարտարապետության տարբերակ, որն առաջարկվել է հիմնական հոդվածումՈւշադրությունն այն ամենն է, ինչ ձեզ հարկավոր է«Վասվանիի և այլոց կողմից:
Այս համապարփակ ուղեցույցում մենք կուսումնասիրենք ապակոդավորիչների վրա հիմնված LLM-ների ներքին աշխատանքը՝ խորանալով հիմնարար շինարարական բլոկների, ճարտարապետական նորարարությունների և իրականացման մանրամասների մեջ, որոնք այս մոդելները մղել են NLP հետազոտությունների և կիրառությունների առաջնագծում:
The Transformer Architecture: A Refresher
Նախքան ապակոդավորման վրա հիմնված LLM-ների առանձնահատկությունները խորանալը, անհրաժեշտ է վերանայել տրանսֆորմատորի ճարտարապետությունը, այն հիմքը, որի վրա կառուցված են այս մոդելները: Տրանսֆորմատորը ներկայացրեց հաջորդականության մոդելավորման նոր մոտեցում՝ հենվելով բացառապես ուշադրության մեխանիզմների վրա՝ տվյալների երկարաժամկետ կախվածությունը գրավելու համար՝ առանց կրկնվող կամ կոնվոլյուցիոն շերտերի անհրաժեշտության:
Տրանսֆորմատորի բնօրինակ ճարտարապետությունը բաղկացած է երկու հիմնական բաղադրիչներից՝ կոդավորիչ և ապակոդավորիչ: Կոդավորիչը մշակում է մուտքային հաջորդականությունը և ստեղծում համատեքստային ներկայացում, որն այնուհետև սպառվում է ապակոդավորողի կողմից՝ ելքային հաջորդականությունը արտադրելու համար: Այս ճարտարապետությունն ի սկզբանե նախատեսված էր մեքենայական թարգմանության առաջադրանքների համար, որտեղ կոդավորիչը մշակում է մուտքագրված նախադասությունը սկզբնաղբյուր լեզվով, իսկ ապակոդավորիչը ստեղծում է համապատասխան նախադասությունը թիրախային լեզվով։
Ինքն ուշադրությունը. Տրանսֆորմատորի հաջողության բանալին
Ի սրտում տրանսֆորմատոր Ինքն ուշադրության մեխանիզմն է՝ հզոր տեխնիկա, որը թույլ է տալիս մոդելին կշռել և համախմբել տեղեկատվություն մուտքագրման հաջորդականության տարբեր դիրքերից: Ի տարբերություն ավանդական հաջորդականության մոդելների, որոնք հաջորդաբար մշակում են մուտքային նշանները, ինքնաուշադրությունը մոդելին հնարավորություն է տալիս ֆիքսել կախվածությունը ցանկացած զույգ նշանների միջև՝ անկախ հաջորդականության մեջ դրանց դիրքից:
Ինքն ուշադրության գործողությունը կարելի է բաժանել երեք հիմնական փուլերի.
- Հարցման, բանալի և արժեքի կանխատեսումներՄուտքային հաջորդականությունը նախագծված է երեք առանձին ներկայացումների. հարցումներ (Q), ստեղները (Կ), և արժեքներ (V). Այս կանխատեսումները ստացվում են մուտքագրումը սովորած քաշի մատրիցներով բազմապատկելով:
- Ուշադրության միավորի հաշվարկՄուտքային հաջորդականության յուրաքանչյուր դիրքի համար ուշադրության միավորները հաշվարկվում են՝ վերցնելով կետային արտադրյալը համապատասխան հարցման վեկտորի և բոլոր հիմնական վեկտորների միջև: Այս միավորները ներկայացնում են յուրաքանչյուր պաշտոնի համապատասխանությունը մշակվող ընթացիկ պաշտոնին:
- Արժեքների կշռված գումարՈւշադրության միավորները նորմալացվում են՝ օգտագործելով softmax ֆունկցիան, և ստացված ուշադրության կշիռներն օգտագործվում են արժեքների վեկտորների կշռված գումարը հաշվարկելու համար՝ արտադրելով ընթացիկ դիրքի ելքային ներկայացումը:
Բազմագլուխ ուշադրությունը, որը ինքնաուշադրության մեխանիզմի տարբերակ է, թույլ է տալիս մոդելին ֆիքսել տարբեր տեսակի հարաբերություններ՝ հաշվարկելով ուշադրության միավորները բազմաթիվ «ղեկավարներըԶուգահեռաբար, յուրաքանչյուրն ունի հարցումների, բանալիների և արժեքների կանխատեսումների իր հավաքածուն:
Ճարտարապետական տարբերակներ և կոնֆիգուրացիաներ
Թեև ապակոդավորման վրա հիմնված LLM-ների հիմնական սկզբունքները մնում են հետևողական, հետազոտողները ուսումնասիրել են տարբեր ճարտարապետական տարբերակներ և կոնֆիգուրացիաներ՝ բարելավելու կատարողականությունը, արդյունավետությունը և ընդհանրացման հնարավորությունները: Այս բաժնում մենք կխորանանք տարբեր ճարտարապետական ընտրությունների և դրանց հետևանքների մեջ:
Ճարտարապետության տեսակները
Ապակոդերի վրա հիմնված LLM-ները կարելի է լայնորեն դասակարգել երեք հիմնական տեսակի՝ կոդավորող-ապակոդավորիչ, պատճառահետևանքային ապակոդավորիչ և նախածանցային ապակոդավորիչ: Ճարտարապետության յուրաքանչյուր տեսակ ցուցադրում է ուշադրության հստակ նախշեր:
Encoder-Decoder Architecture
Վանիլային տրանսֆորմեր մոդելի հիման վրա կոդավորող-ապակոդավորիչ ճարտարապետությունը բաղկացած է երկու կույտերից՝ կոդավորիչ և ապակոդավորիչ: Կոդավորիչը օգտագործում է կուտակված բազմաբնույթ ինքնաուշադրության շերտեր՝ մուտքային հաջորդականությունը կոդավորելու և թաքնված ներկայացումներ ստեղծելու համար: Ապակոդավորողն այնուհետև կատարում է խաչաձև ուշադրություն այս պատկերների վրա՝ նպատակային հաջորդականությունը ստեղծելու համար: Թեև արդյունավետ են NLP-ի տարբեր առաջադրանքներում, մի քանի LLM-ներ, ինչպիսիք են Flan-T5, ընդունեք այս ճարտարապետությունը:
Պատճառահետևանքային ապակոդավորիչի ճարտարապետություն
Պատճառահետևանքային ապակոդավորիչի ճարտարապետությունը ներառում է միակողմանի ուշադրության դիմակ, որը թույլ է տալիս յուրաքանչյուր մուտքային նշանին հետևել միայն անցյալ նշաններին և իրեն: Ե՛վ մուտքային, և՛ ելքային նշանները մշակվում են նույն ապակոդավորիչում: Հատկանշական մոդելներ, ինչպիսիք են GPT-1, GPT-2 և GPT-3-ը կառուցված են այս ճարտարապետության վրա՝ GPT-3-ը ցուցադրում է համատեքստում ուսուցման ուշագրավ հնարավորություններ: Շատ LLM-ներ, ներառյալ OPT-ը, BLOOM-ը և Gopher-ը, լայնորեն ընդունված են պատճառահետևանքային վերծանիչներ:
Նախածանցի ապակոդավորիչի ճարտարապետություն
Նաև հայտնի է որպես ոչ պատճառահետևանքային ապակոդավորիչ, նախածանցային ապակոդավորիչի ճարտարապետությունը փոփոխում է պատճառահետևանքային ապակոդավորիչների քողարկման մեխանիզմը, որպեսզի հնարավոր լինի երկկողմանի ուշադրություն նախածանցային նշանների նկատմամբ և միակողմանի ուշադրություն գեներացված նշանների վրա: Ինչպես կոդավորող-ապակոդավորիչ ճարտարապետությունը, նախածանցային ապակոդավորիչները կարող են կոդավորել նախածանցների հաջորդականությունը երկկողմանիորեն և կանխատեսել ելքային նշանները ավտոռեգեսիվ կերպով՝ օգտագործելով ընդհանուր պարամետրերը: Նախածանցային ապակոդավորիչների վրա հիմնված LLM-ները ներառում են GLM130B և U-PaLM:
Բոլոր երեք ճարտարապետության տեսակները կարող են ընդլայնվել՝ օգտագործելով փորձագետների խառնուրդ (ԷՆ) scaling տեխնիկան, որը հազվադեպ ակտիվացնում է նեյրոնային ցանցի կշիռների ենթաբազմությունը յուրաքանչյուր մուտքագրման համար: Այս մոտեցումը կիրառվել է այնպիսի մոդելներում, ինչպիսիք են Switch Transformer-ը և GLaM-ը, փորձագետների թվի աճով կամ ընդհանուր պարամետրի չափը ցույց է տալիս կատարողականի զգալի բարելավումներ:
Միայն ապակոդավորող տրանսֆորմատոր. Ընդգրկելով ավտոռեգեսիվ բնույթը
Թեև տրանսֆորմատորի սկզբնական ճարտարապետությունը նախագծված էր հաջորդականությունից հաջորդական առաջադրանքների համար, ինչպիսիք են մեքենայական թարգմանությունը, շատ NLP առաջադրանքներ, ինչպիսիք են լեզվի մոդելավորումը և տեքստի ստեղծումը, կարող են սահմանվել որպես ավտոռեգեսիվ խնդիրներ, որտեղ մոդելը միաժամանակ ստեղծում է մեկ նշան՝ պայմանավորված նախկինում ստեղծված նշաններ:
Մուտքագրեք միայն ապակոդավորող տրանսֆորմատորը, տրանսֆորմատորի ճարտարապետության պարզեցված տարբերակ, որը պահպանում է միայն ապակոդավորիչի բաղադրիչը: Այս ճարտարապետությունը հատկապես հարմար է ավտոռեգեսիվ առաջադրանքների համար, քանի որ այն ստեղծում է ելքային նշաններ մեկ առ մեկ՝ օգտագործելով նախկինում ստեղծված նշանները որպես մուտքային համատեքստ:
Միայն ապակոդավորող տրանսֆորմատորի և սկզբնական տրանսֆորմատորի ապակոդավորիչի միջև հիմնական տարբերությունը կայանում է ինքնորոշման մեխանիզմի մեջ: Միայն ապակոդավորիչի պարամետրում ինքնաուշադրության գործողությունը փոփոխվում է, որպեսզի մոդելը չմտածի ապագա նշանների վրա, որը հայտնի է որպես պատճառահետևանք: Սա ձեռք է բերվում «դիմակով ինքնավստահություն» կոչվող տեխնիկայի միջոցով, որտեղ ապագա դիրքերին համապատասխան ուշադրության միավորները սահմանվում են բացասական անսահմանության՝ արդյունավետորեն քողարկելով դրանք softmax նորմալացման քայլի ընթացքում:
Decoder-ի վրա հիմնված LLM-ների ճարտարապետական բաղադրիչները
Թեև ինքնավստահության և դիմակավորված ինքնորոշման հիմնական սկզբունքները մնում են նույնը, ժամանակակից ապակոդավորման վրա հիմնված LLM-ները ներկայացրել են մի քանի ճարտարապետական նորամուծություններ՝ բարելավելու կատարողականությունը, արդյունավետությունը և ընդհանրացման հնարավորությունները: Եկեք ուսումնասիրենք մի քանի հիմնական բաղադրիչներ և տեխնիկա, որոնք օգտագործվում են ժամանակակից LLM-ներում:
Ներածման ներկայացում
Նախքան մուտքագրման հաջորդականությունը մշակելը, ապակոդավորման վրա հիմնված LLM-ները օգտագործում են նշանավորման և ներկառուցման տեխնիկա՝ չմշակված տեքստը մոդելի համար հարմար թվային ներկայացման փոխակերպելու համար:
OkenնշումTokenization գործընթացը փոխակերպում է մուտքագրված տեքստը նշանների հաջորդականության, որոնք կարող են լինել բառեր, ենթաբառեր կամ նույնիսկ առանձին նիշեր՝ կախված կիրառվող նշանավորման ռազմավարությունից: LLM-ների համար նշանավորման հանրաճանաչ մեթոդները ներառում են բայթ-զույգ կոդավորումը (BPE), SentencePiece և WordPiece: Այս մեթոդները նպատակ ունեն հավասարակշռություն գտնել բառապաշարի չափի և ներկայացման մանրակրկիտության միջև՝ թույլ տալով մոդելին արդյունավետ կերպով մշակել հազվագյուտ կամ բառապաշարից դուրս բառերը:
Token EmbeddingsՆշանակացումից հետո յուրաքանչյուր նշան քարտեզագրվում է խիտ վեկտորային պատկերով, որը կոչվում է նշանի ներդրում: Այս ներկառուցումները սովորվում են վերապատրաստման գործընթացի ընթացքում և ֆիքսում են նշանաբանների միջև իմաստային և շարահյուսական հարաբերությունները:
Դիրքային ներկառուցումներՏրանսֆորմատորների մոդելները միաժամանակ մշակում են ամբողջ մուտքային հաջորդականությունը՝ չունենալով կրկնվող մոդելներում առկա նշանների դիրքերի բնորոշ հասկացությունը: Պաշտոնական տեղեկատվությունը ներառելու համար դիրքային ներկառուցումները ավելացվում են նշանների ներկառուցումներին, ինչը թույլ է տալիս մոդելին տարբերակել նշանները հաջորդականության մեջ դրանց դիրքերի հիման վրա: Վաղ LLM-ները օգտագործում էին ֆիքսված դիրքային ներկառուցումներ՝ հիմնված սինուսոիդային ֆունկցիաների վրա, մինչդեռ ավելի նոր մոդելները ուսումնասիրել են ուսանելի դիրքային ներկառուցումներ կամ դիրքային կոդավորման այլընտրանքային մեթոդներ, ինչպիսիք են պտտվող դիրքային ներկառուցումները:
Բազմակի գլխի ուշադրության բլոկներ
Ապակոդավորիչի վրա հիմնված LLM-ների հիմնական կառուցվածքային բլոկները բազմագլուխ ուշադրության շերտերն են, որոնք կատարում են ավելի վաղ նկարագրված դիմակավորված ինքնաուշադրության գործողությունը: Այս շերտերը բազմապատիկ են դրվում, որոնցից յուրաքանչյուրը հետևում է նախորդ շերտի արդյունքին, ինչը թույլ է տալիս մոդելին գրավել ավելի ու ավելի բարդ կախվածություններ և ներկայացումներ:
Ուշադրություն ղեկավարներՅուրաքանչյուր բազմակողմանի ուշադրության շերտ բաղկացած է բազմաթիվ «ուշադրության գլուխներից», որոնցից յուրաքանչյուրն ունի հարցումների, բանալիների և արժեքների կանխատեսումների իր հավաքածուն: Սա թույլ է տալիս մոդելին միաժամանակ ուշադրություն դարձնել մուտքի տարբեր ասպեկտներին՝ ֆիքսելով տարբեր հարաբերություններ և օրինաչափություններ:
Մնացորդային միացումներ և շերտերի նորմալացումԽորը ցանցերի ուսուցումը հեշտացնելու և անհետացող գրադիենտի խնդիրը մեղմելու համար ապակոդավորիչների վրա հիմնված LLM-ները օգտագործում են մնացորդային միացումներ և շերտերի նորմալացման տեխնիկա: Մնացորդային միացումներն ավելացնում են շերտի մուտքը դրա ելքին՝ թույլ տալով գրադիենտներին ավելի հեշտությամբ հոսել հետտարածման ժամանակ: Շերտերի նորմալացումը օգնում է կայունացնել ակտիվացումները և գրադիենտները՝ հետագայում բարելավելով մարզման կայունությունն ու կատարումը:
Feed-Forward Layers
Ի լրումն բազմագլուխ ուշադրության շերտերի, ապակոդավորման վրա հիմնված LLM-ները ներառում են սնուցման առաջ շարժվող շերտեր, որոնք կիրառում են պարզ սնուցման առաջ շարժվող նյարդային ցանց հաջորդականության յուրաքանչյուր դիրքի համար: Այս շերտերը ներկայացնում են ոչ գծայինություն և հնարավորություն են տալիս մոդելին սովորել ավելի բարդ ներկայացումներ:
Ակտիվացման գործառույթներ.Ակտիվացման գործառույթի ընտրությունը սնուցման առաջ շերտերում կարող է էապես ազդել մոդելի աշխատանքի վրա: Մինչ ավելի վաղ LLM-ները հիմնվում էին լայնորեն կիրառվող ReLU ակտիվացման վրա, ավելի նոր մոդելները որդեգրել են ավելի բարդ ակտիվացման գործառույթներ, ինչպիսիք են Gaussian Error Linear Unit (GELU) կամ SwiGLU ակտիվացումը, որոնք ցույց են տվել բարելավված կատարողականություն:
Նվազագույն ուշադրություն և արդյունավետ տրանսֆորմատորներ
Թեև ինքնաուշադրության մեխանիզմը հզոր է, այն ունի քառակուսի հաշվողական բարդություն՝ կապված հաջորդականության երկարության հետ, ինչը հաշվողականորեն թանկ է դարձնում երկար հաջորդականությունների համար: Այս մարտահրավերին դիմակայելու համար առաջարկվել են մի քանի տեխնիկա՝ նվազեցնելու հաշվողական և հիշողության պահանջները ինքնորոշման նկատմամբ՝ հնարավորություն տալով ավելի երկար հաջորդականությունների արդյունավետ մշակմանը:
Սուր ուշադրությունՀակառակ ուշադրության տեխնիկան, ինչպիսին է GPT-3 մոդելում կիրառվածը, ընտրողաբար հետևում են ներածման հաջորդականության դիրքերի ենթաբազմությանը, այլ ոչ թե հաշվարկում են ուշադրության միավորները բոլոր դիրքերի համար: Սա կարող է զգալիորեն նվազեցնել հաշվողական բարդությունը՝ պահպանելով ողջամիտ կատարումը:
Լոգարիթմական պատուհան ՈւշադրությունՆերդրված Mistral 7B մոդելում, լոգարիթմական պատուհանի ուշադրությունը (SWA) պարզ, բայց արդյունավետ տեխնիկա է, որը սահմանափակում է յուրաքանչյուր նշանի ուշադրության տիրույթը մինչև ֆիքսված պատուհանի չափը: Այս մոտեցումը կիրառում է տրանսֆորմատորային շերտերի կարողությունը՝ տեղեկատվություն փոխանցելու բազմաթիվ շերտերի միջով, արդյունավետորեն մեծացնելով ուշադրության տիրույթը՝ առանց լիարժեք ինքնաուշադրության քառակուսային բարդության:
Rolling Buffer CacheՀիշողության պահանջները հետագայում նվազեցնելու համար, հատկապես երկար հաջորդականությունների համար, Mistral 7B մոդելն օգտագործում է շարժվող բուֆերային քեշ: Այս տեխնիկան պահում և նորից օգտագործում է հաշվարկված բանալին և արժեքի վեկտորները պատուհանի ֆիքսված չափի համար՝ խուսափելով ավելորդ հաշվարկներից և նվազագույնի հասցնելով հիշողության օգտագործումը:
Խմբավորված հարցում ՈւշադրությունՆերդրված LLaMA 2 մոդելում, խմբավորված հարցման ուշադրությունը (GQA) բազմակի հարցման ուշադրության մեխանիզմի տարբերակ է, որը բաժանում է ուշադրության գլուխները խմբերի, որոնցից յուրաքանչյուրն ունի ընդհանուր բանալի և արժեքային մատրիցա: Այս մոտեցումը հավասարակշռում է բազմաթիվ հարցումների ուշադրության արդյունավետության և ստանդարտ ինքնորոշման կատարման միջև՝ ապահովելով եզրակացությունների բարելավված ժամանակներ՝ պահպանելով բարձրորակ արդյունքներ: