Արհեստական բանականություն

Կարո՞ղ եք կես գնով կառուցել ChatGPT-ի նման մեծ լեզուների մոդելներ:

Հրատարակված է

12 ամիս առաջ

Թող 11, 2023

Լեզուների մեծ մոդելներ (LLM-ները), ինչպիսիք են GPT-3-ը և ChatGPT-ն, հեղափոխել են AI-ն՝ առաջարկելով բնական լեզվի ըմբռնում և բովանդակության ստեղծման հնարավորություններ: Սակայն դրանց զարգացումը բավականին թանկ գնով է, որը սահմանափակում է հասանելիությունը և հետագա հետազոտությունները: Հետազոտողները գնահատում են, որ GPT-3-ի ուսուցման արժեքը OpenAI-ի մոտ է $ 5 միլիոն. Այնուամենայնիվ, Microsoft-ը ճանաչեց ներուժը և ներդրումներ կատարեց $ 1 մլրդ - ին եւ 2019 $ 10 մլրդ 2023 թվականին OpenAI-ի GPT-3 և ChatGPT ձեռնարկությունում:

LLM-ները մեքենայական ուսուցման մոդելներ են, որոնք վերապատրաստվել են NLP հավելվածների համար ընդարձակ տեքստային տվյալների վրա: Նրանք հիմնված են տրանսֆորմատորային ճարտարապետության վրա և օգտագործում են ուշադրության մեխանիզմներ NLP առաջադրանքների համար, ինչպիսիք են հարցուպատասխանը, մեքենայական թարգմանությունը, զգացմունքների վերլուծությունը և այլն:

Հարց է ծագում՝ կարո՞ղ է արդյոք մեծացնել այս մեծ մոդելների արդյունավետությունը՝ միաժամանակ նվազեցնելով հաշվողական ծախսերը և ուսուցման ժամանակը:

Մի քանի մոտեցումներ, ինչպես Պրոգրեսիվ նեյրոնային ցանցեր, Ցանցային մորֆիզմ, ներշերտային մոդելի զուգահեռություն, գիտելիքի ժառանգությունև այլն, մշակվել են նեյրոնային ցանցերի ուսուցման հաշվողական ծախսերը նվազեցնելու համար։ վեպը LiGO (Գծային աճի օպերատոր) մոտեցումը, որը մենք կքննարկենք, սահմանում է նոր նշաձող: Այն կրկնակի նվազեցնում է LLM-ների վերապատրաստման հաշվողական արժեքը:

Նախքան այս տեխնիկան քննարկելը, կարևոր է ուսումնասիրել LLM-ների պատրաստման բարձր գնին նպաստող գործոնները:

Լեզուների մեծ մոդելների կառուցման արժեքը

LLM-երի զարգացման երեք հիմնական ծախսերը հետևյալն են.

1. Հաշվողական ռեսուրսներ

LLM-ների կառուցումը պահանջում է հսկայական հաշվողական ռեսուրսներ՝ մեծ տվյալների հավաքածուների վրա մարզվելու համար: Նրանք պետք է մշակեն միլիարդավոր պարամետրեր և սովորեն բարդ օրինաչափություններ զանգվածային տեքստային տվյալներից:

Ներդրումներ մասնագիտացված սարքավորումներում, ինչպիսիք են գրաֆիկական մշակման միավորները (GPU- ներ) և Tensor Processing Units (TPUs) պահանջվում են LLM-ների կառուցման և վերապատրաստման համար՝ նորագույն արդյունավետության հասնելու համար:

Օրինակ, GPT-3-ը վերապատրաստվել է ա սուպերհամակարգիչ 10000 ձեռնարկատիրական կարգի GPU-ներով (H100 և A100) և 285,000 պրոցեսորի միջուկներով:

2. Էներգիայի սպառում

LLM-ներ կառուցելու համար պահանջվող ինտենսիվ հաշվողական ռեսուրսները հանգեցնում են էներգիայի զգալի սպառման: Օրինակ, GPT-175-ի 3 միլիարդ պարամետրի ուսուցումը վերցրեց 14.8 օր օգտագործելով 10,000 V100 GPU, որը համարժեք է 3.55 միլիոն GPU ժամին: Էներգիայի սպառման նման բարձր մակարդակը զգալի ազդեցություն ունի նաև շրջակա միջավայրի վրա:

3. Տվյալների պահպանում և կառավարում

LLM-ները վերապատրաստվում են տվյալների մեծ հավաքածուների վրա: Օրինակ, GPT-3-ը վերապատրաստվել է տեքստային վիթխարի կորպուսի վրա տվյալներ, այդ թվում՝ Common Crawl, WebText2, Books1, Books2 և Wikipedia, ի թիվս այլ աղբյուրների։ Զգալի ենթակառուցվածքային ներդրումներ են պահանջվում այս տվյալների հավաքածուները հավաքելու, մշակելու և պահելու համար:

Նաև տվյալների պահպանման համար անհրաժեշտ է ամպային պահեստավորում, իսկ տվյալների նախնական մշակման և տարբերակների վերահսկման համար անհրաժեշտ է մարդկային փորձ: Ավելին, ապահովելով, որ ձեր տվյալների ռազմավարությունը համապատասխանում է GDPR-ի նման կանոնակարգերին, նույնպես ավելացնում է ծախսերը:

LiGO Տեխնիկա. Կրճատեք մեծ լեզուների մոդելների կառուցման արժեքը կիսով չափ

LiGO-ն (Գծային աճի օպերատոր) նոր տեխնիկա է, որը մշակվել է MIT-ի հետազոտողների կողմից՝ 50%-ով նվազեցնելու համար LLM-ների վերապատրաստման հաշվողական ծախսերը: Մեթոդը ներառում է ավելի մեծ մոդելների կշիռների սկզբնավորումը ավելի փոքր նախապես պատրաստված մոդելներից՝ հնարավորություն տալով նեյրոնային ցանցերի արդյունավետ մասշտաբավորմանը:

Պատկեր թղթից. Սովորում ենք աճեցնել նախապես պատրաստված մոդելներ արդյունավետ տրանսֆորմատորների ուսուցման համար

Յուն Քիմ, թերթի ավագ հեղինակն ասում է.

«Ենթադրվում է, որ վերապատրաստման մոդելներն այնպիսի մասշտաբով, ինչպիսին ChatGPT-ի վարկածն է ենթադրվում, կարող են միլիոնավոր դոլարներ խլել միայն մեկ մարզման համար: Կարո՞ղ ենք բարելավել այս ուսուցման մեթոդների արդյունավետությունը, այնպես որ մենք դեռ կարող ենք լավ մոդելներ ձեռք բերել ավելի քիչ ժամանակում և ավելի քիչ գումարով: Մենք առաջարկում ենք դա անել՝ օգտագործելով ավելի փոքր լեզվական մոդելներ, որոնք նախկինում վերապատրաստվել են»:

Այս մեթոդը պահպանում է ավելի մեծ մոդելների կատարողականի առավելությունները՝ կրճատված հաշվողական ծախսերով և ուսուցման ժամանակով՝ համեմատած մեծ մոդելի զրոյից վարժեցման հետ: LiGO-ն օգտագործում է տվյալների վրա հիմնված գծային աճի օպերատոր, որը համատեղում է խորության և լայնության օպերատորները՝ օպտիմալ կատարման համար:

Թուղթն օգտագործել է տարբեր տվյալների հավաքածուներ՝ տեքստի վրա հիմնված փորձեր իրականացնելու համար, ներառյալ անգլերեն Վիքիպեդիայի կորպուսը՝ BERT և RoBERTa մոդելների ուսուցման համար և C4 տվյալների բազա՝ GPT2 ուսուցման համար:

LiGO տեխնիկայի փորձարկումը ներառում էր BERT-Small-ի աճեցում BERT-Base, BERT-Base-ից BERT-Large, RoBERTaSmall-ից RoBERTa-Base, GPT2-Base-ից GPT2-Medium և CaiT-XS-ի CaiT-S-ի:

Հետազոտողները համեմատել են իրենց մոտեցումը մի քանի այլ բազային գծերի հետ, այդ թվում՝ զրոյից ուսուցում, առաջադեմ մարզումներ, bert2BERT և KI:

LiGO տեխնիկան առաջարկում էր 44.7% խնայողություն FLOP-ներում (լողացող կետով գործողություններ վայրկյանում) և 40.7% խնայողություն պատի ժամանակի համեմատ՝ BERT-Base-ի զրոյից վարժեցման համեմատ՝ BERT-Small մոդելի վերօգտագործմամբ: LiGO աճի օպերատորը գերազանցում է StackBERT-ին, MSLT-ին, bert2BERT-ին և KI-ին արդյունավետ ուսուցման մեջ:

LiGO-ի նման ուսուցման օպտիմալացման տեխնիկայի օգտագործման առավելությունները

LiGO-ն նեյրոնային ցանցի ուսուցման արդյունավետ մեթոդ է, որն ունի հետևյալ առավելությունները.

1. Ավելի արագ մարզում

Ինչպես նշվեց ավելի վաղ, ավելի արագ ուսուցումը LiGO տեխնիկայի հիմնական առավելությունն է: Այն վերապատրաստում է LLM-ներին կես ժամանակում՝ բարձրացնելով արտադրողականությունը և նվազեցնելով ծախսերը:

2. Ռեսուրսների արդյունավետ

LiGO-ն ռեսուրսների խնայողություն է, քանի որ նվազագույնի է հասցնում պատի ժամանակը և FLOP-ները, ինչը հանգեցնում է ավելի ծախսարդյունավետ և էկոլոգիապես մաքուր մոտեցման՝ մեծ տրանսֆորմատորների մոդելների վերապատրաստման համար:

3. Ընդհանրացում

LiGO տեխնիկան բարելավել է ինչպես լեզվի, այնպես էլ տեսողության տրանսֆորմատորների աշխատանքը՝ ենթադրելով, որ դա ընդհանրացվող տեխնիկա է, որը կարող է կիրառվել տարբեր առաջադրանքների համար:

Առևտրային արհեստական ինտելեկտի արտադրանքի կառուցումը AI համակարգերի հետ կապված ընդհանուր ծախսերի միայն մեկ կողմն է: Ծախսերի մեկ այլ կարևոր բաղադրիչ գալիս է ամենօրյա գործառնություններից: Օրինակ, OpenAI-ի արժեքը մոտ է $700,000 ամեն օր պատասխանել հարցերին ChatGPT-ի միջոցով: Ակնկալվում է, որ հետազոտողները կշարունակեն ուսումնասիրել այն մոտեցումները, որոնք LLM-ները դարձնում են ծախսարդյունավետ ուսուցման ընթացքում և ավելի մատչելի՝ գործարկման ժամանակ:

AI-ի հետ կապված լրացուցիչ բովանդակության համար այցելեք միավորել.ai.