Best Of
5 լավագույն բաց կոդով LLMs (մայիս 2024)
Արհեստական ինտելեկտի (AI) արագ զարգացող աշխարհում Large Language Models (LLMs) առաջացել են որպես հիմնաքար՝ առաջ մղելով նորարարությունները և վերափոխելով տեխնոլոգիայի հետ մեր փոխգործակցության ձևը:
Քանի որ այս մոդելները գնալով ավելի բարդ են դառնում, ավելի ու ավելի է շեշտը դնում դրանց հասանելիության դեմոկրատացման վրա: Բաց կոդով մոդելները, մասնավորապես, առանցքային դեր են խաղում այս ժողովրդավարացման մեջ՝ հետազոտողներին, մշակողներին և էնտուզիաստներին հնարավորություն տալով խորանալ իրենց բարդությունների մեջ, ճշգրտել դրանք կոնկրետ առաջադրանքների համար կամ նույնիսկ հիմնվել դրանց հիմքերի վրա:
Այս բլոգում մենք կուսումնասիրենք բաց կոդով LLM-ներից մի քանիսը, որոնք ալիք են բարձրացնում արհեստական ինտելեկտի համայնքում՝ յուրաքանչյուրը սեղանին բերելով իր յուրահատուկ ուժեղ կողմերն ու հնարավորությունները:
1. Լամա 2
Meta's Llama 2-ը բեկումնային լրացում է նրանց AI մոդելների շարքում: Սա հերթական մոդելը չէ. այն նախագծված է սնուցելու մի շարք ժամանակակից կիրառական ծրագրեր: Llama 2-ի ուսուցման տվյալները հսկայական են և բազմազան, ինչը այն դարձնում է զգալի առաջընթաց իր նախորդի համեմատ: Վերապատրաստման այս բազմազանությունը երաշխավորում է, որ Llama 2-ը ոչ միայն աճող բարելավում է, այլ մոնումենտալ քայլ դեպի ապագա AI-ի վրա հիմնված փոխազդեցությունները:
Meta-ի և Microsoft-ի համագործակցությունն ընդլայնել է Llama 2-ի հորիզոնները: Բաց կոդով մոդելն այժմ աջակցվում է այնպիսի հարթակներում, ինչպիսիք են Azure-ը և Windows-ը՝ նպատակ ունենալով ծրագրավորողներին և կազմակերպություններին տրամադրել գործիքներ՝ ստեղծելու արհեստական ինտելեկտի վրա հիմնված փորձառություններ: Այս համագործակցությունը ընդգծում է երկու ընկերությունների նվիրվածությունը՝ AI-ն ավելի հասանելի և բաց դարձնելու համար բոլորի համար:
Llama 2-ը ոչ միայն օրիգինալ Llama մոդելի իրավահաջորդն է. այն ներկայացնում է պարադիգմային փոփոխություն չաթբոտի ասպարեզում: Թեև Llama-ի առաջին մոդելը հեղափոխական էր տեքստի և կոդերի ստեղծման հարցում, դրա հասանելիությունը սահմանափակված էր չարաշահումը կանխելու համար: Llama 2-ը, մյուս կողմից, պատրաստվում է հասնել ավելի լայն լսարանի: Այն օպտիմիզացված է այնպիսի հարթակների համար, ինչպիսիք են AWS-ը, Azure-ը և Hugging Face-ի AI մոդելի հոսթինգ հարթակը: Ավելին, Meta-ի համագործակցությամբ Microsoft-ի հետ, Llama 2-ը պատրաստ է իր նշանը թողնել ոչ միայն Windows-ում, այլև Qualcomm-ի Snapdragon համակարգ-չիպով աշխատող սարքերում:
Անվտանգությունը Llama 2-ի դիզայնի հիմքում է: Հաշվի առնելով այն մարտահրավերները, որոնց բախվել են ավելի վաղ մեծ լեզվական մոդելները, ինչպիսիք են GPT-ն, որոնք երբեմն ապակողմնորոշիչ կամ վնասակար բովանդակություն են ստեղծում, Meta-ն լայնածավալ միջոցներ է ձեռնարկել Llama 2-ի հուսալիությունն ապահովելու համար: Մոդելը խիստ վերապատրաստում է անցել՝ նվազագույնի հասցնելու «հալյուցինացիաները», ապատեղեկատվությունը և կողմնակալությունը:
LLaMa 2-ի լավագույն հատկանիշները.
- Տարբեր վերապատրաստման տվյալներ. Llama 2-ի մարզումների տվյալները և՛ ընդարձակ են, և՛ բազմազան՝ ապահովելով համապարփակ ըմբռնում և կատարում:
- Համագործակցություն Microsoft-ի հետ. Llama 2-ն աջակցվում է Azure-ի և Windows-ի նման հարթակներում՝ ընդլայնելով դրա կիրառման շրջանակը:
- Բացել հասանելիություն: Ի տարբերություն իր նախորդի՝ Llama 2-ը հասանելի է ավելի լայն լսարանի համար՝ պատրաստ մի քանի հարթակներում ճշգրտման:
- Անվտանգության կենտրոնացված դիզայն. Meta-ն ընդգծել է անվտանգությունը՝ ապահովելով, որ Llama 2-ը տալիս է ճշգրիտ և հուսալի արդյունքներ՝ նվազագույնի հասցնելով վնասակար արդյունքները:
- Օպտիմիզացված տարբերակներ. Llama 2-ը գալիս է երկու հիմնական տարբերակով՝ Llama 2 և Llama 2-Chat, վերջինս հատուկ նախագծված է երկկողմանի խոսակցությունների համար: Այս տարբերակների բարդությունը տատանվում է 7 միլիարդից մինչև 70 միլիարդ պարամետր:
- Ընդլայնված ուսուցում. Llama 2-ը վերապատրաստվել է երկու միլիոն ժետոնների վրա, ինչը զգալի աճ է սկզբնական Llama-ի 1.4 տրիլիոն ժետոններից:
2. ծաղկում
2022 թվականին գլոբալ համատեղ ջանքերից հետո՝ ներգրավելով ավելի քան 70 երկրների կամավորների և Hugging Face-ի փորձագետների, BLOOM նախագիծը բացվեց: Այս խոշոր լեզվական մոդելը (LLM), որը ստեղծվել է մեկ տարվա նախաձեռնությամբ, նախատեսված է ավտոռեգեսիվ տեքստի ստեղծման համար, որը կարող է ընդլայնել տվյալ տեքստի հուշումը: Այն վերապատրաստվել է տեքստային տվյալների հսկայական կորպուսի վրա՝ օգտագործելով զգալի հաշվողական հզորություն:
BLOOM-ի դեբյուտը նշանակալի քայլ էր գեներատիվ AI տեխնոլոգիան ավելի հասանելի դարձնելու համար: Որպես բաց կոդով LLM, այն պարծենում է 176 միլիարդ պարամետրով, ինչը այն դարձնում է իր դասի ամենահզորներից մեկը: BLOOM-ն ունի համահունչ և ճշգրիտ տեքստ ստեղծելու հմտություններ 46 լեզուներով և 13 ծրագրավորման լեզուներով:
Նախագիծը շեշտը դնում է թափանցիկության վրա՝ թույլ տալով հանրությանը մուտք գործել իր սկզբնական կոդը և ուսուցման տվյալները: Այս բաց լինելը պահանջում է մոդելի շարունակական ուսումնասիրություն, օգտագործում և կատարելագործում:
Հասանելի է անվճար Hugging Face հարթակի միջոցով՝ BLOOM-ը հանդիսանում է արհեստական ինտելեկտի ոլորտում համագործակցային նորարարության վկայություն:
Bloom-ի հիմնական հատկանիշները.
- Բազմալեզու հնարավորություններ. BLOOM-ը տիրապետում է 46 լեզուներով և 13 ծրագրավորման լեզուներով տեքստ ստեղծելուն՝ ցուցադրելով իր լայն լեզվական տիրույթը:
- Բաց կոդով մուտք. Մոդելի սկզբնական կոդը և ուսուցման տվյալները հասանելի են հանրությանը, ինչը նպաստում է թափանցիկությանն ու համագործակցության բարելավմանը:
- Autoregressive Text Generation: Նախագծված է շարունակելու տեքստը տվյալ հուշումից՝ BLOOM-ը գերազանցում է տեքստի հաջորդականությունը ընդլայնելու և լրացնելու հարցում:
- Զանգվածային պարամետրերի քանակը. 176 միլիարդ պարամետրերով BLOOM-ը համարվում է գոյություն ունեցող ամենահզոր բաց կոդով LLM-ներից մեկը:
- Համաշխարհային համագործակցություն. Մշակվել է մեկ տարվա ծրագրի միջոցով՝ ավելի քան 70 երկրների կամավորների և Hugging Face հետազոտողների ներդրումներով:
- Անվճար մատչելիություն. Օգտատերերը կարող են անվճար մուտք գործել և օգտագործել BLOOM-ը Hugging Face էկոհամակարգի միջոցով՝ ուժեղացնելով դրա ժողովրդավարացումը արհեստական ինտելեկտի ոլորտում:
- Արդյունաբերական մասշտաբի ուսուցում. Մոդելը վերապատրաստվել է հսկայական քանակությամբ տեքստային տվյալների վրա՝ օգտագործելով զգալի հաշվողական ռեսուրսներ՝ ապահովելով կայուն կատարում:
3. MPT-7B
MosaicML Foundations-ը զգալի ներդրում է ունեցել այս տարածության մեջ MPT-7B-ի՝ իրենց վերջին բաց կոդով LLM-ի ներդրմամբ: MPT-7B, MosaicML Pretrained Transformer-ի հապավումը, GPT-ի ոճով, միայն ապակոդավորող տրանսֆորմատորային մոդել է: Այս մոդելը պարծենում է մի քանի բարելավումներով, ներառյալ կատարողականի օպտիմալացված շերտերի ներդրումը և ճարտարապետական փոփոխությունները, որոնք ապահովում են վերապատրաստման ավելի մեծ կայունություն:
MPT-7B-ի առանձնահատուկ առանձնահատկությունը նրա ուսուցումն է լայնածավալ տվյալների բազայի վրա, որը ներառում է 1 տրիլիոն տեքստ և կոդ: Այս խիստ ուսուցումն իրականացվել է MosaicML հարթակում 9.5 օրվա ընթացքում:
MPT-7B-ի բաց կոդով բնույթը այն դիրքավորում է որպես արժեքավոր գործիք առևտրային ծրագրերի համար: Այն ունի ներուժ՝ զգալիորեն ազդելու կանխատեսող վերլուծությունների և բիզնեսների և կազմակերպությունների որոշումների կայացման գործընթացների վրա:
Բացի հիմնական մոդելից, MosaicML Foundations-ը թողարկում է նաև հատուկ առաջադրանքների համար հարմարեցված մասնագիտացված մոդելներ, ինչպիսիք են՝ MPT-7B-Instruct՝ կարճ ձևով հրահանգների համար, MPT-7B-Chat՝ երկխոսության ստեղծման համար և MPT-7B-StoryWriter-65k+: երկարատև պատմություն ստեղծելու համար:
MPT-7B-ի զարգացման ճանապարհորդությունը համապարփակ էր, քանի որ MosaicML թիմը կառավարում էր բոլոր փուլերը՝ տվյալների պատրաստումից մինչև տեղակայում մի քանի շաբաթվա ընթացքում: Տվյալները ստացվել են տարբեր պահեստներից, և թիմը օգտագործել է այնպիսի գործիքներ, ինչպիսիք են EleutherAI-ի GPT-NeoX-ը և 20B նշանաբանիչը՝ ապահովելու բազմազան և համապարփակ ուսուցման խառնուրդ:
MPT-7B-ի հիմնական հատկանիշների ակնարկ.
- Առևտրային լիցենզավորում. MPT-7B-ն արտոնագրված է կոմերցիոն օգտագործման համար՝ այն դարձնելով արժեքավոր ակտիվ բիզնեսի համար:
- Ուսուցման ընդարձակ տվյալներ. Մոդելը պարծենում է, որ վերապատրաստվում է 1 տրիլիոն նշանների հսկայական տվյալների բազայի վրա:
- Ներածման երկարատև կառավարում. MPT-7B-ը նախատեսված է չափազանց երկարատև մուտքերը առանց փոխզիջումների մշակելու համար:
- Արագություն և արդյունավետություն. Մոդելը օպտիմիզացված է արագ ուսուցման և եզրակացությունների համար՝ ապահովելով ժամանակին արդյունքներ:
- Բաց կոդ. MPT-7B-ն ունի արդյունավետ բաց կոդով ուսուցման կոդ, որը նպաստում է թափանցիկությանը և օգտագործման հեշտությանը:
- Համեմատական գերազանցություն. MPT-7B-ն ցուցադրել է առավելություն 7B-20B շարքի այլ բաց կոդով մոդելների նկատմամբ՝ իր որակով համընկնում է LLaMA-7B-ի հետ:
4. Բազե
Falcon LLM-ը մոդել է, որն արագորեն բարձրացել է LLM-ի հիերարխիայի գագաթին: Falcon LLM-ը, մասնավորապես Falcon-40B-ը, հիմնարար LLM-ն է, որը հագեցած է 40 միլիարդ պարամետրերով և վերապատրաստվել է տպավորիչ մեկ տրիլիոն նշանների վրա: Այն գործում է որպես միայն ինքնագրեսիվ ապակոդավորող մոդել, ինչը, ըստ էության, նշանակում է, որ այն կանխատեսում է հաջորդ նշանը հաջորդականությամբ՝ հիմնված նախորդ նշանների վրա: Այս ճարտարապետությունը հիշեցնում է GPT մոդելը: Հատկանշական է, որ Falcon-ի ճարտարապետությունը ցուցադրել է բարձր արդյունավետություն GPT-3-ի համեմատ՝ հասնելով այս նվաճմանը ուսուցման հաշվարկային բյուջեի միայն 75%-ով և պահանջելով զգալիորեն ավելի քիչ հաշվարկներ եզրակացության ընթացքում:
Տեխնոլոգիական ինովացիոն ինստիտուտի թիմը Falcon-ի մշակման ընթացքում մեծ շեշտադրում է դրել տվյալների որակի վրա: Ճանաչելով LLM-ների զգայունությունը վերապատրաստման տվյալների որակի նկատմամբ, նրանք կառուցեցին տվյալների խողովակաշար, որը մասշտաբով հասնում էր տասնյակ հազարավոր պրոցեսորի միջուկների: Սա թույլ տվեց արագ մշակել և համացանցից բարձրորակ բովանդակություն հանել, որը ձեռք բերվեց լայնածավալ զտման և կրկնօրինակման գործընթացների միջոցով:
Բացի Falcon-40B-ից, TII-ը ներկայացրել է նաև այլ տարբերակներ, այդ թվում Falcon-7B-ն, որն ունի 7 միլիարդ պարամետր և վերապատրաստվել է 1,500 միլիարդ ժետոնների վրա: Կան նաև մասնագիտացված մոդելներ, ինչպիսիք են Falcon-40B-Instruct և Falcon-7B-Instruct, որոնք հարմարեցված են հատուկ առաջադրանքների համար:
Falcon-40B-ի ուսուցումը ծավալուն գործընթաց էր: Մոդելը վերապատրաստվել է RefinedWeb տվյալների բազայի վրա, որը TII-ի կողմից կառուցված անգլերեն վեբ տվյալների զանգվածային բազա է: Այս տվյալների բազան կառուցվել է CommonCrawl-ի վրա և ենթարկվել է խիստ զտման՝ որակ ապահովելու համար: Մոդելը պատրաստվելուց հետո այն վավերացվել է մի քանի բաց կոդով հենանիշերի, այդ թվում՝ EAI Harness-ի, HELM-ի և BigBench-ի նկատմամբ:
Falcon LLM-ի հիմնական հատկանիշների ակնարկ.
- Ընդարձակ պարամետրեր. Falcon-40B-ն հագեցած է 40 միլիարդ պարամետրերով՝ ապահովելով համապարփակ ուսուցում և կատարում:
- Autoregressive Decoder-Only Model: Այս ճարտարապետությունը թույլ է տալիս Falcon-ին կանխատեսել հաջորդ նշանները՝ հիմնվելով նախորդների վրա՝ նման GPT մոդելին:
- Բարձրագույն կատարում. Falcon-ը գերազանցում է GPT-3-ին՝ օգտագործելով ուսուցման հաշվարկային բյուջեի միայն 75%-ը:
- Բարձրորակ տվյալների խողովակաշար. TII-ի տվյալների խողովակաշարն ապահովում է բարձրորակ բովանդակության արդյունահանումը համացանցից, որը կարևոր է մոդելի ուսուցման համար:
- Մոդելների բազմազանություն. Falcon-40B-ից բացի, TII-ն առաջարկում է Falcon-7B և մասնագիտացված մոդելներ, ինչպիսիք են Falcon-40B-Instruct և Falcon-7B-Instruct:
- Բաց կոդով հասանելիություն. Falcon LLM-ը բաց կոդով է, որը նպաստում է AI տիրույթում հասանելիությանը և ներառականությանը:
5. Վիկունա-13Բ
LMSYS ORG-ը նշանակալի նշան է թողել բաց կոդով LLM-ների ոլորտում Vicuna-13B-ի ներդրմամբ: Բաց կոդով այս չաթբոտը մանրակրկիտ վերապատրաստվել է՝ LLaMA-ն կարգավորելով օգտատերերի հետ համատեղ խոսակցությունների վրա, որոնք ստացվել են ShareGPT-ից: Նախնական գնահատականները՝ որպես դատավոր հանդես գալով GPT-4-ով, ցույց են տալիս, որ Vicuna-13B-ն ձեռք է բերում հայտնի մոդելների ավելի քան 90% որակ, ինչպիսիք են OpenAI ChatGPT-ն և Google Bard-ը:
Տպավորիչ է, որ Vicuna-13B-ը գերազանցում է այլ նշանավոր մոդելներին, ինչպիսիք են LLaMA-ն և Stanford Alpaca-ն ավելի քան 90% դեպքերում: Vicuna-13B-ի ուսուցման ողջ գործընթացն իրականացվել է մոտավորապես 300 դոլար արժողությամբ: Նրանց համար, ովքեր հետաքրքրված են ուսումնասիրել դրա հնարավորությունները, կոդը, կշիռները և առցանց ցուցադրությունը հասանելի են դարձել ոչ առևտրային նպատակներով:
Vicuna-13B մոդելը ճշգրտվել է 70 հազար օգտատերերի կողմից համօգտագործվող ChatGPT խոսակցություններով, ինչը նրան հնարավորություն է տալիս ավելի մանրամասն և լավ կառուցվածքային պատասխաններ ստեղծել: Այս պատասխանների որակը համեմատելի է ChatGPT-ի հետ: Չաթ-բոտերի գնահատումը, սակայն, բարդ աշխատանք է: GPT-4-ի առաջընթացի հետ մեկտեղ աճում է հետաքրքրությունը նրա ներուժի վերաբերյալ՝ ծառայելու որպես հենանիշերի ստեղծման և կատարողականի գնահատման ավտոմատացված գնահատման շրջանակ: Նախնական բացահայտումները ցույց են տալիս, որ GPT-4-ը կարող է ստեղծել հետևողական վարկանիշներ և մանրամասն գնահատականներ չաթբոտի պատասխանները համեմատելիս: GPT-4-ի վրա հիմնված նախնական գնահատումները ցույց են տալիս, որ Vicuna-ն 90% կարողություն է ձեռք բերում այնպիսի մոդելների, ինչպիսիք են Bard/ChatGPT:
Vicuna-13B-ի հիմնական առանձնահատկությունները.
- Բաց կոդով Բնություն. Vicuna-13B-ն հասանելի է հանրային հասանելիության համար՝ խթանելով թափանցիկությունը և համայնքի ներգրավվածությունը:
- Ուսուցման ընդարձակ տվյալներ. Մոդելը վերապատրաստվել է 70 հազար օգտատերերի հետ համատեղ խոսակցությունների վրա՝ ապահովելով տարբեր փոխազդեցությունների համապարփակ ըմբռնում:
- Մրցակցային կատարում. Vicuna-13B-ի կատարողականը համընկնում է ոլորտի առաջատարների հետ, ինչպիսիք են ChatGPT-ն և Google Bard-ը:
- Ծախսերի արդյունավետ ուսուցում. Vicuna-13B-ի ուսուցման ողջ գործընթացը իրականացվել է մոտ 300 դոլար ցածր գնով:
- Fine-Tuning LLaMA-ում. Մոդելը ճշգրտվել է LLaMA-ի վրա՝ ապահովելով բարելավված կատարում և արձագանքման որակ:
- Առցանց ցուցադրության հասանելիություն. Օգտատերերի համար հասանելի է ինտերակտիվ առցանց ցուցադրություն՝ փորձարկելու և փորձելու Vicuna-13B-ի հնարավորությունները:
Լեզուների մեծ մոդելների ընդլայնվող տիրույթը
Լեզուների մեծ մոդելների տիրույթը հսկայական է և անընդհատ ընդլայնվում է, և յուրաքանչյուր նոր մոդել առաջ է բերում հնարավորի սահմանները: Այս բլոգում քննարկված LLM-ների բաց կոդով բնույթը ոչ միայն ցուցադրում է AI համայնքի համագործակցային ոգին, այլև ճանապարհ է հարթում ապագա նորարարությունների համար:
Այս մոդելները՝ սկսած Vicuna-ի տպավորիչ չաթբոտի հնարավորություններից մինչև Falcon-ի կատարողականության բարձր ցուցանիշները, ներկայացնում են ներկայիս LLM տեխնոլոգիայի գագաթնակետը: Քանի որ մենք շարունակում ենք այս ոլորտում արագ առաջընթացի ականատես լինել, պարզ է, որ բաց կոդով մոդելները վճռորոշ դեր կխաղան AI-ի ապագայի ձևավորման գործում:
Անկախ նրանից՝ դուք փորձառու հետազոտող եք, արհեստական ինտելեկտի նորաստեղծ էնտուզիաստ կամ մեկը, ով հետաքրքրված է այս մոդելների ներուժով, ավելի լավ ժամանակ չկա սուզվելու և նրանց առաջարկած հսկայական հնարավորությունները ուսումնասիրելու համար: