քոթուկ 5 լավագույն բաց կոդով LLMs (մայիս 2024) - Unite.AI
Միացեք մեզ
Զանգված ([ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [nickname] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [էլեկտրոնային փոստով պաշտպանված]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => unite.AI-ի հիմնադիր գործընկեր և անդամ Forbes-ի տեխնոլոգիական խորհուրդը, Անտուանը ա ֆուտուրիստ ով կրքոտ է AI-ի և ռոբոտաշինության ապագայով: Նա նաև հիմնադիրն է Securities.io, վեբկայք, որը կենտրոնանում է խանգարող տեխնոլոգիայի մեջ ներդրումներ կատարելու վրա: [user_avatar] => mm
)

Best Of

5 լավագույն բաց կոդով LLMs (մայիս 2024)

Թարմացվել է on
Բաց կոդով LLMs

Արհեստական ​​ինտելեկտի (AI) արագ զարգացող աշխարհում Large Language Models (LLMs) առաջացել են որպես հիմնաքար՝ առաջ մղելով նորարարությունները և վերափոխելով տեխնոլոգիայի հետ մեր փոխգործակցության ձևը:

Քանի որ այս մոդելները գնալով ավելի բարդ են դառնում, ավելի ու ավելի է շեշտը դնում դրանց հասանելիության դեմոկրատացման վրա: Բաց կոդով մոդելները, մասնավորապես, առանցքային դեր են խաղում այս ժողովրդավարացման մեջ՝ հետազոտողներին, մշակողներին և էնտուզիաստներին հնարավորություն տալով խորանալ իրենց բարդությունների մեջ, ճշգրտել դրանք կոնկրետ առաջադրանքների համար կամ նույնիսկ հիմնվել դրանց հիմքերի վրա:

Այս բլոգում մենք կուսումնասիրենք բաց կոդով LLM-ներից մի քանիսը, որոնք ալիք են բարձրացնում արհեստական ​​ինտելեկտի համայնքում՝ յուրաքանչյուրը սեղանին բերելով իր յուրահատուկ ուժեղ կողմերն ու հնարավորությունները:

1. Լամա 2

Meta's Llama 2-ը բեկումնային լրացում է նրանց AI մոդելների շարքում: Սա հերթական մոդելը չէ. այն նախագծված է սնուցելու մի շարք ժամանակակից կիրառական ծրագրեր: Llama 2-ի ուսուցման տվյալները հսկայական են և բազմազան, ինչը այն դարձնում է զգալի առաջընթաց իր նախորդի համեմատ: Վերապատրաստման այս բազմազանությունը երաշխավորում է, որ Llama 2-ը ոչ միայն աճող բարելավում է, այլ մոնումենտալ քայլ դեպի ապագա AI-ի վրա հիմնված փոխազդեցությունները:

Meta-ի և Microsoft-ի համագործակցությունն ընդլայնել է Llama 2-ի հորիզոնները: Բաց կոդով մոդելն այժմ աջակցվում է այնպիսի հարթակներում, ինչպիսիք են Azure-ը և Windows-ը՝ նպատակ ունենալով ծրագրավորողներին և կազմակերպություններին տրամադրել գործիքներ՝ ստեղծելու արհեստական ​​ինտելեկտի վրա հիմնված փորձառություններ: Այս համագործակցությունը ընդգծում է երկու ընկերությունների նվիրվածությունը՝ AI-ն ավելի հասանելի և բաց դարձնելու համար բոլորի համար:

Llama 2-ը ոչ միայն օրիգինալ Llama մոդելի իրավահաջորդն է. այն ներկայացնում է պարադիգմային փոփոխություն չաթբոտի ասպարեզում: Թեև Llama-ի առաջին մոդելը հեղափոխական էր տեքստի և կոդերի ստեղծման հարցում, դրա հասանելիությունը սահմանափակված էր չարաշահումը կանխելու համար: Llama 2-ը, մյուս կողմից, պատրաստվում է հասնել ավելի լայն լսարանի: Այն օպտիմիզացված է այնպիսի հարթակների համար, ինչպիսիք են AWS-ը, Azure-ը և Hugging Face-ի AI մոդելի հոսթինգ հարթակը: Ավելին, Meta-ի համագործակցությամբ Microsoft-ի հետ, Llama 2-ը պատրաստ է իր նշանը թողնել ոչ միայն Windows-ում, այլև Qualcomm-ի Snapdragon համակարգ-չիպով աշխատող սարքերում:

Անվտանգությունը Llama 2-ի դիզայնի հիմքում է: Հաշվի առնելով այն մարտահրավերները, որոնց բախվել են ավելի վաղ մեծ լեզվական մոդելները, ինչպիսիք են GPT-ն, որոնք երբեմն ապակողմնորոշիչ կամ վնասակար բովանդակություն են ստեղծում, Meta-ն լայնածավալ միջոցներ է ձեռնարկել Llama 2-ի հուսալիությունն ապահովելու համար: Մոդելը խիստ վերապատրաստում է անցել՝ նվազագույնի հասցնելու «հալյուցինացիաները», ապատեղեկատվությունը և կողմնակալությունը:

LLaMa 2-ի լավագույն հատկանիշները.

  • Տարբեր վերապատրաստման տվյալներ. Llama 2-ի մարզումների տվյալները և՛ ընդարձակ են, և՛ բազմազան՝ ապահովելով համապարփակ ըմբռնում և կատարում:
  • Համագործակցություն Microsoft-ի հետ. Llama 2-ն աջակցվում է Azure-ի և Windows-ի նման հարթակներում՝ ընդլայնելով դրա կիրառման շրջանակը:
  • Բացել հասանելիություն: Ի տարբերություն իր նախորդի՝ Llama 2-ը հասանելի է ավելի լայն լսարանի համար՝ պատրաստ մի քանի հարթակներում ճշգրտման:
  • Անվտանգության կենտրոնացված դիզայն. Meta-ն ընդգծել է անվտանգությունը՝ ապահովելով, որ Llama 2-ը տալիս է ճշգրիտ և հուսալի արդյունքներ՝ նվազագույնի հասցնելով վնասակար արդյունքները:
  • Օպտիմիզացված տարբերակներ. Llama 2-ը գալիս է երկու հիմնական տարբերակով՝ Llama 2 և Llama 2-Chat, վերջինս հատուկ նախագծված է երկկողմանի խոսակցությունների համար: Այս տարբերակների բարդությունը տատանվում է 7 միլիարդից մինչև 70 միլիարդ պարամետր:
  • Ընդլայնված ուսուցում. Llama 2-ը վերապատրաստվել է երկու միլիոն ժետոնների վրա, ինչը զգալի աճ է սկզբնական Llama-ի 1.4 տրիլիոն ժետոններից:

2. ծաղկում

2022 թվականին գլոբալ համատեղ ջանքերից հետո՝ ներգրավելով ավելի քան 70 երկրների կամավորների և Hugging Face-ի փորձագետների, BLOOM նախագիծը բացվեց: Այս խոշոր լեզվական մոդելը (LLM), որը ստեղծվել է մեկ տարվա նախաձեռնությամբ, նախատեսված է ավտոռեգեսիվ տեքստի ստեղծման համար, որը կարող է ընդլայնել տվյալ տեքստի հուշումը: Այն վերապատրաստվել է տեքստային տվյալների հսկայական կորպուսի վրա՝ օգտագործելով զգալի հաշվողական հզորություն:

BLOOM-ի դեբյուտը նշանակալի քայլ էր գեներատիվ AI տեխնոլոգիան ավելի հասանելի դարձնելու համար: Որպես բաց կոդով LLM, այն պարծենում է 176 միլիարդ պարամետրով, ինչը այն դարձնում է իր դասի ամենահզորներից մեկը: BLOOM-ն ունի համահունչ և ճշգրիտ տեքստ ստեղծելու հմտություններ 46 լեզուներով և 13 ծրագրավորման լեզուներով:

Նախագիծը շեշտը դնում է թափանցիկության վրա՝ թույլ տալով հանրությանը մուտք գործել իր սկզբնական կոդը և ուսուցման տվյալները: Այս բաց լինելը պահանջում է մոդելի շարունակական ուսումնասիրություն, օգտագործում և կատարելագործում:

Հասանելի է անվճար Hugging Face հարթակի միջոցով՝ BLOOM-ը հանդիսանում է արհեստական ​​ինտելեկտի ոլորտում համագործակցային նորարարության վկայություն:

Bloom-ի հիմնական հատկանիշները.

  • Բազմալեզու հնարավորություններ. BLOOM-ը տիրապետում է 46 լեզուներով և 13 ծրագրավորման լեզուներով տեքստ ստեղծելուն՝ ցուցադրելով իր լայն լեզվական տիրույթը:
  • Բաց կոդով մուտք. Մոդելի սկզբնական կոդը և ուսուցման տվյալները հասանելի են հանրությանը, ինչը նպաստում է թափանցիկությանն ու համագործակցության բարելավմանը:
  • Autoregressive Text Generation: Նախագծված է շարունակելու տեքստը տվյալ հուշումից՝ BLOOM-ը գերազանցում է տեքստի հաջորդականությունը ընդլայնելու և լրացնելու հարցում:
  • Զանգվածային պարամետրերի քանակը. 176 միլիարդ պարամետրերով BLOOM-ը համարվում է գոյություն ունեցող ամենահզոր բաց կոդով LLM-ներից մեկը:
  • Համաշխարհային համագործակցություն. Մշակվել է մեկ տարվա ծրագրի միջոցով՝ ավելի քան 70 երկրների կամավորների և Hugging Face հետազոտողների ներդրումներով:
  • Անվճար մատչելիություն. Օգտատերերը կարող են անվճար մուտք գործել և օգտագործել BLOOM-ը Hugging Face էկոհամակարգի միջոցով՝ ուժեղացնելով դրա ժողովրդավարացումը արհեստական ​​ինտելեկտի ոլորտում:
  • Արդյունաբերական մասշտաբի ուսուցում. Մոդելը վերապատրաստվել է հսկայական քանակությամբ տեքստային տվյալների վրա՝ օգտագործելով զգալի հաշվողական ռեսուրսներ՝ ապահովելով կայուն կատարում:

3. MPT-7B

MosaicML Foundations-ը զգալի ներդրում է ունեցել այս տարածության մեջ MPT-7B-ի՝ իրենց վերջին բաց կոդով LLM-ի ներդրմամբ: MPT-7B, MosaicML Pretrained Transformer-ի հապավումը, GPT-ի ոճով, միայն ապակոդավորող տրանսֆորմատորային մոդել է: Այս մոդելը պարծենում է մի քանի բարելավումներով, ներառյալ կատարողականի օպտիմալացված շերտերի ներդրումը և ճարտարապետական ​​փոփոխությունները, որոնք ապահովում են վերապատրաստման ավելի մեծ կայունություն:

MPT-7B-ի առանձնահատուկ առանձնահատկությունը նրա ուսուցումն է լայնածավալ տվյալների բազայի վրա, որը ներառում է 1 տրիլիոն տեքստ և կոդ: Այս խիստ ուսուցումն իրականացվել է MosaicML հարթակում 9.5 օրվա ընթացքում:

MPT-7B-ի բաց կոդով բնույթը այն դիրքավորում է որպես արժեքավոր գործիք առևտրային ծրագրերի համար: Այն ունի ներուժ՝ զգալիորեն ազդելու կանխատեսող վերլուծությունների և բիզնեսների և կազմակերպությունների որոշումների կայացման գործընթացների վրա:

Բացի հիմնական մոդելից, MosaicML Foundations-ը թողարկում է նաև հատուկ առաջադրանքների համար հարմարեցված մասնագիտացված մոդելներ, ինչպիսիք են՝ MPT-7B-Instruct՝ կարճ ձևով հրահանգների համար, MPT-7B-Chat՝ երկխոսության ստեղծման համար և MPT-7B-StoryWriter-65k+: երկարատև պատմություն ստեղծելու համար:

MPT-7B-ի զարգացման ճանապարհորդությունը համապարփակ էր, քանի որ MosaicML թիմը կառավարում էր բոլոր փուլերը՝ տվյալների պատրաստումից մինչև տեղակայում մի քանի շաբաթվա ընթացքում: Տվյալները ստացվել են տարբեր պահեստներից, և թիմը օգտագործել է այնպիսի գործիքներ, ինչպիսիք են EleutherAI-ի GPT-NeoX-ը և 20B նշանաբանիչը՝ ապահովելու բազմազան և համապարփակ ուսուցման խառնուրդ:

MPT-7B-ի հիմնական հատկանիշների ակնարկ.

  • Առևտրային լիցենզավորում. MPT-7B-ն արտոնագրված է կոմերցիոն օգտագործման համար՝ այն դարձնելով արժեքավոր ակտիվ բիզնեսի համար:
  • Ուսուցման ընդարձակ տվյալներ. Մոդելը պարծենում է, որ վերապատրաստվում է 1 տրիլիոն նշանների հսկայական տվյալների բազայի վրա:
  • Ներածման երկարատև կառավարում. MPT-7B-ը նախատեսված է չափազանց երկարատև մուտքերը առանց փոխզիջումների մշակելու համար:
  • Արագություն և արդյունավետություն. Մոդելը օպտիմիզացված է արագ ուսուցման և եզրակացությունների համար՝ ապահովելով ժամանակին արդյունքներ:
  • Բաց կոդ. MPT-7B-ն ունի արդյունավետ բաց կոդով ուսուցման կոդ, որը նպաստում է թափանցիկությանը և օգտագործման հեշտությանը:
  • Համեմատական ​​գերազանցություն. MPT-7B-ն ցուցադրել է առավելություն 7B-20B շարքի այլ բաց կոդով մոդելների նկատմամբ՝ իր որակով համընկնում է LLaMA-7B-ի հետ:

4. Բազե

Falcon LLM-ը մոդել է, որն արագորեն բարձրացել է LLM-ի հիերարխիայի գագաթին: Falcon LLM-ը, մասնավորապես Falcon-40B-ը, հիմնարար LLM-ն է, որը հագեցած է 40 միլիարդ պարամետրերով և վերապատրաստվել է տպավորիչ մեկ տրիլիոն նշանների վրա: Այն գործում է որպես միայն ինքնագրեսիվ ապակոդավորող մոդել, ինչը, ըստ էության, նշանակում է, որ այն կանխատեսում է հաջորդ նշանը հաջորդականությամբ՝ հիմնված նախորդ նշանների վրա: Այս ճարտարապետությունը հիշեցնում է GPT մոդելը: Հատկանշական է, որ Falcon-ի ճարտարապետությունը ցուցադրել է բարձր արդյունավետություն GPT-3-ի համեմատ՝ հասնելով այս նվաճմանը ուսուցման հաշվարկային բյուջեի միայն 75%-ով և պահանջելով զգալիորեն ավելի քիչ հաշվարկներ եզրակացության ընթացքում:

Տեխնոլոգիական ինովացիոն ինստիտուտի թիմը Falcon-ի մշակման ընթացքում մեծ շեշտադրում է դրել տվյալների որակի վրա: Ճանաչելով LLM-ների զգայունությունը վերապատրաստման տվյալների որակի նկատմամբ, նրանք կառուցեցին տվյալների խողովակաշար, որը մասշտաբով հասնում էր տասնյակ հազարավոր պրոցեսորի միջուկների: Սա թույլ տվեց արագ մշակել և համացանցից բարձրորակ բովանդակություն հանել, որը ձեռք բերվեց լայնածավալ զտման և կրկնօրինակման գործընթացների միջոցով:

Բացի Falcon-40B-ից, TII-ը ներկայացրել է նաև այլ տարբերակներ, այդ թվում Falcon-7B-ն, որն ունի 7 միլիարդ պարամետր և վերապատրաստվել է 1,500 միլիարդ ժետոնների վրա: Կան նաև մասնագիտացված մոդելներ, ինչպիսիք են Falcon-40B-Instruct և Falcon-7B-Instruct, որոնք հարմարեցված են հատուկ առաջադրանքների համար:

Falcon-40B-ի ուսուցումը ծավալուն գործընթաց էր: Մոդելը վերապատրաստվել է RefinedWeb տվյալների բազայի վրա, որը TII-ի կողմից կառուցված անգլերեն վեբ տվյալների զանգվածային բազա է: Այս տվյալների բազան կառուցվել է CommonCrawl-ի վրա և ենթարկվել է խիստ զտման՝ որակ ապահովելու համար: Մոդելը պատրաստվելուց հետո այն վավերացվել է մի քանի բաց կոդով հենանիշերի, այդ թվում՝ EAI Harness-ի, HELM-ի և BigBench-ի նկատմամբ:

Falcon LLM-ի հիմնական հատկանիշների ակնարկ.

  • Ընդարձակ պարամետրեր. Falcon-40B-ն հագեցած է 40 միլիարդ պարամետրերով՝ ապահովելով համապարփակ ուսուցում և կատարում:
  • Autoregressive Decoder-Only Model: Այս ճարտարապետությունը թույլ է տալիս Falcon-ին կանխատեսել հաջորդ նշանները՝ հիմնվելով նախորդների վրա՝ նման GPT մոդելին:
  • Բարձրագույն կատարում. Falcon-ը գերազանցում է GPT-3-ին՝ օգտագործելով ուսուցման հաշվարկային բյուջեի միայն 75%-ը:
  • Բարձրորակ տվյալների խողովակաշար. TII-ի տվյալների խողովակաշարն ապահովում է բարձրորակ բովանդակության արդյունահանումը համացանցից, որը կարևոր է մոդելի ուսուցման համար:
  • Մոդելների բազմազանություն. Falcon-40B-ից բացի, TII-ն առաջարկում է Falcon-7B և մասնագիտացված մոդելներ, ինչպիսիք են Falcon-40B-Instruct և Falcon-7B-Instruct:
  • Բաց կոդով հասանելիություն. Falcon LLM-ը բաց կոդով է, որը նպաստում է AI տիրույթում հասանելիությանը և ներառականությանը:

5. Վիկունա-13Բ

LMSYS ORG-ը նշանակալի նշան է թողել բաց կոդով LLM-ների ոլորտում Vicuna-13B-ի ներդրմամբ: Բաց կոդով այս չաթբոտը մանրակրկիտ վերապատրաստվել է՝ LLaMA-ն կարգավորելով օգտատերերի հետ համատեղ խոսակցությունների վրա, որոնք ստացվել են ShareGPT-ից: Նախնական գնահատականները՝ որպես դատավոր հանդես գալով GPT-4-ով, ցույց են տալիս, որ Vicuna-13B-ն ձեռք է բերում հայտնի մոդելների ավելի քան 90% որակ, ինչպիսիք են OpenAI ChatGPT-ն և Google Bard-ը:

Տպավորիչ է, որ Vicuna-13B-ը գերազանցում է այլ նշանավոր մոդելներին, ինչպիսիք են LLaMA-ն և Stanford Alpaca-ն ավելի քան 90% դեպքերում: Vicuna-13B-ի ուսուցման ողջ գործընթացն իրականացվել է մոտավորապես 300 դոլար արժողությամբ: Նրանց համար, ովքեր հետաքրքրված են ուսումնասիրել դրա հնարավորությունները, կոդը, կշիռները և առցանց ցուցադրությունը հասանելի են դարձել ոչ առևտրային նպատակներով:

Vicuna-13B մոդելը ճշգրտվել է 70 հազար օգտատերերի կողմից համօգտագործվող ChatGPT խոսակցություններով, ինչը նրան հնարավորություն է տալիս ավելի մանրամասն և լավ կառուցվածքային պատասխաններ ստեղծել: Այս պատասխանների որակը համեմատելի է ChatGPT-ի հետ: Չաթ-բոտերի գնահատումը, սակայն, բարդ աշխատանք է: GPT-4-ի առաջընթացի հետ մեկտեղ աճում է հետաքրքրությունը նրա ներուժի վերաբերյալ՝ ծառայելու որպես հենանիշերի ստեղծման և կատարողականի գնահատման ավտոմատացված գնահատման շրջանակ: Նախնական բացահայտումները ցույց են տալիս, որ GPT-4-ը կարող է ստեղծել հետևողական վարկանիշներ և մանրամասն գնահատականներ չաթբոտի պատասխանները համեմատելիս: GPT-4-ի վրա հիմնված նախնական գնահատումները ցույց են տալիս, որ Vicuna-ն 90% կարողություն է ձեռք բերում այնպիսի մոդելների, ինչպիսիք են Bard/ChatGPT:

Vicuna-13B-ի հիմնական առանձնահատկությունները.

  • Բաց կոդով Բնություն. Vicuna-13B-ն հասանելի է հանրային հասանելիության համար՝ խթանելով թափանցիկությունը և համայնքի ներգրավվածությունը:
  • Ուսուցման ընդարձակ տվյալներ. Մոդելը վերապատրաստվել է 70 հազար օգտատերերի հետ համատեղ խոսակցությունների վրա՝ ապահովելով տարբեր փոխազդեցությունների համապարփակ ըմբռնում:
  • Մրցակցային կատարում. Vicuna-13B-ի կատարողականը համընկնում է ոլորտի առաջատարների հետ, ինչպիսիք են ChatGPT-ն և Google Bard-ը:
  • Ծախսերի արդյունավետ ուսուցում. Vicuna-13B-ի ուսուցման ողջ գործընթացը իրականացվել է մոտ 300 դոլար ցածր գնով:
  • Fine-Tuning LLaMA-ում. Մոդելը ճշգրտվել է LLaMA-ի վրա՝ ապահովելով բարելավված կատարում և արձագանքման որակ:
  • Առցանց ցուցադրության հասանելիություն. Օգտատերերի համար հասանելի է ինտերակտիվ առցանց ցուցադրություն՝ փորձարկելու և փորձելու Vicuna-13B-ի հնարավորությունները:

Լեզուների մեծ մոդելների ընդլայնվող տիրույթը

Լեզուների մեծ մոդելների տիրույթը հսկայական է և անընդհատ ընդլայնվում է, և յուրաքանչյուր նոր մոդել առաջ է բերում հնարավորի սահմանները: Այս բլոգում քննարկված LLM-ների բաց կոդով բնույթը ոչ միայն ցուցադրում է AI համայնքի համագործակցային ոգին, այլև ճանապարհ է հարթում ապագա նորարարությունների համար:

Այս մոդելները՝ սկսած Vicuna-ի տպավորիչ չաթբոտի հնարավորություններից մինչև Falcon-ի կատարողականության բարձր ցուցանիշները, ներկայացնում են ներկայիս LLM տեխնոլոգիայի գագաթնակետը: Քանի որ մենք շարունակում ենք այս ոլորտում արագ առաջընթացի ականատես լինել, պարզ է, որ բաց կոդով մոդելները վճռորոշ դեր կխաղան AI-ի ապագայի ձևավորման գործում:

Անկախ նրանից՝ դուք փորձառու հետազոտող եք, արհեստական ​​ինտելեկտի նորաստեղծ էնտուզիաստ կամ մեկը, ով հետաքրքրված է այս մոդելների ներուժով, ավելի լավ ժամանակ չկա սուզվելու և նրանց առաջարկած հսկայական հնարավորությունները ուսումնասիրելու համար:

Ալեքս Մաքֆարլանդը արհեստական ​​ինտելեկտի լրագրող և գրող է, ով ուսումնասիրում է արհեստական ​​բանականության վերջին զարգացումները: Նա համագործակցել է արհեստական ​​ինտելեկտի բազմաթիվ ստարտափների և հրատարակությունների հետ ամբողջ աշխարհում:

unite.AI-ի հիմնադիր գործընկեր և անդամ Forbes-ի տեխնոլոգիական խորհուրդը, Անտուանը ա ֆուտուրիստ ով կրքոտ է AI-ի և ռոբոտաշինության ապագայով:

Նա նաև հիմնադիրն է Securities.io, վեբկայք, որը կենտրոնանում է խանգարող տեխնոլոգիայի մեջ ներդրումներ կատարելու վրա: