քոթուկ GPT-3. Քիչ ուսուցում լեզվի մոդելի համար: - Միացեք.AI
Միացեք մեզ

Արհեստական ​​բանականություն

GPT-3. Քիչ ուսուցում լեզվի մոդելի համար:

mm

Հրատարակված է

 on

Վերջին մի քանի տարիների ընթացքում AI և ML արդյունաբերությունը ականատես է եղել NLP համակարգերի զարգացման և կիրառման մետեորիկ աճի, քանի որ հետազոտողները կարողացել են իրականացնել NLP պրակտիկան խիստ ճկուն և առաջադրանքների նկատմամբ ագնոստիկ եղանակներով՝ ներքևում գտնվող առաջադրանքների փոխանցման համար: 

Սկզբում դա միաշերտ ներկայացումներն էին, որոնք օգտագործում էին բառերի վեկտորներ, և այնուհետև սնվում էին առաջադրանքի հատուկ ճարտարապետությանը: Հաջորդը, դա RNN ճարտարապետությունն էր, որն օգտագործում էր բազմաշերտ ներկայացումներ և համատեքստային վիճակ՝ ավելի լավ ներկայացումներ ձևավորելու համար: Եվ բոլորովին վերջերս մենք ունենք փոխանցման լեզվի մոդելներ կամ նախապես վերապատրաստված կրկնվող մոդելներ, որոնք ամբողջությամբ վերացրել են առաջադրանքների համար հատուկ ճարտարապետությունների անհրաժեշտությունը՝ կարգավորելով այս ցանցերը: 

Փոխանցման լեզվի մոդելները դարձել են հիմնական շրջադարձային կետ NLP արդյունաբերության մեջ, քանի որ դրանք հանգեցրել են հսկայական առաջընթացի դժվար առաջադրանքներում, ինչպիսիք են հարցերին պատասխանելը, ընթերցանության ըմբռնումները կամ տեքստի բլոկները, տեքստային բովանդակությունը և շատ ավելին: 

Այնուամենայնիվ, չնայած իրենց առավելություններին, փոխանցման լեզվի մոդելներն ունեն մեծ սահմանափակում, քանի որ դրանք պահանջում են առաջադրանքին հատուկ ճշգրտում կամ առաջադրանքի հատուկ տվյալների բազա՝ առաջադրանքի ցանկալի կատարմանը հասնելու համար: Ավելին, փոխանցման լեզվի մոդելները նաև պահանջում են մշակողներին ճշգրտել տվյալների հավաքածուները հարյուր հազարավոր օրինակներով, որոնք հատուկ են կոնկրետ առաջադրանքին: 

Անշուշտ պետք է ասել, որ առաջադրանքների համար նախատեսված տվյալների բազայի պահանջների վերացումը և առաջադրանքների ճշգրտումը շատ ցանկալի և շահավետ կլինի NLP արդյունաբերության համար բազմաթիվ պատճառներով: 

Նախապես վերապատրաստված փոխանցման լեզվական մոդելների կամ կրկնվող մոդելների հետ կապված խնդիրներ

  • Գործնականության և կիրառելիության սահմանափակում

Նախ և առաջ, յուրաքանչյուր առաջադրանքի համար պիտակավորված տվյալների հետ կապված մեծ տվյալների պահանջը սահմանափակում է լեզվական մոդելների կիրառելիությունն ու գործնականությունը: Լեզուների մոդելները գտնում են իրենց կիրառությունը բազմաթիվ առաջադրանքների մեջ՝ սկսած կարճ պատմվածք ստեղծելուց, քերականական սխալների ուղղումից մինչև հայեցակարգի վերաբերյալ օրինակներ ստեղծելը: Երբեմն դժվար խնդիր է պիտակավորված տվյալների հետ վերահսկվող մեծ տվյալների հավաքագրումը, հատկապես, երբ գործընթացը պետք է կրկնվի յուրաքանչյուր առանձին առաջադրանքի համար: 

  • Վերապատրաստման տվյալների կեղծ հարաբերակցությունների օգտագործում

Ուսուցման բաշխման սահմանափակումներն ու նեղությունը, զուգորդված մոդելի արտահայտչականության հետ, կարող են հանգեցնել վերապատրաստման տվյալների կեղծ հարաբերակցությունները օգտագործելու ներուժի հիմնարար աճի: Ուսուցման տվյալների օգտագործման ներուժը կարող է հանգեցնել խնդիրների ճշգրտման և նախնական պարադիգմի ընթացքում, քանի որ փոխանցման լեզվի մոդելները նախագծված են այնպես, որ կլանեն մեծ քանակությամբ տեղեկատվություն նախապատրաստման ընթացքում: 

Ավելին, նախորդ մոդելների վրա աշխատանքը ցույց է տվել, որ մեծ մոդելները ամեն անգամ ավելի լավ չեն բաշխվում: Ավելին, նշվել է նաև, որ նման պարադիգմով ձեռք բերված ընդհանրացումը կարող է հանգեցնել վատ կատարողականի, հիմնականում այն ​​պատճառով, որ մոդելը խիստ հատուկ է ուսուցման տվյալներին և չի կարող լավ գործել ուսուցման տվյալների շրջանակից դուրս իրավիճակներում: 

  • Համեմատություն մարդկային ուսուցման հետ

Ի վերջո, երբ համեմատվում է փոխանցման լեզվի մոդելների հետ, մարդիկ չեն պահանջում մեծ ուսումնական տվյալների բազա, երբ խոսքը վերաբերում է լեզվական առաջադրանքների մեծ մասը սովորելուն: Ամենից հաճախ մարդու բնական լեզվով հակիրճ հրահանգը կամ լեզվական առաջադրանքի փոքր ցուցադրումը բավարար է, որպեսզի մարդը կարողանա հասկանալ և կատարել լեզվական առաջադրանք մրցունակության որոշակի մակարդակով: 

Մարդկանց հարմարվելու ունակությունն ունի բազմաթիվ գործնական առավելություններ, քանի որ այն թույլ է տալիս նրանց կամ անցնել տարբեր հմտությունների խմբերի կամ խառնել դրանք՝ բարբառի ժամանակ ավելի լավ հանդես գալու համար, ինչը դուրս է ներկայիս NLP համակարգերի հնարավորություններից: 

Meta Learning-ի և GPT-3-ի հետ կապված խնդիրների լուծում

Վերոնշյալ մարտահրավերների հնարավոր լուծումը մետա ուսուցման օգտագործումն է, որը ժամանակակից ML-ի հայեցակարգ է, որը թույլ է տալիս մոդելին զարգացնել հմտությունների ավելի մեծ և լայն շարք և կարողություն ճանաչել օրինաչափությունները ուսուցման ընթացքում, և այնուհետև օգտագործել այս սովորած կարողությունները միջամտության ժամանակ՝ հարմարվելու համար: արագ, կամ ճանաչել պահանջվող առաջադրանքը: 

Meta Learning-ը ներդրվում է լեզվի մոդելային ճարտարապետության մեջ՝ տեխնիկայի միջոցով, որը կոչվում է «համատեքստում ուսուցում», որն օգտագործում է նախապես պատրաստված լեզվի մոդելի տեքստի մուտքագրումը որպես առաջադրանքի ճշգրտում: Ընթացքում մոդելը պայմանավորում է բնական լեզվի հրահանգով և կարող է նույնիսկ օգտագործել մի քանի ցուցադրություն, և այնուհետև ակնկալվում է, որ մոդելը կավարտի մնացած առաջադրանքը՝ կանխատեսելով հաջորդ քայլերը: 

Meta Learning-ի միակ հիմնական խնդիրն այն է, որ թեև այն ցույց է տվել դրական ներուժ, այն դեռևս զիջում է բնական լեզվի ճարտարապետության ճշգրտման մոտեցմանը, և այն հետագա կատարելագործման կարիք ունի, որպեսզի դառնա լեզվական առաջադրանքների հաղթահարման գործնական մեթոդ: 

Ի լրումն մետա ուսուցման, մեկ այլ մեթոդ, որը դառնում է հանրաճանաչ, տրանսֆորմատորային լեզվի մոդելների կարողությունների մեծացումն է: Վերջին մի քանի տարիների ընթացքում փոխանցման մոդելները ականատես են եղել դրանց հզորության զգալի աճին RNSS18 100 միլիոն պարամետրով մոդել, DCLT18 300 միլիոն պարամետրով մոդել, RWC19 մոդելը 1.5 միլիարդ պարամետրերով, SSP19 մոդելը 8 միլիարդ պարամետրերով, RSR19 մոդելը 11 միլիարդ պարամետրերով, իսկ TUR20 մոդել՝ 17 միլիարդ պարամետրով։ 

Մոդելի հզորության ավելացումը կամ պարամետրերի ավելացումը պատմականորեն հանգեցրել է տեքստի սինթեզի բարելավմանը, և ցուցումներ են եղել, որ գրանցամատյանի կորուստը, որը փոխկապակցված է հոսանքով կատարվող առաջադրանքների հետ, նույնպես հետևում է սանդղակի բարելավման սահուն միտումին: 

Դա մեզ բերում է GPT-3 մոդելին, որն ունի ավելի քան 175 միլիարդ պարամետր, և երբ այն գործարկվեց, դա ամենաբարձր հզորությամբ փոխանցման լեզվի մոդելն էր: Այժմ խոսենք GPT-3 մոդելի մասին: 

Ներածություն GPT-3 մոդելին

GPT-3-ը ավտոագրեսիվ լեզվի մոդել է՝ ավելի քան 175 միլիարդ պարամետրով, որը թողարկվել է OpenAI-ի կողմից 2020 թվականին: GPT-3-ը դասակարգվում է նաև որպես մեծ լեզվի մոդել որ ճիշտ այնպես, ինչպես իր նախորդը, GPT-2 մոդելը միայն ապակոդավորող խորը ուսուցման տրանսֆորմատորային մոդել է, որն օգտագործում է կոնվուլյացիայի վրա հիմնված ճարտարապետություն՝ տեքստային տվյալներ ստեղծելու համար: 

GPT-3 մոդելը չափում է իր սեփական համատեքստային ուսուցման կարողությունները, իսկ GPT-3 մոդելը գնահատվում է երկու տասնյակից ավելի NLP տվյալների հավաքածուների և բազմաթիվ նոր առաջադրանքների հիման վրա: Յուրաքանչյուր անհատական ​​առաջադրանքի համար GPT-3 մոդելը գնահատվում է երեք պայմանով.

  • Քիչ ուսուցում կամ համատեքստում ուսուցում. Մի քանի կրակոցների ուսուցման ժամանակ GPT-3 մոդելը թույլ է տալիս այնքան բաշխումներ, որոնք կարող են լավ տեղավորվել մոդելի համատեքստի պատուհանում: 
  • Մեկ կրակոց ուսուցում. Մեկ կրակոցի ուսուցման ժամանակ մոդելը թույլ է տալիս միայն մեկ ցուցադրություն: 
  • Զրոյական կրակոցի ուսուցում. Զրոյական կրակոցների ուսուցման ժամանակ ցուցադրություններ չկան, և կա միայն բնական լեզվով հրահանգ, որը սնվում է մոդելին: 

Ընդհանրապես, GPT-3 մոդել հասնում է ցանկալի կատարողականի զրոյական և մեկ կրակոցի պարամետրերում, իսկ մի քանի կրակոցների դեպքում այն ​​գերազանցում է ժամանակակից փոխանցման մոդելներին: Ավելին, GPT-3 մոդելը լավ է կատարում մեկ կրակոցի և զրոյական կրակոցների կարգավորումներում բնական լեզվի առաջադրանքները, որոնք նախատեսված են թեթև դատողությունը փորձարկելու համար, կամ պահանջում է արագ ուշադրություն, ինչպես օրինակ՝ նախադասությունից հետո նոր բառեր օգտագործելը, բառերի անսարքությունը կամ թվաբանությունը: գործառնություններ. Մյուս կողմից, երբ աշխատում է մի քանի կրակոցով, GPT-3 մոդելը ստեղծում է սինթետիկ նորությունների հոդվածներ, որոնք նման են մարդու գրությանը, երբ անցնում են մարդկային գնահատողների միջով: 

GPT-3 մոդել. Մոտեցում

GPT-3 մոդելը օգտագործում է նախնական վերապատրաստման սովորական մոտեցում, որը ներառում է մոդել, տվյալներ և ուսուցում, և այն նման է նախնական վերապատրաստման գործընթացին, որին հետևում է RWC-19 փոխանցման լեզվի մոդելը: GPT-3 մոդելը մեծացնում է մոդելի չափը, տվյալների բազայի չափը, տվյալների հավաքածուի բազմազանությունը և մեծացնում վերապատրաստման շրջանի տևողությունը: 

Մոդելը նաև օգտագործում է ներհամատեքստային ուսուցման մոտեցում, որը ևս մեկ անգամ հիշեցնում է RWC-19 մոդելի մոտեցումը, բայց մի փոքր փոփոխում է իրավիճակը՝ համակարգված կերպով ուսումնասիրելով ուսուցման օրինաչափությունների տարբեր կարգավորումներ տվյալների բազայի համատեքստում: 

Այսպիսով, եկեք սկսենք ուսումնասիրել այս կարգավորումները և գնահատենք, թե ինչպես է GTP-3 մոդելը գործում տարբեր պարամետրերում: 

Նուրբ կարգավորում

Մոդելի ճշգրտումը փոխանցման ավանդական մոտեցումն է լեզվական մոդելներ, և այս մոտեցումը ներառում է նախապես պատրաստված մոդելի կշիռների թարմացում՝ մոդելը վարժեցնելով վերահսկվող տվյալների բազայի վրա, որը հատուկ է ցանկալի առաջադրանքին, և գործընթացի ընթացքում օգտագործվում են հարյուր հազարավոր պիտակավորված օրինակներ: 

Կարգավորման մոտեցումը շահավետ է, քանի որ այն վերադարձնում է ուժեղ կատարողականություն բազմաթիվ չափորոշիչներում: Մյուս կողմից, ճշգրտման մոտեցման կիրառման հիմնական սահմանափակումն այն է, որ այն պահանջում է նոր և մեծ տվյալների բազա յուրաքանչյուր անհատական ​​առաջադրանքի համար, ունի ներուժ օգտագործելու ուսումնական տվյալների հավաքածուի կեղծ հատկանիշները և կարող է հանգեցնել մարդու կատարողականի հետ անարդար համեմատության: , և վատ ընդհանրացում՝ բաշխումից դուրս: 

GPT-3 մոդելի ներկայիս շրջանակը չի իրականացնում ճշգրտման մոտեցումը իր առաջադրանք-ագնոստիկ կատարողականի պատճառով, թեև ճշգրտումը կարող է կիրառվել ապագայում GPT-3 մոդելի վրա: 

Քիչ կրակոց

Few Shot-ը տերմին է, որը վերաբերում է այն պարամետրին, որտեղ GPT-3 մոդելին տրված է առաջադրանքի մի քանի ցուցադրում միջամտության ժամանակ՝ որպես կոնդիցիոներ, բայց մոդելի կշիռները չեն թարմացվում: Մի քանի կադրերի կարգավորումներում տվյալների հավաքածուն սովորաբար ունենում է օրինակ՝ համատեքստով և ցանկալի ավարտով (օրինակ՝ ֆրանսերեն նախադասություն և դրա անգլերեն թարգմանությունը): Մի քանի կրակոցի կարգավորումը տալիս է մոդելը K համատեքստի և ավարտի օրինակներ, և այն այնուհետև մոդելին տալիս է մեկ վերջնական համատեքստ և ակնկալում է, որ մոդելը կապահովի ավարտը: 

Մի քանի կադրերի կարգավորումների օգտագործման հիմնական առավելությունն այն է, որ այն զգալիորեն նվազեցնում է առաջադրանքների համար հատուկ տվյալների կարիքը, ինչպես նաև նվազեցնում է նեղ բաշխումը սովորելու ներուժը նեղ ճշգրտված մեծ տվյալներից: Մյուս կողմից, մի քանի կադրերի ուսուցման օգտագործման հիմնական թերությունն այն է, որ մի քանի կադրերի դեպքում ստացված արդյունքները չեն համապատասխանում իրականությանը և զգալիորեն վատ են՝ համեմատած այլ ժամանակակից մոդելների հետ, որոնք ճշգրտված են: 

Մեկ կրակոց

Մեկ կադրի պարամետրում մոդելին տրամադրվում է միայն մեկ ցուցադրություն, իսկ մնացածը նման է մի քանի կադրի պարամետրին: Պատճառը, թե ինչու է մեկ կադրի կարգավորումը տեղին է փոխանցման լեզվի մոդելներում, այն է, որ բոլոր երեք պարամետրերից մեկն այն է, որը նման է այն ձևին, որով առաջադրանքները լավագույնս փոխանցվում են մարդկանց: Դա պայմանավորված է նրանով, որ առաջադրանքների մեծ մասում սովորական է առաջադրանքի մեկ ցուցադրումը, հակառակ դեպքում դժվար կլինի հասկանալ առաջադրանքի ենթատեքստը: 

Զրո կրակոց

Զրոյական կրակոցի պարամետրում ցուցադրություններ չկան, և մոդելին տրվում է բնական լեզվի հրահանգ, որը նկարագրում է առաջադրանքը: Զրոյական կրակոցի մեթոդն այն մեկն է, որն առաջարկում է առավելագույն հարմարավետություն, ամուր է, ինչպես նաև խուսափում է կեղծ հարաբերակցություններից, բայց նաև ամենադժվարն է բոլոր երեք պարամետրերից: Պատճառն այն է, որ որոշ դեպքերում նույնիսկ մեզ՝ մարդկանց համար, դժվար է պարզել առաջադրանքի ենթատեքստը՝ առանց նախապես ցուցադրումը տեսնելու: 

Անկախ նրանից, որոշ առաջադրանքների համար զրոյական կրակոցի կարգավորումն այն է, որն ամենից շատ նման է այն բանին, թե ինչպես են մարդիկ կատարում բնական լեզվի առաջադրանքները: 

Վերոնշյալ նկարը համեմատում է մի քանի կրակոցը, մեկ կրակոցը և զրոյական կրակոցը, երբ կատարում եք անգլերեն նախադասություն վերցնելու և այն ֆրանսերեն թարգմանելու բնական լեզվով առաջադրանքը: 

GPT-3. Մոդելային ճարտարապետություն

GPT-3 մոդելն օգտագործում է նույն ճարտարապետությունը, ինչ օգտագործվում է GPT-2 մոդելում, և այն ներառում է նախնական նորմալացում, փոփոխված սկզբնավորում և շրջելի նշանավորման տեխնիկա, ինչպես դրանք օգտագործվում էին GPT-մոդելում, բացառությամբ այլընտրանքային տարբերակի օգտագործման: ռազմավարություն՝ լոկալ ժապավենային նոսր ուշադրության նախշերի և տրանսֆորմատորային շերտերում փոխարինող խիտ շերտերի համար, որոնք նման են Sparse Transformer-ին: 

Մոդելի կատարողականի կախվածությունը մոդելի չափից ուսումնասիրելու համար մշակողները վարժեցրել են 8 տարբեր մոդելների չափսեր, որոնք տատանվում են երեք տարբեր աստիճանի մեծության՝ 125 միլիոնից մինչև 175 միլիարդ պարամետր, որոնցից վերջինը կոչվում է GPT-3 մոդել։ . LLM մոդելների հետ կապված նախորդ աշխատանքը ցույց է տվել, որ վավերացման կորստի չափումը բավարար քանակությամբ վերապատրաստման տվյալների հետ պետք է լինի մոտավոր սահուն հզորության օրենք՝ կախված չափից: Տարբեր չափերի ուսուցման մոդելները ծրագրավորողներին թույլ են տալիս ստուգել վարկածը ինչպես լեզվական առաջադրանքների, այնպես էլ վավերացման կորստի համար: 

Վերոնշյալ նկարը համեմատում է GPT-8-ի մշակման համար օգտագործվող 3 տարբեր մոդելների չափերն ու ճարտարապետությունը: Այստեղ n(params)-ը սահմանում է վարժեցվող օրինաչափությունների ընդհանուր թիվը, n(շերտերը) սահմանում է մոդելի շերտերի ընդհանուր թիվը, d(model)-ը սահմանում է միավորների քանակը խցանման յուրաքանչյուր շերտում, իսկ d(head)-ը սահմանում է: յուրաքանչյուր ուշադրության գլխի չափերը: Յուրաքանչյուր մոդելի համար համատեքստային պատուհանը նույնն է 2048 նշանների դեպքում: 

Ավելին, հանգույցների միջև տվյալների փոխանցումը նվազագույնի հասցնելու համար մոդելը բաժանվում է GPU-ների վրա՝ չափերի խորության և լայնության երկայնքով: Յուրաքանչյուր մոդելի համար ճարտարապետական ​​պարամետրերն ընտրվել են հաշվողական արդյունավետության և բեռի հավասարակշռման հիման վրա՝ GPU-ներում մոդելների դասավորության ճշգրտությունը առավելագույնի հասցնելու համար: 

Վերապատրաստման տվյալների հավաքածուներ

Սովորաբար լեզուների մեծ մոդելներն օգտագործում են տվյալների հավաքածուներ, որոնք զգալիորեն ընդլայնվել են վերջին զարգացումներով, և դրանք ավարտվում են Common Crawl տվյալների բազայում, որը բաղկացած է ավելի քան մեկ տրիլիոն տարբեր բառերից: Տվյալների հավաքածուի չափը բավարար է GPT-3 մոդելը վարժեցնելու համար՝ առանց նույն հաջորդականության մի քանի անգամ թարմացնելու: Այնուամենայնիվ, ուսումնասիրությունները և կատարողականի վերլուծությունը ցույց են տալիս, որ Common Crawl տվյալների բազայի թույլ ֆիլտրացված տարբերակները կամ չզտված տարբերակները ցածր որակ ունեն՝ համեմատած ավելի ընտրված տվյալների հետ: 

Տվյալների հավաքածուի միջին որակի խնդիրը լուծելու համար մշակողները ձեռնարկել են 3 քայլ՝ տվյալների բազայի որակը բարձրացնելու համար: 

  1. Մշակողները ներբեռնել և զտել են Common Crawl տվյալների բազայի տարբերակը՝ հիմնված բարձրորակ տեղեկատուների նման տիրույթի վրա: 
  2. Մշակողները իրականացրել են անորոշ կրկնօրինակում փաստաթղթի մակարդակում ամբողջ տվյալների բազայում՝ փորձելով պահպանել իրենց պահպանված վավերացման հավաքածուի ամբողջականությունը՝ որպես գերհամապատասխանության արդյունավետ չափում, ինչպես նաև կանխելու ավելորդությունը: 
  3. Մշակողները նաև ուսուցման տվյալներին ավելացրել են բարձրորակ տեղեկատու կորպորաներ՝ Common Crawl տվյալների բազան ավելացնելու և տվյալների բազայի բազմազանությունն էլ ավելի մեծացնելու համար: 

Հետևյալ նկարը ցույց է տալիս GPT-3 մոդելի վերապատրաստման համար օգտագործվող տվյալների հավաքածուների վերջնական համամասնությունը կամ խառնուրդը: Common Crawl-ի տվյալները բաղկացած էին ավելի քան 45 ՏԲ պարզ տեքստից՝ նախքան զտելը, որը զտելուց հետո կրճատվեց մինչև 570 ԳԲ տվյալների, ինչը մոտավորապես համարժեք է ավելի քան 400 միլիարդ բայթ զույգ կոդավորված նշաններին: Հարկ է նշել, որ թրեյնինգի տվյալների հավաքածուները, որոնք դիտվում են որպես ավելի բարձր որակ, ընտրվում են ավելի հաճախականությամբ՝ դրանց չափի համամասնությունը ընտրելու փոխարեն: Արդյունքում, տվյալների հավաքածուները, ինչպիսիք են Books2 և Common Crawl, նմուշառվում են ուսուցման ընթացքում մեկից պակաս անգամ, մինչդեռ մյուս տվյալների հավաքածուները մի քանի անգամ են նմուշառվում: Այն թույլ է տալիս մոդելին ընդունել փոքր քանակությամբ գերհամապատասխանություն՝ ավելի բարձր որակով վերապատրաստման տվյալների վերապատրաստման դիմաց: 

Լեզուների մեծ մոդելների հետ կապված էական մտահոգությունը, որոնք նախապես պատրաստված են մեծ քանակությամբ ինտերնետ տվյալների վրա՝ մեծ քանակությամբ բովանդակություն անգիր անելու և սովորելու կարողությամբ, ներքևում գտնվող առաջադրանքների հնարավոր աղտոտումն է՝ դրանց մշակումը կամ թեստային հավաքածուները դիտելով նախնական փուլում: վերապատրաստման գործընթացը: Նման պոտենցիալ աղտոտումը նվազեցնելու համար մշակողները որոնել են GPT-3-ի համար ուսումնասիրված հենանիշերի փորձարկման և մշակման խմբերի հետ համընկնումներ և փորձել են հեռացնել այդ համընկնումները: 

Վերոնշյալ պատկերը ցույց է տալիս GPT-3 մոդելի վերապատրաստման ընթացքում օգտագործված ընդհանուր հաշվարկը: Մոդելը օգտագործում է Scaling Laws for Neural Language Models-ի համար, որպեսզի վարժեցնի շատ ավելի մեծ մոդելներ ավելի քիչ նշաններով, քան սովորական: Արդյունքում, և՛ GPT-3-ը, և՛ RoBERTa-Large մոդելները, որոնք 10 անգամ փոքր են, քան GPT-3 մոդելը, նախնական ուսուցման գործընթացում հաշվարկվել է օրական մոտ 50 պետաֆլոպս: 

Գնահատում

Մի քանի կադրերի ուսուցման համար մոդելը գնահատում է գնահատման տվյալների հավաքածուում առկա յուրաքանչյուր օրինակ՝ այդ առաջադրանքի ուսումնական տվյալների հավաքածուից պատահականորեն նկարելով K օրինակներ՝ որպես պայմանավորում, և սահմանազատում է այն 1 կամ 2 նոր տողով՝ կախված առաջադրանքից: Storycloze-ի և LAMBADA-ի համար մոդելը մշակման հավաքածուից բերում է պայմանական օրինակներ և գնահատում է այն թեստային հավաքածուի վրա՝ վերահսկվող վերապատրաստման հավաքածուի անհասանելիության պատճառով: Winograd-ի համար գոյություն ունի միայն մեկ տվյալների բազա, և, հետևաբար, կոնդիցիոների նմուշները վերցվում են անմիջապես դրանից: 

K-ն կարող է լինել ցանկացած արժեք, որը տատանվում է 0-ից մինչև մոդելի համատեքստի պատուհանի կողմից թույլատրված առավելագույն գումարը, որը n էներքին = 2048 բոլոր մոդելների համար, և այն սովորաբար համապատասխանում է 10-ից 100 օրինակների: K-ի ավելի մեծ արժեքները հաճախ հանգեցնում են ավելի լավ արդյունքների, բայց ոչ միշտ, ինչի պատճառով, երբ մոդելն ունի թեստային հավաքածու և հասանելի մշակման առանձին հավաքածու, մոդելը փորձարկում է K-ի մի քանի արժեքների վրա մշակման հավաքածուի վրա և հիմնված արդյունքների վրա: , այն գործարկում է լավագույն արժեքը թեստային հավաքածուի վրա: 

Ավելին, այն առաջադրանքների վերաբերյալ, որոնք պահանջում են մի քանի տարբերակներից ճիշտ լրացում ընտրելը, մշակողները տրամադրում են ուղղման K օրինակներ, գումարած համատեքստի ավարտը, և հետևում են դրան՝ տրամադրելով միայն համատեքստի մեկ օրինակ, և առաջադրանքները համեմատվում են LM հավանականության հիման վրա: յուրաքանչյուր ավարտից: Երկուական դասակարգում պահանջող առաջադրանքների համար մոդելները հաճախ տալիս են ընտրանքներ ավելի իմաստային և ավելի իմաստալից անուններով, և այնուհետև առաջադրանքը վերաբերվում է որպես բազմակի ընտրության, և երբեմն նաև շրջանակում են առաջադրանքը, ինչպես արվում է RSR մոդելի և ճարտարապետության կողմից: 

Այն առաջադրանքների համար, որոնք պահանջում են ազատ ձևի լրացում, մոդելն օգտագործում է ճառագայթային որոնում նույնական պարամետրերով, ինչպես օգտագործվում է RSR շրջանակում, 4 երկարությամբ ճառագայթով և 0.6 տույժով: Այնուհետև մոդելը գնահատվում է՝ օգտագործելով կամ F1 նմանության միավորը, ճշգրիտ համընկնում կամ BLEU՝ կախված տվյալների բազայի ստանդարտից: 

Արդյունքներ

Վերոնշյալ նկարը ցույց է տալիս GPT-8 մոդելի ճարտարապետության մեջ օգտագործվող 3 մոդելների վերապատրաստման կորերը, ինչպես նկարագրված է նախորդ բաժիններում: KMH լեզվի մոդելի արդյունքների նման, GPT-3 մոդելի կատարումը հետևում է պատշաճ օրենքին, երբ արդյունավետ օգտագործում է ուսուցման հաշվարկը: Օրենքից աննշան տարբերություն կա միայն այն դեպքում, երբ միտումը ընդլայնվում է ևս երկու կարգով: Մարդկանց կարող է մտածել, որ խաչաձեւ էնտրոպիայի կորստի բարելավումները կարող են լինել ուսումնական կորպուսի կեղծ մանրամասների մոդելավորման արդյունք: Այնուամենայնիվ, խաչաձև էնտրոպիայի կորստի բարելավումները հանգեցնում են ընդհանուր կատարողականի հետևողական ձեռքբերումների NLP-ի մի շարք առաջադրանքների լայն սպեկտրում: 

Նախքան վերապատրաստման տվյալների լայն շրջանակի վրա 8 տարբեր մոդելների գնահատումը, տվյալների հավաքածուները խմբավորվում են 8 տարբեր կատեգորիաների, որոնք ներկայացնում են նմանատիպ առաջադրանքներ: Այս կատեգորիաներն են

  1. Ավանդական լեզվի մոդելավորման առաջադրանքների և այնպիսի առաջադրանքների գնահատում, որոնք նման են լեզվի մոդելավորմանը, ինչպիսիք են Cloze-ի առաջադրանքները կամ նախադասության/պարբերության ավարտի առաջադրանքները: 
  2. Գնահատում «փակ գրքի» հարցի պատասխանի առաջադրանքների վերաբերյալ: 
  3. Լեզուների միջև թարգմանելու մոդելի կարողության գնահատում (հատկապես մեկ կրակոց և մի քանի կրակոց)
  4. Գնահատելով մոդելի կատարումը Winograd Schema-ի նման առաջադրանքների վրա: 
  5. Գնահատում տվյալների հավաքածուների վրա, որոնք ներառում են ողջամիտ պատճառաբանություն կամ հարցերի պատասխաններ: 
  6. Ընթերցանության ըմբռնման առաջադրանքների գնահատում: 
  7. Գնահատում SuperGLUE հենանիշային փաթեթի վրա: 
  8. NLI-ի ուսումնասիրություն: 

Լեզվի մոդելավորում, ավարտում և փակում առաջադրանքներ

Այս բաժնում GPT-3 մոդելի կատարումը գնահատվում է ավանդական լեզվի մոդելավորման առաջադրանքների, ինչպես նաև առաջադրանքների վրա, որոնք պահանջում են մեկ հետաքրքրող բառի կանխատեսում, կամ լրացնել պարբերություն կամ նախադասություն կամ լրացնել տեքստի մի հատված: Եկեք քննարկենք դրանք համառոտ մանրամասն: 

Լեզվի մոդելավորում

GPT-3 մոդելը հաշվարկում է PTB-ի կամ Penn Tree Bank տվյալների բազայի զրոյական կրակոցի շփոթությունը: Մոդելը բաց է թողնում Վիքիպեդիայի հետ կապված առաջադրանքները, քանի որ այն արդեն ներառված է մոդելի ուսուցման տվյալների մեջ, և մեկ միլիարդ բառի չափանիշը նույնպես բաց է թողնված, քանի որ այն առաջացնում է տվյալների բազայի զգալի շփում, որը գտնվում է ուսումնական տվյալների մեջ: Այնուամենայնիվ, PTB տվյալների բազան լուծում է այս խնդիրները, քանի որ այն կարող է ավելի վաղ լինել ժամանակակից ինտերնետից: GPT-3 մոդելի ճարտարապետության ամենամեծ մոդելը նոր SOTA է դնում PTB տվյալների բազայում 15 միավորի ուշագրավ մարժանով և հասնում է 20.50 տարակուսանքի: 

ԼԱՄԲԱԴԱ

LAMBADA տվյալների հավաքածուն օգտագործվում է պարբերությունների կամ տեքստերի երկարաժամկետ կախվածությունների վրա մոդելի մոդելավորումը փորձարկելու համար: Դա նշանակում է, որ մոդելին առաջարկվում է գուշակել նախադասության վերջին բառը համատեքստի համար պարբերությունը կարդալուց հետո: Ավելին, լեզվական մոդելների շարունակական մասշտաբը բերում է հենանիշի նվազող եկամուտների: 

GPT-3 մոդելը հասնում է 76% ճշգրտության LAMBADA-ում և ունի ավելի քան 8% շահույթ նախորդ լավագույն մոդելների համեմատ: Ավելին, LAMBADA-ի մոդելը ցույց է տալիս մի քանի կրակոցների ուսուցման ճկունությունը, քանի որ այն անդրադարձել է խնդրին այնպես, որ դասականորեն տեղի է ունենում տվյալների հավաքածուի հետ: LAMBADA-ում նախադասության ավարտը սովորաբար նախադասության վերջին բառն է, բայց քանի որ լեզվական մոդելը չի ​​կարող դա իմանալ, այն հավանականություն է վերագրում ոչ միայն ճիշտ ավարտին, այլև պարբերության այլ շարունակություններին: 

Ավելին, երբ GPT-3 մոդելին սնվող օրինակները փոփոխվում են որոշակի ձևով, մոդելը վերադարձնում է ավելի քան 86% ճշգրտություն, ինչը նախորդ մոդելների համեմատ ավելի քան 18% է: Բացի այդ, արդյունքները նաև ցույց են տվել, որ մոդելի արդյունավետությունը մի քանի կրակոցների դեպքում աճում է համաչափ մոդելի չափի մեծացման հետ: Չնայած այս ռազմավարությունը նվազեցնում է GPT-3 ճարտարապետության ամենափոքր մոդելը 20%-ով, այն 3%-ով բարձրացնում է առաջնային GPT-175 մոդելի ճշգրտությունը 10 միլիարդ պարամետրով: 

Փակ գրքի հարցի պատասխան

Closed Book Question Answering-ը փորձ է չափել GPT-3 մոդելի` լայն փաստացի գիտելիքների վրա հիմնված հարցերին պատասխանելու կարողությունը: Քանի որ նման հարցերը հաճախ ունենում են հնարավոր հարցումների մեծ քանակություն, խնդիրը սովորաբար կատարվում է տեղեկատվության որոնման համակարգի միջոցով, որը թույլ է տալիս մոդելին գտնել համապատասխան տեքստ՝ համակցված մոդելի հետ, որը սովորում է պատասխան առաջացնել վերցված տեքստի պատասխանին, և հարցը. 

Վերոնշյալ պատկերը համեմատում է GPT-3 մոդելի արդյունքը՝ համեմատած տարբեր մոդելների հետ և աշխատում է տարբեր տվյալների հավաքածուների վրա: TriviaQA տվյալների բազայում մոդելը ստանում է 64.3% ճշգրտության միավոր զրոյական կրակոցի պարամետրում, մինչդեռ այն հասնում է 68% ճշգրտության և 71.2% համապատասխանաբար մեկ կրակոցի և մի քանի կրակոցի պարամետրերում: 

Ակնհայտորեն կարելի է տեսնել, որ GPT-3 մոդելը զրոյական կրակոցով 5%-ով գերազանցում է լավ կարգավորված T11-14B մոդելին: 

Վերոնշյալ նկարը ցույց է տալիս, որ GPT-3 մոդելի կատարումը սահուն աճում է մոդելի չափի մեծացման հետ մեկտեղ: Կատարումը հուշում է, որ լեզվական մոդելները շարունակում են սովորել տվյալների բազայից, քանի որ դրանց հզորությունը մեծանում է: 

Վերջնական Մտքեր

Վստահորեն կարելի է ասել, որ GPT-3-ը հեղափոխական փուլ էր LLM ոլորտում, քանի որ GPT-3-ն օգնեց առաջ մղել լեզվական մոդելի սահմանները: Հենց GPT-3-ի կողմից կատարված զարգացումները և հաղթահարված խոչընդոտները ճանապարհ հարթեցին մինչ օրս ամենաառաջադեմ և ճշգրիտ մեծ լեզվական մոդելի՝ GPT-4-ի համար: 

«Մասնագիտությամբ ինժեներ, անգիր գրող». Կունալը տեխնիկական գրող է, որն ունի AI և ML-ի խորը սեր և հասկացողություն, որը նվիրված է այս ոլորտներում բարդ հասկացությունների պարզեցմանը իր գրավիչ և տեղեկատվական փաստաթղթերի միջոցով: