քոթուկ data2vec. Մի կարևոր իրադարձություն ինքնավերահսկվող ուսուցման մեջ - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

data2vec. Մի կարևոր իրադարձություն ինքնավերահսկվող ուսուցման մեջ

mm
Թարմացվել է on

Մեքենայական ուսուցման մոդելները մեծապես հիմնվել են պիտակավորված տվյալների վրա ուսուցման համար, և ավանդաբար, պիտակավորված տվյալների վրա վերապատրաստման մոդելները ճշգրիտ արդյունքներ են տալիս: Այնուամենայնիվ, պիտակավորված տվյալների օգտագործման հիմնական բացասական կողմը անոտացիայի բարձր ծախսերն են, որոնք աճում են վերապատրաստման տվյալների չափի մեծացման հետ: Անոտացիայի բարձր ծախսերը մեծ խոչընդոտ են ծրագրավորողների համար, հատկապես, երբ աշխատում են մեծ նախագծի վրա՝ զգալի քանակությամբ վերապատրաստման տվյալներով:

Անոտացիայի խնդիրը լուծելու համար մշակողները եկան հայեցակարգի SSL կամ ինքնավերահսկվող ուսուցում. Ինքնավերահսկվող ուսուցումը մեքենայական ուսուցման գործընթաց է, որում մոդելը սովորում է սովորել մուտքի մի մասը մուտքի մեկ այլ մասից. Ինքնավերահսկվող ուսուցման մոդելը նպատակ ունի օգտագործել տվյալների միջև կապը պիտակավորված տվյալների վերահսկվող ազդանշանների օգտագործման փոխարեն: 

Բացի ինքնավերահսկվող ուսուցումից, կան մի քանի այլ մեթոդներ և մոդելներ՝ առանց պիտակավորված տվյալների օգտագործման, մեքենայական ուսուցման մոդելներ վարժեցնելու համար: Այնուամենայնիվ, այս մեթոդներից շատերը երկու հիմնական խնդիր ունեն

  1. Նրանք հաճախ մասնագիտացված են մեկ ձևի համար, ինչպիսին է պատկերը կամ տեքստը: 
  2. Նրանք պահանջում են մեծ քանակությամբ հաշվողական հզորություն: 

Այս սահմանափակումները հիմնական խնդիրն են, թե ինչու միջին մարդկային միտքը կարողանում է շատ ավելի արդյունավետ սովորել մեկ տեսակի տվյալներից՝ համեմատած AI մոդելի հետ, որը հիմնվում է առանձին մոդելների և ուսումնական տվյալների վրա՝ պատկերը, տեքստը և խոսքը տարբերելու համար: 

Սինգլի մոդալության խնդիրը լուծելու համար Meta AI-ն թողարկեց data2vec՝ իր տեսակի մեջ առաջին, ինքնուրույն վերահսկվող բարձր արդյունավետության ալգորիթմը սովորել օրինաչափությունների մասին տեղեկատվություն երեք տարբեր եղանակներից՝ պատկեր, տեքստ և խոսք: Data2vec ալգորիթմի ներդրման դեպքում տեքստի ըմբռնումը կարող է կիրառվել պատկերի սեգմենտավորման խնդրի համար, կամ այն ​​կարող է նաև տեղակայվել խոսքի ճանաչման առաջադրանքում: 

Այս հոդվածում մենք մանրամասնորեն կխոսենք data2vec մոդելի մասին: Մենք ավելի խորությամբ կքննարկենք մեթոդի ակնարկը, հարակից աշխատանքը, ճարտարապետությունը և մոդելի արդյունքները, որպեսզի դուք հստակ պատկերացնեք data2vec ալգորիթմը: 

Data2vec Ներածություն. Հիմնական գաղափարը

Թեև Ինքնավերահսկվող ուսուցման հիմնարար հայեցակարգը կիրառվում է տարբեր եղանակներով, իրական նպատակներն ու ալգորիթմները տարբերվում են միմյանցից, քանի որ դրանք նախագծվել են մեկ ձևի համար: Մեկ եղանակի համար մոդելի նախագծումն է պատճառը, որ նույն ինքնուրույն վերահսկվող ուսուցման ալգորիթմը չի կարող արդյունավետ աշխատել տարբեր տեսակի վերապատրաստման տվյալների վրա: 

Մեկ մոդալիզմի մոդելների և ալգորիթմների կողմից ներկայացված մարտահրավերը հաղթահարելու համար Meta AI-ն թողարկեց data2vec-ը՝ ալգորիթմ, որն օգտագործում է ուսուցման նույն մեթոդաբանությունը կամ համակարգչային տեսլականի համար, NLP կամ խոսք.  

Data2vec ալգորիթմի հիմքում ընկած հիմնական գաղափարը մուտքագրման դիմակավորված տեսքի օգտագործումն է կանխատեսել ամբողջական մուտքային տվյալների թաքնված ներկայացումները ինքնաթորման կարգավորմամբ՝ օգնությամբ ստանդարտ տրանսֆորմատորային ճարտարապետություն. Այսպիսով, մոդալային հատուկ օբյեկտների փոխարեն, ինչպիսիք են պատկերները, տեքստը կամ ձայնը, որոնք ունեն տեղական բնույթ, data2vec ալգորիթմը կանխատեսում է թաքնված ներկայացումներ ամբողջական վերապատրաստման կամ մուտքագրման տվյալների հետ: 

Ինչու՞ է AI արդյունաբերությանը պետք Data2Vec ալգորիթմը:

Ինքնավերահսկվող ուսուցման մոդելները կառուցում են վերապատրաստման տվյալների ներկայացումներ՝ օգտագործելով մարդու ծանոթագրված պիտակները, և դա NLP-ի կամ բնական լեզվի մշակման և Computer Vision տեխնոլոգիայի առաջխաղացման հիմնական պատճառներից մեկն է: Այս ինքնուրույն վերահսկվող ուսուցման ներկայացումներն են պատճառը, որ այնպիսի առաջադրանքներ, ինչպիսիք են խոսքի ճանաչումը և մեքենայական ուսուցումը, իրենց մոդելներում տեղակայում են չվերահսկվող ուսուցում: 

Մինչ այժմ, այս ինքնուրույն վերահսկվող ուսուցման ալգորիթմները կենտրոնանում են անհատական ​​եղանակների վրա, որոնք հանգեցնում են ուսուցման կողմնակալության և մոդելների հատուկ ձևավորման: Ինքն վերահսկվող ուսուցման ալգորիթմների անհատական ​​եղանակը մարտահրավերներ է ստեղծում արհեստական ​​ինտելեկտի տարբեր հավելվածներում, ներառյալ համակարգչային տեսլականը և NLP-ն: 

Օրինակ, խոսքի մշակման մեջ կա խոսքի միավորների բառապաշար, որը կարող է սահմանել NLP-ում ինքնուրույն վերահսկվող ուսումնական առաջադրանք: Նմանապես, մեջ համակարգչային տեսլական, մշակողները կարող են կա՛մ հետընթաց կատարել մուտքագրումը, կա՛մ սովորել դիսկրետ վիզուալ նշաններ կամ սովորել տվյալների ավելացման անփոփոխ ներկայացումներ: Թեև այս ուսուցման կողմնակալությունները հարմար են, դժվար է հաստատել, թե արդյոք այդ կողմնակալությունները կընդհանրանան այլ եղանակների վրա: 

Data2vec ալգորիթմը մեծ կարևոր իրադարձություն է ինքնուրույն վերահսկվող ուսուցման ոլորտում, քանի որ այն նպատակաուղղված է մի քանի եղանակների բարելավմանը, այլ ոչ թե մեկին: Ավելին, data2vec ալգորիթմը կախված չէ մուտքագրման կամ հակադրական ուսուցման վերակառուցման վրա: 

Այսպիսով, պատճառը, թե ինչու է աշխարհը data2vec-ի կարիքն ունի, այն է, որ data2vec ալգորիթմն ունի AI-ի առաջընթացն արագացնելու ներուժ և նպաստում է AI մոդելների մշակմանը, որոնք կարող են անխափան կերպով իմանալ իրենց շրջապատի տարբեր ասպեկտների մասին: Գիտնականները հուսով են, որ data2vec ալգորիթմը թույլ կտա նրանց զարգացնել ավելի հարմարվող AI և ML մոդելներ, որոնք ի վիճակի են կատարել բարձր առաջադեմ առաջադրանքներ, քան կարող են անել այսօրվա AI մոդելները:

Ի՞նչ է Data2Vec ալգորիթմը:

Data2vec-ը միասնական շրջանակ է, որի նպատակն է իրականացնել ինքնավերահսկվող մեքենայական ուսուցում տվյալների տարբեր եղանակներով, ներառյալ պատկերները, խոսքը և տեքստը: 

Data2vec ալգորիթմը նպատակ ունի մշակել ML մոդելներ, որոնք կարող են շատ ավելի լավ սովորել միջավայրի ընդհանուր օրինաչափությունները՝ պահպանելով ուսուցման նպատակը միատեսակ տարբեր եղանակներով: Data2vec մոդելը միավորում է ուսուցման ալգորիթմը, սակայն այն դեռ սովորում է յուրաքանչյուր եղանակի ներկայացումները առանձին-առանձին: 

Data2vec ալգորիթմի ներդրմամբ Meta AI-ն հուսով է, որ այն կդարձնի մուլտիմոդալ ուսուցումն արդյունավետ և շատ ավելի պարզ: 

Ինչպե՞ս է աշխատում Data2Vec ալգորիթմը:

Data2vec ալգորիթմը համատեղում է թաքնված թիրախային ներկայացումների ուսուցումները դիմակավորված կանխատեսման հետ, չնայած այն օգտագործում է ցանցի բազմաթիվ շերտեր որպես թիրախներ՝ թաքնված ներկայացումները ընդհանրացնելու համար: Մոդելը հատուկ մարզում է առանց դարակաշարերի Տրանսֆորմատորային ցանց որը այնուհետև օգտագործվում է կամ մեջ ուսուցիչ կամ ուսանող ռեժիմ: 

Ուսուցիչի ռեժիմում մոդելը նախ կառուցում է այն ներկայացումները մուտքագրել տվյալներ, որոնք ծառայում են որպես ուսումնական առաջադրանքի թիրախ. Ուսանողի ռեժիմում մոդելը կոդավորում է մուտքային տվյալների դիմակավորված տարբերակը, որն այնուհետև օգտագործվում է ամբողջական տվյալների ներկայացման վերաբերյալ կանխատեսումներ կատարելու համար: 

Վերոնշյալ նկարը ներկայացնում է, թե ինչպես է data2vec մոդելը օգտագործում նույն ուսուցման գործընթացը տարբեր եղանակների համար: Առաջին քայլում մոդելը արտադրում է մուտքային տվյալների ներկայացումներ (ուսուցչի ռեժիմ) Այնուհետև մոդելը հետ է մղում այս ներկայացումները մուտքի դիմակավորված տարբերակի հիման վրա: 

Ավելին, քանի որ data2vec ալգորիթմն օգտագործում է մուտքային տվյալների թաքնված ներկայացումներ, այն կարող է դիտվել որպես մոդալների հատուկ ձևավորումների պարզեցված տարբերակ, ինչպիսիք են. ստեղծելով համապատասխան թիրախներ՝ մուտքագրման նորմալացման միջոցով or սովորելով տեսողական նշանների ֆիքսված հավաքածու: Սակայն data2vec-ի և այլ ալգորիթմների միջև կարևորագույն տարբերակիչ կետն այն է, որ data2vec ալգորիթմը օգտագործում է ինքնավստահություն՝ իր նպատակային ներկայացումը կատարելու համար: համատեքստային և շարունակական. Մյուս կողմից, ինքնուրույն վերահսկվող ուսուցման այլ մոդելներ օգտագործում են թիրախների ֆիքսված շարք, որոնք հիմնված են տեղական համատեքստի վրա: 

Data2vec. Մոդելային մեթոդ

Data2vec մոդելը վերապատրաստվում է՝ կանխատեսելով մուտքային տվյալների մոդելային ներկայացումները՝ տրված մուտքի մասնակի տեսքից: Ինչպես տեսնում եք տրված նկարում, շան դեմքը դիմակավորված է, ձայնային նոտայի որոշակի հատված դիմակավորված է, և բառը «հետ», տեքստում դիմակավորված է: 

Մոդելը նախ կոդավորում է ուսուցման նմուշի դիմակավորված տարբերակը (ուսանողական ռեժիմ), և այնուհետև կոդավորում է մուտքի չդիմակավորված տարբերակը՝ նույն մոդելով ուսումնական թիրախներ կառուցելու համար, բայց միայն այն դեպքում, երբ այն պարամետրացված է որպես մոդելի կշիռների էքսպոնենցիալ միջին (ուսուցչի ռեժիմ) Ավելին, թիրախային ներկայացումները կոդավորում են վերապատրաստման նմուշում առկա տեղեկատվությունը, իսկ ուսանողի ռեժիմում ուսուցման առաջադրանքը օգտագործվում է կանխատեսելու այդ ներկայացումները, երբ տրվում է մուտքագրման մասնակի պատկերացում: 

Մոդելային ճարտարապետություն

Data2vec մոդելը օգտագործում է ստանդարտ Տրանսֆորմատորային ճարտարապետություն մուտքային տվյալների մոդալային հատուկ կոդավորմամբ: Համակարգչային տեսողության հետ կապված առաջադրանքների համար մոդելը օգտագործում է ViT ռազմավարությունը՝ պատկերը կոդավորելու համար՝ որպես բեկորների հաջորդականություն, որտեղ յուրաքանչյուր պատկեր ընդգրկում է ավելի քան 16×16 պիքսել և սնվում է որպես գծային փոխակերպում: 

Ավելին, խոսքի ճանաչման տվյալները, մոդելը կոդավորում է տվյալները՝ օգտագործելով բազմաշերտ 1-D կոնվոլյուցիոն նեյրոնային ցանց, որը քարտեզագրում է 16 կՀց ալիքի ձևերը 50 Հց հաճախականությամբ: Տեքստային տվյալները մշակելու համար մոդելը նախապես մշակում է տվյալները՝ ենթաբառերի միավորներ հանելու համար, և այնուհետև տվյալները տեղադրում է բաշխման տարածության մեջ՝ ներկառուցված վեկտորների միջոցով: 

Կնիկի

Երբ մոդելը ներկառուցում է մուտքային տվյալները որպես նշանների հաջորդականություն, մոդելը քողարկում է այս միավորների մասերը՝ դրանք փոխարինելով ներկառուցվող նշանով, այնուհետև հաջորդականությունը սնուցում է տրանսֆորմատոր ցանց. Համակարգչային տեսլականի համար մոդելը կիրառում է բլոկային գծանշման ռազմավարություն: Խոսքի թաքնված ներկայացումները օգտագործվում են խոսքի տվյալների տարածությունները քողարկելու համար, իսկ լեզվին առնչվող առաջադրանքների համար նշանները դիմակավորված են: 

Վերապատրաստման թիրախներ

Data2vec մոդելը նպատակ ունի կանխատեսել չդիմակավորված ուսումնական նմուշի մոդելային ներկայացումները՝ հիմնված դիմակավորված նմուշի կոդավորման վրա, որն ի սկզբանե սնվել է մոդելին: Մոդելը կանխատեսում է ներկայացումները միայն դիմակավորված ժամանակային քայլերի համար: 

Մոդելը կանխատեսում է համատեքստային ներկայացումներ որը ոչ միայն կոդավորում է որոշակի ժամանակի քայլը, այլ նաև կոդավորում է նմուշի այլ տեղեկատվություն, քանի որ այն օգտագործում է ինքնավստահություն տրանսֆորմատորային ցանցում: Համատեքստային ներկայացումները և Transformer ցանցի օգտագործումն այն է, ինչը տարբերում է data2vec մոդելն արդեն գոյություն ունեցողից BERT, wav2vec, BEiT, SimMIM, MAE և MaskFeat մոդելներ, որոնք կանխատեսում են թիրախներ առանց համատեքստային տեղեկատվության: 

Ահա թե ինչպես է data2vec մոդելը պարամետրավորում ուսուցչի ռեժիմը՝ կանխատեսելու ցանցի ներկայացումները, որոնք այնուհետև ծառայում են որպես թիրախ: 

Ուսուցչի պարամետրիզացիա

Data2vec մոդելը պարամետրավորեց չդիմակավորված ուսումնական նմուշի կոդավորումը՝ օգտագործելով EMA կամ էքսպոնենտալ շարժվող միջին մոդելի պարամետրերից (θ), որտեղ մոդելի կշիռները թիրախային ռեժիմ (△) են հետեւյալ

                                           ∆ ← τ∆ + (1 − τ ) θ

 

Ավելին, մոդելը պլանավորում է τ-ի համար, որը գծային կերպով մեծացնում է պարամետրը  τ0-ից տե (նպատակային արժեք) առաջին τn թարմացումների նկատմամբ: Այս թարմացումներից հետո մոդելը պահպանում է արժեքը հաստատուն, մինչև վերապատրաստումը ավարտվի: EMA ռազմավարության օգտագործումը շատ ավելի հաճախ է թարմացնում ուսուցիչը սկզբում, երբ վերապատրաստումը սկսվում է, երբ մոդելը պատահական է: Քանի որ դասընթացը շարունակվում է և լավ պարամետրեր են սովորում, ուսուցիչը ավելի քիչ է թարմացվում: 

Արդյունքները ցույց են տալիս, որ մոդելն ավելի արդյունավետ և ճշգրիտ է, երբ այն կիսում է առանձնահատկությունների կոդավորիչի և դիրքային կոդավորչի պարամետրերը աշակերտի և ուսուցչի ռեժիմների միջև: 

Կառույցների մեջ

Վերապատրաստման թիրախների կառուցումը կախված է վերևի արդյունքից K Ուսուցչի ցանցի բլոկները ժամանակային քայլերի համար, որոնք դիմակավորված են ուսանողի ռեժիմում: Բլոկի ելքը l ցանկացած ժամանակ-քայլ t նշվում է որպես աlt. Այնուհետև մոդելը կիրառում է նորմալացում յուրաքանչյուր բլոկի վրա՝ â ստանալու համարlt նախքան այն միջինացնում է վերին K բլոկները 

  

 

վերապատրաստման նպատակը ձեռք բերելու համար yt ժամանակային քայլի համար t հետ ցանցի համար L բլոկներ ընդհանուր առմամբ: 

Այն ստեղծում է ուսուցման թիրախներ, որոնք մոդելը հետ է գնում, երբ այն գտնվում է ուսանողական ռեժիմում: Նախնական փորձարկումներում data2vec մոդելը լավ գործեց յուրաքանչյուր բլոկը առանձին կանխատեսելով հատուկ պրոյեկցիայի միջոցով և միևնույն ժամանակ շատ ավելի արդյունավետ էր: 

Ավելին, թիրախների նորմալացումը նաև թույլ է տալիս data2vec մոդելին փլուզվել և վերածվել ժամանակի քայլերի մշտական ​​ներկայացումների և թույլ չտալ, որ բարձր նորմալացում ունեցող շերտերը գերիշխեն թիրախային տվյալների բազայի հատկանիշների վրա: Խոսքի ճանաչման համար մոդելն օգտագործում է օրինակների նորմալացում ընթացիկ մուտքային նմուշի վրա՝ առանց որևէ սովորած պարամետրի: Դա հիմնականում պայմանավորված է նրանով, որ քանի որ մուտքային տվյալների վրա քայլը փոքր է, հարևան ներկայացումները մեծ փոխկապակցված են: 

Բացի այդ, հետազոտողները պարզել են, որ համակարգչային տեսլականի և NLP-ի հետ աշխատելիս, պարամետրից պակաս նորմալացումը բավականաչափ աշխատանք է կատարում: Խնդիրը կարելի է լուծել նաև Տարբերություն-Invariance-Covariance կանոնավորացում, սակայն վերը նշված ռազմավարությունը բավական լավ է գործում, և այն չի պահանջում որևէ լրացուցիչ պարամետր: 

Նպատակ

Համատեքստային ուսուցման թիրախների համար yt, մոդելն օգտագործում է ա Հարթ L1 կորուստ հետընթացի թիրախները, ինչպես նշված է ստորև

Այստեղ β-ն վերահսկում է քառակուսի կորստից L1 կորստի անցումը, և դա մեծապես կախված է f մոդելի կանխատեսման միջև եղած բացի չափից:t(x) ժամանակային քայլով t. Այս կորստի առավելությունն այն է, որ դա համեմատաբար ավելի քիչ զգայուն է ծայրամասերի նկատմամբ՝ β-ի պարամետրը կարգավորելու անհրաժեշտությամբ

Փորձարարական կարգավորում

Data2vec մոդելը փորձարկվել է երկու մոդելի չափերով. data2vec Մեծ և data2vec բազա. Թվային կայունության համար EMA-ի թարմացումները կատարվում են fp32-ում, և մոդելները պարունակում են L= 12 կամ L= 24 տրանսֆորմատորային բլոկներ՝ թաքնված չափսերով (H) = 768 կամ H= 1024: Եկեք մանրամասն նայենք փորձարարական կարգավորումներին տարբեր եղանակների համար: և նպատակները։ 

Համակարգչային տեսլականը

Data2vec մոդելը զետեղում է 224 × 224 պիքսել պատկերներ՝ որպես 16 × 16 պիքսել չափերի պատիչներ: Այս բծերից յուրաքանչյուրը փոխակերպվում է գծային, և 196 ներկայացումներով հաջորդականությունը սնվում է ստանդարտ տրանսֆորմատորին: 

Մոդելը հետևում է BEiT դիմակավորել բլոկները հարակից բծերով, որոնցից յուրաքանչյուրը ունի առնվազն 16 կարկատան՝ պատահական կողմերի հարաբերակցությամբ: Այնուամենայնիվ, կարկատակի 40%-ը քողարկելու փոխարեն, ինչպես սկզբնապես BEiT մոդելում էր, data2vec մոդելը ծածկում է կարկատի 60%-ը՝ ավելի լավ ճշգրտության համար: 

Ավելին, մոդելը պատահականորեն փոխում է պատկերների կտրվածքները, հորիզոնական շեղումները և գունային ցնցումները: Ի վերջո, data2vec մոդելն օգտագործում է նույն փոփոխված պատկերը և՛ ուսուցչի, և՛ աշակերտի ռեժիմում: 

ViT-B մոդելները նախապես պատրաստված են 800 դարաշրջանի համար, իսկ data2vec մոդելն օգտագործում է խմբաքանակի չափը 8,192 ViT-L մոդելի համար և 2,048 ViT-B մոդելի համար: Data2vec մոդելը նաև օգտագործում է կոսինուս և Ադամի ժամանակացույց մեկ ցիկլով՝ 80 դարաշրջանի համար ուսուցման արագությունը տաքացնելու համար մինչև 0.001՝ ViT-L-ի համար, և 40 դարաշրջանում՝ մինչև 0.001՝ ViT-B-ի համար: 

Ինչպես ViT-B-ի, այնպես էլ ViT-L-ի համար data2vec մոդելն օգտագործում է β = 2, K = 6 և τ = 0.9998 որպես հաստատուն՝ առանց ժամանակացույցի: Մոդելը հետագայում օգտագործում է ստոխաստիկ խորության մակարդակը 0.2: 

Ավելին, ViT-L-ի համար մոդելը վարժվում է 1,600 դարաշրջանի համար, որտեղ առաջին 800 դարաշրջաններն ունեն 0.9998 ուսուցման արագություն, այնուհետև մոդելը վերակայում է ուսուցման արագության ժամանակացույցը և շարունակվում է վերջին 800 դարաշրջանների համար՝ ուսուցման արագությամբ 0.9999: 

Պատկերների դասակարգման համար մոդելն օգտագործում է վերջին տրանսֆորմատորային բլոկի ելքի միջին լողավազանը և այն մատակարարում է softmax-ով նորմալացված դասակարգիչին: Այնուհետև մոդելը լավ լարում է ViT-L-ը 50 դարաշրջանի համար, և ViT-B-ն 100 դարաշրջանի համար՝ օգտագործելով կոսինուսը, և Ադամը՝ ուսուցման արագությունը տաքացնելու համար: 

Խոսքի մշակում

Խոսքի մշակման համար data2vec մոդելն օգտագործում է Fairseq, հաջորդականության մոդելավորման հավաքածու, որն օգտագործվում է հաճախորդների մոդելներին ամփոփման, թարգմանության և տեքստի ստեղծման համար վերապատրաստելու համար: Մոդելը ընդունում է 16 կՀց ալիքի ձև, որը մշակվում է ֆունկցիաների կոդավորիչի միջոցով և պարունակում է ժամանակային ոլորումներ 512 ալիքներով, միջուկի լայնությամբ (10,3,3,3,3,2,2) և քայլերով (5,2,2,2,2,2,2): ,XNUMX): 

Վերոնշյալը հանգեցնում է նրան, որ կոդավորողի ելքային հաճախականությունը 50 Հց է, և յուրաքանչյուր նմուշի միջև այն ունի 20 մս քայլ: Ընդունիչ դաշտը բաղկացած է 400 մուտքային նմուշներից կամ 25 մվ ձայնագրությունից: Կոդավորիչին սնվող չմշակված ալիքի ձևը նորմալացվում է մինչև միավորի շեղումը և զրոյական միջինը

Բազային մոդելի համար օգտագործվող data2vec-ի կողմից քողարկված ռազմավարությունը նման է խոսքի ճանաչման մեջ ինքնուրույն վերահսկվող ուսուցման Baevski-ի շրջանակին: Մոդելի նմուշներ p = 0.065 բոլոր ժամանակային քայլերի համար, որոնք մեկնարկային ինդեքսներ են, և շարունակում է նշել հետևյալ տասը ժամանակային քայլերը: Սովորական ուսուցման հաջորդականության համար գործընթացը թույլ է տալիս դիմակավորել ընդհանուր ժամանակային քայլերի գրեթե 49%-ը: 

Դասընթացի ընթացքում data2vec մոդելը գծային կերպով կռում է τ՝ օգտագործելով τo = 0.999, տe = 0.9999, և տn = 30,000. Data2vec մոդելն օգտագործում է Ադամի օպտիմիզատորը, որի ուսուցման առավելագույն արագությունը 5×10 է-4 Base մոդելի համար: Ավելին, բազային մոդելն օգտագործում է եռաստիճան ժամանակացույց, որը գծայինորեն տաքացնում է ուսուցման արագությունը թարմացումների առաջին 3%-ի համար, պահպանում է այն հաջորդ 90%-ի համար և այնուհետև անցնում է գծային քայքայմանը մնացած 7%-ի համար։ 

Բնական լեզուների մշակումը

Data2vec մոդելն օգտագործում է 50K տիպի բայթ-զույգ կոդավորումը՝ մուտքագրումը նշանավորելու համար, և այնուհետև մոդելը սովորում է ներկառուցում յուրաքանչյուր տեսակի համար: Տվյալների կոդավորումից հետո մոդելը կիրառում է BERT դիմակավորման ռազմավարությունը միատեսակ ընտրված նշանների 15%-ի վրա, որոնցում 80%-ը փոխարինվում է սովորած դիմակներով, 10%-ը փոխարինվում է պատահական բառապաշարով, իսկ մնացած 10%-ը մնում է անփոփոխ: 

Նախապատրաստման ժամանակ մոդելն օգտագործում է τo = 0.999, տe = 0.9999, և տn = 100,000, K= 10 և β = 4: Մոդելը օգտագործում է Ադամի օպտիմիզատորը եռաստիճան ուսուցման արագության ժամանակացույցով, որը գծայինորեն տաքացնում է ուսուցման արագությունը թարմացումների առաջին 5%-ի համար, պահպանում է այն հաջորդ 80%-ի համար և այնուհետև անցնում է այն գծայինորեն քայքայելու մնացած 15%-ի համար, ընդ որում սովորելու առավելագույն արագությունը 2×10 է:-4

Ավելին, մոդելը մարզվում է 16-ին GPU- ներ խմբաքանակի չափով 256 հաջորդականություն, և յուրաքանչյուր հաջորդականություն պարունակում է մոտ 512 նշան: Հոսանքից իջնելու համար մոդելը նախապես վերապատրաստված է չորս տարբեր ուսուցման տեմպերով՝ 1×10-4, 2 × 10-4, 3 × 10-4, 4 × 10-4, և նա, ով լավագույնս է կատարում, ընտրվում է NLP-ի ներքևում գտնվող հետագա առաջադրանքների համար: 

Արդյունքներ

Եկեք տեսնենք, թե ինչպես է գործում data2vec մոդելը, երբ այն իրականացնում է վերը քննարկված ռազմավարությունները տարբեր եղանակների համար: 

Համակարգչային տեսլականը

Համակարգչային տեսողության արդյունքները գնահատելու համար data2vec մոդելը նախապես պատրաստված է պատկերներից ստացված պատկերների վրա: ImageNet-1K տվյալների բազա։ Ստացված մոդելը ճշգրտվում է՝ օգտագործելով նույն հենանիշի պիտակավորված տվյալները: Ստանդարտ պրակտիկայի համաձայն, մոդելն այնուհետև գնահատվում է ըստ top-1 ճշգրտություն վավերացման տվյալների վրա։ 

Արդյունքներն այնուհետև տարբերակվում են մեկ ինքնուրույն վերահսկվող մոդելի հիման վրա և լրացուցիչ տվյալների կամ ինքնուրույն վերահսկվող ուսուցման այլ մոդելների վրա առանձին տեսողական ցուցիչ պատրաստելը: 

Ստորև բերված աղյուսակը համեմատում է համակարգչային տեսողության համար data2vec մոդելի և գոյություն ունեցող այլ մոդելների՝ ViT-L և ViT-B կատարողականությունը: 

Վերոնշյալ աղյուսակի արդյունքները կարելի է ամփոփել հետևյալ կերպ. 

  • Data2vec մոդելը գերազանցում է նախորդ աշխատանքին և՛ ViT-L, և՛ ViT-B մոդելների հետ մեկ մոդելի կարգավորումներում: 
  • Ծածկված կանխատեսման կարգավորումը, որն օգտագործվում է data2vec ալգորիթմում՝ համատեքստային թաքնված ներկայացումները կանխատեսելու համար, ավելի լավ է գործում, երբ համեմատվում են տեղական թիրախները կանխատեսող մեթոդների հետ, ինչպիսիք են ինժեներական պատկերի առանձնահատկությունները, մուտքային պիքսելները կամ տեսողական նշանները: 
  • Data2vec մոդելը նույնպես գերազանցում է ինքնաթորման մեթոդները, որոնք ռեգրես են անում ուսանողական ցանցի վերջնական շերտը՝ միաժամանակ որպես մուտքագրում պատկերի երկու տարբեր ընդլայնված տարբերակներ: 

Աուդիո և խոսքի մշակում

Խոսքի և աուդիո մշակման համար data2vec մոդելը վերապատրաստվում է մոտ 960 ժամ ձայնային տվյալների վրա, որոնք ստացվել են Librispeech (LS-960) տվյալների բազա։ Տվյալների հավաքածուն պարունակում է մաքուր խոսքի աուդիո աուդիոգրքերից անգլերեն, և այն համարվում է ստանդարտ չափանիշ խոսքի և աուդիո մշակման ոլորտում: 

Տարբեր ռեսուրսների պարամետրերում մոդելի կատարումը վերլուծելու համար հետազոտողները լավ կարգավորել են data2vec մոդելը՝ օգտագործելու տարբեր քանակությամբ պիտակավորված տվյալներ (մի քանի րոպեից մինչև մի քանի ժամ) խոսքի ավտոմատ ճանաչման համար: Մոդելի արդյունավետությունը վերլուծելու համար data2vec-ը համեմատվում է ՀյուԲԵՐՏ & wav2vec 2.0, խոսքի և աուդիո ներկայացման ուսուցման ամենահայտնի ալգորիթմներից երկուսը, որոնք հիմնված են դիսկրետ խոսքի միավորների վրա: 

Վերոնշյալ աղյուսակը համեմատում է data2vec-ի կատարումը խոսքի ճանաչման համար բառի արագության առումով այլ գոյություն ունեցող մոդելների հետ: LM ներկայացնում է վերծանման համար օգտագործվող լեզվի մոդելը: Արդյունքները կարելի է ամփոփել հետևյալ կերպ. 

  • Data2vec մոդելը ցույց է տալիս բարելավումներ պիտակավորված տվյալների մեծ մասի համար՝ 10 րոպե պիտակավորված տվյալների ամենամեծ շահույթով Base մոդելների համար: 
  • Երբ խոսքը վերաբերում է մեծ մոդելներին, մոդելը զգալիորեն ավելի լավ է աշխատում փոքր պիտակավորված տվյալների հավաքածուների վրա, և արդյունավետությունը համեմատելի է ռեսուրսներով հարուստ տվյալների հավաքածուների դեպքում՝ ավելի քան 100 և 960 ժամ պիտակավորված տվյալների վրա: Դա պայմանավորված է նրանով, որ մոդելների մեծամասնության համար արդյունավետությունը սովորաբար հագեցած է ռեսուրսներով հարուստ պիտակավորված տվյալների բազայում: 
  • Կատարումը վերլուծելուց հետո կարելի է եզրակացնել, որ երբ մոդելն օգտագործում է հարուստ համատեքստային թիրախներ, էական չէ դիսկրետ միավորներ սովորելը: 
  • Ուսուցման ընթացքում համատեքստային թիրախների ուսուցումն օգնում է զգալիորեն բարելավել ընդհանուր կատարողականը: 

Ավելին, խոսքի ճանաչման համար data2vec-ի մոտեցումը հաստատելու համար մոդելը նաև վերապատրաստվել է. AudioSet ելակետային. Թեև AudioSet-ի նախնական ուսուցման կարգավորումը նման է Librispeech-ին, մոդելը պատրաստված է K= 12-ի և ավելի քան 200K թարմացումների համար, որտեղ յուրաքանչյուր խմբաքանակի չափը 94.5 րոպե է: 

Այնուհետև մոդելը կիրառում է DeepNorm շրջանակ, և շերտի նորմալացում թիրախներին՝ օգնելու մարզումների կայունացմանը: Բացի այդ, մոդելը նաև լավ կարգավորվում է հավասարակշռված ենթաբազմությունների վրա, որոնց խմբաքանակի չափը 21.3 րոպե է 13 հազար թարմացումների համար: Մոդելը նաև օգտագործում է Գծային Softmax միավորում և խառնումը՝ 0.7 հավանականության միավորով: Այնուհետև մոդելն ավելացնում է a մեկ գծային պրոյեկցիա 527 եզակի աուդիո դասերի մեջ և սահմանում է պրոյեկցիոն ուսուցման մակարդակը դեպի 2e-4: 

Ավելին, նախապես վերապատրաստված պարամետրերն ունեն 3e-5 ուսուցման արագություն, և մոդելը օգտագործում է քողարկման տեխնիկա՝ տվյալների շտեմարանը լավ կարգավորելու համար: Ստորև բերված աղյուսակը ամփոփում է արդյունքները, և կարելի է տեսնել, որ data2vec մոդելն ի վիճակի է գերազանցել համեմատելի կարգավորումները նույն ճշգրտման և նախնական վերապատրաստման տվյալների հետ: 

Բնական լեզուների մշակումը

Տեքստի վրա data2vec-ի աշխատանքը վերլուծելու համար մոդելը հետևում է նույն ուսուցման կարգաբերմանը, ինչ ԲԵՐՏ և մոդելի նախնական ուսուցում անգլերեն Վիքիպեդիայի տվյալների բազայի վրա՝ ավելի քան 1M թարմացումներով, և խմբաքանակի չափը 256 հաջորդականություն է: Մոդելը գնահատվում է GLUE կամ ընդհանուր լեզուների ըմբռնման գնահատում հենանիշ, որը ներառում է բնական լեզվի միջամտության առաջադրանքներ (MNLI կամ բազմաժանր բնական լեզվի եզրակացություն), նախադասության նմանություն (QQP կամ Quora Question Pairs հենանիշ, MRPC կամ Microsoft Research Paragraph Corpus, և STS-B կամ իմաստային տեքստային նմանության չափանիշ), տրամադրությունների վերլուծություն (SST-2 կամ Stanford Sentiment Treebank), և քերականորեն (CoLA). 

Ավելին, data2vec մոդելը լավ կարգավորելու համար պիտակավորված տվյալները տրամադրվում են յուրաքանչյուր առաջադրանքի կողմից, և միջին ճշգրտությունը հաղորդվում է մշակման հավաքածուների վրա՝ 5 ճշգրտման գործարկումներով: Հետևյալ աղյուսակը ամփոփում է data2vec մոդելի կատարումը բնական լեզվի մշակման առաջադրանքների համար և համեմատում այն ​​այլ մոդելների հետ: 

  • Վերոնշյալ տվյալները ցույց են տալիս, որ data2vec մոդելը գերազանցում է ելակետային RoBERTa մոդելին, քանի որ data2vec մոդելի ռազմավարությունը չի օգտագործում պատահական թիրախներ: 
  • Data2vec մոդելը առաջին հաջող նախապես վերապատրաստված NLP մոդելն է, որը չի օգտագործում դիսկրետ միավորներ, ինչպիսիք են նիշերը, բառերը կամ ենթաբառերը որպես ուսումնական թիրախ: Փոխարենը, data2vec շրջանակը կանխատեսում է համատեքստային թաքնված ներկայացում ամբողջ չդիմակավորված տեքստի հաջորդականության վրա: 
  • Այն օգնում է ստեղծել ուսումնական առաջադրանք, որտեղ մոդելից պահանջվում է կանխատեսել կոնկրետ հատկություններ ունեցող թիրախները ընթացիկ հաջորդականությունից, այլ ոչ թե կանխատեսել այնպիսի ներկայացումներ, որոնք ընդհանուր են յուրաքանչյուր տեքստային միավորի համար հատուկ հայեցողությամբ: 
  • Ավելին, ուսուցման թիրախային հավաքածուն ամրագրված չէ, և մոդելն ազատ է նոր թիրախներ սահմանելու համար, և այն բաց է բառապաշարի պարամետրերի համար: 

Data2Vec. Ablations ուսումնասիրություն

Աբլյացիան տերմին է, որն օգտագործվում է AI և ML համակարգերում բաղադրիչի հեռացումը սահմանելու համար: Աբլյացիայի ուսումնասիրությունը օգտագործվում է AI կամ ML մոդելի կատարումը հետաքննելու կամ վերլուծելու համար՝ հեռացնելով որոշ հիմնական բաղադրիչներ մոդելից, որը թույլ է տալիս հետազոտողներին հասկանալ այդ բաղադրիչի ներդրումն ընդհանուր համակարգում: 

Շերտերի միջինացված թիրախներ

Data2vec-ի և այլ ինքնուրույն վերահսկվող ուսուցման մոդելների միջև հիմնական տարբերությունն այն է, որ data2vec մոդելն օգտագործում է թիրախներ, որոնք հիմնված են ուսուցիչների ցանցից մի քանի շերտերի միջինացման վրա: Գաղափարը ծագում է նրանից, որ wav2vec 2.0 մոդելի վերին վերին շերտերը լավ չեն կատարում ներքևի առաջադրանքների համար, երբ համեմատվում են մոդելի միջին շերտերի հետ: 

Հետևյալ փորձի ժամանակ բոլոր երեք մոդալների կատարումը չափվում է K= 1, 2, …, 12 շերտերի միջին հաշվարկով, որտեղ K= 1-ը կանխատեսում է միայն վերին շերտը: Այնուամենայնիվ, ավելի արագ շրջադարձային ժամանակ կորզելու համար data2vec-ը վերապատրաստում է բազային մոդելը ընդհանուր 12 շերտով: Խոսքի ճանաչման համար մոդելը նախապես վերապատրաստվում է Librispeech-ի ավելի քան երկու հարյուր հազար թարմացումների վրա, այնուհետև ճշգրտվում է Libri-light-ի 10 ժամ պիտակավորված բաժանման վրա: Բնական լեզվի մշակման համար մոդելը հաղորդում է միջին GLUE միավորը վավերացման հավաքածուի համար, և նախապես վերապատրաստում է մոդելը 300 դարաշրջանի համար համակարգչային տեսողության համար և այնուհետև հայտնում է ImageNet տվյալների բազայում ստացված լավագույն 1 ճշգրտությունը: 

Վերոնշյալ նկարը ցույց է տալիս, որ բազմաթիվ շերտերի վրա հիմնված թիրախները սովորաբար բարելավվում են, երբ բոլոր եղանակների համար օգտագործվում է միայն K=1 վերին շերտը: Առկա բոլոր շերտերի օգտագործումը լավ պրակտիկա է, քանի որ նեյրոնային ցանցերը կառուցում են առանձնահատկություններ տարբեր տեսակի հատկանիշների վրա, և բազմաթիվ շերտեր, որոնք այնուհետև արդյունահանվում են որպես առանձնահատկությունների շերտեր: 

Բազմաշերտ հատկությունների օգտագործումն օգնում է բարձրացնել ճշգրտությունը և հարստացնում է ինքնուրույն վերահսկվող ուսուցման գործընթացը: 

Թիրախային հատկանիշի տեսակը

Տրանսֆորմատորային բլոկները data2vec մոդելում ունեն մի քանի շերտեր, որոնք բոլորը կարող են ծառայել որպես թիրախ: Վերլուծելու համար, թե ինչպես են տարբեր շերտերը ազդում կատարման վրա, մոդելը նախապես վերապատրաստվել է Librispeech-ի խոսքի մոդելների վրա, որոնք օգտագործում են տարբեր շերտեր որպես թիրախային հատկանիշներ: 

Ստորև բերված նկարը հստակ ցույց է տալիս, որ սնուցող ցանցի կամ FFN-ի ելքը իդեալական է աշխատում, մինչդեռ ինքնավստահության բլոկների ելքը չի հանգեցնում օգտագործելի մոդելի: 

Թիրախային համատեքստայինացում

Ուսուցչի ներկայացումները data2vec մոդելում օգտագործում են ինքնավստահություն ամբողջ մուտքագրման վրա՝ համատեքստային թիրախներ ստեղծելու համար: Դա այն է, ինչ առանձնացնում է data2vec-ը այլ ինքնուրույն վերահսկվող ուսուցման մոդելներից, որոնք կառուցում են ուսումնական առաջադրանք՝ վերակառուցելով կամ կանխատեսելով մուտքագրման տեղական մասերը: Ակնհայտորեն հարց է առաջանում. Արդյո՞ք data2vec մոդելը պահանջում է համատեքստային թիրախներ լավ աշխատելու համար: 

Հարցին պատասխանելու համար հետազոտողները կառուցում են թիրախային ներկայացումներ, որոնք մուտք չունեն ամբողջ մուտքային տվյալների հավաքածուին, այլ միայն դրա մի մասն է, որը կանխորոշված ​​է: Այնուհետև մոդելը սահմանափակում է ուսուցչի ինքնորոշման մեխանիզմը, որը թույլ է տալիս նրան մուտք գործել շրջակա միջավայրի մուտքի միայն մի մասը: Մոդելի վերապատրաստումից հետո այն ճշգրտվում է համատեքստի ամբողջական չափը մուտք գործելու համար: 

Ստորև բերված նկարը ցույց է տալիս, որ համատեքստի ավելի մեծ չափերը հաճախ հանգեցնում են ավելի լավ կատարման, և երբ ամբողջ մուտքային նմուշը տեսանելի է, այն տալիս է լավագույն ճշգրտությունը: Դա ավելի է ապացուցում ավելի հարուստ թիրախային ներկայացումները կարող են ավելի լավ արդյունք տալ: 

Մոդալիզմի հատուկ առանձնահատկությունների արդյունահանող և դիմակավորում

Data2vec-ի առաջնային նպատակն է նախագծել պարզ ուսուցման մեխանիզմ, որը կարող է աշխատել տարբեր եղանակներով: Դա պայմանավորված է նրանով, որ չնայած ներկայիս մոդելներն ու շրջանակներն ունեն միասնական ուսուցման ռեժիմ, նրանք դեռ օգտագործում են մոդալների հատուկ դիմակավորում և առանձնահատկություններ հանող սարքեր: 

Իմաստ է, որ շրջանակները հիմնականում աշխատում են մեկ եղանակով, հաշվի առնելով, որ մուտքային տվյալների բնույթը մեծապես տարբերվում է միմյանցից: Օրինակ, խոսքի ճանաչման մոդելներն օգտագործում են բարձր լուծաչափի մուտքագրում (օրինակ՝ 10 կՀց ալիքի ձև), որը սովորաբար ունենում է հազարավոր նմուշներ: Ալիքի ձևն այնուհետև մշակվում է շրջանակի կողմից՝ օգտագործելով բազմաշերտ կոնվոլյուցիոն նեյրոնային ցանց՝ 50 Հց հաճախականություններ ստանալու համար: 

Կառուցվածքային և համատեքստային թիրախներ

Data2vec-ի և այլ դիմակավորված կանխատեսման մոդելների միջև հիմնական տարբերակիչ կետն այն է, որ data2vec մոդելում ուսումնական թիրախների առանձնահատկությունները համատեքստային են: Այս հատկանիշները ստեղծվել են՝ օգտագործելով ամբողջ դիմակավորված մուտքագրման ինքնաուշադրությունը ուսուցչի ռեժիմում: 

Որոշ այլ շրջանակներ, ինչպիսիք են BYOL-ը (Bootstrap Your Own Latent) կամ DINO-ն, նույնպես օգտագործում են թաքնված ներկայացումներ, ինչպիսիք են data2vec-ը, բայց դրանց հիմնական նպատակը փոխակերպման անփոփոխ ներկայացումներ սովորելն է: 

Վերջնական Մտքեր

AI և ML արդյունաբերության վերջին աշխատանքները ցույց են տվել, որ միատեսակ մոդելային ճարտարապետությունը կարող է արդյունավետ մոտեցում լինել բազմաթիվ եղանակների դեմ պայքարելու համար: Data2vec մոդելը օգտագործում է ինքնուրույն վերահսկվող ուսուցման մոտեցում երեք եղանակների հետ աշխատելու համար՝ խոսք, պատկերներ և լեզու: 

Data2vec մոդելի հիմնական հայեցակարգը մասնակի մուտքային տեսքի օգտագործումն է՝ համատեքստային տեղեկատվության կամ մուտքագրման տվյալների հետընթացի համար: Data2vec շրջանակների կողմից օգտագործվող մոտեցումն արդյունավետ է, քանի որ մոդելն ավելի լավ է գործում, քան նախկինում վերահսկվող ուսուցման մոդելները ImageNet-1K տվյալների բազայում ինչպես ViT-B, այնպես էլ ViT-L առանձին մոդելների համար: 

Data2vec-ը իսկապես կարևոր իրադարձություն է ինքնուրույն վերահսկվող ուսուցման ոլորտում, քանի որ այն ցույց է տալիս, որ մի քանի եղանակներ սովորելու մեկ ուսուցման մեթոդ կարող է իսկապես հեշտացնել մոդելների համար տարբեր եղանակներով սովորելը: 

«Մասնագիտությամբ ինժեներ, անգիր գրող». Կունալը տեխնիկական գրող է, որն ունի AI և ML-ի խորը սեր և հասկացողություն, որը նվիրված է այս ոլորտներում բարդ հասկացությունների պարզեցմանը իր գրավիչ և տեղեկատվական փաստաթղթերի միջոցով: