Արհեստական բանականություն

data2vec. Մի կարևոր իրադարձություն ինքնավերահսկվող ուսուցման մեջ

Թարմացվել է on Օգոստոս 2, 2023

Մեքենայական ուսուցման մոդելները մեծապես հիմնվել են պիտակավորված տվյալների վրա ուսուցման համար, և ավանդաբար, պիտակավորված տվյալների վրա վերապատրաստման մոդելները ճշգրիտ արդյունքներ են տալիս: Այնուամենայնիվ, պիտակավորված տվյալների օգտագործման հիմնական բացասական կողմը անոտացիայի բարձր ծախսերն են, որոնք աճում են վերապատրաստման տվյալների չափի մեծացման հետ: Անոտացիայի բարձր ծախսերը մեծ խոչընդոտ են ծրագրավորողների համար, հատկապես, երբ աշխատում են մեծ նախագծի վրա՝ զգալի քանակությամբ վերապատրաստման տվյալներով:

Անոտացիայի խնդիրը լուծելու համար մշակողները եկան հայեցակարգի SSL կամ ինքնավերահսկվող ուսուցում. Ինքնավերահսկվող ուսուցումը մեքենայական ուսուցման գործընթաց է, որում մոդելը սովորում է սովորել մուտքի մի մասը մուտքի մեկ այլ մասից. Ինքնավերահսկվող ուսուցման մոդելը նպատակ ունի օգտագործել տվյալների միջև կապը պիտակավորված տվյալների վերահսկվող ազդանշանների օգտագործման փոխարեն:

Բացի ինքնավերահսկվող ուսուցումից, կան մի քանի այլ մեթոդներ և մոդելներ՝ առանց պիտակավորված տվյալների օգտագործման, մեքենայական ուսուցման մոդելներ վարժեցնելու համար: Այնուամենայնիվ, այս մեթոդներից շատերը երկու հիմնական խնդիր ունեն

Նրանք հաճախ մասնագիտացված են մեկ ձևի համար, ինչպիսին է պատկերը կամ տեքստը:
Նրանք պահանջում են մեծ քանակությամբ հաշվողական հզորություն:

Այս սահմանափակումները հիմնական խնդիրն են, թե ինչու միջին մարդկային միտքը կարողանում է շատ ավելի արդյունավետ սովորել մեկ տեսակի տվյալներից՝ համեմատած AI մոդելի հետ, որը հիմնվում է առանձին մոդելների և ուսումնական տվյալների վրա՝ պատկերը, տեքստը և խոսքը տարբերելու համար:

Սինգլի մոդալության խնդիրը լուծելու համար Meta AI-ն թողարկեց data2vec՝ իր տեսակի մեջ առաջին, ինքնուրույն վերահսկվող բարձր արդյունավետության ալգորիթմը սովորել օրինաչափությունների մասին տեղեկատվություն երեք տարբեր եղանակներից՝ պատկեր, տեքստ և խոսք: Data2vec ալգորիթմի ներդրման դեպքում տեքստի ըմբռնումը կարող է կիրառվել պատկերի սեգմենտավորման խնդրի համար, կամ այն կարող է նաև տեղակայվել խոսքի ճանաչման առաջադրանքում:

Այս հոդվածում մենք մանրամասնորեն կխոսենք data2vec մոդելի մասին: Մենք ավելի խորությամբ կքննարկենք մեթոդի ակնարկը, հարակից աշխատանքը, ճարտարապետությունը և մոդելի արդյունքները, որպեսզի դուք հստակ պատկերացնեք data2vec ալգորիթմը:

Data2vec Ներածություն. Հիմնական գաղափարը

Թեև Ինքնավերահսկվող ուսուցման հիմնարար հայեցակարգը կիրառվում է տարբեր եղանակներով, իրական նպատակներն ու ալգորիթմները տարբերվում են միմյանցից, քանի որ դրանք նախագծվել են մեկ ձևի համար: Մեկ եղանակի համար մոդելի նախագծումն է պատճառը, որ նույն ինքնուրույն վերահսկվող ուսուցման ալգորիթմը չի կարող արդյունավետ աշխատել տարբեր տեսակի վերապատրաստման տվյալների վրա:

Մեկ մոդալիզմի մոդելների և ալգորիթմների կողմից ներկայացված մարտահրավերը հաղթահարելու համար Meta AI-ն թողարկեց data2vec-ը՝ ալգորիթմ, որն օգտագործում է ուսուցման նույն մեթոդաբանությունը կամ համակարգչային տեսլականի համար, NLP կամ խոսք.

Data2vec ալգորիթմի հիմքում ընկած հիմնական գաղափարը մուտքագրման դիմակավորված տեսքի օգտագործումն է կանխատեսել ամբողջական մուտքային տվյալների թաքնված ներկայացումները ինքնաթորման կարգավորմամբ՝ օգնությամբ ստանդարտ տրանսֆորմատորային ճարտարապետություն. Այսպիսով, մոդալային հատուկ օբյեկտների փոխարեն, ինչպիսիք են պատկերները, տեքստը կամ ձայնը, որոնք ունեն տեղական բնույթ, data2vec ալգորիթմը կանխատեսում է թաքնված ներկայացումներ ամբողջական վերապատրաստման կամ մուտքագրման տվյալների հետ:

Ինչու՞ է AI արդյունաբերությանը պետք Data2Vec ալգորիթմը:

Ինքնավերահսկվող ուսուցման մոդելները կառուցում են վերապատրաստման տվյալների ներկայացումներ՝ օգտագործելով մարդու ծանոթագրված պիտակները, և դա NLP-ի կամ բնական լեզվի մշակման և Computer Vision տեխնոլոգիայի առաջխաղացման հիմնական պատճառներից մեկն է: Այս ինքնուրույն վերահսկվող ուսուցման ներկայացումներն են պատճառը, որ այնպիսի առաջադրանքներ, ինչպիսիք են խոսքի ճանաչումը և մեքենայական ուսուցումը, իրենց մոդելներում տեղակայում են չվերահսկվող ուսուցում:

Մինչ այժմ, այս ինքնուրույն վերահսկվող ուսուցման ալգորիթմները կենտրոնանում են անհատական եղանակների վրա, որոնք հանգեցնում են ուսուցման կողմնակալության և մոդելների հատուկ ձևավորման: Ինքն վերահսկվող ուսուցման ալգորիթմների անհատական եղանակը մարտահրավերներ է ստեղծում արհեստական ինտելեկտի տարբեր հավելվածներում, ներառյալ համակարգչային տեսլականը և NLP-ն:

Օրինակ, խոսքի մշակման մեջ կա խոսքի միավորների բառապաշար, որը կարող է սահմանել NLP-ում ինքնուրույն վերահսկվող ուսումնական առաջադրանք: Նմանապես, մեջ համակարգչային տեսլական, մշակողները կարող են կա՛մ հետընթաց կատարել մուտքագրումը, կա՛մ սովորել դիսկրետ վիզուալ նշաններ կամ սովորել տվյալների ավելացման անփոփոխ ներկայացումներ: Թեև այս ուսուցման կողմնակալությունները հարմար են, դժվար է հաստատել, թե արդյոք այդ կողմնակալությունները կընդհանրանան այլ եղանակների վրա:

Data2vec ալգորիթմը մեծ կարևոր իրադարձություն է ինքնուրույն վերահսկվող ուսուցման ոլորտում, քանի որ այն նպատակաուղղված է մի քանի եղանակների բարելավմանը, այլ ոչ թե մեկին: Ավելին, data2vec ալգորիթմը կախված չէ մուտքագրման կամ հակադրական ուսուցման վերակառուցման վրա:

Այսպիսով, պատճառը, թե ինչու է աշխարհը data2vec-ի կարիքն ունի, այն է, որ data2vec ալգորիթմն ունի AI-ի առաջընթացն արագացնելու ներուժ և նպաստում է AI մոդելների մշակմանը, որոնք կարող են անխափան կերպով իմանալ իրենց շրջապատի տարբեր ասպեկտների մասին: Գիտնականները հուսով են, որ data2vec ալգորիթմը թույլ կտա նրանց զարգացնել ավելի հարմարվող AI և ML մոդելներ, որոնք ի վիճակի են կատարել բարձր առաջադեմ առաջադրանքներ, քան կարող են անել այսօրվա AI մոդելները:

Ի՞նչ է Data2Vec ալգորիթմը:

Data2vec-ը միասնական շրջանակ է, որի նպատակն է իրականացնել ինքնավերահսկվող մեքենայական ուսուցում տվյալների տարբեր եղանակներով, ներառյալ պատկերները, խոսքը և տեքստը:

Data2vec ալգորիթմը նպատակ ունի մշակել ML մոդելներ, որոնք կարող են շատ ավելի լավ սովորել միջավայրի ընդհանուր օրինաչափությունները՝ պահպանելով ուսուցման նպատակը միատեսակ տարբեր եղանակներով: Data2vec մոդելը միավորում է ուսուցման ալգորիթմը, սակայն այն դեռ սովորում է յուրաքանչյուր եղանակի ներկայացումները առանձին-առանձին:

Data2vec ալգորիթմի ներդրմամբ Meta AI-ն հուսով է, որ այն կդարձնի մուլտիմոդալ ուսուցումն արդյունավետ և շատ ավելի պարզ:

Ինչպե՞ս է աշխատում Data2Vec ալգորիթմը:

Data2vec ալգորիթմը համատեղում է թաքնված թիրախային ներկայացումների ուսուցումները դիմակավորված կանխատեսման հետ, չնայած այն օգտագործում է ցանցի բազմաթիվ շերտեր որպես թիրախներ՝ թաքնված ներկայացումները ընդհանրացնելու համար: Մոդելը հատուկ մարզում է առանց դարակաշարերի Տրանսֆորմատորային ցանց որը այնուհետև օգտագործվում է կամ մեջ ուսուցիչ կամ ուսանող ռեժիմ:

Ուսուցիչի ռեժիմում մոդելը նախ կառուցում է այն ներկայացումները մուտքագրել տվյալներ, որոնք ծառայում են որպես ուսումնական առաջադրանքի թիրախ. Ուսանողի ռեժիմում մոդելը կոդավորում է մուտքային տվյալների դիմակավորված տարբերակը, որն այնուհետև օգտագործվում է ամբողջական տվյալների ներկայացման վերաբերյալ կանխատեսումներ կատարելու համար:

Վերոնշյալ նկարը ներկայացնում է, թե ինչպես է data2vec մոդելը օգտագործում նույն ուսուցման գործընթացը տարբեր եղանակների համար: Առաջին քայլում մոդելը արտադրում է մուտքային տվյալների ներկայացումներ (ուսուցչի ռեժիմ) Այնուհետև մոդելը հետ է մղում այս ներկայացումները մուտքի դիմակավորված տարբերակի հիման վրա:

Ավելին, քանի որ data2vec ալգորիթմն օգտագործում է մուտքային տվյալների թաքնված ներկայացումներ, այն կարող է դիտվել որպես մոդալների հատուկ ձևավորումների պարզեցված տարբերակ, ինչպիսիք են. ստեղծելով համապատասխան թիրախներ՝ մուտքագրման նորմալացման միջոցով or սովորելով տեսողական նշանների ֆիքսված հավաքածու: Սակայն data2vec-ի և այլ ալգորիթմների միջև կարևորագույն տարբերակիչ կետն այն է, որ data2vec ալգորիթմը օգտագործում է ինքնավստահություն՝ իր նպատակային ներկայացումը կատարելու համար: համատեքստային և շարունակական. Մյուս կողմից, ինքնուրույն վերահսկվող ուսուցման այլ մոդելներ օգտագործում են թիրախների ֆիքսված շարք, որոնք հիմնված են տեղական համատեքստի վրա:

Data2vec. Մոդելային մեթոդ

Data2vec մոդելը վերապատրաստվում է՝ կանխատեսելով մուտքային տվյալների մոդելային ներկայացումները՝ տրված մուտքի մասնակի տեսքից: Ինչպես տեսնում եք տրված նկարում, շան դեմքը դիմակավորված է, ձայնային նոտայի որոշակի հատված դիմակավորված է, և բառը «հետ», տեքստում դիմակավորված է:

Մոդելը նախ կոդավորում է ուսուցման նմուշի դիմակավորված տարբերակը (ուսանողական ռեժիմ), և այնուհետև կոդավորում է մուտքի չդիմակավորված տարբերակը՝ նույն մոդելով ուսումնական թիրախներ կառուցելու համար, բայց միայն այն դեպքում, երբ այն պարամետրացված է որպես մոդելի կշիռների էքսպոնենցիալ միջին (ուսուցչի ռեժիմ) Ավելին, թիրախային ներկայացումները կոդավորում են վերապատրաստման նմուշում առկա տեղեկատվությունը, իսկ ուսանողի ռեժիմում ուսուցման առաջադրանքը օգտագործվում է կանխատեսելու այդ ներկայացումները, երբ տրվում է մուտքագրման մասնակի պատկերացում:

Մոդելային ճարտարապետություն

Data2vec մոդելը օգտագործում է ստանդարտ Տրանսֆորմատորային ճարտարապետություն մուտքային տվյալների մոդալային հատուկ կոդավորմամբ: Համակարգչային տեսողության հետ կապված առաջադրանքների համար մոդելը օգտագործում է ViT ռազմավարությունը՝ պատկերը կոդավորելու համար՝ որպես բեկորների հաջորդականություն, որտեղ յուրաքանչյուր պատկեր ընդգրկում է ավելի քան 16×16 պիքսել և սնվում է որպես գծային փոխակերպում:

Ավելին, խոսքի ճանաչման տվյալները, մոդելը կոդավորում է տվյալները՝ օգտագործելով բազմաշերտ 1-D կոնվոլյուցիոն նեյրոնային ցանց, որը քարտեզագրում է 16 կՀց ալիքի ձևերը 50 Հց հաճախականությամբ: Տեքստային տվյալները մշակելու համար մոդելը նախապես մշակում է տվյալները՝ ենթաբառերի միավորներ հանելու համար, և այնուհետև տվյալները տեղադրում է բաշխման տարածության մեջ՝ ներկառուցված վեկտորների միջոցով:

Կնիկի

Երբ մոդելը ներկառուցում է մուտքային տվյալները որպես նշանների հաջորդականություն, մոդելը քողարկում է այս միավորների մասերը՝ դրանք փոխարինելով ներկառուցվող նշանով, այնուհետև հաջորդականությունը սնուցում է տրանսֆորմատոր ցանց. Համակարգչային տեսլականի համար մոդելը կիրառում է բլոկային գծանշման ռազմավարություն: Խոսքի թաքնված ներկայացումները օգտագործվում են խոսքի տվյալների տարածությունները քողարկելու համար, իսկ լեզվին առնչվող առաջադրանքների համար նշանները դիմակավորված են:

Վերապատրաստման թիրախներ

Data2vec մոդելը նպատակ ունի կանխատեսել չդիմակավորված ուսումնական նմուշի մոդելային ներկայացումները՝ հիմնված դիմակավորված նմուշի կոդավորման վրա, որն ի սկզբանե սնվել է մոդելին: Մոդելը կանխատեսում է ներկայացումները միայն դիմակավորված ժամանակային քայլերի համար:

Մոդելը կանխատեսում է համատեքստային ներկայացումներ որը ոչ միայն կոդավորում է որոշակի ժամանակի քայլը, այլ նաև կոդավորում է նմուշի այլ տեղեկատվություն, քանի որ այն օգտագործում է ինքնավստահություն տրանսֆորմատորային ցանցում: Համատեքստային ներկայացումները և Transformer ցանցի օգտագործումն այն է, ինչը տարբերում է data2vec մոդելն արդեն գոյություն ունեցողից BERT, wav2vec, BEiT, SimMIM, MAE և MaskFeat մոդելներ, որոնք կանխատեսում են թիրախներ առանց համատեքստային տեղեկատվության:

Ահա թե ինչպես է data2vec մոդելը պարամետրավորում ուսուցչի ռեժիմը՝ կանխատեսելու ցանցի ներկայացումները, որոնք այնուհետև ծառայում են որպես թիրախ:

Ուսուցչի պարամետրիզացիա

Data2vec մոդելը պարամետրավորեց չդիմակավորված ուսումնական նմուշի կոդավորումը՝ օգտագործելով EMA կամ էքսպոնենտալ շարժվող միջին մոդելի պարամետրերից (θ), որտեղ մոդելի կշիռները թիրախային ռեժիմ (△) են հետեւյալ

∆ ← τ∆ + (1 − τ ) θ

Ավելին, մոդելը պլանավորում է τ-ի համար, որը գծային կերպով մեծացնում է պարամետրը τ0-ից տե (նպատակային արժեք) առաջին τn թարմացումների նկատմամբ: Այս թարմացումներից հետո մոդելը պահպանում է արժեքը հաստատուն, մինչև վերապատրաստումը ավարտվի: EMA ռազմավարության օգտագործումը շատ ավելի հաճախ է թարմացնում ուսուցիչը սկզբում, երբ վերապատրաստումը սկսվում է, երբ մոդելը պատահական է: Քանի որ դասընթացը շարունակվում է և լավ պարամետրեր են սովորում, ուսուցիչը ավելի քիչ է թարմացվում:

Արդյունքները ցույց են տալիս, որ մոդելն ավելի արդյունավետ և ճշգրիտ է, երբ այն կիսում է առանձնահատկությունների կոդավորիչի և դիրքային կոդավորչի պարամետրերը աշակերտի և ուսուցչի ռեժիմների միջև:

Կառույցների մեջ

Վերապատրաստման թիրախների կառուցումը կախված է վերևի արդյունքից K Ուսուցչի ցանցի բլոկները ժամանակային քայլերի համար, որոնք դիմակավորված են ուսանողի ռեժիմում: Բլոկի ելքը l ցանկացած ժամանակ-քայլ t նշվում է որպես աlt. Այնուհետև մոդելը կիրառում է նորմալացում յուրաքանչյուր բլոկի վրա՝ â ստանալու համարlt նախքան այն միջինացնում է վերին K բլոկները

վերապատրաստման նպատակը ձեռք բերելու համար yt ժամանակային քայլի համար t հետ ցանցի համար L բլոկներ ընդհանուր առմամբ:

Այն ստեղծում է ուսուցման թիրախներ, որոնք մոդելը հետ է գնում, երբ այն գտնվում է ուսանողական ռեժիմում: Նախնական փորձարկումներում data2vec մոդելը լավ գործեց յուրաքանչյուր բլոկը առանձին կանխատեսելով հատուկ պրոյեկցիայի միջոցով և միևնույն ժամանակ շատ ավելի արդյունավետ էր:

Ավելին, թիրախների նորմալացումը նաև թույլ է տալիս data2vec մոդելին փլուզվել և վերածվել ժամանակի քայլերի մշտական ներկայացումների և թույլ չտալ, որ բարձր նորմալացում ունեցող շերտերը գերիշխեն թիրախային տվյալների բազայի հատկանիշների վրա: Խոսքի ճանաչման համար մոդելն օգտագործում է օրինակների նորմալացում ընթացիկ մուտքային նմուշի վրա՝ առանց որևէ սովորած պարամետրի: Դա հիմնականում պայմանավորված է նրանով, որ քանի որ մուտքային տվյալների վրա քայլը փոքր է, հարևան ներկայացումները մեծ փոխկապակցված են:

Բացի այդ, հետազոտողները պարզել են, որ համակարգչային տեսլականի և NLP-ի հետ աշխատելիս, պարամետրից պակաս նորմալացումը բավականաչափ աշխատանք է կատարում: Խնդիրը կարելի է լուծել նաև Տարբերություն-Invariance-Covariance կանոնավորացում, սակայն վերը նշված ռազմավարությունը բավական լավ է գործում, և այն չի պահանջում որևէ լրացուցիչ պարամետր:

Նպատակ

Համատեքստային ուսուցման թիրախների համար yt, մոդելն օգտագործում է ա Հարթ L1 կորուստ հետընթացի թիրախները, ինչպես նշված է ստորև

Այստեղ β-ն վերահսկում է քառակուսի կորստից L1 կորստի անցումը, և դա մեծապես կախված է f մոդելի կանխատեսման միջև եղած բացի չափից:t(x) ժամանակային քայլով t. Այս կորստի առավելությունն այն է, որ դա համեմատաբար ավելի քիչ զգայուն է ծայրամասերի նկատմամբ՝ β-ի պարամետրը կարգավորելու անհրաժեշտությամբ.

Փորձարարական կարգավորում

Data2vec մոդելը փորձարկվել է երկու մոդելի չափերով. data2vec Մեծ և data2vec բազա. Թվային կայունության համար EMA-ի թարմացումները կատարվում են fp32-ում, և մոդելները պարունակում են L= 12 կամ L= 24 տրանսֆորմատորային բլոկներ՝ թաքնված չափսերով (H) = 768 կամ H= 1024: Եկեք մանրամասն նայենք փորձարարական կարգավորումներին տարբեր եղանակների համար: և նպատակները։

Համակարգչային տեսլականը

Data2vec մոդելը զետեղում է 224 × 224 պիքսել պատկերներ՝ որպես 16 × 16 պիքսել չափերի պատիչներ: Այս բծերից յուրաքանչյուրը փոխակերպվում է գծային, և 196 ներկայացումներով հաջորդականությունը սնվում է ստանդարտ տրանսֆորմատորին:

Մոդելը հետևում է BEiT դիմակավորել բլոկները հարակից բծերով, որոնցից յուրաքանչյուրը ունի առնվազն 16 կարկատան՝ պատահական կողմերի հարաբերակցությամբ: Այնուամենայնիվ, կարկատակի 40%-ը քողարկելու փոխարեն, ինչպես սկզբնապես BEiT մոդելում էր, data2vec մոդելը ծածկում է կարկատի 60%-ը՝ ավելի լավ ճշգրտության համար:

Ավելին, մոդելը պատահականորեն փոխում է պատկերների կտրվածքները, հորիզոնական շեղումները և գունային ցնցումները: Ի վերջո, data2vec մոդելն օգտագործում է նույն փոփոխված պատկերը և՛ ուսուցչի, և՛ աշակերտի ռեժիմում:

ViT-B մոդելները նախապես պատրաստված են 800 դարաշրջանի համար, իսկ data2vec մոդելն օգտագործում է խմբաքանակի չափը 8,192 ViT-L մոդելի համար և 2,048 ViT-B մոդելի համար: Data2vec մոդելը նաև օգտագործում է կոսինուս և Ադամի ժամանակացույց մեկ ցիկլով՝ 80 դարաշրջանի համար ուսուցման արագությունը տաքացնելու համար մինչև 0.001՝ ViT-L-ի համար, և 40 դարաշրջանում՝ մինչև 0.001՝ ViT-B-ի համար:

Ինչպես ViT-B-ի, այնպես էլ ViT-L-ի համար data2vec մոդելն օգտագործում է β = 2, K = 6 և τ = 0.9998 որպես հաստատուն՝ առանց ժամանակացույցի: Մոդելը հետագայում օգտագործում է ստոխաստիկ խորության մակարդակը 0.2:

Ավելին, ViT-L-ի համար մոդելը վարժվում է 1,600 դարաշրջանի համար, որտեղ առաջին 800 դարաշրջաններն ունեն 0.9998 ուսուցման արագություն, այնուհետև մոդելը վերակայում է ուսուցման արագության ժամանակացույցը և շարունակվում է վերջին 800 դարաշրջանների համար՝ ուսուցման արագությամբ 0.9999:

Պատկերների դասակարգման համար մոդելն օգտագործում է վերջին տրանսֆորմատորային բլոկի ելքի միջին լողավազանը և այն մատակարարում է softmax-ով նորմալացված դասակարգիչին: Այնուհետև մոդելը լավ լարում է ViT-L-ը 50 դարաշրջանի համար, և ViT-B-ն 100 դարաշրջանի համար՝ օգտագործելով կոսինուսը, և Ադամը՝ ուսուցման արագությունը տաքացնելու համար:

Խոսքի մշակում

Խոսքի մշակման համար data2vec մոդելն օգտագործում է Fairseq, հաջորդականության մոդելավորման հավաքածու, որն օգտագործվում է հաճախորդների մոդելներին ամփոփման, թարգմանության և տեքստի ստեղծման համար վերապատրաստելու համար: Մոդելը ընդունում է 16 կՀց ալիքի ձև, որը մշակվում է ֆունկցիաների կոդավորիչի միջոցով և պարունակում է ժամանակային ոլորումներ 512 ալիքներով, միջուկի լայնությամբ (10,3,3,3,3,2,2) և քայլերով (5,2,2,2,2,2,2): ,XNUMX):

Վերոնշյալը հանգեցնում է նրան, որ կոդավորողի ելքային հաճախականությունը 50 Հց է, և յուրաքանչյուր նմուշի միջև այն ունի 20 մս քայլ: Ընդունիչ դաշտը բաղկացած է 400 մուտքային նմուշներից կամ 25 մվ ձայնագրությունից: Կոդավորիչին սնվող չմշակված ալիքի ձևը նորմալացվում է մինչև միավորի շեղումը և զրոյական միջինը.

Բազային մոդելի համար օգտագործվող data2vec-ի կողմից քողարկված ռազմավարությունը նման է խոսքի ճանաչման մեջ ինքնուրույն վերահսկվող ուսուցման Baevski-ի շրջանակին: Մոդելի նմուշներ p = 0.065 բոլոր ժամանակային քայլերի համար, որոնք մեկնարկային ինդեքսներ են, և շարունակում է նշել հետևյալ տասը ժամանակային քայլերը: Սովորական ուսուցման հաջորդականության համար գործընթացը թույլ է տալիս դիմակավորել ընդհանուր ժամանակային քայլերի գրեթե 49%-ը:

Դասընթացի ընթացքում data2vec մոդելը գծային կերպով կռում է τ՝ օգտագործելով τo = 0.999, տe = 0.9999, և տn = 30,000. Data2vec մոդելն օգտագործում է Ադամի օպտիմիզատորը, որի ուսուցման առավելագույն արագությունը 5×10 է-4 Base մոդելի համար: Ավելին, բազային մոդելն օգտագործում է եռաստիճան ժամանակացույց, որը գծայինորեն տաքացնում է ուսուցման արագությունը թարմացումների առաջին 3%-ի համար, պահպանում է այն հաջորդ 90%-ի համար և այնուհետև անցնում է գծային քայքայմանը մնացած 7%-ի համար։

Բնական լեզուների մշակումը

Data2vec մոդելն օգտագործում է 50K տիպի բայթ-զույգ կոդավորումը՝ մուտքագրումը նշանավորելու համար, և այնուհետև մոդելը սովորում է ներկառուցում յուրաքանչյուր տեսակի համար: Տվյալների կոդավորումից հետո մոդելը կիրառում է BERT դիմակավորման ռազմավարությունը միատեսակ ընտրված նշանների 15%-ի վրա, որոնցում 80%-ը փոխարինվում է սովորած դիմակներով, 10%-ը փոխարինվում է պատահական բառապաշարով, իսկ մնացած 10%-ը մնում է անփոփոխ:

Նախապատրաստման ժամանակ մոդելն օգտագործում է τo = 0.999, տe = 0.9999, և տn = 100,000, K= 10 և β = 4: Մոդելը օգտագործում է Ադամի օպտիմիզատորը եռաստիճան ուսուցման արագության ժամանակացույցով, որը գծայինորեն տաքացնում է ուսուցման արագությունը թարմացումների առաջին 5%-ի համար, պահպանում է այն հաջորդ 80%-ի համար և այնուհետև անցնում է այն գծայինորեն քայքայելու մնացած 15%-ի համար, ընդ որում սովորելու առավելագույն արագությունը 2×10 է:-4.

Ավելին, մոդելը մարզվում է 16-ին GPU- ներ խմբաքանակի չափով 256 հաջորդականություն, և յուրաքանչյուր հաջորդականություն պարունակում է մոտ 512 նշան: Հոսանքից իջնելու համար մոդելը նախապես վերապատրաստված է չորս տարբեր ուսուցման տեմպերով՝ 1×10-4, 2 × 10-4, 3 × 10-4, 4 × 10-4, և նա, ով լավագույնս է կատարում, ընտրվում է NLP-ի ներքևում գտնվող հետագա առաջադրանքների համար:

Արդյունքներ

Եկեք տեսնենք, թե ինչպես է գործում data2vec մոդելը, երբ այն իրականացնում է վերը քննարկված ռազմավարությունները տարբեր եղանակների համար:

Համակարգչային տեսլականը

Համակարգչային տեսողության արդյունքները գնահատելու համար data2vec մոդելը նախապես պատրաստված է պատկերներից ստացված պատկերների վրա: ImageNet-1K տվյալների բազա։ Ստացված մոդելը ճշգրտվում է՝ օգտագործելով նույն հենանիշի պիտակավորված տվյալները: Ստանդարտ պրակտիկայի համաձայն, մոդելն այնուհետև գնահատվում է ըստ top-1 ճշգրտություն վավերացման տվյալների վրա։

Արդյունքներն այնուհետև տարբերակվում են մեկ ինքնուրույն վերահսկվող մոդելի հիման վրա և լրացուցիչ տվյալների կամ ինքնուրույն վերահսկվող ուսուցման այլ մոդելների վրա առանձին տեսողական ցուցիչ պատրաստելը:

Ստորև բերված աղյուսակը համեմատում է համակարգչային տեսողության համար data2vec մոդելի և գոյություն ունեցող այլ մոդելների՝ ViT-L և ViT-B կատարողականությունը:

Վերոնշյալ աղյուսակի արդյունքները կարելի է ամփոփել հետևյալ կերպ.

Data2vec մոդելը գերազանցում է նախորդ աշխատանքին և՛ ViT-L, և՛ ViT-B մոդելների հետ մեկ մոդելի կարգավորումներում:
Ծածկված կանխատեսման կարգավորումը, որն օգտագործվում է data2vec ալգորիթմում՝ համատեքստային թաքնված ներկայացումները կանխատեսելու համար, ավելի լավ է գործում, երբ համեմատվում են տեղական թիրախները կանխատեսող մեթոդների հետ, ինչպիսիք են ինժեներական պատկերի առանձնահատկությունները, մուտքային պիքսելները կամ տեսողական նշանները:
Data2vec մոդելը նույնպես գերազանցում է ինքնաթորման մեթոդները, որոնք ռեգրես են անում ուսանողական ցանցի վերջնական շերտը՝ միաժամանակ որպես մուտքագրում պատկերի երկու տարբեր ընդլայնված տարբերակներ:

Աուդիո և խոսքի մշակում

Խոսքի և աուդիո մշակման համար data2vec մոդելը վերապատրաստվում է մոտ 960 ժամ ձայնային տվյալների վրա, որոնք ստացվել են Librispeech (LS-960) տվյալների բազա։ Տվյալների հավաքածուն պարունակում է մաքուր խոսքի աուդիո աուդիոգրքերից անգլերեն, և այն համարվում է ստանդարտ չափանիշ խոսքի և աուդիո մշակման ոլորտում:

Տարբեր ռեսուրսների պարամետրերում մոդելի կատարումը վերլուծելու համար հետազոտողները լավ կարգավորել են data2vec մոդելը՝ օգտագործելու տարբեր քանակությամբ պիտակավորված տվյալներ (մի քանի րոպեից մինչև մի քանի ժամ) խոսքի ավտոմատ ճանաչման համար: Մոդելի արդյունավետությունը վերլուծելու համար data2vec-ը համեմատվում է ՀյուԲԵՐՏ & wav2vec 2.0, խոսքի և աուդիո ներկայացման ուսուցման ամենահայտնի ալգորիթմներից երկուսը, որոնք հիմնված են դիսկրետ խոսքի միավորների վրա:

Վերոնշյալ աղյուսակը համեմատում է data2vec-ի կատարումը խոսքի ճանաչման համար բառի արագության առումով այլ գոյություն ունեցող մոդելների հետ: LM ներկայացնում է վերծանման համար օգտագործվող լեզվի մոդելը: Արդյունքները կարելի է ամփոփել հետևյալ կերպ.

Data2vec մոդելը ցույց է տալիս բարելավումներ պիտակավորված տվյալների մեծ մասի համար՝ 10 րոպե պիտակավորված տվյալների ամենամեծ շահույթով Base մոդելների համար:
Երբ խոսքը վերաբերում է մեծ մոդելներին, մոդելը զգալիորեն ավելի լավ է աշխատում փոքր պիտակավորված տվյալների հավաքածուների վրա, և արդյունավետությունը համեմատելի է ռեսուրսներով հարուստ տվյալների հավաքածուների դեպքում՝ ավելի քան 100 և 960 ժամ պիտակավորված տվյալների վրա: Դա պայմանավորված է նրանով, որ մոդելների մեծամասնության համար արդյունավետությունը սովորաբար հագեցած է ռեսուրսներով հարուստ պիտակավորված տվյալների բազայում:
Կատարումը վերլուծելուց հետո կարելի է եզրակացնել, որ երբ մոդելն օգտագործում է հարուստ համատեքստային թիրախներ, էական չէ դիսկրետ միավորներ սովորելը:
Ուսուցման ընթացքում համատեքստային թիրախների ուսուցումն օգնում է զգալիորեն բարելավել ընդհանուր կատարողականը:

Ավելին, խոսքի ճանաչման համար data2vec-ի մոտեցումը հաստատելու համար մոդելը նաև վերապատրաստվել է. AudioSet ելակետային. Թեև AudioSet-ի նախնական ուսուցման կարգավորումը նման է Librispeech-ին, մոդելը պատրաստված է K= 12-ի և ավելի քան 200K թարմացումների համար, որտեղ յուրաքանչյուր խմբաքանակի չափը 94.5 րոպե է:

Այնուհետև մոդելը կիրառում է DeepNorm շրջանակ, և շերտի նորմալացում թիրախներին՝ օգնելու մարզումների կայունացմանը: Բացի այդ, մոդելը նաև լավ կարգավորվում է հավասարակշռված ենթաբազմությունների վրա, որոնց խմբաքանակի չափը 21.3 րոպե է 13 հազար թարմացումների համար: Մոդելը նաև օգտագործում է Գծային Softmax միավորում և խառնումը՝ 0.7 հավանականության միավորով: Այնուհետև մոդելն ավելացնում է a մեկ գծային պրոյեկցիա 527 եզակի աուդիո դասերի մեջ և սահմանում է պրոյեկցիոն ուսուցման մակարդակը դեպի 2e-4:

Ավելին, նախապես վերապատրաստված պարամետրերն ունեն 3e-5 ուսուցման արագություն, և մոդելը օգտագործում է քողարկման տեխնիկա՝ տվյալների շտեմարանը լավ կարգավորելու համար: Ստորև բերված աղյուսակը ամփոփում է արդյունքները, և կարելի է տեսնել, որ data2vec մոդելն ի վիճակի է գերազանցել համեմատելի կարգավորումները նույն ճշգրտման և նախնական վերապատրաստման տվյալների հետ:

Բնական լեզուների մշակումը

Տեքստի վրա data2vec-ի աշխատանքը վերլուծելու համար մոդելը հետևում է նույն ուսուցման կարգաբերմանը, ինչ ԲԵՐՏ և մոդելի նախնական ուսուցում անգլերեն Վիքիպեդիայի տվյալների բազայի վրա՝ ավելի քան 1M թարմացումներով, և խմբաքանակի չափը 256 հաջորդականություն է: Մոդելը գնահատվում է GLUE կամ ընդհանուր լեզուների ըմբռնման գնահատում հենանիշ, որը ներառում է բնական լեզվի միջամտության առաջադրանքներ (MNLI կամ բազմաժանր բնական լեզվի եզրակացություն), նախադասության նմանություն (QQP կամ Quora Question Pairs հենանիշ, MRPC կամ Microsoft Research Paragraph Corpus, և STS-B կամ իմաստային տեքստային նմանության չափանիշ), տրամադրությունների վերլուծություն (SST-2 կամ Stanford Sentiment Treebank), և քերականորեն (CoLA).

Ավելին, data2vec մոդելը լավ կարգավորելու համար պիտակավորված տվյալները տրամադրվում են յուրաքանչյուր առաջադրանքի կողմից, և միջին ճշգրտությունը հաղորդվում է մշակման հավաքածուների վրա՝ 5 ճշգրտման գործարկումներով: Հետևյալ աղյուսակը ամփոփում է data2vec մոդելի կատարումը բնական լեզվի մշակման առաջադրանքների համար և համեմատում այն այլ մոդելների հետ:

Վերոնշյալ տվյալները ցույց են տալիս, որ data2vec մոդելը գերազանցում է ելակետային RoBERTa մոդելին, քանի որ data2vec մոդելի ռազմավարությունը չի օգտագործում պատահական թիրախներ:
Data2vec մոդելը առաջին հաջող նախապես վերապատրաստված NLP մոդելն է, որը չի օգտագործում դիսկրետ միավորներ, ինչպիսիք են նիշերը, բառերը կամ ենթաբառերը որպես ուսումնական թիրախ: Փոխարենը, data2vec շրջանակը կանխատեսում է համատեքստային թաքնված ներկայացում ամբողջ չդիմակավորված տեքստի հաջորդականության վրա:
Այն օգնում է ստեղծել ուսումնական առաջադրանք, որտեղ մոդելից պահանջվում է կանխատեսել կոնկրետ հատկություններ ունեցող թիրախները ընթացիկ հաջորդականությունից, այլ ոչ թե կանխատեսել այնպիսի ներկայացումներ, որոնք ընդհանուր են յուրաքանչյուր տեքստային միավորի համար հատուկ հայեցողությամբ:
Ավելին, ուսուցման թիրախային հավաքածուն ամրագրված չէ, և մոդելն ազատ է նոր թիրախներ սահմանելու համար, և այն բաց է բառապաշարի պարամետրերի համար:

Data2Vec. Ablations ուսումնասիրություն

Աբլյացիան տերմին է, որն օգտագործվում է AI և ML համակարգերում բաղադրիչի հեռացումը սահմանելու համար: Աբլյացիայի ուսումնասիրությունը օգտագործվում է AI կամ ML մոդելի կատարումը հետաքննելու կամ վերլուծելու համար՝ հեռացնելով որոշ հիմնական բաղադրիչներ մոդելից, որը թույլ է տալիս հետազոտողներին հասկանալ այդ բաղադրիչի ներդրումն ընդհանուր համակարգում:

Շերտերի միջինացված թիրախներ

Data2vec-ի և այլ ինքնուրույն վերահսկվող ուսուցման մոդելների միջև հիմնական տարբերությունն այն է, որ data2vec մոդելն օգտագործում է թիրախներ, որոնք հիմնված են ուսուցիչների ցանցից մի քանի շերտերի միջինացման վրա: Գաղափարը ծագում է նրանից, որ wav2vec 2.0 մոդելի վերին վերին շերտերը լավ չեն կատարում ներքևի առաջադրանքների համար, երբ համեմատվում են մոդելի միջին շերտերի հետ:

Հետևյալ փորձի ժամանակ բոլոր երեք մոդալների կատարումը չափվում է K= 1, 2, …, 12 շերտերի միջին հաշվարկով, որտեղ K= 1-ը կանխատեսում է միայն վերին շերտը: Այնուամենայնիվ, ավելի արագ շրջադարձային ժամանակ կորզելու համար data2vec-ը վերապատրաստում է բազային մոդելը ընդհանուր 12 շերտով: Խոսքի ճանաչման համար մոդելը նախապես վերապատրաստվում է Librispeech-ի ավելի քան երկու հարյուր հազար թարմացումների վրա, այնուհետև ճշգրտվում է Libri-light-ի 10 ժամ պիտակավորված բաժանման վրա: Բնական լեզվի մշակման համար մոդելը հաղորդում է միջին GLUE միավորը վավերացման հավաքածուի համար, և նախապես վերապատրաստում է մոդելը 300 դարաշրջանի համար համակարգչային տեսողության համար և այնուհետև հայտնում է ImageNet տվյալների բազայում ստացված լավագույն 1 ճշգրտությունը:

Վերոնշյալ նկարը ցույց է տալիս, որ բազմաթիվ շերտերի վրա հիմնված թիրախները սովորաբար բարելավվում են, երբ բոլոր եղանակների համար օգտագործվում է միայն K=1 վերին շերտը: Առկա բոլոր շերտերի օգտագործումը լավ պրակտիկա է, քանի որ նեյրոնային ցանցերը կառուցում են առանձնահատկություններ տարբեր տեսակի հատկանիշների վրա, և բազմաթիվ շերտեր, որոնք այնուհետև արդյունահանվում են որպես առանձնահատկությունների շերտեր:

Բազմաշերտ հատկությունների օգտագործումն օգնում է բարձրացնել ճշգրտությունը և հարստացնում է ինքնուրույն վերահսկվող ուսուցման գործընթացը:

Թիրախային հատկանիշի տեսակը

Տրանսֆորմատորային բլոկները data2vec մոդելում ունեն մի քանի շերտեր, որոնք բոլորը կարող են ծառայել որպես թիրախ: Վերլուծելու համար, թե ինչպես են տարբեր շերտերը ազդում կատարման վրա, մոդելը նախապես վերապատրաստվել է Librispeech-ի խոսքի մոդելների վրա, որոնք օգտագործում են տարբեր շերտեր որպես թիրախային հատկանիշներ:

Ստորև բերված նկարը հստակ ցույց է տալիս, որ սնուցող ցանցի կամ FFN-ի ելքը իդեալական է աշխատում, մինչդեռ ինքնավստահության բլոկների ելքը չի հանգեցնում օգտագործելի մոդելի:

Թիրախային համատեքստայինացում

Ուսուցչի ներկայացումները data2vec մոդելում օգտագործում են ինքնավստահություն ամբողջ մուտքագրման վրա՝ համատեքստային թիրախներ ստեղծելու համար: Դա այն է, ինչ առանձնացնում է data2vec-ը այլ ինքնուրույն վերահսկվող ուսուցման մոդելներից, որոնք կառուցում են ուսումնական առաջադրանք՝ վերակառուցելով կամ կանխատեսելով մուտքագրման տեղական մասերը: Ակնհայտորեն հարց է առաջանում. Արդյո՞ք data2vec մոդելը պահանջում է համատեքստային թիրախներ լավ աշխատելու համար:

Հարցին պատասխանելու համար հետազոտողները կառուցում են թիրախային ներկայացումներ, որոնք մուտք չունեն ամբողջ մուտքային տվյալների հավաքածուին, այլ միայն դրա մի մասն է, որը կանխորոշված է: Այնուհետև մոդելը սահմանափակում է ուսուցչի ինքնորոշման մեխանիզմը, որը թույլ է տալիս նրան մուտք գործել շրջակա միջավայրի մուտքի միայն մի մասը: Մոդելի վերապատրաստումից հետո այն ճշգրտվում է համատեքստի ամբողջական չափը մուտք գործելու համար:

Ստորև բերված նկարը ցույց է տալիս, որ համատեքստի ավելի մեծ չափերը հաճախ հանգեցնում են ավելի լավ կատարման, և երբ ամբողջ մուտքային նմուշը տեսանելի է, այն տալիս է լավագույն ճշգրտությունը: Դա ավելի է ապացուցում ավելի հարուստ թիրախային ներկայացումները կարող են ավելի լավ արդյունք տալ:

Մոդալիզմի հատուկ առանձնահատկությունների արդյունահանող և դիմակավորում

Data2vec-ի առաջնային նպատակն է նախագծել պարզ ուսուցման մեխանիզմ, որը կարող է աշխատել տարբեր եղանակներով: Դա պայմանավորված է նրանով, որ չնայած ներկայիս մոդելներն ու շրջանակներն ունեն միասնական ուսուցման ռեժիմ, նրանք դեռ օգտագործում են մոդալների հատուկ դիմակավորում և առանձնահատկություններ հանող սարքեր:

Իմաստ է, որ շրջանակները հիմնականում աշխատում են մեկ եղանակով, հաշվի առնելով, որ մուտքային տվյալների բնույթը մեծապես տարբերվում է միմյանցից: Օրինակ, խոսքի ճանաչման մոդելներն օգտագործում են բարձր լուծաչափի մուտքագրում (օրինակ՝ 10 կՀց ալիքի ձև), որը սովորաբար ունենում է հազարավոր նմուշներ: Ալիքի ձևն այնուհետև մշակվում է շրջանակի կողմից՝ օգտագործելով բազմաշերտ կոնվոլյուցիոն նեյրոնային ցանց՝ 50 Հց հաճախականություններ ստանալու համար:

Կառուցվածքային և համատեքստային թիրախներ

Data2vec-ի և այլ դիմակավորված կանխատեսման մոդելների միջև հիմնական տարբերակիչ կետն այն է, որ data2vec մոդելում ուսումնական թիրախների առանձնահատկությունները համատեքստային են: Այս հատկանիշները ստեղծվել են՝ օգտագործելով ամբողջ դիմակավորված մուտքագրման ինքնաուշադրությունը ուսուցչի ռեժիմում:

Որոշ այլ շրջանակներ, ինչպիսիք են BYOL-ը (Bootstrap Your Own Latent) կամ DINO-ն, նույնպես օգտագործում են թաքնված ներկայացումներ, ինչպիսիք են data2vec-ը, բայց դրանց հիմնական նպատակը փոխակերպման անփոփոխ ներկայացումներ սովորելն է:

Վերջնական Մտքեր

AI և ML արդյունաբերության վերջին աշխատանքները ցույց են տվել, որ միատեսակ մոդելային ճարտարապետությունը կարող է արդյունավետ մոտեցում լինել բազմաթիվ եղանակների դեմ պայքարելու համար: Data2vec մոդելը օգտագործում է ինքնուրույն վերահսկվող ուսուցման մոտեցում երեք եղանակների հետ աշխատելու համար՝ խոսք, պատկերներ և լեզու:

Data2vec մոդելի հիմնական հայեցակարգը մասնակի մուտքային տեսքի օգտագործումն է՝ համատեքստային տեղեկատվության կամ մուտքագրման տվյալների հետընթացի համար: Data2vec շրջանակների կողմից օգտագործվող մոտեցումն արդյունավետ է, քանի որ մոդելն ավելի լավ է գործում, քան նախկինում վերահսկվող ուսուցման մոդելները ImageNet-1K տվյալների բազայում ինչպես ViT-B, այնպես էլ ViT-L առանձին մոդելների համար:

Data2vec-ը իսկապես կարևոր իրադարձություն է ինքնուրույն վերահսկվող ուսուցման ոլորտում, քանի որ այն ցույց է տալիս, որ մի քանի եղանակներ սովորելու մեկ ուսուցման մեթոդ կարող է իսկապես հեշտացնել մոդելների համար տարբեր եղանակներով սովորելը:

Հարակից թեմաներ.data2vec մեքենայական ուսուցման մոդելներ ինքնուրույն վերահսկվող ուսուցում

Հաջորդը

Կլիմայի ապատեղեկատվության սպառնալիքը, որը տարածվում է Generative AI Technology-ի միջոցով

Բաց մի թողեք

Meta-ն նախատեսում է ինտեգրել արհեստական ինտելեկտով աշխատող «անձանց» իր ծառայությունների մեջ

Կունալ Քեջրիվալ

«Մասնագիտությամբ ինժեներ, անգիր գրող». Կունալը տեխնիկական գրող է, որն ունի AI և ML-ի խորը սեր և հասկացողություն, որը նվիրված է այս ոլորտներում բարդ հասկացությունների պարզեցմանը իր գրավիչ և տեղեկատվական փաստաթղթերի միջոցով:

Unite.AI

data2vec. Մի կարևոր իրադարձություն ինքնավերահսկվող ուսուցման մեջ

Արհեստական բանականություն

data2vec. Մի կարևոր իրադարձություն ինքնավերահսկվող ուսուցման մեջ

Բովանդակություն

Data2vec Ներածություն. Հիմնական գաղափարը

Ինչու՞ է AI արդյունաբերությանը պետք Data2Vec ալգորիթմը:

Ի՞նչ է Data2Vec ալգորիթմը:

Ինչպե՞ս է աշխատում Data2Vec ալգորիթմը: