Kuungana na sisi

Artificial Intelligence

data2vec: Hatua muhimu katika Mafunzo ya Kujisimamia

mm
Updated on

Miundo ya kujifunza kwa mashine imeegemea pakubwa data iliyo na lebo kwa mafunzo, na kwa kawaida, miundo ya mafunzo kwenye data iliyo na lebo hutoa matokeo sahihi. Hata hivyo, hasara kuu ya kutumia data iliyo na lebo ni gharama kubwa za maelezo ambazo hupanda na ongezeko la ukubwa wa data ya mafunzo. Gharama za juu za ufafanuzi ni kikwazo kikubwa kwa wasanidi programu, hasa wakati wa kufanya kazi kwenye mradi mkubwa wenye kiasi kikubwa cha data ya mafunzo.

Ili kushughulikia suala la ufafanuzi, watengenezaji walikuja na dhana ya SSL au Mafunzo ya Kujisimamia. Kujifunza kwa Kujisimamia ni mchakato wa kujifunza kwa mashine ambapo model hujizoeza kujifunza sehemu ya ingizo kutoka sehemu nyingine ya ingizo. Muundo wa Kujifunza Unaosimamiwa Unalenga kutumia vibaya uhusiano kati ya data badala ya kutumia mawimbi ya data yenye lebo zinazodhibitiwa. 

Kando na Mafunzo ya Kujisimamia, kuna mbinu na miundo mingine kadhaa ya kufundisha miundo ya kujifunza kwa mashine bila kutumia data iliyo na lebo. Walakini, nyingi za njia hizi zina maswala mawili kuu

  1. Mara nyingi ni maalum kwa muundo mmoja kama picha au maandishi. 
  2. Wanahitaji kiasi kikubwa cha nguvu ya computational. 

Vizuizi hivi ni suala kuu kwa nini akili ya wastani ya mwanadamu inaweza kujifunza kutoka kwa aina moja ya data kwa ufanisi zaidi ikilinganishwa na muundo wa AI ambao unategemea miundo tofauti na data ya mafunzo ili kutofautisha kati ya picha, maandishi na hotuba. 

Ili kushughulikia suala la mtindo mmoja, Meta AI ilitoa toleo la hivi karibuni data2vec, ya kwanza ya aina, algoriti ya utendakazi wa hali ya juu inayojidhibiti kujifunza maelezo ya ruwaza kutoka kwa mbinu tatu tofauti: taswira, maandishi na usemi. Kwa utekelezaji wa algoriti ya data2vec, uelewaji wa maandishi unaweza kutumika kwa tatizo la sehemu za picha, au inaweza pia kutumwa katika kazi ya utambuzi wa usemi. 

Katika nakala hii, tutazungumza juu ya mfano wa data2vec kwa kina. Tutajadili muhtasari wa mbinu, kazi inayohusiana, usanifu, na matokeo ya kielelezo kwa kina zaidi ili uwe na ufahamu wazi wa algoriti ya data2vec. 

Utangulizi wa Data2vec: Wazo la Msingi

Ijapokuwa dhana ya kimsingi ya Kujifunza kwa Kujisimamia inatumika katika hali zote, malengo halisi na algoriti hutofautiana kwa sababu ziliundwa kwa kuzingatia hali moja. Kubuni muundo wa muundo mmoja ndio sababu kanuni sawa ya kujifunza inayosimamiwa haiwezi kufanya kazi kwa ufanisi katika aina tofauti za data ya mafunzo. 

Ili kuondokana na changamoto iliyowasilishwa na miundo na kanuni za muundo mmoja, Meta AI ilitoa data2vec, algoriti inayotumia mbinu sawa ya kujifunza kwa maono ya kompyuta, NLP au hotuba.  

Wazo la msingi nyuma ya algorithm ya data2vec ni kutumia mwonekano uliofichwa wa ingizo kwa tabiri uwasilishaji fiche wa data kamili ya ingizo katika usanidi wa kujitengenezea kwa usaidizi wa usanifu wa kawaida wa Transformer. Kwa hivyo, badala ya vipengee mahususi vya muundo kama vile picha, maandishi, au sauti ambayo ni ya ndani, algoriti ya data2vec inatabiri uwasilishaji fiche na taarifa kutoka kwa mafunzo kamili au data ya ingizo. 

Kwa nini Sekta ya AI Inahitaji Algorithm ya Data2Vec?

Miundo ya Kujifunza Yenye Kusimamiwa Huunda uwasilishaji wa data ya mafunzo kwa kutumia lebo zilizofafanuliwa na binadamu, na ni mojawapo ya sababu kuu za maendeleo ya NLP au Usindikaji wa Lugha Asilia, na teknolojia ya Maono ya Kompyuta. Vielelezo hivi vya kujifunzia vinavyodhibitiwa ndio sababu ya kazi kama vile utambuzi wa usemi na kujifunza kwa mashine kutumia ujifunzaji usiosimamiwa katika miundo yao. 

Hadi sasa, algoriti hizi za kujifunzia zinazodhibitiwa huzingatia mbinu za kibinafsi zinazosababisha upendeleo wa kujifunza, na miundo mahususi katika miundo. Mbinu ya mtu binafsi ya algoriti za kujifunzia zinazosimamiwa huleta changamoto katika programu tofauti za AI ikijumuisha maono ya kompyuta na NLP. 

Kwa mfano, kuna msamiati wa vitengo vya hotuba katika usindikaji wa hotuba ambayo inaweza kufafanua kazi ya kujifunza ya kujisimamia katika NLP. Vile vile, katika maono ya kompyuta, wasanidi programu wanaweza kurudisha nyuma ingizo, kujifunza tokeni tofauti za kuona, au kujifunza uwakilishi tofauti na uongezaji data. Ingawa upendeleo huu wa kujifunza ni muhimu, ni vigumu kuthibitisha kama upendeleo huu utajumuisha mbinu nyinginezo. 

Data2vec algoriti ni hatua kuu katika tasnia ya ujifunzaji inayojisimamia kwani inalenga kuboresha mbinu nyingi badala ya moja pekee. Zaidi ya hayo, algoriti ya data2vec haitegemei kuunda upya ingizo au ujifunzaji tofauti. 

Kwa hivyo sababu kwa nini ulimwengu unahitaji data2vec ni kwa sababu algoriti ya data2vec ina uwezo wa kuharakisha maendeleo katika AI, na inachangia katika kuunda miundo ya AI ambayo inaweza kujifunza kuhusu vipengele tofauti vya mazingira yao bila mshono. Wanasayansi wanatumai kwamba algoriti ya data2vec itawaruhusu kukuza miundo ya AI na ML inayoweza kubadilika ambayo inaweza kufanya kazi za hali ya juu zaidi ya vile miundo ya kisasa ya AI inaweza kufanya.

Algorithm ya Data2Vec ni nini?

Data2vec ni mfumo uliounganishwa ambao unalenga kutekeleza ujifunzaji wa mashine unaojisimamia katika mifumo tofauti ya data ikijumuisha picha, matamshi na maandishi. 

Data2vec algoriti inalenga kutengeneza miundo ya ML ambayo inaweza kujifunza mifumo ya jumla katika mazingira bora zaidi kwa kuweka malengo ya kujifunza sawa katika mbinu mbalimbali. Mtindo wa data2vec huunganisha algoriti ya ujifunzaji, lakini bado hujifunza uwasilishaji wa kila mtindo mmoja mmoja. 

Kwa kuanzishwa kwa algoriti ya data2vec, Meta AI inatumai kuwa itafanya ujifunzaji wa aina nyingi kuwa mzuri, na rahisi zaidi. 

Je! Algorithm ya Data2Vec Inafanyaje Kazi?

Data2vec algoriti inachanganya mafunzo ya uwasilishaji lengwa fiche na ubashiri uliofichwa, ingawa hutumia safu nyingi za mtandao kama shabaha za kujumlisha uwakilishi fiche. Mtindo hufunza hasa rafu Mtandao wa transfoma hiyo inatumika ama katika mwalimu au mwanafunzi mode. 

Katika hali ya mwalimu, kielelezo kwanza huunda uwakilishi wa data ya pembejeo ambayo hutumika kama shabaha katika kazi ya kujifunza. Katika hali ya mwanafunzi, modeli husimba toleo lililofichwa la data ya ingizo ambalo hutumika kufanya ubashiri kuhusu uwasilishaji kamili wa data. 

Picha iliyo hapo juu inawakilisha jinsi modeli ya data2vec hutumia mchakato sawa wa kujifunza kwa njia tofauti. Katika hatua ya kwanza, mfano hutoa uwakilishi wa data ya pembejeo (hali ya mwalimu) Kisha mtindo huo unarejesha uwasilishaji huu kwa msingi wa toleo lililofichwa la ingizo. 

Zaidi ya hayo, data2vec algorithm inavyotumia uwasilishaji fiche wa data ya ingizo, inaweza kutazamwa kama toleo lililorahisishwa la miundo mahususi kama vile. kuunda malengo yanayofaa kwa kurekebisha pembejeo or kujifunza seti ya kudumu ya ishara za kuona. Lakini jambo muhimu la kutofautisha kati ya data2vec na algorithms zingine ni kwamba algorithm ya data2vec hutumia umakini wa kibinafsi kufanya uwakilishi wake unaolengwa. ya muktadha na endelevu. Kwa upande mwingine, miundo mingine ya kujifunza inayojisimamia yenyewe hutumia seti isiyobadilika ya shabaha ambayo inategemea muktadha wa mahali. 

Data2vec: Njia ya Mfano

Muundo wa data2vec umefunzwa kwa kutabiri vielelezo vya data ya ingizo kutokana na mtazamo wa sehemu ya ingizo. Kama unavyoona kwenye takwimu uliyopewa, uso wa mbwa umefunikwa, sehemu fulani ya noti ya sauti imefungwa, na neno "na” imefichwa kwenye maandishi. 

Mfano kwanza husimba toleo lililofichwa la sampuli ya mafunzo(hali ya mwanafunzi), na kisha husimba toleo lisilofichwa la ingizo ili kuunda shabaha za mafunzo na modeli sawa lakini tu inapoainishwa kama wastani wa kielelezo wa uzani wa mfano(hali ya mwalimu) Zaidi ya hayo, uwasilishaji lengwa husimba maelezo yaliyopo katika sampuli ya mafunzo, na katika hali ya mwanafunzi, kazi ya kujifunza hutumiwa kutabiri mawasilisho haya yanapopewa mtazamo wa kiasi wa ingizo. 

Usanifu wa Mfano

Mfano wa data2vec hutumia kiwango Usanifu wa transfoma na usimbaji mahususi wa muundo wa data ya ingizo. Kwa kazi zinazohusiana na kuona kwa kompyuta, muundo hutumia mkakati wa ViT kusimba picha kama mfuatano wa viraka ambapo kila picha huenea zaidi ya pikseli 16×16, na kulishwa kama badiliko la mstari. 

Zaidi ya hayo, data ya utambuzi wa matamshi, modeli husimba data kwa kutumia mtandao wa neva wenye safu nyingi wa 1-D ambao hupanga mawimbi ya kHz 16 hadi 50 Hz wasilisho. Ili kuchakata data ya maandishi, modeli huchakata data mapema ili kutoa vitengo vya maneno madogo, na kisha kupachika data katika nafasi ya usambazaji kupitia vekta za kupachika. 

Masking

Mara tu modeli inapopachika data ya ingizo kama mlolongo wa tokeni, modeli hufunika sehemu za vitengo hivi kwa kuzibadilisha na tokeni ya kupachika, na kisha kulisha mlolongo kwa Transfoma mtandao. Kwa maono ya kompyuta, modeli hutumia mkakati wa kuweka alama kwa busara. Uwasilishaji wa matamshi fiche hutumiwa kuficha misururu ya data ya usemi, na kwa kazi zinazohusiana na lugha, ishara hufunikwa. 

Malengo ya Mafunzo

Muundo wa data2vec unalenga kutabiri uwasilishaji wa modeli ya sampuli ya mafunzo ambayo haijafichwa kulingana na usimbaji wa sampuli iliyofunikwa ambayo ililishwa kwa modeli. Mfano huo unatabiri uwasilishaji tu kwa hatua za wakati zilizofichwa. 

Mfano anatabiri uwakilishi wa muktadha ambayo sio tu ya kusimba hatua mahususi ya saa, lakini pia husimba maelezo mengine kutoka kwa sampuli kwa sababu hutumia tahadhari binafsi katika mtandao wa Transformer. Uwakilishi wa muktadha na utumiaji wa mtandao wa Transformer ndio hutofautisha muundo wa data2vec na uliopo tayari BERT, wav2vec, BEiT, SimMIM, MAE, na MaskFeat mifano inayotabiri shabaha bila taarifa za muktadha. 

Hivi ndivyo muundo wa data2vec unavyoweka vigezo vya hali ya mwalimu ili kutabiri uwakilishi wa mtandao ambao hutumika kama shabaha. 

Parameterization ya Mwalimu

Muundo wa data2vec uliainisha usimbaji wa sampuli ya mafunzo ambayo haijafichwa kwa kutumia EMA au Wastani wa Kusonga kwa Kielelezo ya vigezo vya mfano(θ) ambapo uzani wa modeli kwenye hali lengwa(△) ni kama ifuatavyo

                                           ∆ ← τ∆ + (1 − τ ) θ

 

Zaidi ya hayo, ratiba za mfano za $ \ t \ \ \ \ \ \ \\ \\ \\ \\ \\ \\ kwa mstari huongeza kigezo kutoka  τ0 kwa τ (thamani inayolengwa) juu ya visasisho τn vya kwanza. Baada ya sasisho hizi, mtindo huweka thamani mara kwa mara hadi mafunzo yatakapomalizika. Utumiaji wa mkakati wa EMA husasisha mwalimu mara nyingi zaidi mwanzoni wakati mafunzo yanapoanza wakati modeli ni ya nasibu. Kadiri mafunzo yanavyoendelea na vigezo vyema vimefunzwa, mwalimu husasishwa mara chache zaidi. 

Matokeo yanaonyesha kuwa muundo huo ni bora na sahihi zaidi wakati unashiriki vigezo vya kisimbaji kipengele na usimbaji nafasi kati ya mwanafunzi na hali ya mwalimu. 

Malengo

Ujenzi wa malengo ya mafunzo unategemea pato la juu K vizuizi vya mtandao wa walimu kwa hatua za saa ambazo zimefichwa katika hali ya mwanafunzi. Pato la block l kwa wakati wowote t inaashiriwa kama alt. Kisha mfano huo unatumika kuhalalisha kila kizuizi ili kupata âlt kabla ya kupata wastani wa vitalu vya K vya juu 

  

 

kupata lengo la mafunzo yt kwa hatua ya wakati t kwa mtandao na L vitalu kwa jumla. 

Huunda malengo ya mafunzo ambayo kielelezo hurejelea kikiwa katika hali ya mwanafunzi. Katika majaribio ya awali, modeli ya data2vec ilifanya vyema katika kutabiri kila kizuizi kando na makadirio maalum, na kuwa na ufanisi zaidi kwa wakati mmoja. 

Zaidi ya hayo, kuhalalisha malengo pia huruhusu muundo wa data2vec kutoka kuporomoka hadi uwakilishi wa mara kwa mara wa hatua za saa, na kuzuia safu zilizo na urekebishaji wa hali ya juu kutawala vipengele katika mkusanyiko wa data lengwa. Kwa utambuzi wa usemi, muundo hutumia urekebishaji wa mfano juu ya sampuli ya sasa ya ingizo bila vigezo vyovyote vilivyojifunza. Ni kwa sababu hatua juu ya data ya uingizaji ni ndogo, uwakilishi wa jirani unahusiana sana. 

Kwa kuongeza, watafiti waligundua kuwa wakati wa kufanya kazi na maono ya kompyuta na NLP, urekebishaji usio na parameta hufanya kazi ya kutosha. Tatizo linaweza pia kutatuliwa na Tofauti-Invariance-Covariance urekebishaji lakini mkakati uliotajwa hapo juu hufanya vyema vya kutosha, na hauhitaji vigezo vyovyote vya ziada. 

Lengo

Kwa malengo ya mafunzo yaliyozingatia muktadha yt, mfano hutumia a Upotezaji laini wa L1 kurejesha malengo kama ilivyoelezwa hapo chini

Hapa, $ \ beta $ iko katika udhibiti wa mabadiliko kutoka kwa upotezaji wa mraba hadi upotezaji wa L1, na inategemea sana saizi ya pengo kati ya utabiri wa mfano f.t(x) kwa wakati t. Faida ya hasara hii ni kwamba ni nyeti kwa kulinganisha na wauzaji wa nje, na hitaji la kurekebisha mpangilio wa β

Usanidi wa Majaribio

Mfano wa data2vec unajaribiwa na saizi mbili za mfano: data2vec Kubwa na Msingi wa data2vec. Kwa uthabiti wa nambari, masasisho ya EMA hufanywa katika fp32, na miundo ina vizuizi vya L= 12 au L= 24 vya Transfoma vyenye vipimo vilivyofichwa(H) = 768 au H= 1024. Hebu tuangalie kwa kina usanidi wa majaribio kwa mbinu tofauti. , na madhumuni. 

Maono ya Kompyuta

Muundo wa data2vec hupachika picha za pikseli 224×224 kama viraka vya pikseli 16×16. Kila moja ya viraka hivi hubadilishwa kwa mstari, na mlolongo wenye uwakilishi 196 hutolewa kwa Transformer ya kawaida. 

Mfano unafuata BEiT kufunga vizuizi vyenye mabaka yanayokaribiana na kila kizuizi kikiwa na angalau mabaka 16 na uwiano wa vipengele nasibu. Walakini, badala ya kuficha 40% ya kiraka kama hapo awali katika modeli ya BEiT, modeli ya data2vec hufunika 60% ya kiraka kwa usahihi bora. 

Zaidi ya hayo, muundo huo hubadilisha ukubwa wa mazao ya picha kwa nasibu, mizunguko ya mlalo na msukosuko wa rangi. Hatimaye, modeli ya data2vec hutumia taswira ile ile iliyorekebishwa katika hali ya mwalimu na mwanafunzi. 

Aina za ViT-B zimefunzwa awali kwa epochs 800, na modeli ya data2vec hutumia ukubwa wa kundi la 8,192 kwa modeli ya ViT-L, na 2,048 kwa modeli ya ViT-B. Muundo wa data2vec pia hutumia cosine, na ratiba ya Adamu iliyo na mzunguko mmoja ili kuongeza kasi ya kujifunza kwa vipindi 80 hadi 0.001 kwa ViT-L, na kwa vipindi 40 hadi 0.001 kwa ViT-B. 

Kwa ViT-B, na ViT-L, modeli ya data2vec hutumia β = 2, K = 6 na τ = 0.9998 kama kawaida bila ratiba. Mfano huo unatumia kiwango cha kina cha stochastic 0.2. 

Zaidi ya hayo, kwa ViT-L, modeli inafunzwa kwa nyakati 1,600 ambapo enzi 800 za kwanza zina kiwango cha kujifunza kama 0.9998, na kisha modeli huweka upya ratiba ya kiwango cha kujifunza, na kuendelea kwa vipindi 800 vya mwisho na kiwango cha kujifunza kama 0.9999. 

Kwa uainishaji wa picha, modeli hutumia kidimbwi cha wastani cha matokeo ya kizuizi cha mwisho cha Transfoma, na kuilisha kwa kiainishaji kilichosawazishwa na laini. Kisha mtindo huo unaboresha ViT-L kwa vipindi 50, na ViT-B kwa vipindi 100 kwa kutumia kosini, na Adam kuongeza kasi ya kujifunza. 

Usindikaji wa Hotuba

Kwa usindikaji wa hotuba, mfano wa data2vec hutumia Fairseq, seti ya uundaji wa mfuatano inayotumika kufunza miundo ya wateja kwa muhtasari, tafsiri na utengenezaji wa maandishi. Muundo huo unachukua muundo wa mawimbi wa kHz 16 kama ingizo ambalo huchakatwa kwa kutumia kisimbaji cha kipengele, na lina mibadiliko ya muda na chaneli 512, upana wa kernel (10,3,3,3,3,2,2), na hatua (5,2,2,2,2,2,2). ,XNUMX). 

Yaliyo hapo juu husababisha masafa ya utoaji wa programu ya kusimba kuwa 50Hz, na ina hatua ya 20ms kati ya kila sampuli. Sehemu ya kupokea inajumuisha sampuli 400 za ingizo au ms 25 za sauti. Fomu ghafi ya wimbi inayolishwa kwa kisimbaji inarekebishwa kuwa tofauti ya kitengo, na maana sifuri

Mkakati wa kuficha unaotumiwa na data2vec kwa muundo wa Base unafanana na mfumo wa Baevski wa ujifunzaji unaojisimamia katika utambuzi wa usemi. Sampuli za mfano p = 0.065 kwa hatua zote za muda ziwe fahirisi za kuanzia, na inaendelea kuashiria hatua kumi za saa zifuatazo. Kwa mlolongo wa kawaida wa mafunzo, mchakato huruhusu karibu 49% ya jumla ya hatua za muda kufichwa. 

Wakati wa mafunzo, modeli ya data2vec inachambua kwa mstari τ kwa kutumia τo = 0.999, τe = 0.9999, na τn = 30,000. Mtindo wa data2vec hutumia kiboreshaji cha Adam huku kiwango cha juu cha kujifunza kikiwa 5×10-4 kwa mfano wa Msingi. Zaidi ya hayo, modeli ya msingi hutumia kipanga ratiba cha hatua tatu ambacho huongeza kasi ya kujifunza kwa mstari kwa 3% ya kwanza ya masasisho, hudumisha kwa 90% inayofuata, na kisha kuendelea kuharibika kwa mstari kwa 7% iliyobaki. 

Usindikaji wa lugha ya asili

Muundo wa data2vec hutumia usimbaji wa jozi-baiti wa aina 50K kusawazisha ingizo, na modeli kisha hujifunza upachikaji kwa kila aina. Baada ya data kusimbwa, mtindo hutumia mkakati wa kuficha wa BERT kwa 15% ya tokeni zilizochaguliwa kwa usawa ambapo 80% hubadilishwa na tokeni zilizojifunza za mask, 10% hubadilishwa na ishara za msamiati wa random, na 10% iliyobaki haijabadilishwa. 

Wakati wa mafunzo ya awali mfano hutumia τo = 0.999, τe = 0.9999, na τn = 100,000, K= 10, na β = 4. Muundo huu unatumia kiboreshaji cha Adam kilicho na ratiba ya kiwango cha kujifunza cha hatua tatu ambayo huongeza kasi ya kujifunza kwa mstari kwa 5% ya kwanza ya masasisho, hudumisha kwa 80% inayofuata, na kisha huendelea kuoza kwa mstari kwa 15% iliyobaki, na kiwango cha juu cha kujifunza kikiwa 2×10-4

Zaidi ya hayo, mfano huo hufanya mazoezi ya 16 GPU na ukubwa wa kundi la mlolongo 256, na kila mlolongo una tokeni 512 hivi. Kwa kuteremka chini, modeli hiyo imefunzwa awali katika viwango vinne tofauti vya kujifunza: 1×10-4, 2 × 10-4, 3 × 10-4, 4 × 10-4, na ile inayofanya vyema zaidi inachaguliwa kwa kazi zaidi za utiririshaji wa NLP. 

Matokeo

Wacha tuangalie jinsi modeli ya data2vec inavyofanya kazi wakati inatekeleza mikakati iliyojadiliwa hapo juu kwa njia tofauti. 

Maono ya Kompyuta

Ili kutathmini matokeo ya maono ya kompyuta, kielelezo cha data2vec kinafunzwa awali juu ya picha zilizopatikana kutoka kwa ImageNet-1K seti ya data. Muundo unaotokana unasawazishwa kwa kutumia data iliyo na lebo ya alama sawa. Kulingana na mazoezi ya kawaida, mtindo huo hutathminiwa kwa mujibu wa juu-1 usahihi juu ya data ya uthibitishaji. 

Kisha matokeo hutofautishwa kwa msingi wa modeli moja inayojisimamia, na kufunza kiashiria tofauti cha kuona kwenye data ya ziada, au miundo mingine ya kujifunzia inayojisimamia. 

Jedwali hapa chini linalinganisha utendaji wa modeli ya data2vec kwa maono ya kompyuta, na miundo mingine iliyopo: ViT-L, na ViT-B. 

Matokeo kutoka kwa jedwali hapo juu yanaweza kufupishwa kama ifuatavyo. 

  • Muundo wa data2vec hufanya kazi vizuri zaidi kuliko modeli za ViT-L, na ViT-B katika mpangilio wa muundo mmoja. 
  • Mipangilio ya ubashiri iliyofichwa inayotumiwa katika algoriti ya data2vec kutabiri uwasilishaji fiche wa muktadha hufanya vyema zaidi ikilinganishwa na mbinu zinazotabiri malengo ya ndani kama vile vipengele vya picha za kihandisi, pikseli za ingizo au tokeni za kuona. 
  • Muundo wa data2vec pia hufaulu zaidi mbinu za kujisafisha ambazo hurejesha safu ya mwisho ya mtandao wa wanafunzi huku ikichukua matoleo mawili tofauti yaliyoidhinishwa ya picha kama viingizi. 

Usindikaji wa Sauti na Usemi

Kwa usindikaji wa matamshi na sauti, muundo wa data2vec hufunzwa kwa takriban saa 960 za data ya sauti iliyopatikana kutoka kwa Librispeech(LS-960) seti ya data. Seti ya data ina sauti safi ya matamshi kutoka kwa vitabu vya sauti kwa Kiingereza, na inachukuliwa kama kipimo cha kawaida katika tasnia ya uchakataji wa matamshi na sauti. 

Ili kuchanganua utendakazi wa modeli katika mipangilio tofauti ya rasilimali, watafiti wamerekebisha muundo wa data2vec ili kutumia viwango tofauti vya data iliyo na lebo (kutoka dakika chache hadi saa kadhaa) kwa utambuzi wa usemi otomatiki. Ili kuchambua utendakazi wa modeli, data2vec inalinganishwa dhidi ya HuBERT & wav2vec 2.0, algoriti mbili maarufu zaidi za mafunzo ya uwakilishi wa matamshi na sauti ambazo zinategemea vitengo tofauti vya usemi. 

Jedwali lililo hapo juu linalinganisha utendaji wa data2vec kulingana na kasi ya maneno ya utambuzi wa usemi na miundo mingine iliyopo. LM inawakilisha modeli ya lugha inayotumiwa kusimbua. Matokeo yanaweza kufupishwa kama ifuatavyo. 

  • Muundo wa data2vec unaonyesha maboresho kwa usanidi mwingi wa data ulio na lebo na faida kubwa zaidi ya dakika 10 ya data iliyo na lebo kwa miundo ya Msingi. 
  • Inapokuja kwa miundo mikubwa, muundo hufanya kazi vyema zaidi kwenye seti ndogo za data zilizo na lebo, na utendakazi unaweza kulinganishwa kwenye seti za data zilizo na rasilimali nyingi zilizo na zaidi ya saa 100 & 960 za data iliyo na lebo. Ni kwa sababu utendaji kwa ujumla hujaa kwenye mkusanyiko wa data ulio na lebo ya rasilimali kwa miundo mingi. 
  • Baada ya kuchanganua utendakazi, inaweza kubainika kuwa wakati modeli inapotumia shabaha tajiri za muktadha, sio muhimu kujifunza vitengo tofauti. 
  • Kujifunza shabaha zenye muktadha wakati wa mafunzo husaidia kuboresha utendaji wa jumla kwa kiasi kikubwa. 

Kwa kuongezea, ili kudhibitisha mbinu ya data2vec ya utambuzi wa usemi, modeli pia inafunzwa juu ya Seti ya Sauti kigezo. Ingawa usanidi wa awali wa mafunzo ya AudioSet ni sawa na Librispeech, muundo huo umefunzwa kwa K= 12, na kwa masasisho zaidi ya 200K, ambapo ukubwa wa kila kundi ni dakika 94.5. 

mfano basi inatumika DeepNorm mfumo, na kuhalalisha safu kwa malengo ya kusaidia katika kuleta utulivu wa mafunzo. Zaidi ya hayo, muundo huo pia umewekwa vyema kwenye seti ndogo zilizosawazishwa na saizi ya kundi ya dakika 21.3 zaidi ya masasisho 13k. Mfano pia hutumia Kuunganisha kwa laini ya Softmax na kuchanganya na alama ya uwezekano wa 0.7. Kisha mfano huo unaongeza a makadirio ya mstari mmoja katika madarasa 527 ya kipekee ya sauti, na huweka faili ya makadirio ya kiwango cha kujifunza kwa 2e-4. 

Zaidi ya hayo, vigezo vilivyofunzwa awali vina kiwango cha kujifunza cha 3e-5, na modeli hutumia mbinu za ufunikaji kwa kurekebisha vizuri mkusanyiko wa data. Jedwali lililo hapa chini linatoa muhtasari wa matokeo, na inaweza kuonekana kuwa kielelezo cha data2vec kinaweza kufanya vyema zaidi usanidi unaolinganishwa na usanifu sawa, na data ya mafunzo ya awali. 

Usindikaji wa lugha ya asili

Ili kuchanganua utendaji wa data2vec kwenye maandishi, modeli hufuata usanidi sawa wa mafunzo kama BURE na kutoa mafunzo ya awali kielelezo kwenye seti ya data ya Wikipedia ya Kiingereza yenye visasisho zaidi ya 1M, na ukubwa wa kundi kuwa mfuatano 256. Mfano huo unatathminiwa kwenye GLUE au Tathmini ya Uelewa wa Lugha ya Jumla alama inayojumuisha kazi za kuingiliwa kwa lugha asilia(MNLI au Maelekezo ya Lugha Asilia ya Aina nyingi, kufanana kwa sentensi (Kigezo cha Jozi za Maswali ya QQP au Quora, MRPC au Kifungu cha Aya ya Utafiti ya Microsoft, na Kigezo cha Usawa wa Maandishi ya Semantiki au STS-B.), uchambuzi wa hisia (SST-2 au Stanford Sentiment Treebank), na kisarufi (CoLA). 

Zaidi ya hayo, ili kurekebisha muundo wa data2vec vizuri, data iliyo na lebo hutolewa na kila kazi, na usahihi wa wastani huripotiwa kwenye seti za usanidi na urekebishaji 5 wa uendeshaji. Jedwali lifuatalo linatoa muhtasari wa utendaji wa modeli ya data2vec kwa kazi za Uchakataji wa Lugha Asilia, na kuilinganisha na miundo mingine. 

  • Data iliyo hapo juu inaonyesha kuwa muundo wa data2vec unafanya kazi vyema kuliko muundo wa msingi wa RoBERTa kwani mkakati katika muundo wa data2vec hautumii malengo nasibu. 
  • Muundo wa data2vec ndio muundo wa kwanza wa NLP uliofunzwa awali ambao hautumii vitengo tofauti kama vile vibambo, maneno au maneno madogo kama shabaha za mafunzo. Badala yake, mfumo wa data2vec unatabiri uwakilishi fiche wa muktadha juu ya mlolongo kamili wa maandishi ambao haujafichwa. 
  • Husaidia katika kuunda kazi ya kujifunza ambayo modeli inahitajika kutabiri shabaha na sifa maalum kutoka kwa mlolongo wa sasa badala ya kutabiri uwakilishi ambao ni wa kawaida kwa kila kitengo cha maandishi kwa busara fulani. 
  • Zaidi ya hayo, lengo la mafunzo halijawekwa, na modeli ni huru kufafanua shabaha mpya, na iko wazi kwa mipangilio ya msamiati. 

Data2Vec: Utafiti wa Ablations

Ablation ni neno linalotumika kufafanua kuondolewa kwa kijenzi katika mifumo ya AI, na ML. Utafiti wa uondoaji hutumika kuchunguza au kuchanganua utendakazi wa muundo wa AI au ML kwa kuondoa vipengee fulani muhimu kutoka kwa muundo unaoruhusu watafiti kuelewa mchango wa kipengele hicho katika mfumo mzima. 

Malengo ya Wastani wa Tabaka

Tofauti kuu kati ya data2vec na miundo mingine ya kujifunzia inayojisimamia ni kwamba muundo wa data2vec hutumia malengo ambayo yanatokana na wastani wa tabaka nyingi kutoka kwa mtandao wa walimu. Wazo linatokana na ukweli kwamba tabaka za juu za mfano wa wav2vec 2.0 hazifanyi kazi vizuri kwa kazi za chini ikilinganishwa na tabaka za kati za mfano. 

Katika jaribio lifuatalo, utendakazi wa mbinu zote tatu hupimwa kwa wastani wa K= 1, 2, …, tabaka 12 ambapo K= 1 hutabiri safu ya juu pekee. Hata hivyo, ili kutoa muda wa haraka wa kubadilisha, data2vec hufunza muundo msingi na tabaka 12 kwa jumla. Kwa utambuzi wa matamshi, mtindo huo hufunzwa mapema kuhusu masasisho zaidi ya laki mbili kwenye Librispeech, na kisha kusasishwa kwa saa 10 iliyo na lebo ya mgawanyiko wa Libri-light. Kwa Uchakataji wa Lugha Asilia, modeli huripoti wastani wa alama za GLUE kwa seti ya uthibitishaji, na hufunza mapema muundo wa vipindi 300 vya kuona kwa kompyuta na kisha kuripoti usahihi wa 1 bora uliopatikana kwenye mkusanyiko wa data wa ImageNet. 

Kielelezo kilicho hapo juu kinaonyesha kuwa shabaha kulingana na tabaka nyingi kwa ujumla huboreka wakati safu ya juu tu K=1 inatumiwa kwa mbinu zote. Kutumia tabaka zote zinazopatikana ni mazoezi mazuri kwani mitandao ya neva hujenga vipengele juu ya aina tofauti za vipengele, na tabaka nyingi ambazo hutolewa kama tabaka za vipengele. 

Kutumia vipengele kutoka kwa tabaka nyingi husaidia katika kuongeza usahihi, na kuimarisha mchakato wa kujifunza unaojisimamia. 

Aina ya Kipengele Lengwa

Vizuizi vya transfoma katika modeli ya data2vec vina tabaka kadhaa ambazo zinaweza kutumika kama shabaha. Ili kuchanganua jinsi safu tofauti zinavyoathiri utendakazi, modeli hiyo inafunzwa mapema juu ya miundo ya hotuba ya Librispeech inayotumia safu tofauti kama vipengele lengwa. 

Kielelezo kilicho hapa chini kinaonyesha kwa uwazi kwamba matokeo ya mtandao wa mbele wa mlisho au FFN hufanya kazi ipasavyo ilhali matokeo ya vizuizi vya kujiangalia haisababishi muundo unaoweza kutumika. 

Uwekaji Muktadha Lengwa

Uwakilishi wa walimu katika modeli ya data2vec hutumia umakini wa kibinafsi juu ya ingizo zima ili kutoa shabaha zenye muktadha. Ndiyo hutenganisha data2vec kutoka kwa miundo mingine ya kujifunza inayojisimamia ambayo huunda kazi ya kujifunza kwa kuunda upya au kutabiri sehemu za ndani za ingizo. Ni dhahiri inaleta swali: Je, kielelezo cha data2vec kinahitaji shabaha za muktadha ili kufanya kazi vizuri? 

Ili kujibu swali, watafiti huunda uwasilishaji lengwa ambao hauna ufikiaji wa mkusanyiko mzima wa data lakini ni sehemu yake tu ambayo imeamuliwa mapema. Kisha mtindo huo unazuia utaratibu wa kujiangalia wa mwalimu ambao unamruhusu kupata sehemu tu ya pembejeo za mazingira zinazozunguka. Baada ya kielelezo kufunzwa, kinasasishwa ili kufikia ukubwa kamili wa muktadha. 

Kielelezo kilicho hapa chini kinaonyesha kuwa saizi kubwa za muktadha mara nyingi husababisha utendakazi bora, na sampuli nzima ya ingizo inapoonekana, hutoa usahihi bora zaidi. Inathibitisha hilo zaidi uwakilishi bora zaidi wa lengo unaweza kutoa utendakazi bora. 

Modality Maalum Feature Extractors na Masking

Lengo kuu la data2vec ni kubuni mbinu rahisi ya kujifunza ambayo inaweza kufanya kazi kwa njia tofauti. Ni kwa sababu, ingawa miundo na mifumo ya sasa ina mfumo mmoja wa kujifunza, bado hutumia mbinu mahususi ya ufunikaji, na vitoa vipengele. 

Inaeleweka kuwa mifumo mara nyingi hufanya kazi na muundo mmoja kutokana na asili ya data ya uingizaji hutofautiana sana kutoka kwa kila mmoja. Kwa mfano, miundo ya utambuzi wa usemi hutumia ingizo la msongo wa juu( kama 10 kHz waveform) ambayo kwa kawaida huwa na maelfu ya sampuli. Kisha muundo wa wimbi huchakatwa na kiunzi kwa kutumia mtandao wa neva wa kubadilisha safu nyingi ili kupata mfuatano wa vipengele vya 50 Hz. 

Malengo Yenye Muundo na Muktadha

Jambo kuu la kutofautisha kati ya data2vec na miundo mingine ya ubashiri iliyofichwa ni kwamba katika modeli ya data2vec, vipengele vya shabaha za mafunzo vinaainishwa kulingana na muktadha. Vipengele hivi hujengwa kwa kutumia umakini wa kibinafsi wa ingizo zima lililofichwa katika hali ya mwalimu. 

Mifumo mingine kama vile BYOL(Bootstrap Your Own Latent) au DINO pia hutumia uwasilishaji fiche kama data2vec, lakini lengo lao kuu ni kujifunza uwasilishaji badiliko usiobadilika. 

Mawazo ya mwisho

Kazi ya hivi majuzi katika tasnia ya AI na ML imeonyesha kuwa usanifu wa miundo sare unaweza kuwa mbinu mwafaka ya kushughulikia mbinu nyingi. Muundo wa data2vec hutumia mbinu ya kujifunzia inayojisimamia kwa kufanya kazi na mbinu tatu: usemi, taswira na lugha. 

Wazo kuu la muundo wa data2vec ni kutumia mwonekano wa ingizo kwa sehemu ili kurekebisha maelezo yaliyoletwa na muktadha au data ya ingizo. Mbinu inayotumiwa na mifumo ya data2vec ni nzuri kwani kielelezo hufanya kazi vyema zaidi kuliko miundo ya awali ya kujifunzia iliyojisimamia kwenye seti ya data ya ImageNet-1K kwa miundo ya aina moja ya ViT-B, na ViT-L. 

Data2vec ni hatua muhimu sana katika tasnia ya ujifunzaji inayojisimamia kwani inaonyesha njia moja ya kujifunza ya kujifunza mbinu nyingi kwa kweli inaweza kurahisisha mifano kujifunza katika mbinu mbalimbali. 

"Mhandisi kwa taaluma, mwandishi kwa moyo". Kunal ni mwandishi wa kiufundi aliye na upendo na uelewa wa kina wa AI na ML, aliyejitolea kurahisisha dhana changamano katika nyanja hizi kupitia uandikaji wake unaovutia na unaoarifu.