stub data2vec: verstapost iseseisvalt juhendatud õppimises – Unite.AI
Ühenda meile

Tehisintellekt

data2vec: verstapost isejuhitavas õppimises

mm
Ajakohastatud on

Masinõppemudelid on koolitusel suuresti tuginenud märgistatud andmetele ja traditsiooniliselt annavad märgistatud andmete koolitusmudelid täpseid tulemusi. Märgistatud andmete kasutamise peamine negatiivne külg on aga suured annotatsioonikulud, mis tõusevad treeningandmete suuruse suurenemisega. Kõrged märkuste tegemise kulud on arendajatele suureks takistuseks, eriti kui nad töötavad suure projekti kallal, kus on palju koolitusandmeid.

Märkuste probleemi lahendamiseks tulid arendajad välja kontseptsiooni SSL ehk Self Supervised Learning. Iseseisev õpe on masinõppeprotsess, mille käigus mudel treenib end õppima osa sisendist teisest sisendi osast. Self-vised Learning mudeli eesmärk on ära kasutada andmete vahelist seost, selle asemel et kasutada märgistatud andmete juhendatud signaale. 

Lisaks iseseisvale juhendatud õppimisele on masinõppemudelite koolitamiseks ilma märgistatud andmeid kasutamata ka mitmeid muid meetodeid ja mudeleid. Enamikul neist meetoditest on aga kaks peamist probleemi

  1. Need on sageli spetsialiseerunud ühele modaalsusele, näiteks pildile või tekstile. 
  2. Need nõuavad suurt arvutusvõimsust. 

Need piirangud on peamine probleem, miks keskmine inimmõistus on võimeline õppima ühte tüüpi andmetest palju tõhusamalt, võrreldes tehisintellekti mudeliga, mis tugineb pildi, teksti ja kõne eristamiseks eraldi mudelitele ja koolitusandmetele. 

Üksikmodaalsuse probleemi lahendamiseks andis Meta AI välja data2vec, esimene omataoline, iseseisvalt juhitav suure jõudlusega algoritm õppida mustriteavet kolmest erinevast modaalsusest: pilt, tekst ja kõne. Data2vec algoritmi rakendamisel saab tekstist arusaamist rakendada pildi segmenteerimise probleemile või seda saab kasutada ka kõnetuvastusülesandes. 

Selles artiklis räägime üksikasjalikult data2vec mudelist. Me käsitleme meetodi ülevaadet, sellega seotud töid, arhitektuuri ja mudeli tulemusi põhjalikumalt, et teil oleks data2vec algoritmist selge arusaam. 

Data2vec Sissejuhatus: Põhiidee

Kuigi isejuhitud õppimise põhikontseptsiooni rakendatakse erinevatel viisidel, erinevad tegelikud eesmärgid ja algoritmid üksteisest, kuna need on kavandatud ühtse modaalsuse jaoks. Mudeli kujundamine ühele modaalsusele on põhjus, miks sama iseseisvalt juhitav õppealgoritm ei saa tõhusalt töötada erinevate koolitusandmete puhul. 

Ühe modaalsuse mudelite ja algoritmide väljakutse ületamiseks andis Meta AI välja data2vec, algoritmi, mis kasutab sama õppemetoodikat mõlema arvutinägemise jaoks, NLP või kõne.  

Data2vec algoritmi põhiidee on kasutada sisendi maskeeritud vaadet ennustada täielike sisendandmete varjatud esitusi isedestilleerimise seadistuses abiga standardne trafo arhitektuur. Seega, modaalsusspetsiifiliste objektide (nt pildid, tekst või hääl) asemel, mis on olemuselt lokaalsed, ennustab data2vec algoritm varjatud esitusi kogu koolituse või sisendandmete teabega. 

Miks vajab AI tööstus Data2Vec algoritmi?

Self Supervised Learning mudelid loovad treeningandmete esitusi, kasutades inimese annoteeritud silte, ja see on üks peamisi põhjuseid NLP või loomuliku keele töötlemise ja arvutinägemise tehnoloogia arengu taga. Need isejärelevalvega õppimise esitused on põhjus, miks sellised toimingud nagu kõnetuvastus ja masinõpe kasutavad oma mudelites järelevalveta õppimist. 

Siiani keskenduvad need isejälgitavad õppealgoritmid individuaalsetele modaalsustele, mis põhjustavad õppimise kõrvalekaldeid, ja mudelite spetsiifilistele kujundustele. Iseseisva järelevalvega õppealgoritmide individuaalne modaalsus tekitab väljakutseid erinevates AI-rakendustes, sealhulgas arvutinägemises ja NLP-s. 

Näiteks kõnetöötluses on kõneühikute sõnavara, mis suudab NLP-s määratleda enesejuhitava õppeülesande. Samamoodi sisse arvuti nägemine, saavad arendajad sisendit regresseerida, õppida diskreetseid visuaalseid märke või õppida andmete suurendamise suhtes muutumatuid esitusi. Kuigi need õppimise eelarvamused on käepärased, on raske kinnitada, kas need eelarvamused üldistavad ka muudele viisidele. 

Data2vec-algoritm on enesejärelevalvega õppetööstuse oluline verstapost, kuna selle eesmärk on parandada mitut modaalsust, mitte ainult ühte. Lisaks ei sõltu data2vec-algoritm sisendi rekonstrueerimisest ega kontrastiivsest õppimisest. 

Seega on põhjus, miks maailm vajab data2veci, see, et data2veci algoritm võib kiirendada tehisintellekti arengut ja aitab arendada tehisintellekti mudeleid, mis saavad sujuvalt õppida tundma ümbritsevaid aspekte. Teadlased loodavad, et data2vec algoritm võimaldab neil välja töötada kohandatavamaid AI- ja ML-mudeleid, mis on võimelised täitma kõrgelt arenenud ülesandeid kaugemale sellest, mida tänapäeva AI-mudelid suudavad.

Mis on Data2Vec algoritm?

Data2vec on ühtne raamistik, mille eesmärk on rakendada enesejärelevalvega masinõpet erinevate andmeviiside, sealhulgas piltide, kõne ja teksti vahel. 

Data2vec algoritmi eesmärk on arendada ML-mudeleid, mis suudavad keskkonna üldisi mustreid palju paremini õppida, hoides õppeeesmärgi erinevatel viisidel ühtlasena. Data2vec mudel ühendab õppimisalgoritmi, kuid õpib siiski iga modaalsuse esitusi eraldi. 

Data2vec algoritmi kasutuselevõtuga loodab Meta AI, et see muudab multimodaalse õppimise tõhusamaks ja palju lihtsamaks. 

Kuidas Data2Vec algoritm töötab?

Data2vec algoritm ühendab varjatud sihtmärgi esituste õppimise maskeeritud prognoosiga, kuigi kasutab varjatud esituste üldistamiseks sihtmärkidena mitut võrgukihti. Mudel treenib spetsiaalselt valmisolekut Trafo võrk mida siis kasutatakse kas õpetaja või õpilane režiimis. 

Õpetajarežiimis loob mudel esmalt esitused sisendandmed, mis toimivad õppeülesande sihtmärkidena. Õpilase režiimis kodeerib mudel sisendandmete maskeeritud versiooni, mida seejärel kasutatakse andmete täielike esitusviiside prognoosimiseks. 

Ülaltoodud pilt kujutab, kuidas data2vec mudel kasutab erinevate meetodite jaoks sama õppeprotsessi. Esimeses etapis toodab mudel sisendandmete esitusi (õpetaja režiim). Seejärel regresseerib mudel need esitused sisendi maskeeritud versiooni alusel. 

Lisaks, kuna data2vec algoritm kasutab sisendandmete varjatud esitusi, võib seda vaadelda modaalsusspetsiifiliste kujunduste lihtsustatud versioonina, näiteks sobivate sihtmärkide loomine sisendi normaliseerimisega or fikseeritud visuaalsete märkide komplekti õppimine. Kuid oluline eristuspunkt data2vec ja teiste algoritmide vahel on see, et data2vec algoritm kasutab sihtesituse tegemiseks enesetähelepanu. kontekstuaalne ja pidev. Teisest küljest kasutavad teised enesejärelevalvega õppimismudelid kindlaid sihte, mis põhinevad kohalikul kontekstil. 

Data2vec: mudelimeetod

Data2vec mudelit treenitakse, ennustades sisendandmete mudeliesitusi, mis annavad sisendist osalise ülevaate. Nagu antud joonisel näha, on koera nägu maskeeritud, konkreetne osa häälemärkusest on maskeeritud ja sõna "koos” on tekstis maskeeritud. 

Esmalt kodeerib mudel treeningnäidise (õpilase režiim) ja kodeerib seejärel sisendi maskeerimata versiooni, et luua sama mudeliga treeningsihtmärgid, kuid ainult siis, kui see on parameetrites mudeli kaalude eksponentsiaalseks keskmiseks (õpetaja režiim). Lisaks kodeerivad sihtesitlused koolitusnäidis oleva teabe ja õpilasrežiimis kasutatakse õppeülesannet nende esituste ennustamiseks, kui sisendist antakse osaline vaade. 

Mudeli arhitektuur

Data2vec mudel kasutab standardit Trafo arhitektuur sisendandmete modaalsusspetsiifilise kodeeringuga. Arvutinägemisega seotud ülesannete puhul kasutab mudel ViT-strateegiat, et kodeerida kujutis plaastrite jadana, kus iga kujutis ulatub üle 16 × 16 piksli ja mida edastatakse lineaarse teisendusena. 

Lisaks kodeerib mudel andmeid kõnetuvastuse jaoks, kasutades mitmekihilist 1-D konvolutsioonilist närvivõrku, mis kaardistab 16 kHz lainekujud 50 Hz esitusteks. Tekstiandmete töötlemiseks eeltöötleb mudel andmeid, et eraldada alamsõnaühikud ja seejärel manustatakse andmed manustusvektorite kaudu jaotusruumi. 

Maskimine

Kui mudel manustab sisendandmed žetoonide jadana, maskeerib mudel nende üksuste osad, asendades need manustusmärgiga, ja edastab jada seejärel Transformer võrku. Arvutinägemise jaoks kasutab mudel plokkidepõhise märgistamise strateegiat. Varjatud kõneesitusi kasutatakse kõneandmete ulatuste maskeerimiseks ja keelega seotud ülesannete puhul märgid maskeeritakse. 

Koolituse eesmärgid

Data2vec mudeli eesmärk on ennustada maskeerimata treeningvalimi mudeliesitusi, tuginedes mudelile algselt sisestatud maskeeritud valimi kodeeringule. Mudel ennustab esitusi ainult maskeeritud ajasammude jaoks. 

Mudel ennustab kontekstualiseeritud esitused mis mitte ainult ei kodeeri konkreetset ajasammu, vaid kodeerib ka muud näidist pärinevat teavet, kuna kasutab transformaatori võrgus enesetähelepanu. Kontekstipõhised esitused ja Transformeri võrgu kasutamine eristab data2vec mudelit juba olemasolevast BERT, wav2vec, BEiT, SimMIM, MAE ja MaskFeat mudelid, mis ennustavad sihtmärke ilma kontekstuaalse teabeta. 

Siit saate teada, kuidas data2vec mudel parameetrib õpetajarežiimi, et ennustada võrgu esitusi, mis seejärel toimivad sihtmärkidena. 

Õpetaja parameetrid

Data2vec mudel parameetriseeris maskeerimata treeningnäidise kodeeringu, kasutades EMA ehk eksponentsiaalne liikuv keskmine mudeli parameetritest(θ), kus mudeli kaalud sihtrežiim (△) on järgmised

                                           ∆ ← τ∆ + (1 − τ ) θ

 

Lisaks on mudelis ajakava τ jaoks, mis suurendab parameetrit lineaarselt alates  τ0 kuni τe (sihtväärtus) esimese τn värskenduse jooksul. Pärast neid värskendusi hoiab mudel väärtust konstantsena, kuni koolitus läbi saab. EMA strateegia kasutamine värskendab õpetajat alguses palju sagedamini, kui koolitus algab juhusliku mudeli korral. Kuna koolitus edeneb ja head parameetrid on selgeks õpitud, on õpetajal harvem värskendusi. 

Tulemused näitavad, et mudel on tõhusam ja täpsem, kui see jagab õpilase ja õpetaja režiimi vahel funktsioonikooderi ja asukohakodeerija parameetreid. 

Sihid

Treeningu sihtmärkide konstruktsioon sõltub tipu väljundist K õpetajavõrgu plokid ajasammude jaoks, mis on maskeeritud õpilasrežiimis. Ploki väljund l igal ajahetkel t on tähistatud kui alt. Seejärel rakendab mudel iga ploki normaliseerimist, et saada âlt enne kui see keskmistab ülemise K ploki 

  

 

koolituse eesmärgi saavutamiseks yt ajasammu jaoks t võrgu jaoks L plokke kokku. 

See loob koolituse eesmärgid, mida mudel õpilasrežiimis taandub. Esialgsetes katsetes toimis data2vec mudel hästi iga ploki eraldi prognoosimisel spetsiaalse projektsiooniga ja oli samal ajal palju tõhusam. 

Lisaks võimaldab sihtmärkide normaliseerimine ka data2vec mudelil kokku kukkuda ajasammude konstantseteks esitusteks ja takistada kõrge normaliseerimisega kihtidel domineerima sihtandmestiku funktsioonide üle. Kõnetuvastuseks kasutab mudel eksemplari normaliseerimist praeguse sisendnäidise üle ilma õpitud parameetriteta. Selle põhjuseks on peamiselt asjaolu, et kuna samm sisendandmete üle on väike, on naaberesitlused tugevas korrelatsioonis. 

Lisaks leidsid teadlased, et arvutinägemise ja NLP-ga töötades teeb parameetriteta normaliseerimine seda tööd piisavalt. Probleemi saab lahendada ka Dispersioon-Invariantsus-Kovariatsioon reguleerimine, kuid ülalmainitud strateegia toimib piisavalt hästi ja see ei nõua täiendavaid parameetreid. 

Eesmärk

Kontekstipõhise koolituse eesmärkide jaoks yt, kasutab mudel a Sujuv L1 kaotus taandamaks sihtmärke, nagu allpool mainitud

Siin juhib β üleminekut ruudukujuliselt kadudelt L1 kadudele ja see sõltub suuresti mudeli ennustuse f vahelise lõhe suurusest.t(x) ajasammul t. Selle kaotuse eeliseks on see suhteliselt vähem tundlik kõrvalekallete suhtes, kuna β seadistust on vaja häälestada

Eksperimentaalne seadistus

Data2vec mudelit katsetatakse kahe mudeli suurusega: data2vec Suur ja data2vec baas. Arvulise stabiilsuse tagamiseks tehakse EMA värskendused fp32-s ja mudelid sisaldavad L= 12 või L= 24 peidetud mõõtmetega trafoplokke (H) = 768 või H= 1024. Vaatame üksikasjalikult erinevate modaalsuste eksperimentaalset seadistust ja eesmärgid. 

Arvuti visioon

Data2vec mudel manustab 224 × 224 piksliga pilte 16 × 16 pikslite paikadena. Kõik need plaastrid teisendatakse lineaarselt ja 196 esitusega jada suunatakse standardmuundurisse. 

Mudel järgneb BEiT külgnevate paikadega plokkide maskeerimiseks, kusjuures igas plokis on vähemalt 16 juhusliku kuvasuhtega plaastrit. Kuid selle asemel, et maskeerida 40% plaastrist, nagu algselt BEiT mudelis, maskeerib data2vec mudel parema täpsuse huvides 60% plaastrist. 

Lisaks muudab mudel juhuslikult pildi kärpimise, horisontaalse pöörde ja värvide värisemise suurust. Lõpuks kasutab data2vec mudel sama muudetud pilti nii õpetaja kui ka õpilase režiimis. 

ViT-B mudelid on eelkoolitatud 800 epohhi jaoks ja data2vec mudel kasutab ViT-L mudeli partii suurust 8,192 ja ViT-B mudeli puhul 2,048. Data2vec mudel kasutab ka koosinust ja ühe tsükliga Adami ajakava, et soojendada õppimise kiirust 80 epohhi jaoks 0.001-ni ViT-L ja 40 epohhi 0.001-ni ViT-B puhul. 

Nii ViT-B kui ka ViT-L puhul kasutab data2vec mudel konstantina β = 2, K = 6 ja τ = 0.9998 ilma ajakavata. Mudel kasutab edaspidi stohhastilist sügavusmäära 0.2. 

Lisaks treenib mudel ViT-L-i puhul 1,600 epohhi, kus esimese 800 perioodi õppimiskiirus on 0.9998, seejärel lähtestab mudel õppimiskiiruse ajakava ja jätkab viimase 800 epohhi õppimiskiirusega 0.9999. 

Piltide klassifitseerimiseks kasutab mudel viimase trafoploki väljundi keskmist kogumit ja edastab selle softmax-normaliseeritud klassifikaatorisse. Seejärel häälestab mudel ViT-L 50 epohhi jaoks ja ViT-B 100 epohhi jaoks, kasutades koosinust, ja Adam, et soojendada õppimiskiirust. 

Kõne töötlemine

Kõne töötlemiseks kasutab data2vec mudel Fairseq, järjestuse modelleerimiskomplekt, mida kasutatakse kokkuvõtete, tõlkimise ja teksti genereerimise kliendimudelite koolitamiseks. Mudel kasutab sisendiks 16 kHz lainekuju, mida töödeldakse funktsioonide kodeerijaga ja sisaldab ajalisi keerdkäike 512 kanaliga, tuuma laiust (10,3,3,3,3,2,2) ja sammu (5,2,2,2,2,2,2). ,XNUMX). 

Ülaltoodud tulemuseks on kodeerija väljundsagedus 50 Hz ja iga valimi vaheline samm on 20 ms. Vastuvõtuväli koosneb 400 sisendnäidist või 25 ms helist. Kooderile etteantud töötlemata lainekuju normaliseeritakse ühiku dispersiooniks ja nullkeskmiseks

Maskeerimisstrateegia, mida data2vec kasutab baasmudeli jaoks, sarnaneb Baevski raamistikuga kõnetuvastuses iseseisvalt juhendatud õppimiseks. Mudeli näidised p = 0.065, kui kõik ajasammud on algusindeksid, ja jätkab järgmise kümne ajasammu tähistamisega. Tüüpilise treeningjärjestuse korral võimaldab protsess maskeerida peaaegu 49% kogu ajast. 

Treeningu ajal lõõmutab data2vec mudel lineaarselt τ, kasutades τo = 0.999, τe = 0.9999 ja τn = 30,000 2. Data5vec mudel kasutab Adam optimeerijat, mille maksimaalne õppimiskiirus on 10 × XNUMX-4 baasmudeli jaoks. Lisaks kasutab baasmudel kolmeastmelist planeerijat, mis soojendab õppimiskiirust lineaarselt esimese 3% värskenduste puhul, säilitab selle järgmised 90% ja seejärel jätkab seda ülejäänud 7% võrra lineaarselt vähendades. 

Natural Language Processing

Data2vec mudel kasutab sisendi märgistamiseks 50 15 tüübi baitpaari kodeeringut ja mudel õpib seejärel iga tüübi manustamise. Pärast andmete kodeerimist rakendab mudel BERT-i maskeerimisstrateegiat 80% ühtlaselt valitud žetoonidest, millest 10% asendatakse õpitud maskimärkidega, 10% asendatakse juhuslike sõnavaramärkidega ja ülejäänud XNUMX% on muutmata. 

Eelkoolituse ajal kasutab mudel τo = 0.999, τe = 0.9999 ja τn = 100,000 10, K = 4 ja β = 5. Mudel kasutab Adami optimeerijat kolmeastmelise õppimiskiiruse ajakavaga, mis soojendab õppimiskiirust lineaarselt esimese 80% värskenduste puhul, säilitab selle järgmise 15% ja seejärel vähendab seda ülejäänud 2% võrra lineaarselt, kusjuures maksimaalne õppimismäär on 10 × XNUMX-4

Lisaks treenib mudel 16 GPU partii suurus on 256 jada ja iga jada sisaldab umbes 512 märki. Allavoolu jaoks on mudel eelkoolitatud neljas erinevas õppimiskiiruses: 1×10-4, 2 × 10-4, 3 × 10-4, 4 × 10-4ja see, mis toimib kõige paremini, valitakse edasiste NLP allavooluülesannete jaoks. 

Tulemused

Vaatame, kuidas data2vec mudel toimib, kui see rakendab ülalkirjeldatud strateegiaid erinevate modaalsuste jaoks. 

Arvuti visioon

Arvutinägemise tulemuste hindamiseks treenitakse data2vec mudelit eelnevalt saadud kujutistest ImageNet-1K andmestik. Saadud mudelit viimistletakse sama võrdlusaluse märgistatud andmete abil. Tavapärase tava kohaselt hinnatakse mudelit seejärel järgmiste parameetrite järgi top-1 täpsus valideerimisandmete kohta. 

Seejärel eristatakse tulemusi ühe enesekontrollitud mudeli ja täiendavate andmete jaoks eraldi visuaalse tokenisaatori või muude iseseisvalt juhitavate õppimismudelite alusel. 

Allolev tabel võrdleb arvutinägemise mudeli data2vec ja teiste olemasolevate mudelite: ViT-L ja ViT-B jõudlust. 

Ülaltoodud tabeli tulemused võib kokku võtta järgmiselt. 

  • Data2vec mudel ületab ühe mudeli seadistusega varasemat tööd nii ViT-L kui ka ViT-B mudelitega. 
  • Algoritmis data2vec kontekstualiseeritud varjatud esituste ennustamiseks kasutatav maskeeritud ennustuse seadistus toimib paremini, kui võrrelda meetoditega, mis ennustavad kohalikke sihtmärke, nagu insenerpildifunktsioonid, sisendpikslid või visuaalsed märgid. 
  • Data2vec mudel ületab ka isedestilleerimismeetodid, mis regreseerivad õpilaste võrgu lõplikku kihti, võttes samal ajal sisendiks pildi kaks erinevat täiendatud versiooni. 

Heli ja kõne töötlemine

Kõne ja heli töötlemiseks õpetatakse data2vec mudelit umbes 960 tunni pikkusele heliandmetele, mis on saadud Librispeech (LS-960) andmestik. Andmekogum sisaldab puhast kõneheli ingliskeelsetest audioraamatutest ning seda käsitletakse kõne- ja helitöötlustööstuses standardse etalonina. 

Mudeli jõudluse analüüsimiseks erinevates ressursiseadetes on teadlased peenhäälestanud data2vec mudelit, et kasutada automaatseks kõnetuvastuseks erinevat hulka märgistatud andmeid (mõnest minutist mitme tunnini). Mudeli jõudluse analüüsimiseks võrreldakse data2vec-iga HuBERT & wav2vec 2.0, kaks kõige populaarsemat kõne- ja heliesituse õppimise algoritmi, mis põhinevad diskreetsetel kõneüksustel. 

Ülaltoodud tabelis võrreldakse data2veci jõudlust kõnetuvastuse sõnasageduse osas teiste olemasolevate mudelitega. LM tähistab dekodeerimiseks kasutatavat keelemudelit. Tulemused võib kokku võtta järgmiselt. 

  • Data2vec mudel näitab enamiku märgistatud andmeseadete täiustusi ja põhimudelite puhul on märgistatud andmete suurim kasum 10 minutit. 
  • Kui tegemist on suurte mudelitega, toimib mudel oluliselt paremini väikeste märgistatud andmekogumite puhul ja jõudlus on võrreldav ressursirikaste andmekogumitega, mis sisaldavad üle 100 ja 960 tunni märgistatud andmeid. Põhjus on selles, et enamiku mudelite puhul on jõudlus üldiselt küllastunud ressursirikka märgistatud andmekogumiga. 
  • Pärast toimivuse analüüsimist võib järeldada, et kui mudel kasutab rikkalikke kontekstuaalseid sihtmärke, ei ole diskreetsete ühikute õppimine hädavajalik. 
  • Kontekstipõhiste eesmärkide õppimine treeningu ajal aitab üldist jõudlust oluliselt parandada. 

Lisaks sellele, et valideerida data2veci kõnetuvastuse lähenemisviisi, on mudelit ka koolitatud Audiokomplekt etalon. Kuigi AudioSeti eelkoolituse seadistus on sarnane Librispeechiga, on mudelit treenitud K= 12 ja üle 200 94.5 värskenduse jaoks, kus iga partii pikkus on XNUMX minutit. 

Seejärel rakendab mudel DeepNorm raamistik ja kihi normaliseerimine eesmärkidele, et aidata treeningut stabiliseerida. Lisaks on mudelit peenhäälestatud ka tasakaalustatud alamhulkadele, mille partii suurus on 21.3 minutit üle 13 XNUMX värskenduse. Mudel kasutab ka Lineaarne Softmax Pooling ja segadus tõenäosusskooriga 0.7. Seejärel lisab mudel a üksik lineaarne projektsioon 527 unikaalseks heliklassiks ja määrab projektsiooni õppimise kiirus kuni 2e-4. 

Lisaks on eelkoolitatud parameetrite õppimiskiirus 3e–5 ja mudel kasutab andmestiku peenhäälestamiseks maskeerimistehnikaid. Allolevas tabelis on tulemused kokku võetud ja on näha, et data2vec mudel suudab samade peenhäälestus- ja koolituseelsete andmetega ületada võrreldavat seadistust. 

Natural Language Processing

Data2veci toimivuse analüüsimiseks tekstis järgib mudel sama treeningu seadistust BERT ja mudeli eelkoolitamine ingliskeelse Wikipedia andmestiku kohta, kus on üle 1 miljoni värskenduse ja partii suurus on 256 jada. Mudelit hinnatakse GLUE ehk üldkeelemõistmise hindamine etalon, mis sisaldab loomuliku keele segamise ülesandeid (MNLI ehk mitmežanri loomuliku keele järeldus), lause sarnasus (QQP või Quora küsimusepaaride etalon, MRPC või Microsoft Researchi lõigukorpus ja STS-B ehk semantilise tekstisarnasuse võrdlusalus), meeleolu analüüs (SST-2 või Stanford Sentiment Treebank) ja grammatiliselt (CoLA). 

Lisaks esitatakse data2vec mudeli peenhäälestamiseks iga ülesanne märgistatud andmed ja arenduskomplektide keskmine täpsus esitatakse 5 peenhäälestuskäiguga. Järgmine tabel võtab kokku loomuliku keele töötlemise ülesannete mudeli data2vec toimivuse ja võrdleb seda teiste mudelitega. 

  • Ülaltoodud andmed näitavad, et data2vec mudel ületab RoBERTa algtaseme mudelit, kuna data2vec mudeli strateegia ei kasuta juhuslikke sihtmärke. 
  • Data2vec mudel on esimene edukas eelkoolitatud NLP-mudel, mis ei kasuta koolituse sihtmärkidena diskreetseid ühikuid, nagu märgid, sõnad või alamsõnad. Selle asemel ennustab data2vec raamistik kontekstuaalset varjatud esitust kogu maskeerimata tekstijada ulatuses. 
  • See aitab luua õppeülesannet, mille puhul mudel peab ennustama konkreetsete omadustega sihtmärke praegusest järjestusest, selle asemel, et ennustada esitusi, mis on iga tekstiüksuse jaoks üldised erilise diskreetsusega. 
  • Lisaks ei ole treeningu eesmärkide komplekt fikseeritud ja mudel võib vabalt määratleda uusi eesmärke ning see on avatud sõnavara seadistustele. 

Data2Vec: ablatsioonide uuring

Ablatsioon on termin, mida kasutatakse AI- ja ML-süsteemides komponendi eemaldamise määratlemiseks. Ablatsiooniuuringut kasutatakse AI- või ML-mudeli toimivuse uurimiseks või analüüsimiseks, eemaldades mudelist teatud põhikomponendid, mis võimaldavad teadlastel mõista selle komponendi panust kogu süsteemi. 

Kiht keskmised sihtmärgid

Peamine erinevus data2veci ja teiste enesejärelevalvega õppemudelite vahel seisneb selles, et data2veci mudel kasutab sihtmärke, mis põhinevad õpetajavõrgustiku mitme kihi keskmistamisel. Idee tuleneb asjaolust, et mudeli wav2vec 2.0 ülemised ülemised kihid ei toimi allavoolu ülesannete jaoks hästi, võrreldes mudeli keskmiste kihtidega. 

Järgmises katses mõõdetakse kõigi kolme modaalsuse jõudlust K= 1, 2, …, 12 kihi keskmistamisega, kus K= 1 ennustab ainult ülemist kihti. Kiirema töötlemisaja eraldamiseks treenib data2vec aga baasmudelit kokku 12 kihiga. Kõnetuvastuse jaoks koolitatakse mudelit Librispeechi enam kui kahesaja tuhande värskendusega ja seejärel peenhäälestatakse Libri-lighti 10-tunnisel jaotusel. Loomuliku keele töötlemise puhul teatab mudel valideerimiskomplekti keskmise GLUE skoori ja treenib mudelit 300 epohhi jaoks arvutinägemise jaoks ning seejärel teatab ImageNeti andmekogus saadud parima 1 täpsuse. 

Ülaltoodud joonis näitab, et mitmel kihil põhinevad sihtmärgid paranevad üldiselt, kui kõigi mooduste puhul kasutatakse ainult ülemist kihti K=1. Kõigi saadaolevate kihtide kasutamine on hea tava, kuna närvivõrgud loovad funktsioone erinevat tüüpi funktsioonidele ja arvukatele kihtidele, mis seejärel funktsioonikihtidena ekstraheeritakse. 

Mitme kihi funktsioonide kasutamine aitab suurendada täpsust ja rikastab iseseisvalt juhendatavat õppeprotsessi. 

Sihtfunktsiooni tüüp

Data2vec mudeli trafoplokkidel on mitu kihti, mis kõik võivad toimida sihtmärkidena. Et analüüsida, kuidas erinevad kihid mõjutavad jõudlust, on mudel eelkoolitatud Librispeechi kõnemudelitel, mis kasutavad sihtfunktsioonidena erinevaid kihte. 

Allolev joonis näitab selgelt, et edasisaatmisvõrgu või FFN-i väljund töötab ideaalselt, samas kui enesetähelepanuplokkide väljund ei anna kasutatavat mudelit. 

Sihtkontekstualiseerimine

Õpetajate esitused mudelis data2vec kasutavad kontekstuaalsete sihtmärkide loomiseks kogu sisendis enesetähelepanu. See eraldab data2vec teistest iseseisvalt juhitavatest õpimudelitest, mis loovad õppeülesande sisendi kohalike osade rekonstrueerimise või ennustamise kaudu. Ilmselt tekitab see küsimuse: kas data2vec mudel vajab hästi toimimiseks kontekstipõhiseid sihtmärke? 

Küsimusele vastamiseks konstrueerivad teadlased sihtesitusi, millel pole juurdepääsu kogu sisendandmestikule, vaid ainult osale sellest, mis on etteantud. Seejärel piirab mudel õpetaja enesetähelepanu mehhanismi, mis võimaldab tal ligi pääseda vaid osale ümbritseva keskkonna sisendist. Pärast mudeli väljaõpetamist on see peenhäälestatud, et pääseda juurde kogu konteksti suurusele. 

Allolev joonis näitab, et suuremad konteksti suurused toovad sageli kaasa parema jõudluse ja kui kogu sisendvalim on nähtav, annab see parima täpsuse. See tõestab seda veelgi rikkalikumad sihtmärgid võivad anda parema jõudluse. 

Modaalsuspõhiste funktsioonide ekstraktorid ja maskeerimine

Data2veci peamine eesmärk on kujundada lihtne õppemehhanism, mis töötab erinevate meetoditega. Selle põhjuseks on asjaolu, et kuigi praegustel mudelitel ja raamistikel on ühtne õpperežiim, kasutavad nad siiski modaalsuspõhist maskeerimist ja funktsioonide ekstraktijaid. 

On mõistlik, et raamistikud töötavad enamasti ühe modaalsusega, kuna sisendandmete olemus on üksteisest väga erinev. Näiteks kasutavad kõnetuvastusmudelid kõrge eraldusvõimega sisendit (nt 10 kHz lainekuju), millel on tavaliselt tuhandeid näidiseid. Seejärel töötleb raamistik lainekuju mitmekihilise konvolutsioonilise närvivõrgu abil, et saada 50 Hz funktsioonijadasid. 

Struktureeritud ja kontekstipõhised eesmärgid

Peamine erinevus data2vec ja muude maskeeritud ennustusmudelite vahel on see, et data2vec mudelis on treeningsihtmärkide omadused kontekstualiseeritud. Need funktsioonid on loodud õpetajarežiimis kogu maskeeritud sisendi enesetähelepanu abil. 

Mõned teised raamistikud, nagu BYOL (Bootstrap Your Own Latent) või DINO, kasutavad samuti latentseid esitusi, nagu data2vec, kuid nende peamine eesmärk on õppida teisendusinvariantide esitusi. 

Final Thoughts

Hiljutine tehisintellekti ja ML tööstuses tehtud töö on näidanud, et ühtsed mudeliarhitektuurid võivad olla tõhus lähenemisviis mitmete viiside lahendamiseks. Data2vec mudel kasutab kolme modaalsusega töötamiseks enesejärelevalvega õppimisviisi: kõne, kujutised ja keel. 

Data2vec mudeli põhikontseptsioon on osalise sisendvaate kasutamine kontekstuaalse teabe või sisendandmete regresseerimiseks. Data2vec raamistike kasutatav lähenemisviis on tõhus, kuna mudel toimib nii ViT-B kui ka ViT-L üksikute mudelite jaoks ImageNet-1K andmestiku varasematest enesejärelevalvega õppemudelitest paremini. 

Data2vec on enesejärelevalvega õppetööstuses tõsine verstapost, kuna see demonstreerib üht õppemeetodit mitme modaalsuse õppimiseks, mis võib tõepoolest hõlbustada mudelite õppimist erinevate modaalsuste vahel. 

"Elukutselt insener, hingelt kirjanik". Kunal on tehniline kirjanik, kes armastab ja mõistab sügavalt AI-d ja ML-i ning on pühendunud nende valdkondade keerukate kontseptsioonide lihtsustamisele oma kaasahaarava ja informatiivse dokumentatsiooni kaudu.