Umjetna inteligencija

data2vec: Prekretnica u samonadzornom učenju

Ažurirano on Kolovoz 2, 2023

Modeli strojnog učenja uvelike se oslanjaju na označene podatke za obuku, a tradicionalno govoreći, modeli obuke na označenim podacima daju točne rezultate. Međutim, glavni nedostatak korištenja označenih podataka su visoki troškovi označavanja koji rastu s povećanjem veličine podataka za obuku. Visoki troškovi bilješki velika su prepreka za programere, posebno kada rade na velikom projektu sa značajnim količinama podataka za obuku.

Kako bi riješili problem napomena, programeri su osmislili koncept SSL ili samonadzirano učenje. Samonadzirano učenje je proces strojnog učenja u kojem model se trenira da nauči dio ulaza iz drugog dijela ulaza. Model samonadziranog učenja ima za cilj iskoristiti odnos između podataka umjesto korištenja nadziranih signala označenih podataka.

Uz samonadzorno učenje, postoji nekoliko drugih metoda i modela za obuku modela strojnog učenja bez upotrebe označenih podataka. Međutim, većina ovih metoda ima dva glavna problema

Često su specijalizirani za jedan modalitet poput slike ili teksta.
Oni zahtijevaju veliku količinu računalne snage.

Ta su ograničenja glavni problem zašto prosječni ljudski um može mnogo učinkovitije učiti iz jedne vrste podataka u usporedbi s modelom umjetne inteligencije koji se oslanja na zasebne modele i podatke o obuci kako bi razlikovao sliku, tekst i govor.

Kako bi riješio problem jednog modaliteta, Meta AI je objavio data2vec, prvi takve vrste, samonadzirani algoritam visokih performansi naučiti podatke o uzorcima iz tri različita modaliteta: slike, teksta i govora. Uz implementaciju algoritma data2vec, razumijevanje teksta može se primijeniti na problem segmentacije slike ili se također može primijeniti u zadatku prepoznavanja govora.

U ovom članku ćemo detaljnije govoriti o modelu data2vec. Detaljnije ćemo raspravljati o pregledu metode, povezanom radu, arhitekturi i rezultatima modela kako biste imali jasno razumijevanje algoritma data2vec.

Data2vec Uvod: Osnovna ideja

Iako se temeljni koncept samonadzornog učenja primjenjuje na više modaliteta, stvarni ciljevi i algoritmi razlikuju se jedni od drugih jer su dizajnirani u odnosu na jedan modalitet. Dizajniranje modela za jedan modalitet razlog je zašto isti algoritam samonadzornog učenja ne može učinkovito raditi na različitim vrstama podataka o obuci.

Kako bi prevladao izazov koji predstavljaju modeli i algoritmi jednog modaliteta, Meta AI je izdao data2vec, algoritam koji koristi istu metodologiju učenja za računalni vid, NLP odnosno govora.

Temeljna ideja data2vec algoritma je korištenje maskiranog prikaza ulaza u predvidjeti latentne prikaze potpunih ulaznih podataka u postavu samodestilacije uz pomoć standardna transformatorska arhitektura. Dakle, umjesto objekata specifičnih za modalitet poput slika, teksta ili glasa koji su lokalne prirode, algoritam data2vec predviđa latentne prikaze s informacijama iz cjelovite obuke ili ulaznih podataka.

Zašto AI industriji treba Data2Vec algoritam?

Modeli samonadziranog učenja grade prikaze podataka o obuci pomoću ljudskih označenih oznaka i to je jedan od glavnih razloga za napredak NLP-a ili obrade prirodnog jezika i tehnologije računalnog vida. Ovi prikazi samonadziranog učenja razlog su zašto zadaci poput prepoznavanja govora i strojnog učenja koriste nenadzirano učenje u svojim modelima.

Do sada su se ti samonadzirani algoritmi učenja usredotočili na pojedinačne modalitete koji rezultiraju pristranostima u učenju i specifične dizajne u modelima. Individualni modalitet algoritama samonadzornog učenja stvara izazove u različitim aplikacijama umjetne inteligencije, uključujući računalni vid i NLP.

Na primjer, postoji vokabular govornih jedinica u obradi govora koji može definirati samonadzirani zadatak učenja u NLP-u. Slično tome, u računalni vid, programeri mogu regresirati unos, naučiti diskretne vizualne tokene ili naučiti prikaze invarijantne povećanju podataka. Iako su te pristranosti u učenju korisne, teško je potvrditi hoće li se te predrasude generalizirati na druge modalitete.

Algoritam data2vec velika je prekretnica u industriji samonadziranog učenja budući da ima za cilj poboljšati više modaliteta, a ne samo jedan. Nadalje, algoritam data2vec ne oslanja se na rekonstrukciju ulaza ili kontrastivno učenje.

Dakle, razlog zašto svijet treba data2vec je taj što data2vec algoritam ima potencijal ubrzavanja napretka u umjetnoj inteligenciji i pridonosi razvoju modela umjetne inteligencije koji mogu neprimjetno učiti o različitim aspektima svoje okoline. Znanstvenici se nadaju da će im data2vec algoritam omogućiti da razviju prilagodljivije AI i ML modele koji su sposobni obavljati vrlo napredne zadatke izvan onoga što današnji AI modeli mogu.

Što je Data2Vec algoritam?

Data2vec je objedinjeni okvir koji ima za cilj implementaciju samonadziranog strojnog učenja u različitim modalitetima podataka uključujući slike, govor i tekst.

Data2vec algoritam ima za cilj razviti ML modele koji mogu mnogo bolje naučiti opće obrasce u okruženju održavajući cilj učenja ujednačenim u različitim modalitetima. Model data2vec ujedinjuje algoritam učenja, ali i dalje uči prikaze za svaki modalitet pojedinačno.

Uvođenjem algoritma data2vec, Meta AI se nada da će multimodalno učenje učiniti učinkovitijim i mnogo jednostavnijim.

Kako radi algoritam Data2Vec?

Algoritam data2vec kombinira učenje latentnih prikaza cilja s maskiranim predviđanjem, iako koristi višestruke mrežne slojeve kao ciljeve za generalizaciju latentnih prikaza. Model posebno trenira gotove Transformatorska mreža koji se zatim koristi ili u učitelj ili učenik Način.

U načinu učitelja, model prvo gradi prikaze ulazni podaci koji služe kao ciljevi u zadatku učenja. U studentskom načinu rada, model kodira maskiranu verziju ulaznih podataka koji se zatim koriste za izradu predviđanja o potpunim prikazima podataka.

Gornja slika prikazuje kako data2vec model koristi isti proces učenja za različite modalitete. U prvom koraku model proizvodi prikaze ulaznih podataka (način učitelja). Model zatim regresira te prikaze na temelju maskirane verzije ulaza.

Nadalje, budući da algoritam data2vec koristi latentne prikaze ulaznih podataka, može se promatrati kao pojednostavljena verzija dizajna specifičnih za modalitet kao što je stvaranje prikladnih ciljeva normalizacijom ulaza or učenje fiksnog skupa vizualnih tokena. Ali ključna razlika između data2vec i drugih algoritama je da data2vec algoritam koristi samopažnju kako bi napravio svoj ciljni prikaz kontekstualizirano i kontinuirano. S druge strane, drugi modeli samonadziranog učenja koriste fiksni skup ciljeva koji se temelje na lokalnom kontekstu.

Data2vec: Metoda modela

Model data2vec obučava se predviđanjem prikaza modela ulaznih podataka s djelomičnim prikazom ulaza. Kao što možete vidjeti na danoj slici, lice psa je maskirano, određeni dio glasovne bilješke je maskiran, a riječ “s” maskiran je u tekstu.

Model prvo kodira maskiranu verziju uzorka za obuku (studentski način rada), a zatim kodira nemaskiranu verziju ulaza za konstruiranje ciljeva treninga s istim modelom, ali samo kada je parametriran kao eksponencijalni prosjek težina modela (način učitelja). Nadalje, ciljne reprezentacije kodiraju informacije prisutne u uzorku za obuku, au načinu rada učenika, zadatak učenja se koristi za predviđanje tih reprezentacija kada se dobije djelomični prikaz ulaza.

Arhitektura modela

Data2vec model koristi standard Transformatorska arhitektura s kodiranjem ulaznih podataka specifičnim za modalitet. Za zadatke koji se odnose na računalni vid, model koristi ViT strategiju za kodiranje slike kao niza zakrpa gdje se svaka slika proteže preko 16 × 16 piksela, a unosi se kao linearna transformacija.

Nadalje, podaci za prepoznavanje govora, model kodiraju podatke pomoću višeslojne 1-D konvolucijske neuronske mreže koja preslikava valne oblike od 16 kHz u prikaze od 50 Hz. Za obradu tekstualnih podataka, model pretprocesira podatke kako bi izdvojio jedinice podriječi, a zatim ugrađuje podatke u distribucijski prostor putem vektora za ugrađivanje.

Maskiranje

Jednom kada model ugradi ulazne podatke kao slijed tokena, model maskira dijelove tih jedinica zamjenjujući ih tokenom za ugrađivanje, a zatim šalje slijed u Transformator mreža. Za računalni vid, model prakticira strategiju označavanja blokova. Latentni govorni prikazi koriste se za maskiranje raspona govornih podataka, a za zadatke povezane s jezikom, tokeni su maskirani.

Ciljevi treninga

Model data2vec ima za cilj predviđanje prikaza modela nemaskiranog uzorka za obuku na temelju kodiranja maskiranog uzorka koji je izvorno ubačen u model. Model predviđa prikaze samo za maskirane vremenske korake.

Model predviđa kontekstualizirane reprezentacije koji ne samo da kodira određeni vremenski korak, već također kodira i druge informacije iz uzorka jer koristi samopažnju u mreži transformatora. Kontekstualizirani prikazi i korištenje Transformer mreže ono je što razlikuje data2vec model od već postojećeg BERT, wav2vec, BEiT, SimMIM, MAE i MaskFeat modeli koji predviđaju ciljeve bez kontekstualnih informacija.

Evo kako model data2vec parametrira učiteljski način rada za predviđanje mrežnih reprezentacija koje zatim služe kao ciljevi.

Parametrizacija nastavnika

Model data2vec parametrizirao je kodiranje nemaskiranog uzorka obuke upotrebom EMA ili eksponencijalni pomični prosjek parametara modela (θ) gdje su težine modela u ciljni način (△) su kako slijedi

∆ ← τ∆ + (1 − τ ) θ

Nadalje, model raspoređuje za τ koji linearno povećava parametar od τ0 do τe (ciljana vrijednost) tijekom prvih τn ažuriranja. Nakon ovih ažuriranja, model održava vrijednost konstantnom sve dok obuka ne završi. Korištenje EMA strategije puno češće ažurira nastavnika na početku kada obuka počinje kada je model nasumičan. Kako obuka napreduje i nauče se dobri parametri, učitelj se rjeđe ažurira.

Rezultati pokazuju da je model učinkovitiji i točniji kada dijeli parametre kodera značajki i kodera položaja između načina rada učenika i nastavnika.

Mete

Konstrukcija meta za vježbanje ovisi o učinku vrha K blokovi učiteljske mreže za vremenske korake koji su maskirani u načinu rada učenika. Izlaz bloka l u bilo kojem vremenskom koraku t označava se kao alt. Model zatim primjenjuje normalizaciju na svaki blok da dobije âlt prije nego što izračuna prosjek gornjih K blokova

kako bi se postigao cilj obuke yt za vremenski korak t za mrežu sa L blokova ukupno.

Stvara ciljeve treninga koje model smanjuje kada je u studentskom načinu rada. U početnim eksperimentima, model data2vec pokazao se dobro u predviđanju svakog bloka zasebno s namjenskom projekcijom, a istovremeno je bio mnogo učinkovitiji.

Nadalje, normaliziranje ciljeva također omogućuje da se data2vec model uruši u konstantne prikaze za vremenske korake i spriječi slojeve s visokom normalizacijom da dominiraju značajkama u ciljnom skupu podataka. Za prepoznavanje govora, model koristi normalizaciju instance preko trenutnog ulaznog uzorka bez ikakvih naučenih parametara. To je uglavnom zato što je korak preko ulaznih podataka mali, susjedni prikazi su visoko korelirani.

Osim toga, istraživači su otkrili da kada radite s računalnim vidom i NLP-om, normalizacija bez parametara dovoljno obavlja posao. Problem se također može riješiti s Varijanca-Invarijanca-Kovarijanca regulaciju, ali gore spomenuta strategija ima dovoljno dobre rezultate i ne zahtijeva nikakve dodatne parametre.

Cilj

Za kontekstualizirane ciljeve obuke yt, model koristi a Glatki gubitak L1 kako bi se smanjili ciljevi kao što je navedeno u nastavku

Ovdje β kontrolira prijelaz s kvadratnog gubitka na L1 gubitak i uvelike ovisi o veličini jaza između predviđanja modela ft(x) u vremenskom koraku t. Prednost ovog gubitka je u tome što je relativno manje osjetljiv na izvanredne vrijednosti, s potrebom za podešavanjem postavke β.

Eksperimentalno postavljanje

Model data2vec eksperimentiran je s dvije veličine modela: data2vec Veliki i data2vec baza. Za numeričku stabilnost, ažuriranja EMA provode se u fp32, a modeli sadrže L= 12 ili L= 24 bloka transformatora sa skrivenim dimenzijama (H) = 768 ili H= 1024. Pogledajmo detaljno eksperimentalne postavke za različite modalitete , i svrhe.

računalni vid

Data2vec model ugrađuje slike od 224 × 224 piksela kao zakrpe od 16 × 16 piksela. Svaka od ovih zakrpa se transformira linearno, a sekvenca sa 196 prikaza se dovodi u standardni Transformer.

Slijedi model BEIT za maskiranje blokova sa susjednim zakrpama pri čemu svaki blok ima najmanje 16 zakrpa sa nasumičnim omjerom širine i visine. Međutim, umjesto maskiranja 40% zakrpe kao izvorno u BEiT modelu, data2vec model maskira 60% zakrpe radi bolje točnosti.

Nadalje, model nasumično mijenja veličinu izrezivanja slike, vodoravnog okretanja i podrhtavanja boje. Konačno, model data2vec koristi istu modificiranu sliku u načinu rada nastavnika i učenika.

Modeli ViT-B unaprijed su obučeni za 800 epoha, a model data2vec koristi veličinu serije od 8,192 za model ViT-L i 2,048 za model ViT-B. Model data2vec također koristi kosinus i Adamov raspored s jednim ciklusom za zagrijavanje stope učenja za 80 epoha na 0.001 za ViT-L i za 40 epoha na 0.001 za ViT-B.

I za ViT-B i za ViT-L model data2vec koristi β = 2, K = 6 i τ = 0.9998 kao konstantu bez rasporeda. Model nadalje koristi stopu stohastičke dubine 0.2.

Nadalje, za ViT-L, model trenira za 1,600 epoha gdje prvih 800 epoha ima stopu učenja od 0.9998, a zatim model resetira raspored brzine učenja i nastavlja za posljednjih 800 epoha sa stopom učenja od 0.9999.

Za klasifikaciju slike, model koristi srednju vrijednost izlaza zadnjeg transformatorskog bloka i šalje je softmax-normaliziranom klasifikatoru. Model zatim fino podešava ViT-L za 50 epoha i ViT-B za 100 epoha koristeći kosinus i Adama za zagrijavanje brzine učenja.

Obrada govora

Za obradu govora model data2vec koristi Fairseq, set za modeliranje slijeda koji se koristi za obuku korisničkih modela za sažimanje, prijevod i generiranje teksta. Model uzima valni oblik od 16 kHz kao ulaz koji se obrađuje pomoću značajke kodera i sadrži vremenske vijuge s 512 kanala, širine kernela (10,3,3,3,3,2,2) i korake (5,2,2,2,2,2,2 ,XNUMX).

Gore navedeno rezultira izlaznom frekvencijom enkodera od 50 Hz i ima korak od 20 ms između svakog uzorka. Receptivno polje sastoji se od 400 ulaznih uzoraka ili 25 ms zvuka. Neobrađeni valni oblik koji se dovodi u koder normaliziran je na jediničnu varijancu i nultu srednju vrijednost.

Strategija maskiranja koju koristi data2vec za osnovni model nalikuje Baevski okviru za samonadzirano učenje u prepoznavanju govora. Uzorci modela p = 0.065 za sve vremenske korake koji će biti početni indeksi, i nastavlja označavati sljedećih deset vremenskih koraka. Za tipičan slijed treninga, proces omogućuje maskiranje gotovo 49% ukupnih vremenskih koraka.

Tijekom obuke, data2vec model linearno žari τ pomoću τo = 0.999, τe = 0.9999, i τn = 30,000 2. Data5vec model koristi Adamov optimizator s vršnom stopom učenja od 10×XNUMX-4 za osnovni model. Nadalje, osnovni model koristi planer u tri faze koji linearno zagrijava brzinu učenja za prvih 3% ažuriranja, održava je sljedećih 90%, a zatim nastavlja linearno smanjivati za preostalih 7%.

Obrada prirodnog jezika

Model data2vec koristi kodiranje parova bajtova tipova od 50K za označavanje ulaza, a model zatim uči ugrađivanje za svaki tip. Nakon što su podaci kodirani, model primjenjuje strategiju maskiranja BERT na 15% jednolično odabranih tokena u kojima je 80% zamijenjeno naučenim tokenima maske, 10% je zamijenjeno nasumičnim tokenima vokabulara, a preostalih 10% je nepromijenjeno.

Tijekom preduvježbavanja model koristi τo = 0.999, τe = 0.9999, i τn = 100,000 10, K= 4 i β = 5. Model koristi Adamov optimizator s rasporedom brzine učenja u tri stupnja koji linearno zagrijava stopu učenja za prvih 80% ažuriranja, održava je sljedećih 15% i zatim ga linearno smanjuje za preostalih 2%, pri čemu je vršna stopa učenja 10×XNUMX-4.

Nadalje, manekenka trenira 16 GPU s veličinom serije od 256 sekvenci, a svaka sekvenca sadrži oko 512 tokena. Za nizvodni prijenos, model je unaprijed uvježban u četiri različite stope učenja: 1×10-4, 2 × 10-4, 3 × 10-4, 4 × 10-4, a onaj koji ima najbolju izvedbu odabire se za daljnje nizvodne zadatke NLP-a.

Rezultati

Pogledajmo kako se model data2vec ponaša kada implementira gore navedene strategije za različite modalitete.

računalni vid

Za procjenu rezultata za računalni vid, data2vec model je unaprijed uvježban na slikama dobivenim iz ImageNet-1K skup podataka. Rezultirajući model se fino podešava pomoću označenih podataka iste referentne vrijednosti. U skladu sa standardnom praksom, model se zatim ocjenjuje u smislu top-1 točnost na podatke o validaciji.

Rezultati se zatim razlikuju na temelju jednog samonadziranog modela i obuke zasebnog vizualnog tokenizatora na dodatnim podacima ili drugim samonadziranim modelima učenja.

Donja tablica uspoređuje performanse data2vec modela za računalni vid i ostalih postojećih modela: ViT-L i ViT-B.

Rezultati iz gornje tablice mogu se sažeti kako slijedi.

Model data2vec nadmašuje prethodni rad s modelima ViT-L i ViT-B u postavkama jednog modela.
Postavka maskiranog predviđanja koja se koristi u algoritmu data2vec za predviđanje kontekstualiziranih latentnih prikaza ima bolju izvedbu u usporedbi s metodama koje predviđaju lokalne ciljeve kao što su značajke inženjerske slike, ulazni pikseli ili vizualni tokeni.
Model data2vec također nadmašuje metode samodestilacije koje regresiraju završni sloj studentske mreže dok uzimaju dvije različite proširene verzije slike kao ulazne podatke.

Obrada zvuka i govora

Za obradu govora i zvuka, data2vec model je obučen na oko 960 sati audio podataka dobivenih iz Librigovor (LS-960) skup podataka. Skup podataka sadrži zvuk čistog govora iz audioknjiga na engleskom jeziku i smatra se standardnim mjerilom u industriji obrade govora i zvuka.

Kako bi analizirali izvedbu modela u različitim postavkama resursa, istraživači su fino podesili data2vec model da koristi različite količine označenih podataka (od nekoliko minuta do nekoliko sati) za automatsko prepoznavanje govora. Da bi se analizirala izvedba modela, data2vec se uspoređuje s njim HuBERT & wav2vec 2.0, dva najpopularnija algoritma za učenje govorne i audio reprezentacije koji se oslanjaju na diskretne govorne jedinice.

Gornja tablica uspoređuje performanse data2veca u smislu brzine riječi za prepoznavanje govora s drugim postojećim modelima. LM predstavlja jezični model koji se koristi za dekodiranje. Rezultati se mogu sažeti kako slijedi.

Model data2vec pokazuje poboljšanja za većinu postavki označenih podataka s najvećim dobitkom od 10 minuta označenih podataka za osnovne modele.
Kada je riječ o velikim modelima, model radi znatno bolje na malim označenim skupovima podataka, a izvedba je usporediva na skupovima podataka bogatih resursima s više od 100 i 960 sati označenih podataka. To je zato što je izvedba općenito zasićena skupom podataka s oznakom bogatim resursima za većinu modela.
Nakon analize izvedbe, može se zaključiti da kada model koristi bogate kontekstualizirane ciljeve, nije bitno naučiti diskretne jedinice.
Učenje kontekstualiziranih ciljeva tijekom treninga pomaže u značajnom poboljšanju ukupne izvedbe.

Nadalje, kako bi se potvrdio data2vecov pristup za prepoznavanje govora, model je također obučen na AudioSet mjerilo. Iako je postavka prije obuke za AudioSet slična Librispeechu, model je obučen za K= 12 i za više od 200K ažuriranja, gdje je veličina svake serije 94.5 minuta.

Model tada primjenjuje DeepNorm okvir, i normalizacija slojeva ciljevima kako bi pomogli u stabilizaciji treninga. Uz to, model je također fino podešen na uravnoteženim podskupovima s veličinom serije od 21.3 minute preko 13 tisuća ažuriranja. Model također koristi Linearno Softmax udruživanje i miješanje s ocjenom vjerojatnosti 0.7. Model tada dodaje a jedna linearna projekcija u 527 jedinstvenih klasa zvuka i postavlja stopa učenja projekcije do 2e-4.

Nadalje, unaprijed obučeni parametri imaju stopu učenja od 3e-5, a model koristi tehnike maskiranja za fino podešavanje skupa podataka. Donja tablica sažima rezultate i može se vidjeti da je data2vec model sposoban nadmašiti usporedivu postavku s istim finim podešavanjem i podacima prije obuke.

Obrada prirodnog jezika

Za analizu izvedbe data2vec-a na tekstu, model slijedi istu postavku obuke kao BERTI i prethodna obuka modela na skupu podataka Wikipedije na engleskom jeziku s više od 1 milijuna ažuriranja, a veličina serije je 256 nizova. Model se ocjenjuje na GLUE ili opća procjena razumijevanja jezika mjerilo koje uključuje zadatke interferencije prirodnog jezika (MNLI ili Multi Genre Natural Language Inference), sličnost rečenica (QQP ili Quora Question Pairs benchmark, MRPC ili Microsoft Research Paragraph Corpus i STS-B ili Semantic Textual Similarity Benchmark), analiza raspoloženja (SST-2 ili Stanford Sentiment Treebank), i gramatički (CoLA).

Nadalje, za fino ugađanje data2vec modela, svaki zadatak daje označene podatke, a prosječna točnost se prijavljuje na razvojnim setovima s 5 pokreta finog ugađanja. Sljedeća tablica sažima izvedbu data2vec modela za zadatke obrade prirodnog jezika i uspoređuje ga s drugim modelima.

Gore navedeni podaci pokazuju da data2vec model nadmašuje osnovni RoBERTa model budući da strategija u data2vec modelu ne koristi nasumične ciljeve.
Model data2vec prvi je uspješan NLP model s prethodnom obukom koji ne koristi diskretne jedinice poput znakova, riječi ili podriječi kao ciljeve za obuku. Umjesto toga, okvir data2vec predviđa kontekstualiziranu latentnu reprezentaciju preko cijelog nemaskiranog slijeda teksta.
Pomaže u stvaranju zadatka učenja u kojemu se od modela zahtijeva predviđanje ciljeva s određenim svojstvima iz trenutnog niza umjesto predviđanja prikaza koji su generički za svaku tekstualnu jedinicu s posebnom diskrecijom.
Nadalje, skup ciljeva obuke nije fiksan, a model može slobodno definirati nove ciljeve i otvoren je za postavke vokabulara.

Data2Vec: Studija ablacija

Ablacija je izraz koji se koristi za definiranje uklanjanja komponente u AI i ML sustavima. Studija ablacije koristi se za istraživanje ili analizu izvedbe AI ili ML modela uklanjanjem određenih ključnih komponenti iz modela što omogućuje istraživačima da razumiju doprinos te komponente u cjelokupnom sustavu.

Ciljevi s prosječnim slojem

Glavna razlika između data2vec i drugih modela samonadgledanog učenja je u tome što data2vec model koristi ciljeve koji se temelje na izračunavanju prosjeka više slojeva iz mreže nastavnika. Ideja dolazi iz činjenice da gornji gornji slojevi modela wav2vec 2.0 ne rade dobro za nizvodne zadatke u usporedbi sa srednjim slojevima modela.

U sljedećem eksperimentu izvedba sva tri modaliteta mjerena je usrednjavanjem K= 1, 2, …, 12 slojeva gdje K= 1 predviđa samo gornji sloj. Međutim, kako bi izvukao brže vrijeme obrade, data2vec obučava osnovni model s ukupno 12 slojeva. Za prepoznavanje govora, model je unaprijed uvježban na više od dvjesto tisuća ažuriranja Librispeecha, a zatim fino podešen na 10-satnom split-u s oznakom Libri-light. Za obradu prirodnog jezika, model izvješćuje o prosječnom GLUE rezultatu za skup validacije, i unaprijed obučava model za 300 epoha za računalni vid i zatim izvješćuje o top-1 točnosti dobivenoj na skupu podataka ImageNet.

Gornja slika pokazuje da se ciljevi temeljeni na više slojeva općenito poboljšavaju kada se za sve modalitete koristi samo gornji sloj K=1. Korištenje svih dostupnih slojeva dobra je praksa budući da neuronske mreže grade značajke preko različitih vrsta značajki i brojne slojeve koji se zatim izdvajaju kao slojevi značajki.

Korištenje značajki iz više slojeva pomaže u povećanju točnosti i obogaćuje proces samonadgledanog učenja.

Vrsta ciljane značajke

Blokovi transformatora u modelu data2vec imaju nekoliko slojeva koji svi mogu poslužiti kao mete. Da bi se analiziralo kako različiti slojevi utječu na izvedbu, model je unaprijed obučen na Librispeechovim modelima govora koji koriste različite slojeve kao ciljne značajke.

Donja slika jasno pokazuje da izlaz feed forward mreže ili FFN radi idealno, dok izlaz blokova samopažnje ne rezultira upotrebljivim modelom.

Ciljana kontekstualizacija

Reprezentacije nastavnika u data2vec modelu koriste samopažnju tijekom cijelog unosa za proizvodnju kontekstualiziranih ciljeva. To je ono što razlikuje data2vec od drugih modela samonadziranog učenja koji konstruiraju zadatak učenja rekonstruiranjem ili predviđanjem lokalnih dijelova unosa. Očito postavlja pitanje: zahtijeva li data2vec model kontekstualizirane ciljeve da bi dobro funkcionirao?

Kako bi odgovorili na pitanje, istraživači konstruiraju ciljne prikaze koji nemaju pristup cijelom ulaznom skupu podataka, već samo njegovom dijelu koji je unaprijed određen. Model zatim ograničava mehanizam samopažnje nastavnika koji mu dopušta pristup samo dijelu unosa okolnog okruženja. Nakon što je model obučen, fino se podešava za pristup punoj veličini konteksta.

Slika u nastavku pokazuje da veće veličine konteksta često dovode do boljih performansi, a kada je vidljiv cijeli ulazni uzorak, to daje najbolju točnost. To dodatno dokazuje bogatiji ciljni prikazi mogu dati bolju izvedbu.

Ekstraktori i maskiranje specifičnih značajki modaliteta

Primarni cilj data2veca je dizajn jednostavnog mehanizma učenja koji može raditi s različitim modalitetima. To je zato što, iako trenutačni modeli i okviri imaju objedinjeni režim učenja, još uvijek koriste maskiranje specifično za modalitet i ekstraktore značajki.

Ima smisla da okviri uglavnom rade s jednim modalitetom s obzirom na to da se priroda ulaznih podataka uvelike razlikuje jedna od druge. Na primjer, modeli prepoznavanja govora koriste ulaz visoke rezolucije (kao što je valni oblik od 10 kHz) koji obično ima tisuće uzoraka. Okvir zatim obrađuje valni oblik pomoću višeslojne konvolucijske neuronske mreže kako bi se dobile sekvence značajki od 50 Hz.

Strukturirani i kontekstualizirani ciljevi

Glavna razlika između data2vec i drugih maskiranih modela predviđanja je da su u data2vec modelu značajke ciljeva obuke kontekstualizirane. Ove značajke izgrađene su korištenjem samopažnje cijelog maskiranog unosa u učiteljskom načinu rada.

Neki drugi okviri kao što su BYOL (Bootstrap Your Own Latent) ili DINO također koriste latentne prikaze kao što je data2vec, ali njihov je primarni fokus učenje invarijantnih prikaza transformacije.

Final Misli

Nedavni radovi u industriji umjetne inteligencije i strojnog učenja ukazali su na to da jedinstvene arhitekture modela mogu biti učinkovit pristup za rješavanje višestrukih modaliteta. Model data2vec koristi pristup samonadziranog učenja za rad s tri modaliteta: govor, slike i jezik.

Ključni koncept iza data2vec modela je korištenje pogleda djelomičnog unosa za regresiju kontekstualiziranih informacija ili ulaznih podataka. Pristup koji koriste okviri data2vec učinkovit je jer model ima bolju izvedbu od prijašnjih modela samonadziranog učenja na skupu podataka ImageNet-1K za pojedinačne modele ViT-B i ViT-L.

Data2vec je doista prekretnica u industriji samonadziranog učenja jer pokazuje da jedna metoda učenja za učenje više modaliteta doista može olakšati modelima učenje više modaliteta.

Srodne teme:data2vec modeli strojnog učenja samonadzirano učenje

Sljedeći

Prijetnja dezinformacija o klimi koju propagira Generative AI Technology

Ne propustite

Meta planira integrirati "persone" koje pokreće umjetna inteligencija u svoje usluge

Kunal Kejriwal

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.

Ujedinite se.AI

data2vec: Prekretnica u samonadzornom učenju

Umjetna inteligencija

data2vec: Prekretnica u samonadzornom učenju

Sadržaj

Data2vec Uvod: Osnovna ideja

Zašto AI industriji treba Data2Vec algoritam?

Što je Data2Vec algoritam?

Kako radi algoritam Data2Vec?