Sun'iy intellekt

data2vec: O'z-o'zini nazorat qilishda muhim bosqich

yangilangan on Avgust 2, 2023

Mashinani o'rganish modellari o'qitish uchun yorliqli ma'lumotlarga ko'p tayangan va an'anaviy tarzda, etiketli ma'lumotlar bo'yicha o'qitish modellari aniq natijalar beradi. Biroq, etiketli ma'lumotlardan foydalanishning asosiy salbiy tomoni - bu o'quv ma'lumotlari hajmining oshishi bilan ko'tariladigan yuqori izoh xarajatlari. Annotatsiya uchun yuqori xarajatlar ishlab chiquvchilar uchun katta to'siq bo'ladi, ayniqsa katta hajmdagi o'quv ma'lumotlariga ega bo'lgan katta loyiha ustida ishlashda.

Annotatsiya muammosini hal qilish uchun ishlab chiquvchilar kontseptsiyani ishlab chiqdilar SSL yoki o'z-o'zini nazorat qilish. O'z-o'zini nazorat qiluvchi o'rganish - bu mashinani o'rganish jarayoni bo'lib, unda model kirishning bir qismini kirishning boshqa qismidan o'rganishga o'rgatadi. O'z-o'zini nazorat qiluvchi o'rganish modeli etiketli ma'lumotlarning nazorat qilinadigan signallaridan foydalanish o'rniga ma'lumotlar o'rtasidagi munosabatlardan foydalanishga qaratilgan.

O'z-o'zini nazorat qiladigan o'rganishga qo'shimcha ravishda, belgilangan ma'lumotlardan foydalanmasdan mashina o'rganish modellarini o'rgatishning bir qancha boshqa usullari va modellari mavjud. Biroq, bu usullarning aksariyati ikkita asosiy muammoga ega

Ular ko'pincha rasm yoki matn kabi bitta modallikka ixtisoslashgan.
Ular katta miqdordagi hisoblash quvvatini talab qiladi.

Ushbu cheklashlar asosiy masala, nima uchun o'rtacha odam aqli tasvir, matn va nutqni farqlash uchun alohida modellar va o'quv ma'lumotlariga tayanadigan AI modeliga nisbatan bir turdagi ma'lumotlardan ancha samaraliroq o'rganish imkoniyatiga ega.

Yagona modallik muammosini hal qilish uchun Meta AI ni chiqardi data2vec, o'z-o'zidan boshqariladigan yuqori samarali algoritm naqsh ma'lumotlarini uch xil uslubdan o'rganish: tasvir, matn va nutq. Data2vec algoritmini amalga oshirish bilan matnni tushunish tasvirni segmentatsiyalash muammosiga qo'llanilishi mumkin yoki u nutqni aniqlash vazifasida ham qo'llanilishi mumkin.

Ushbu maqolada biz data2vec modeli haqida batafsil gaplashamiz. Data2vec algoritmi haqida aniq tushunchaga ega bo'lishingiz uchun biz usulning umumiy ko'rinishini, tegishli ishlarni, arxitekturani va model natijalarini chuqurroq muhokama qilamiz.

Data2vec Kirish: Asosiy g'oya

O'z-o'zini nazorat qiluvchi ta'limning asosiy kontseptsiyasi barcha usullarda qo'llanilsa-da, haqiqiy maqsadlar va algoritmlar bir-biridan farq qiladi, chunki ular bitta modallikka nisbatan ishlab chiqilgan. Yagona modallik uchun modelni loyihalash, bir xil o'z-o'zini boshqaradigan o'rganish algoritmining turli xil turdagi o'quv ma'lumotlarida samarali ishlay olmasligining sababidir.

Yagona modallik modellari va algoritmlari tomonidan taqdim etilgan qiyinchiliklarni engish uchun Meta AI data2vec algoritmini chiqardi, u kompyuterni ko'rish uchun bir xil o'rganish metodologiyasidan foydalanadi. NLP yoki nutq.

Data2vec algoritmining asosiy g'oyasi kirishning niqoblangan ko'rinishidan foydalanishdir. yordamida o'z-o'zini distillash o'rnatishda to'liq kiritilgan ma'lumotlarning yashirin ko'rinishini bashorat qilish standart transformator arxitekturasi. Shunday qilib, mahalliy xususiyatga ega bo'lgan tasvirlar, matn yoki ovoz kabi modallikka xos ob'ektlar o'rniga data2vec algoritmi to'liq ta'lim yoki kiritilgan ma'lumotlardan olingan ma'lumotlar bilan yashirin tasvirlarni bashorat qiladi.

Nega AI sanoati Data2Vec algoritmiga muhtoj?

O'z-o'zini nazorat qiluvchi o'rganish modellari inson izohli yorliqlari yordamida o'quv ma'lumotlarining taqdimotlarini yaratadi va bu NLP yoki Tabiiy tilni qayta ishlash va Computer Vision texnologiyasining rivojlanishining asosiy sabablaridan biridir. Nutqni aniqlash va mashinani oʻrganish kabi vazifalar oʻz modellarida nazoratsiz oʻrganishni qoʻllashiga sabab boʻlgan bu oʻz-oʻzidan boshqariladigan oʻrganish namoyishlari.

Hozirgacha ushbu o'z-o'zidan boshqariladigan o'rganish algoritmlari o'rganishning noto'g'riligiga olib keladigan individual usullarga va modellardagi o'ziga xos dizaynlarga qaratilgan. O'z-o'zidan boshqariladigan o'rganish algoritmlarining individual usuli turli xil AI ilovalarida, shu jumladan kompyuterni ko'rish va NLPda qiyinchiliklarni keltirib chiqaradi.

Misol uchun, nutqni qayta ishlashda nutq birliklarining lug'ati mavjud bo'lib, ular NLPda o'z-o'zini nazorat qiladigan o'quv vazifasini aniqlay oladi. Xuddi shunday, in kompyuterni ko'rish, ishlab chiquvchilar kirishni regresslashi, diskret vizual tokenlarni o'rganishi yoki ma'lumotlarni ko'paytirishga o'zgarmas tasvirlarni o'rganishi mumkin. Garchi bu o'rganish tarafkashliklari qulay bo'lsa-da, bu noto'g'ri qarashlar boshqa usullar uchun umumlashtiriladimi yoki yo'qligini tasdiqlash qiyin.

Data2vec algoritmi o'z-o'zini boshqaradigan o'quv sanoatida muhim bosqichdir, chunki u bitta emas, balki bir nechta usullarni takomillashtirishga qaratilgan. Bundan tashqari, data2vec algoritmi kirish yoki kontrastli o'rganishni qayta tiklashga bog'liq emas.

Demak, dunyo data2vecga muhtoj bo‘lishining sababi shundaki, data2vec algoritmi sun’iy intellektdagi taraqqiyotni tezlashtirish potentsialiga ega va atrofdagilarning turli jihatlarini muammosiz o‘rgana oladigan AI modellarini ishlab chiqishga hissa qo‘shadi. Olimlar data2vec algoritmi ularga zamonaviy sun’iy intellekt modellari qila oladigan darajadan yuqori darajada ilg‘or vazifalarni bajarishga qodir bo‘lgan ko‘proq moslashuvchan AI va ML modellarini ishlab chiqishga imkon beradi, deb umid qilmoqda.

Data2Vec algoritmi nima?

Data2vec - bu tasvirlar, nutq va matn kabi turli xil ma'lumotlar usullarida o'z-o'zini boshqaradigan mashina o'rganishni amalga oshirishga qaratilgan yagona tizim.

Data2vec algoritmi oʻquv maqsadini turli usullarda bir xilda saqlash orqali atrof-muhitdagi umumiy naqshlarni ancha yaxshi oʻrgana oladigan ML modellarini ishlab chiqishga qaratilgan. Data2vec modeli o'rganish algoritmini birlashtiradi, lekin u hali ham har bir modallik uchun taqdimotlarni alohida o'rganadi.

Data2vec algoritmining joriy etilishi bilan Meta AI multimodal o'rganishni samarali va ancha soddalashtirishiga umid qilmoqda.

Data2Vec algoritmi qanday ishlaydi?

Data2vec algoritmi yashirin maqsadli tasvirlarni o'rganishni niqoblangan bashorat bilan birlashtiradi, garchi u yashirin tasvirlarni umumlashtirish uchun maqsad sifatida bir nechta tarmoq qatlamlaridan foydalanadi. Model, ayniqsa, tayyor bo'lmaganlarni o'rgatadi Transformator tarmog'i bu keyin yoki ichida ishlatiladi o'qituvchi yoki talaba rejimi.

O'qituvchi rejimida model birinchi navbatda taqdimotlarni quradi o'quv topshirig'ida maqsad bo'lib xizmat qiluvchi kirish ma'lumotlari. Talabalar rejimida model kiritilgan ma'lumotlarning niqoblangan versiyasini kodlaydi, keyin esa to'liq ma'lumotlar ko'rinishida bashorat qilish uchun ishlatiladi.

Yuqoridagi rasmda data2vec modeli turli usullar uchun bir xil o'quv jarayonidan qanday foydalanishini ko'rsatadi. Birinchi bosqichda model kiritilgan ma'lumotlarning ko'rinishlarini ishlab chiqaradi (o'qituvchi rejimi). Keyin model kirishning niqoblangan versiyasi asosida bu tasvirlarni regressiya qiladi.

Bundan tashqari, data2vec algoritmi kirish ma'lumotlarining yashirin ko'rinishlaridan foydalanganligi sababli, uni modallikka xos dizaynlarning soddalashtirilgan versiyasi sifatida ko'rish mumkin. kirishni normallashtirish orqali mos maqsadlarni yaratish or vizual tokenlarning belgilangan to'plamini o'rganish. Ammo data2vec va boshqa algoritmlar o'rtasidagi muhim farqlash nuqtasi shundaki, data2vec algoritmi maqsadli tasvirni yaratish uchun o'z-o'ziga e'tibor qaratadi. kontekstli va doimiy. Boshqa tomondan, o'z-o'zini boshqaradigan o'quv modellari mahalliy kontekstga asoslangan qat'iy belgilangan maqsadlar to'plamidan foydalanadi.

Data2vec: Model usuli

Data2vec modeli kirishning qisman ko'rinishida kirish ma'lumotlarining model ko'rinishlarini bashorat qilish orqali o'rgatiladi. Ushbu rasmda ko'rib turganingizdek, itning yuzi niqoblangan, ovozli notaning ma'lum bir qismi niqoblangan va "bilan” matnda niqoblangan.

Model birinchi navbatda o'quv namunasining niqoblangan versiyasini kodlaydi(talaba rejimi) va keyin bir xil model bilan o'quv maqsadlarini qurish uchun kirishning maskalanmagan versiyasini kodlaydi, lekin u faqat model og'irliklarining eksponensial o'rtacha qiymati sifatida parametrlanganda(o'qituvchi rejimi). Bundan tashqari, maqsadli tasvirlar o'quv namunasida mavjud bo'lgan ma'lumotlarni kodlaydi va talaba rejimida kirishning qisman ko'rinishi berilganda, o'quv topshirig'i ushbu tasvirlarni bashorat qilish uchun ishlatiladi.

Model arxitekturasi

Data2vec modeli standartdan foydalanadi Transformator arxitekturasi kirish ma'lumotlarini modallikka xos kodlash bilan. Kompyuterni ko'rish bilan bog'liq vazifalar uchun model ViT strategiyasidan foydalanib, har bir tasvir 16 × 16 pikseldan ortiq bo'lgan va chiziqli transformatsiya sifatida berilgan yamoqlar ketma-ketligi sifatida tasvirni kodlaydi.

Bundan tashqari, nutqni aniqlash uchun ma'lumotlar, model ko'p qatlamli 1-D konvolyutsion neyron tarmog'i yordamida ma'lumotlarni kodlaydi, u 16 kHz to'lqin shakllarini 50 Gts tasvirlarga joylashtiradi. Matn ma'lumotlarini qayta ishlash uchun model pastki so'z birliklarini ajratib olish uchun ma'lumotlarni oldindan qayta ishlaydi va keyin ma'lumotlarni vektorlarni joylashtirish orqali tarqatish maydoniga joylashtiradi.

Maskalash

Model kirish ma'lumotlarini tokenlar ketma-ketligi sifatida joylashtirgandan so'ng, model ushbu birliklarning qismlarini ularni o'rnatish tokeni bilan almashtirish orqali niqoblaydi va keyin ketma-ketlikni tokenlarga beradi. Transformer tarmoq. Kompyuterni ko'rish uchun model bloklar bo'yicha belgilash strategiyasini qo'llaydi. Yashirin nutq tasvirlari nutq ma'lumotlari oralig'ini maskalash uchun ishlatiladi va til bilan bog'liq vazifalar uchun tokenlar maskalanadi.

Trening maqsadlari

Data2vec modeli dastlab modelga kiritilgan niqoblangan namunani kodlash asosida niqoblanmagan oʻquv namunasining model koʻrinishlarini bashorat qilishga qaratilgan. Model faqat maskalangan vaqt bosqichlari uchun taqdimotlarni bashorat qiladi.

Model bashorat qiladi kontekstli tasvirlar Bu nafaqat ma'lum bir vaqt bosqichini kodlaydi, balki namunadagi boshqa ma'lumotlarni ham kodlaydi, chunki u Transformator tarmog'ida o'z-o'ziga e'tiborni ishlatadi. Kontekstli taqdimotlar va Transformer tarmog'idan foydalanish data2vec modelini mavjud modeldan ajratib turadigan narsadir. BERT, wav2vec, BEiT, SimMIM, MAE va MaskFeat kontekstli ma'lumotlarsiz maqsadlarni bashorat qiladigan modellar.

Data2vec modeli o'qituvchi rejimini qanday qilib so'ngra maqsad sifatida xizmat qiladigan tarmoq ko'rinishlarini bashorat qilishini ko'rib chiqamiz.

O'qituvchi parametrlari

Data2vec modeli maskesiz o'quv namunasini kodlashni ishlatish bilan parametrlashtirdi EMA yoki eksponensial harakatlanuvchi o'rtacha model parametrlarining (th), bu erda modelning og'irliklari maqsad rejimi (△) quyidagilar

∆ ← t∆ + (1 - t ) th

Bundan tashqari, model dan parametrni chiziqli ravishda oshiradigan t uchun jadvallarni tuzadi t0 dan t gacha (maqsadli qiymat) birinchi tn yangilanishda. Ushbu yangilanishlardan so'ng, model mashg'ulot tugaguniga qadar qiymatni doimiy ravishda ushlab turadi. EMA strategiyasidan foydalanish o'qituvchini boshidanoq model tasodifiy bo'lganda trening boshlanganda ancha tez-tez yangilaydi. Trening davom etar ekan va yaxshi parametrlar o'rganilsa, o'qituvchi kamroq yangilanadi.

Natijalar shuni ko'rsatadiki, model talaba va o'qituvchi rejimi o'rtasida xususiyatli kodlovchi va pozitsion enkoder parametrlarini baham ko'rsa, yanada samaraliroq va aniqroq bo'ladi.

Maqsadlar

O'quv maqsadlarini qurish yuqori qismning chiqishiga bog'liq K talaba rejimida maskalangan vaqt bosqichlari uchun o'qituvchi tarmog'ining bloklari. Blokning chiqishi l har qanday vaqtda t a sifatida belgilanadilt. Keyin model â ni olish uchun har bir blok uchun normallashtirishni qo'llaydilt yuqori K bloklarini o'rtacha qilishdan oldin

ta'lim maqsadini olish yt vaqt-bosqich uchun t bilan tarmoq uchun L jami bloklar.

U o'quv maqsadlarini yaratadi, bu model talaba rejimida bo'lganda regressga tushadi. Dastlabki tajribalarda data2vec modeli har bir blokni alohida proyeksiya bilan bashorat qilishda yaxshi ishladi va bir vaqtning o‘zida ancha samaraliroq bo‘ldi.

Bundan tashqari, maqsadlarni normallashtirish, shuningdek, data2vec modelining vaqt bosqichlari uchun doimiy ko'rinishlarga tushishiga imkon beradi va yuqori normalizatsiyaga ega qatlamlarning maqsadli ma'lumotlar to'plamidagi xususiyatlarda ustunlik qilishiga yo'l qo'ymaydi. Nutqni aniqlash uchun model hech qanday o'rganilgan parametrlarsiz joriy kirish namunasi bo'yicha namunani normallashtirishdan foydalanadi. Bu, asosan, kirish ma'lumotlari bo'yicha qadam kichik bo'lgani uchun, qo'shni vakilliklarning o'zaro bog'liqligi yuqori.

Bundan tashqari, tadqiqotchilar kompyuterni ko'rish va NLP bilan ishlashda parametrsiz normalizatsiya ishni etarli darajada bajarishini aniqladilar. Muammo bilan ham hal qilish mumkin Variant-invariant-kovariant tartibga solish, lekin yuqorida aytib o'tilgan strategiya etarlicha yaxshi ishlaydi va u hech qanday qo'shimcha parametrlarni talab qilmaydi.

obyektiv

Kontekstli trening maqsadlari uchun yt, model a dan foydalanadi Silliq L1 yo'qotish quyida aytib o'tilganidek, maqsadlarga erishish uchun

Bu erda b kvadrat yo'qotishdan L1 yo'qotilishiga o'tishni nazorat qiladi va u ko'p jihatdan f model bashorati orasidagi bo'shliq hajmiga bog'liq.t(x) vaqt bosqichida t. Ushbu yo'qotishning afzalligi shundaki, u b ni sozlashni sozlash zarurati bilan, chetga nisbatan nisbatan kamroq sezgir.

Tajribaviy sozlash

Data2vec modeli ikkita model o'lchami bilan sinab ko'riladi: data2vec Katta va data2vec bazasi. Raqamli barqarorlik uchun EMA yangilanishlari fp32 da amalga oshiriladi va modellar L= 12 yoki L= 24 yashirin o'lchamli (H) = 768 yoki H = 1024 transformator bloklarini o'z ichiga oladi. Keling, turli usullar uchun eksperimental sozlashni batafsil ko'rib chiqaylik. , va maqsadlar.

Kompyuter Vizyoni

Data2vec modeli 224×224 pikselli tasvirlarni 16×16 pikselli yamoqlar sifatida joylashtiradi. Ushbu yamoqlarning har biri chiziqli ravishda o'zgartiriladi va 196 ta tasvirdan iborat ketma-ketlik standart Transformatorga beriladi.

Model quyidagicha BEIT har bir blokda kamida 16 ta yamoqqa ega bo'lgan tasodifiy tomonlar nisbati bilan qo'shni yamoqli bloklarni maskalash. Biroq, yamoqning 40 foizini dastlab BEiT modelidagidek niqoblash o‘rniga, data2vec modeli aniqroq bo‘lishi uchun yamoqning 60 foizini maskalaydi.

Bundan tashqari, model tasodifiy tasvirni kesish, gorizontal burilishlar va rang jitterini o'zgartiradi. Va nihoyat, data2vec modeli o'qituvchi va talaba rejimida bir xil o'zgartirilgan tasvirdan foydalanadi.

ViT-B modellari 800 davr uchun oldindan o'qitilgan va data2vec modeli ViT-L modeli uchun 8,192 va ViT-B modeli uchun 2,048 partiya hajmidan foydalanadi. Data2vec modeli, shuningdek, o'rganish tezligini ViT-L uchun 80 epoxdan 0.001 gacha va ViT-B uchun 40 davr uchun 0.001 gacha qizdirish uchun kosinusdan va bitta tsiklli Adam jadvalidan foydalanadi.

ViT-B va ViT-L uchun data2vec modeli hech qanday jadvalsiz doimiy sifatida b = 2, K = 6 va t = 0.9998 dan foydalanadi. Model yana 0.2 stokastik chuqurlik tezligidan foydalanadi.

Bundan tashqari, ViT-L uchun model 1,600 davr uchun mashq qiladi, bunda dastlabki 800 ta davrda o‘rganish tezligi 0.9998 ga teng bo‘ladi, so‘ngra model o‘rganish tezligi jadvalini tiklaydi va o‘rganish tezligi 800 bo‘lgan oxirgi 0.9999 davrda davom etadi.

Tasvirni tasniflash uchun model oxirgi Transformator blokining chiqishining o'rtacha pulidan foydalanadi va uni softmax-normallashtirilgan tasniflagichga yuboradi. Keyin model ViT-L-ni 50 davr uchun va ViT-B-ni kosinusdan foydalangan holda 100 davr uchun va Adam o'rganish tezligini oshirish uchun nozik sozlaydi.

Nutqni qayta ishlash

Nutqni qayta ishlash uchun data2vec modeli foydalanadi Fairseq, umumlashtirish, tarjima qilish va matn yaratish uchun mijozlar modellarini o'rgatish uchun foydalaniladigan ketma-ketlikni modellashtirish to'plami. Model 16 kHz to'lqin shaklini kiritadi, u xususiyat kodlovchi yordamida qayta ishlanadi va 512 kanal, yadro kengligi (10,3,3,3,3,2,2) va qadamlar (5,2,2,2,2,2,2) bilan vaqtinchalik konvolyutsiyalarni o'z ichiga oladi. ,XNUMX).

Yuqoridagi natijalar enkoderning chiqish chastotasi 50 Gts ni tashkil qiladi va u har bir namuna o'rtasida 20 ms qadamga ega. Qabul qiluvchi maydon 400 ta kirish namunasidan yoki 25 ms audiodan iborat. Kodlovchiga beriladigan xom to'lqin shakli birlik dispersiyasi va o'rtacha nolga tenglashtiriladi.

Base modeli uchun data2vec tomonidan qo'llaniladigan niqoblash strategiyasi nutqni aniqlashda o'z-o'zini nazorat qilish uchun Baevski tizimiga o'xshaydi. Model namunalari p Barcha vaqt bosqichlari uchun = 0.065 boshlang'ich indekslar va keyingi o'n vaqt bosqichlarini belgilashga o'tadi. Odatdagi mashg'ulotlar ketma-ketligi uchun jarayon umumiy vaqt bosqichlarining deyarli 49 foizini maskalash imkonini beradi.

Trening davomida data2vec modeli t dan foydalanib t ni chiziqli tavlaydio = 0.999, te = 0.9999 va tn = 30,000 2. Data5vec modeli Adam optimizatoridan foydalanadi, eng yuqori oʻrganish tezligi 10×XNUMX-4 Asosiy model uchun. Bundan tashqari, asosiy model uch bosqichli rejalashtiruvchidan foydalanadi, u yangilanishlarning dastlabki 3% uchun o'rganish tezligini chiziqli ravishda isitadi, keyingi 90% uchun uni saqlaydi va keyin qolgan 7% uchun chiziqli ravishda parchalanishni davom ettiradi.

Tabiiy Til ishlov berish

Data2vec modeli kirishni tokenizatsiya qilish uchun 50K turdagi bayt-juft kodlashdan foydalanadi va model keyin har bir tur uchun joylashtirishni o'rganadi. Ma'lumotlar kodlangandan so'ng, model bir xil tanlangan tokenlarning 15 foiziga BERT niqoblash strategiyasini qo'llaydi, ularning 80 foizi o'rganilgan niqob tokenlari bilan almashtiriladi, 10 foizi tasodifiy lug'at tokenlari bilan almashtiriladi va qolgan 10 foizi o'zgarishsiz qoladi.

Oldindan tayyorgarlik paytida model t dan foydalanadio = 0.999, te = 0.9999 va tn = 100,000 10, K= 4 va b = 5. Model uch bosqichli oʻrganish tezligi jadvaliga ega Adam optimallashtiruvchisidan foydalanadi, bu yangilanishlarning dastlabki 80% uchun oʻrganish tezligini chiziqli ravishda isitadi, keyingi 15% davomida uni saqlaydi va keyin qolgan 2% uchun chiziqli ravishda parchalanishni davom ettiradi, eng yuqori o'rganish darajasi 10 × XNUMX ni tashkil qiladi.-4.

Bundan tashqari, model 16 da mashq qiladi GPU'lar 256 ta ketma-ketlik va har bir ketma-ketlikda taxminan 512 ta token mavjud. Pastki oqim uchun model to'rt xil o'rganish tezligida oldindan o'qitiladi: 1 × 10-4, 2 × 10-4, 3 × 10-4, 4 × 10-4, va eng yaxshi bajaradigan NLP quyi oqim vazifalari uchun tanlanadi.

natijalar

Keling, data2vec modeli yuqorida muhokama qilingan strategiyalarni turli usullar uchun amalga oshirganda qanday ishlashini ko'rib chiqaylik.

Kompyuter Vizyoni

Kompyuterni ko'rish natijalarini baholash uchun data2vec modelidan olingan tasvirlar bo'yicha oldindan o'qitiladi. ImageNet-1K maʼlumotlar toʻplami. Olingan model bir xil benchmarkning etiketli ma'lumotlari yordamida nozik sozlangan. Standart amaliyotga ko'ra, model keyinchalik nuqtai nazardan baholanadi yuqori 1 aniqlik tasdiqlash ma'lumotlari bo'yicha.

Natijalar keyinchalik yagona o'zini o'zi boshqaradigan model va qo'shimcha ma'lumotlar bo'yicha alohida vizual tokenizerni o'rgatish yoki boshqa o'z-o'zini nazorat qiluvchi o'rganish modellari asosida farqlanadi.

Quyidagi jadvalda kompyuterni ko'rish uchun data2vec modeli va boshqa mavjud modellar: ViT-L va ViT-B ishlashi taqqoslanadi.

Yuqoridagi jadval natijalarini quyidagicha umumlashtirish mumkin.

Data2vec modeli ViT-L va ViT-B modellari bilan bir xil modeldagi oldingi ishlardan ustundir.
Data2vec algoritmida kontekstli yashirin tasvirlarni bashorat qilish uchun foydalaniladigan niqoblangan bashorat sozlamalari muhandislik tasviri xususiyatlari, kirish piksellari yoki vizual tokenlar kabi mahalliy maqsadlarni bashorat qiluvchi usullarga qaraganda yaxshiroq ishlaydi.
Data2vec modeli, shuningdek, kirish sifatida tasvirning ikki xil kengaytirilgan versiyasini olgan holda, talaba tarmog'ining oxirgi qatlamini regressitatsiya qiluvchi o'z-o'zini distillash usullaridan ham ustundir.

Ovoz va nutqni qayta ishlash

Nutq va audioni qayta ishlash uchun data2vec modeli taxminan 960 soatlik audio ma'lumotlardan olingan. Librispeech (LS-960) maʼlumotlar toʻplami. Ma'lumotlar to'plami ingliz tilidagi audiokitoblardan toza nutq audiosini o'z ichiga oladi va u nutq va audioni qayta ishlash sanoatida standart mezon sifatida ko'rib chiqiladi.

Modelning turli manba sozlamalarida ishlashini tahlil qilish uchun tadqiqotchilar nutqni avtomatik aniqlash uchun turli hajmdagi etiketli ma'lumotlardan (bir necha daqiqadan bir necha soatgacha) foydalanish uchun data2vec modelini yaxshi sozladilar. Modelning ishlashini tahlil qilish uchun data2vec bilan solishtiriladi HuBERT & wav2vec 2.0, diskret nutq birliklariga asoslangan nutq va audio tasvirni o'rganish uchun eng mashhur ikkita algoritm.

Yuqoridagi jadvalda data2vec ning nutqni aniqlash uchun so'z tezligi bo'yicha ishlashi boshqa mavjud modellar bilan taqqoslanadi. LM dekodlash uchun ishlatiladigan til modelini ifodalaydi. Natijalarni quyidagicha umumlashtirish mumkin.

Data2vec modeli asosiy modellar uchun yorliqli maʼlumotlarning 10 daqiqalik eng katta daromadi bilan koʻpgina etiketlangan maʼlumotlar sozlamalari uchun yaxshilanishlarni koʻrsatadi.
Katta modellar haqida gap ketganda, model kichik etiketli ma'lumotlar to'plamlarida sezilarli darajada yaxshi ishlaydi va unumdorlikni 100 va 960 soatdan ortiq etiketli ma'lumotlarga ega resurslarga boy ma'lumotlar to'plamlarida solishtirish mumkin. Buning sababi, unumdorlik odatda ko'pgina modellar uchun resurslarga boy yorliqli ma'lumotlar to'plamiga to'yinganligidir.
Ishlashni tahlil qilgandan so'ng, model kontekstli kontekstli maqsadlarni qo'llaganida, diskret birliklarni o'rganish muhim emasligini xulosa qilish mumkin.
Trening davomida kontekstli maqsadlarni o'rganish umumiy ish faoliyatini sezilarli darajada yaxshilashga yordam beradi.

Bundan tashqari, data2vec-ning nutqni aniqlashga yondashuvini tasdiqlash uchun model shuningdek, Audioset benchmark. AudioSet uchun treningdan oldingi sozlash Librispeech-ga o'xshash bo'lsa-da, model K= 12 va 200K dan ortiq yangilanishlar uchun o'qitilgan, bunda har bir partiyaning hajmi 94.5 daqiqa.

Keyin model qo'llaniladi DeepNorm ramka va qatlamni normallashtirish mashg'ulotlarni barqarorlashtirishga yordam beradigan maqsadlarga. Bundan tashqari, model 21.3 ming yangilanishdan ko'ra 13 daqiqalik partiya hajmiga ega muvozanatli kichik to'plamlarda ham yaxshi sozlangan. Model ham foydalanadi Lineer Softmax Pooling va 0.7 ehtimollik balli bilan aralashtirish. Keyin model a qo'shadi yagona chiziqli proyeksiya 527 ta noyob audio sinfiga bo'linadi va o'rnatadi proyeksiyani o'rganish tezligi 2e-4 gacha.

Bundan tashqari, oldindan tayyorlangan parametrlar 3e-5 o'rganish tezligiga ega va model ma'lumotlar to'plamini nozik sozlash uchun maskalash usullaridan foydalanadi. Quyidagi jadval natijalarni umumlashtiradi va shuni ko'rish mumkinki, data2vec modeli bir xil nozik sozlash va mashg'ulotlardan oldingi ma'lumotlar bilan taqqoslanadigan o'rnatishni ortda qoldirishga qodir.

Tabiiy Til ishlov berish

Data2vec-ning matndagi ishlashini tahlil qilish uchun model xuddi shunday trening sozlamalariga amal qiladi BERT va 1M dan ortiq yangilanishlar bilan inglizcha Vikipediya ma'lumotlar to'plamida modelni oldindan o'rgatish va partiya hajmi 256 ta ketma-ketlik. Model bo'yicha baholanadi GLUE yoki umumiy tilni tushunishni baholash tabiiy tilga aralashish vazifalarini o'z ichiga olgan benchmark(MNLI yoki ko'p janrli tabiiy til xulosasi), gap o'xshashligi (QQP yoki Quora Question Pairs benchmark, MRPC yoki Microsoft Research Paragraph Corpus va STS-B yoki semantik matn oʻxshashlik mezonlari), hissiyotlarni tahlil qilish (SST-2 yoki Stenford Sentiment Treebank) va grammatik (CoLA).

Bundan tashqari, data2vec modelini nozik sozlash uchun etiketli ma'lumotlar har bir topshiriq tomonidan taqdim etiladi va o'rtacha aniqlik 5 ta nozik sozlash bilan ishlab chiqish to'plamlarida xabar qilinadi. Quyidagi jadval tabiiy tilni qayta ishlash vazifalari uchun data2vec modelining ishlashini umumlashtiradi va uni boshqa modellar bilan taqqoslaydi.

Yuqoridagi ma'lumotlar shuni ko'rsatadiki, data2vec modeli asosiy RoBERTa modelidan ustundir, chunki data2vec modelidagi strategiya tasodifiy maqsadlardan foydalanmaydi.
Data2vec modeli - bu o'quv maqsadlari sifatida belgilar, so'zlar yoki pastki so'zlar kabi diskret birliklardan foydalanmaydigan birinchi muvaffaqiyatli oldindan o'rgatilgan NLP modeli. Buning o'rniga, data2vec ramkasi to'liq niqoblanmagan matn ketma-ketligi bo'yicha kontekstli yashirin namoyishni bashorat qiladi.
Bu o'quv topshirig'ini yaratishda yordam beradi, bunda model har bir matn birligi uchun umumiy bo'lgan tasvirlarni alohida ixtiyoriy ravishda bashorat qilishdan ko'ra, joriy ketma-ketlikdan ma'lum xususiyatlarga ega maqsadlarni bashorat qilishi kerak.
Bundan tashqari, o'quv maqsadlari to'plami aniqlanmagan va model yangi maqsadlarni belgilash uchun bepul va lug'at sozlamalari uchun ochiq.

Data2Vec: Ablatsiyalarni o'rganish

Ablation - bu AI va ML tizimlarida komponentni olib tashlashni aniqlash uchun ishlatiladigan atama. Ablatsiya tadqiqoti tadqiqotchilarga ushbu komponentning umumiy tizimdagi hissasini tushunish imkonini beruvchi modeldan ayrim asosiy komponentlarni olib tashlash orqali AI yoki ML modelining ishlashini tekshirish yoki tahlil qilish uchun ishlatiladi.

Qatlamning o'rtacha maqsadlari

Data2vec va boshqa mustaqil o'rganish modellari o'rtasidagi asosiy farq shundaki, data2vec modeli o'qituvchilar tarmog'idagi bir nechta qatlamlarni o'rtacha hisoblashga asoslangan maqsadlardan foydalanadi. Bu g‘oya shundan kelib chiqadiki, wav2vec 2.0 modelining yuqori ustki qatlamlari modelning o‘rta qatlamlari bilan solishtirganda quyi oqim vazifalari uchun yaxshi ishlamaydi.

Keyingi tajribada barcha uch modallikning ishlashi K= 1, 2, …, 12 qatlamlarni o'rtacha hisoblash yo'li bilan o'lchanadi, bunda K= 1 faqat yuqori qatlamni bashorat qiladi. Biroq, tezroq ishlash vaqtini olish uchun data2vec asosiy modelni jami 12 qatlamga o'rgatadi. Nutqni aniqlash uchun model Librispeech-da ikki yuz mingdan ortiq yangilanishlar bo'yicha oldindan o'qitilgan va keyin 10 soatlik Libri-light yorlig'i bo'linishida nozik sozlangan. Tabiiy tilni qayta ishlash uchun model tasdiqlash to'plami uchun o'rtacha GLUE ballini xabar qiladi va modelni kompyuterda ko'rish uchun 300 davr uchun oldindan tayyorlaydi va keyin ImageNet ma'lumotlar to'plamida olingan eng yaxshi aniqlik haqida hisobot beradi.

Yuqoridagi rasm shuni ko'rsatadiki, bir nechta qatlamlarga asoslangan maqsadlar odatda barcha usullar uchun faqat yuqori qatlam K=1 qo'llanilganda yaxshilanadi. Mavjud bo'lgan barcha qatlamlardan foydalanish yaxshi amaliyotdir, chunki neyron tarmoqlar har xil turdagi xususiyatlar va ko'plab qatlamlar bo'yicha xususiyatlarni yaratadi, ular keyinchalik xususiyat qatlamlari sifatida chiqariladi.

Ko'p qatlamli xususiyatlardan foydalanish aniqlikni oshirishga yordam beradi va o'z-o'zini nazorat qilish jarayonini boyitadi.

Maqsadli xususiyat turi

Data2vec modelidagi transformator bloklari bir nechta qatlamlarga ega bo'lib, ularning barchasi maqsad sifatida xizmat qilishi mumkin. Turli qatlamlarning ishlashga qanday ta'sir qilishini tahlil qilish uchun model maqsadli xususiyatlar sifatida turli qatlamlardan foydalanadigan Librispeech nutq modellarida oldindan o'qitiladi.

Quyidagi rasm aniq ko'rsatadiki, oldinga uzatish tarmog'ining chiqishi yoki FFN ideal ishlaydi, o'z-o'ziga e'tibor bloklari chiqishi esa foydalanishga yaroqli modelga olib kelmaydi.

Maqsadli kontekstualizatsiya

Data2vec modelidagi o'qituvchilarning taqdimotlari kontekstli maqsadlarni ishlab chiqarish uchun butun kirish davomida o'z-o'ziga e'tibordan foydalanadi. Bu data2vecni kirishning mahalliy qismlarini rekonstruksiya qilish yoki bashorat qilish orqali o‘rganish vazifasini tuzadigan boshqa o‘z-o‘zini nazorat qiluvchi o‘rganish modellaridan ajratib turadigan narsa. Shubhasiz savol tug'diradi: data2vec modeli yaxshi ishlashi uchun kontekstli maqsadlarni talab qiladimi?

Savolga javob berish uchun tadqiqotchilar barcha kiritilgan ma'lumotlar to'plamiga kirish imkoniga ega bo'lmagan, lekin oldindan belgilangan qismning faqat bir qismi bo'lgan maqsadli tasvirlarni yaratadilar. Model keyinchalik o'qituvchining o'ziga e'tibor berish mexanizmini cheklaydi, bu unga atrof-muhit ma'lumotlarining faqat bir qismiga kirish imkonini beradi. Model o'qitilgandan so'ng, u to'liq kontekst hajmiga kirish uchun nozik sozlangan.

Quyidagi rasm shuni ko'rsatadiki, kattaroq kontekst o'lchamlari ko'pincha yaxshi ishlashga olib keladi va butun kirish namunasi ko'rinadigan bo'lsa, u eng yaxshi aniqlikni beradi. Bu buni yana bir bor isbotlaydi boyroq maqsadli tasvirlar yaxshi samara berishi mumkin.

Modallikka xos xususiyat ekstraktorlari va niqoblash

Data2vec ning asosiy maqsadi turli usullar bilan ishlaydigan oddiy o'rganish mexanizmini loyihalashdir. Buning sababi, hozirgi modellar va ramkalar birlashtirilgan o'rganish rejimiga ega bo'lsa-da, ular hali ham modallikka xos maskalash va xususiyat ekstraktorlaridan foydalanadilar.

Kirish ma'lumotlarining tabiati bir-biridan juda farq qilishini hisobga olsak, ramkalar asosan bitta modallik bilan ishlashi mantiqan. Misol uchun, nutqni aniqlash modellari odatda minglab namunalarga ega bo'lgan yuqori aniqlikdagi kirishdan (masalan, 10 kHz to'lqin shakli) foydalanadi. Keyin to'lqin shakli 50 Gts chastotali xususiyatlar ketma-ketligini olish uchun ko'p qatlamli konvolyutsion neyron tarmog'i yordamida ramka tomonidan qayta ishlanadi.

Strukturaviy va kontekstli maqsadlar

Data2vec va boshqa niqoblangan bashorat modellari o'rtasidagi asosiy farqlovchi nuqta shundaki, data2vec modelida o'qitish maqsadlarining xususiyatlari kontekstuallashtiriladi. Bu xususiyatlar o'qituvchi rejimida butun niqoblangan kirishning o'ziga e'tiboridan foydalangan holda qurilgan.

BYOL (Bootstrap Your Own Latent) yoki DINO kabi ba'zi boshqa ramkalar ham data2vec kabi yashirin tasvirlardan foydalanadi, ammo ularning asosiy maqsadi transformatsiyaning o'zgarmas tasvirlarini o'rganishdir.

final Fikrlar

AI va ML sanoatidagi so'nggi ishlar shuni ko'rsatdiki, yagona model arxitekturasi bir nechta usullarni hal qilishda samarali yondashuv bo'lishi mumkin. Data2vec modeli uchta uslub bilan ishlash uchun o'z-o'zini nazorat qilish usulidan foydalanadi: nutq, tasvirlar va til.

Data2vec modelining asosiy kontseptsiyasi kontekstlashtirilgan ma'lumot yoki kirish ma'lumotlarini regresslash uchun qisman kirish ko'rinishidan foydalanishdir. Data2vec ramkalari tomonidan qo'llaniladigan yondashuv samaralidir, chunki model ViT-B va ViT-L yagona modellari uchun ImageNet-1K ma'lumotlar to'plamidagi avvalgi mustaqil o'rganish modellariga qaraganda yaxshiroq ishlaydi.

Data2vec haqiqatan ham o'z-o'zini nazorat qiladigan ta'lim sanoatida muhim bosqichdir, chunki u bir nechta usullarni o'rganish uchun yagona o'rganish usulini namoyish etadi, bu haqiqatan ham modellar uchun barcha modalliklarni o'rganishni osonlashtirishi mumkin.

Aloqador mavzular:data2vec mashinani o'rganish modellari o'z-o'zini nazorat qilish orqali o'rganish

Keyingi

Generativ AI texnologiyasi tomonidan targ'ib qilinadigan iqlim bo'yicha noto'g'ri ma'lumotlar tahdidi

Yo'qotmang

Meta o'z xizmatlariga sun'iy intellekt asosidagi "Personas" ni integratsiya qilishni rejalashtirmoqda

Kunal Kejrival

"Kasbi muhandis, qalbi yozuvchi". Kunal - AI va MLni chuqur sevadigan va tushunadigan texnik yozuvchi, o'zining qiziqarli va ma'lumot beruvchi hujjatlari orqali ushbu sohalardagi murakkab tushunchalarni soddalashtirishga bag'ishlangan.

Unite.AI

data2vec: O'z-o'zini nazorat qilishda muhim bosqich

Sun'iy intellekt

data2vec: O'z-o'zini nazorat qilishda muhim bosqich

Mundarija

Data2vec Kirish: Asosiy g'oya

Nega AI sanoati Data2Vec algoritmiga muhtoj?

Data2Vec algoritmi nima?

Data2Vec algoritmi qanday ishlaydi?