ہمارے ساتھ رابطہ

مصنوعی ذہانت

data2vec: سیلف سپروائزڈ لرننگ میں ایک سنگ میل

mm
تازہ کاری on

مشین لرننگ ماڈلز نے تربیت کے لیے لیبل والے ڈیٹا پر بہت زیادہ انحصار کیا ہے، اور روایتی طور پر، لیبل والے ڈیٹا پر تربیتی ماڈلز درست نتائج برآمد کرتے ہیں۔ تاہم، لیبل لگا ڈیٹا استعمال کرنے کا سب سے بڑا منفی پہلو تشریحی اخراجات ہیں جو تربیتی ڈیٹا کے سائز میں اضافے کے ساتھ بڑھتے ہیں۔ اعلی تشریحی اخراجات ڈویلپرز کے لیے ایک بڑی رکاوٹ ہیں، خاص طور پر جب تربیتی ڈیٹا کی کافی مقدار کے ساتھ کسی بڑے پروجیکٹ پر کام کر رہے ہوں۔

تشریح کے مسئلے سے نمٹنے کے لیے، ڈویلپرز کا تصور سامنے آیا SSL یا سیلف سپروائزڈ لرننگ. سیلف سپروائزڈ لرننگ ایک مشین لرننگ کا عمل ہے جس میں ماڈل ان پٹ کے کسی دوسرے حصے سے ان پٹ کا ایک حصہ سیکھنے کے لیے خود کو تربیت دیتا ہے۔. سیلف سپروائزڈ لرننگ ماڈل کا مقصد لیبل والے ڈیٹا کے زیر نگرانی سگنلز استعمال کرنے کے بجائے ڈیٹا کے درمیان تعلق کا فائدہ اٹھانا ہے۔ 

سیلف سپروائزڈ لرننگ کے علاوہ، لیبل والے ڈیٹا کے استعمال کے بغیر مشین لرننگ ماڈلز کو تربیت دینے کے لیے کئی دوسرے طریقے اور ماڈلز ہیں۔ تاہم، ان طریقوں میں سے زیادہ تر دو اہم مسائل ہیں

  1. وہ اکثر ایک ہی وضع کے لیے مخصوص ہوتے ہیں جیسے تصویر یا متن۔ 
  2. انہیں زیادہ مقدار میں کمپیوٹیشنل پاور کی ضرورت ہوتی ہے۔ 

یہ حدود ایک بڑا مسئلہ ہیں کیوں کہ ایک اوسط انسانی ذہن کسی ایک قسم کے ڈیٹا سے زیادہ مؤثر طریقے سے سیکھنے کے قابل ہوتا ہے جب کہ ایک AI ماڈل کے مقابلے میں جو تصویر، متن اور تقریر کے درمیان فرق کرنے کے لیے علیحدہ ماڈلز اور تربیتی ڈیٹا پر انحصار کرتا ہے۔ 

واحد طریقہ کار کے مسئلے سے نمٹنے کے لیے، میٹا اے آئی نے جاری کیا۔ data2vec، ایک قسم کا پہلا، خود زیر نگرانی اعلی کارکردگی کا الگورتھم تین مختلف طریقوں سے پیٹرن کی معلومات سیکھنے کے لیے: تصویر، متن اور تقریر۔ data2vec الگورتھم کے نفاذ کے ساتھ، متن کی تفہیم کو امیج سیگمنٹیشن کے مسئلے پر لاگو کیا جا سکتا ہے، یا اسے اسپیچ ریکگنیشن ٹاسک میں بھی لگایا جا سکتا ہے۔ 

اس مضمون میں، ہم data2vec ماڈل کے بارے میں گہرائی سے بات کریں گے۔ ہم طریقہ کار کے جائزہ، متعلقہ کام، فن تعمیر، اور ماڈل کے نتائج پر زیادہ گہرائی میں بحث کریں گے تاکہ آپ کو data2vec الگورتھم کی واضح سمجھ ہو۔ 

Data2vec کا تعارف: بنیادی خیال

اگرچہ سیلف سپروائزڈ لرننگ کا بنیادی تصور تمام طریقوں پر لاگو ہوتا ہے، لیکن اصل مقاصد اور الگورتھم ایک دوسرے سے مختلف ہیں کیونکہ وہ ایک ہی طریقہ کار کے حوالے سے ڈیزائن کیے گئے تھے۔ ایک ماڈل کے لیے ایک ماڈل کو ڈیزائن کرنے کی وجہ یہ ہے کہ ایک ہی خود زیر نگرانی سیکھنے کا الگورتھم مختلف قسم کے تربیتی ڈیٹا میں مؤثر طریقے سے کام نہیں کر سکتا۔ 

سنگل موڈیلٹی ماڈلز اور الگورتھم کے ذریعہ پیش کردہ چیلنج پر قابو پانے کے لیے، میٹا اے آئی نے ڈیٹا2ویک جاری کیا، ایک الگورتھم جو کمپیوٹر ویژن کے لیے ایک ہی سیکھنے کا طریقہ استعمال کرتا ہے، ینیلپی یا تقریر.  

data2vec الگورتھم کے پیچھے بنیادی خیال ان پٹ کے نقاب پوش منظر کو استعمال کرنا ہے۔ کی مدد سے خود کشی کے سیٹ اپ میں مکمل ان پٹ ڈیٹا کی اویکت نمائندگی کی پیش گوئی کریں معیاری ٹرانسفارمر فن تعمیر. لہٰذا، وضع کے لحاظ سے مخصوص اشیاء جیسے تصاویر، متن، یا آواز جو کہ مقامی نوعیت کی ہیں کے بجائے، data2vec الگورتھم مکمل تربیت یا ان پٹ ڈیٹا سے معلومات کے ساتھ اویکت نمائندگی کی پیش گوئی کرتا ہے۔ 

AI انڈسٹری کو Data2Vec الگورتھم کی ضرورت کیوں ہے؟

سیلف سپروائزڈ لرننگ ماڈلز انسانی تشریح شدہ لیبلز کا استعمال کرتے ہوئے تربیتی ڈیٹا کی نمائندگی کرتے ہیں، اور یہ NLP یا نیچرل لینگویج پروسیسنگ، اور کمپیوٹر ویژن ٹیکنالوجی کی ترقی کے پیچھے ایک بڑی وجہ ہے۔ یہ خود زیر نگرانی سیکھنے کی نمائندگی کی وجہ ہے کہ اسپیچ ریکگنیشن اور مشین لرننگ جیسے کام اپنے ماڈلز میں غیر زیر نگرانی سیکھنے کو تعینات کرتے ہیں۔ 

اب تک، یہ خود زیر نگرانی سیکھنے کے الگورتھم انفرادی طریقوں پر توجہ مرکوز کرتے ہیں جس کے نتیجے میں سیکھنے کے تعصبات، اور ماڈلز میں مخصوص ڈیزائن ہوتے ہیں۔ خود زیر نگرانی سیکھنے کے الگورتھم کا انفرادی طریقہ مختلف AI ایپلی کیشنز بشمول کمپیوٹر وژن اور NLP میں چیلنجز پیدا کرتا ہے۔ 

مثال کے طور پر، اسپیچ پروسیسنگ میں اسپیچ یونٹس کے الفاظ ہیں جو NLP میں خود زیر نگرانی سیکھنے کے کام کی وضاحت کر سکتے ہیں۔ اسی طرح، میں کمپیوٹر وژن، ڈویلپرز یا تو ان پٹ کو واپس لے سکتے ہیں، مجرد بصری ٹوکن سیکھ سکتے ہیں، یا اعداد و شمار کو بڑھانے کے لیے متغیر نمائندگی سیکھ سکتے ہیں۔ اگرچہ یہ سیکھنے کے تعصبات کارآمد ہیں، لیکن اس بات کی تصدیق کرنا مشکل ہے کہ آیا یہ تعصبات دیگر طریقوں کو عام کریں گے۔ 

data2vec الگورتھم خود زیر نگرانی سیکھنے کی صنعت میں ایک اہم سنگ میل ہے کیونکہ اس کا مقصد صرف ایک کے بجائے متعدد طریقوں کو بہتر بنانا ہے۔ مزید برآں، data2vec الگورتھم ان پٹ یا متضاد سیکھنے کی تشکیل نو پر انحصار نہیں کرتا ہے۔ 

لہذا دنیا کو data2vec کی ضرورت کی وجہ یہ ہے کہ data2vec الگورتھم میں AI میں پیشرفت کو تیز کرنے کی صلاحیت ہے، اور AI ماڈلز تیار کرنے میں تعاون کرتا ہے جو اپنے اردگرد کے مختلف پہلوؤں کے بارے میں بغیر کسی رکاوٹ کے سیکھ سکتے ہیں۔ سائنس دانوں کو امید ہے کہ data2vec الگورتھم انہیں مزید موافقت پذیر AI اور ML ماڈلز تیار کرنے کی اجازت دے گا جو آج کے AI ماڈلز سے زیادہ اعلیٰ ترین کام انجام دینے کی صلاحیت رکھتے ہیں۔

Data2Vec الگورتھم کیا ہے؟

data2vec ایک متحد فریم ورک ہے جس کا مقصد مختلف ڈیٹا طریقوں بشمول تصاویر، تقریر اور متن میں خود نگرانی شدہ مشین لرننگ کو نافذ کرنا ہے۔ 

data2vec الگورتھم کا مقصد ML ماڈلز تیار کرنا ہے جو مختلف طریقوں میں سیکھنے کے مقصد کو یکساں رکھ کر ماحول میں عمومی نمونوں کو بہت بہتر طریقے سے سیکھ سکتے ہیں۔ data2vec ماڈل سیکھنے کے الگورتھم کو یکجا کرتا ہے، لیکن یہ اب بھی انفرادی طور پر ہر موڈیلٹی کی نمائندگی سیکھتا ہے۔ 

data2vec الگورتھم کے تعارف کے ساتھ، Meta AI کو امید ہے کہ یہ ملٹی موڈل لرننگ کو موثر اور بہت زیادہ آسان بنائے گا۔ 

Data2Vec الگورتھم کیسے کام کرتا ہے؟

data2vec الگورتھم پوشیدہ ہدف کی نمائندگی کے سیکھنے کو نقاب پوش پیشین گوئی کے ساتھ جوڑتا ہے، حالانکہ یہ پوشیدہ نمائندگی کو عام کرنے کے لیے متعدد نیٹ ورک پرتوں کو اہداف کے طور پر استعمال کرتا ہے۔ ماڈل خاص طور پر ایک آف دی شیلف کو تربیت دیتا ہے۔ ٹرانسفارمر نیٹ ورک جو پھر یا تو میں استعمال ہوتا ہے۔ استاد یا طالب علم موڈ. 

ٹیچر موڈ میں، ماڈل پہلے کی نمائندگی کرتا ہے۔ ان پٹ ڈیٹا جو سیکھنے کے کام میں اہداف کے طور پر کام کرتا ہے۔. سٹوڈنٹ موڈ میں، ماڈل ان پٹ ڈیٹا کے ایک نقاب پوش ورژن کو انکوڈ کرتا ہے جسے پھر مکمل ڈیٹا کی نمائندگی پر پیشین گوئیاں کرنے کے لیے استعمال کیا جاتا ہے۔ 

مندرجہ بالا تصویر اس بات کی نمائندگی کرتی ہے کہ کس طرح data2vec ماڈل مختلف طریقوں کے لیے ایک ہی سیکھنے کے عمل کو استعمال کرتا ہے۔ پہلے مرحلے میں، ماڈل ان پٹ ڈیٹا کی نمائندگی کرتا ہے (ٹیچر موڈ)۔ اس کے بعد ماڈل ان پٹ کے نقاب پوش ورژن کی بنیاد پر ان نمائندگیوں کو واپس لے جاتا ہے۔ 

مزید برآں، جیسا کہ data2vec الگورتھم ان پٹ ڈیٹا کی پوشیدہ نمائندگیوں کا استعمال کرتا ہے، اس کو موڈیلٹی مخصوص ڈیزائنوں کے ایک آسان ورژن کے طور پر دیکھا جا سکتا ہے جیسے ان پٹ کو معمول بنا کر مناسب اہداف بنانا or بصری ٹوکن کا ایک مقررہ سیٹ سیکھنا۔ لیکن data2vec اور دیگر الگورتھم کے درمیان اہم فرق یہ ہے کہ data2vec الگورتھم اپنے ہدف کی نمائندگی کرنے کے لیے خود توجہ کا استعمال کرتا ہے۔ سیاق و سباق اور مسلسل. دوسری طرف، دوسرے خود زیر نگرانی سیکھنے کے ماڈلز اہداف کا ایک مقررہ سیٹ استعمال کرتے ہیں جو مقامی سیاق و سباق پر مبنی ہوتے ہیں۔ 

Data2vec: ماڈل کا طریقہ

data2vec ماڈل کو ان پٹ کے جزوی نظارے کے پیش نظر ان پٹ ڈیٹا کے ماڈل کی نمائندگی کی پیش گوئی کرکے تربیت دی جاتی ہے۔ جیسا کہ آپ دی گئی تصویر میں دیکھ سکتے ہیں، کتے کا چہرہ نقاب پوش ہے، صوتی نوٹ کا ایک خاص حصہ نقاب پوش ہے، اور لفظ “ساتھمتن میں نقاب پوش ہے۔ 

ماڈل پہلے تربیتی نمونے کے نقاب پوش ورژن کو انکوڈ کرتا ہے(طالب علم موڈ)، اور پھر اسی ماڈل کے ساتھ تربیتی اہداف کی تعمیر کے لیے ان پٹ کے بے نقاب ورژن کو انکوڈ کرتا ہے لیکن صرف اس صورت میں جب اسے ماڈل کے وزن کی کفایتی اوسط کے طور پر پیرامیٹرائز کیا جاتا ہے۔ٹیچر موڈ)۔ مزید برآں، ہدف کی نمائندگییں تربیتی نمونے میں موجود معلومات کو انکوڈ کرتی ہیں، اور طالب علم کے انداز میں، سیکھنے کے کام کا استعمال ان نمائندگیوں کی پیشین گوئی کرنے کے لیے کیا جاتا ہے جب ان پٹ کا جزوی نظریہ دیا جاتا ہے۔ 

ماڈل آرکیٹیکچر

data2vec ماڈل ایک معیاری استعمال کرتا ہے۔ ٹرانسفارمر فن تعمیر ان پٹ ڈیٹا کی موڈیلٹی مخصوص انکوڈنگ کے ساتھ۔ کمپیوٹر ویژن سے متعلق کاموں کے لیے، ماڈل ViT حکمت عملی کا استعمال کرتا ہے تاکہ ایک تصویر کو پیچ کی ترتیب کے طور پر انکوڈ کیا جا سکے جہاں ہر تصویر 16×16 پکسلز پر پھیلی ہوتی ہے، اور اسے لکیری تبدیلی کے طور پر کھلایا جاتا ہے۔ 

مزید برآں، اسپیچ ریکگنیشن کا ڈیٹا، ماڈل ڈیٹا کو ملٹی لیئر 1-D convolutional عصبی نیٹ ورک کا استعمال کرتے ہوئے انکوڈ کرتا ہے جو 16 kHz ویوفارمز کو 50 Hz کی نمائندگی میں نقشہ بناتا ہے۔ ٹیکسٹ ڈیٹا پر کارروائی کرنے کے لیے، ماڈل ذیلی الفاظ کی اکائیوں کو نکالنے کے لیے ڈیٹا کو پہلے سے پروسیس کرتا ہے، اور پھر ایمبیڈنگ ویکٹر کے ذریعے ڈیٹا کو تقسیم کی جگہ میں سرایت کرتا ہے۔ 

Masking کی

ایک بار جب ماڈل ان پٹ ڈیٹا کو ٹوکن کی ترتیب کے طور پر ایمبیڈ کرتا ہے، تو ماڈل ان یونٹس کے حصوں کو ایمبیڈنگ ٹوکن سے تبدیل کرکے ماسک کرتا ہے، اور پھر اس ترتیب کو فیڈ کرتا ہے۔ ٹرانسفارمر نیٹ ورک کمپیوٹر ویژن کے لیے، ماڈل بلاک وار مارکنگ کی حکمت عملی پر عمل کرتا ہے۔ اویکت تقریر کی نمائندگی کا استعمال اسپیچ ڈیٹا کے اسپین کو ماسک کرنے کے لیے کیا جاتا ہے، اور زبان سے متعلق کاموں کے لیے، ٹوکنز کو ماسک کیا جاتا ہے۔ 

تربیت کے اہداف

data2vec ماڈل کا مقصد نقاب پوش نمونے کی انکوڈنگ کی بنیاد پر بے نقاب تربیتی نمونے کی ماڈل کی نمائندگی کی پیش گوئی کرنا ہے جو اصل میں ماڈل کو کھلایا گیا تھا۔ ماڈل صرف نقاب پوش وقتی اقدامات کے لیے نمائندگی کی پیش گوئی کرتا ہے۔ 

ماڈل پیش گوئی کرتا ہے۔ سیاق و سباق کی نمائندگی جو نہ صرف مخصوص ٹائم سٹیپ کو انکوڈ کرتا ہے بلکہ یہ نمونے سے دیگر معلومات کو بھی انکوڈ کرتا ہے کیونکہ یہ ٹرانسفارمر نیٹ ورک میں خود توجہ کا استعمال کرتا ہے۔ سیاق و سباق کی نمائندگی اور ٹرانسفارمر نیٹ ورک کا استعمال وہی ہے جو ڈیٹا 2 ویک ماڈل کو پہلے سے موجود سے ممتاز کرتا ہے۔ BERT، wav2vec، BEiT، SimMIM، MAE، اور MaskFeat ایسے ماڈل جو سیاق و سباق کی معلومات کے بغیر اہداف کی پیش گوئی کرتے ہیں۔ 

یہاں یہ ہے کہ ڈیٹا2ویک ماڈل ٹیچر موڈ کو کس طرح پیرامیٹرائز کرتا ہے تاکہ نیٹ ورک کی نمائندگی کی پیشن گوئی کی جا سکے جو پھر اہداف کے طور پر کام کرتی ہیں۔ 

ٹیچر پیرامیٹرائزیشن

ڈیٹا 2 وی سی ماڈل کے استعمال کے ساتھ غیر نقاب پوش تربیتی نمونے کی انکوڈنگ کو پیرامیٹرائز کیا گیا۔ EMA یا Exponential Moving Average ماڈل پیرامیٹرز (θ) کا جہاں ماڈل کا وزن ہدف وضع (△) مندرجہ ذیل ہیں

                                           ∆ ← τ∆ + (1 − τ ) θ

 

مزید برآں، τ کے لیے ماڈل کا نظام الاوقات جو پیرامیٹر کو خطی طور پر بڑھاتا ہے۔  τ0 سے τe (ٹارگٹ ویلیو) پہلے τn اپ ڈیٹس پر۔ ان اپ ڈیٹس کے بعد، ماڈل اس قدر کو برقرار رکھتا ہے جب تک کہ ٹریننگ ختم نہ ہو جائے۔ EMA حکمت عملی کا استعمال استاد کو شروع میں زیادہ کثرت سے اپ ڈیٹ کرتا ہے جب ٹریننگ شروع ہوتی ہے جب ماڈل بے ترتیب ہوتا ہے۔ جیسے جیسے تربیت آگے بڑھ رہی ہے اور اچھے پیرامیٹرز سیکھے گئے ہیں، استاد کو کم کثرت سے اپ ڈیٹ کیا جاتا ہے۔ 

نتائج سے پتہ چلتا ہے کہ ماڈل زیادہ موثر اور درست ہوتا ہے جب یہ فیچر انکوڈر اور پوزیشنل انکوڈر کے پیرامیٹرز کو طالب علم اور ٹیچر موڈ کے درمیان شیئر کرتا ہے۔ 

اہداف

تربیتی اہداف کی تعمیر اوپر کی پیداوار پر منحصر ہے۔ K ٹائم اسٹیپس کے لیے ٹیچر نیٹ ورک کے بلاکس جو اسٹوڈنٹ موڈ میں نقاب پوش ہیں۔ بلاک کی پیداوار l کسی بھی وقت t a کے طور پر بیان کیا جاتا ہے۔lt. ماڈل پھر â حاصل کرنے کے لیے ہر بلاک پر نارملائزیشن کا اطلاق کرتا ہے۔lt اس سے پہلے کہ یہ اوپر کے K بلاکس کی اوسط کرے۔ 

  

 

تربیت کا ہدف حاصل کرنے کے لیے yt وقتی قدم کے لیے t کے ساتھ نیٹ ورک کے لیے L مجموعی طور پر بلاکس. 

یہ تربیتی اہداف بناتا ہے جو ماڈل طالب علم کے موڈ میں ہونے پر پیچھے ہٹ جاتا ہے۔ ابتدائی تجربات میں، data2vec ماڈل نے ایک مخصوص پروجیکشن کے ساتھ ہر بلاک کی الگ الگ پیشین گوئی کرنے میں اچھی کارکردگی کا مظاہرہ کیا، اور ایک ہی وقت میں بہت زیادہ کارآمد ثابت ہوا۔ 

مزید برآں، اہداف کو معمول پر لانے سے ڈیٹا 2 ویک ماڈل کو وقتی مراحل کے لیے مستقل نمائندگیوں میں ٹوٹنے سے، اور ٹارگٹ ڈیٹاسیٹ میں خصوصیات پر غلبہ حاصل کرنے کے لیے ہائی نارملائزیشن والی پرتوں کو روکنے کی بھی اجازت ملتی ہے۔ اسپیچ ریکگنیشن کے لیے، ماڈل بغیر کسی سیکھے ہوئے پیرامیٹرز کے موجودہ ان پٹ نمونے پر مثال کے طور پر نارملائزیشن کا استعمال کرتا ہے۔ یہ بنیادی طور پر اس وجہ سے ہے کہ چونکہ ان پٹ ڈیٹا پر پیشرفت چھوٹی ہے، اس لیے ہمسایہ کی نمائندگی بہت زیادہ باہم مربوط ہے۔ 

مزید برآں، محققین نے پایا کہ کمپیوٹر وژن اور NLP کے ساتھ کام کرتے وقت، پیرامیٹر سے کم نارملائزیشن کافی حد تک کام کرتی ہے۔ سے بھی مسئلہ حل ہو سکتا ہے۔ تغیرات - انویرینس - ہم آہنگی۔ ریگولرائزیشن لیکن مذکورہ حکمت عملی کافی اچھی کارکردگی کا مظاہرہ کرتی ہے، اور اس کے لیے کسی اضافی پیرامیٹرز کی ضرورت نہیں ہے۔ 

مقصد

سیاق و سباق کے مطابق تربیتی اہداف کے لیے yt، ماڈل استعمال کرتا ہے a ہموار L1 نقصان اہداف کو دوبارہ حاصل کرنے کے لیے جیسا کہ ذیل میں بتایا گیا ہے۔

یہاں، β مربع نقصان سے L1 نقصان میں منتقلی کے کنٹرول میں ہے، اور یہ ماڈل کی پیشن گوئی f کے درمیان فرق کے سائز پر بہت زیادہ انحصار کرتا ہے۔t(x) مرحلہ وار t. اس نقصان کا فائدہ یہ ہے کہ یہ ہے۔ β کی ترتیب کو ٹیون کرنے کی ضرورت کے ساتھ، آؤٹ لیرز کے لیے نسبتاً کم حساس

تجرباتی سیٹ اپ۔

data2vec ماڈل کا تجربہ دو ماڈل سائز کے ساتھ کیا گیا ہے۔ data2vec بڑا اور data2vec بیس. عددی استحکام کے لیے، EMA اپ ڈیٹس fp32 میں کیے جاتے ہیں، اور ماڈلز میں پوشیدہ طول و عرض (H) = 12 یا H= 24 کے ساتھ L= 768 یا L= 1024 ٹرانسفارمر بلاکس ہوتے ہیں۔ آئیے مختلف طریقوں کے تجرباتی سیٹ اپ پر ایک تفصیلی نظر ڈالتے ہیں۔ ، اور مقاصد. 

کمپیوٹر ویژن

data2vec ماڈل 224×224 پکسلز کی تصاویر کو 16×16 پکسلز کے پیچ کے طور پر ایمبیڈ کرتا ہے۔ ان پیچوں میں سے ہر ایک لکیری طور پر تبدیل ہوتا ہے، اور 196 نمائندگی کے ساتھ ایک ترتیب معیاری ٹرانسفارمر کو کھلایا جاتا ہے۔ 

ماڈل مندرجہ ذیل ہے۔ BEiT بلاکس کو ملحقہ پیچ کے ساتھ ماسک کرنے کے لیے ہر بلاک میں کم از کم 16 پیچ بے ترتیب پہلو تناسب کے ساتھ ہوں۔ تاہم، BEiT ماڈل کی طرح 40% پیچ کو ماسک کرنے کے بجائے، data2vec ماڈل بہتر درستگی کے لیے پیچ کا 60% ماسک کرتا ہے۔ 

مزید برآں، ماڈل تصادفی طور پر تصویر کی فصلوں، افقی پلٹنے، اور رنگوں کے جھٹکے کا سائز تبدیل کرتا ہے۔ آخر میں، data2vec ماڈل استاد اور طالب علم دونوں موڈ میں ایک ہی ترمیم شدہ تصویر کا استعمال کرتا ہے۔ 

ViT-B ماڈلز 800 عہدوں کے لیے پہلے سے تربیت یافتہ ہیں، اور data2vec ماڈل ViT-L ماڈل کے لیے 8,192 اور ViT-B ماڈل کے لیے 2,048 بیچ سائز کا استعمال کرتا ہے۔ ڈیٹا 2 ویک ماڈل ایک کوزائن اور ایڈم شیڈول کا استعمال کرتا ہے جس میں ایک سائیکل کے ساتھ سیکھنے کی شرح 80 دوروں کے لیے ViT-L کے لیے 0.001 تک اور ViT-B کے لیے 40 دوروں کے لیے 0.001 تک ہوتی ہے۔ 

ViT-B، اور ViT-L دونوں کے لیے، data2vec ماڈل β = 2، K = 6 اور τ = 0.9998 بغیر کسی شیڈول کے مستقل کے طور پر استعمال کرتا ہے۔ ماڈل مزید اسٹاکسٹک ڈیپتھ ریٹ 0.2 استعمال کرتا ہے۔ 

مزید برآں، ViT-L کے لیے، ماڈل 1,600 عہدوں کے لیے ٹرین کرتا ہے جہاں پہلے 800 عہدوں کی سیکھنے کی شرح 0.9998 ہوتی ہے، اور پھر ماڈل سیکھنے کی شرح کے شیڈول کو دوبارہ ترتیب دیتا ہے، اور آخری 800 دوروں کے لیے سیکھنے کی شرح 0.9999 کے ساتھ جاری رہتا ہے۔ 

تصویر کی درجہ بندی کے لیے، ماڈل آخری ٹرانسفارمر بلاک کے آؤٹ پٹ کے اوسط پول کا استعمال کرتا ہے، اور اسے سافٹ میکس-نارملائزڈ کلاسیفائر میں فیڈ کرتا ہے۔ اس کے بعد ماڈل 50 دوروں کے لیے ViT-L، اور 100 دوروں کے لیے ViT-B کوسائن کا استعمال کرتے ہوئے، اور ایڈم کو سیکھنے کی شرح کو گرم کرنے کے لیے ٹھیک ٹیون کرتا ہے۔ 

اسپیچ پروسیسنگ

اسپیچ پروسیسنگ کے لیے، data2vec ماڈل استعمال کرتا ہے۔ Fairseq ایک ترتیب ماڈلنگ کٹ جو گاہک کے ماڈلز کو خلاصہ، ترجمہ اور ٹیکسٹ جنریشن کے لیے تربیت دینے کے لیے استعمال ہوتی ہے۔ ماڈل ان پٹ کے طور پر 16 کلو ہرٹز ویوفارم لیتا ہے جسے فیچر انکوڈر کا استعمال کرتے ہوئے پروسیس کیا جاتا ہے، اور اس میں 512 چینلز، دانا کی چوڑائی (10,3,3,3,3,2,2) اور اسٹرائیڈز (5,2,2,2,2,2,2) کے ساتھ عارضی کنولوشنز ہوتے ہیں۔ XNUMX)۔ 

مندرجہ بالا نتائج کے نتیجے میں انکوڈر کی آؤٹ پٹ فریکوئنسی 50Hz ہے، اور اس میں ہر نمونے کے درمیان 20ms کا فاصلہ ہے۔ قبول کرنے والے فیلڈ میں 400 ان پٹ نمونے یا 25 ایم ایس آڈیو شامل ہیں۔ انکوڈر کو کھلائے جانے والے خام ویوفارم کو یونٹ کے تغیر اور صفر کے وسط میں معمول بنایا جاتا ہے۔

بیس ماڈل کے لیے data2vec کے ذریعے استعمال ہونے والی ماسکنگ کی حکمت عملی تقریر کی شناخت میں خود زیر نگرانی سیکھنے کے لیے Baevski فریم ورک سے مشابہت رکھتی ہے۔ ماڈل کے نمونے۔ p = 0.065 تمام وقتی مراحل کے لیے ابتدائی اشاریہ جات، اور درج ذیل دس وقتی مراحل کو نشان زد کرنے کے لیے آگے بڑھتا ہے۔ ایک عام تربیتی ترتیب کے لیے، یہ عمل کل وقتی مراحل میں سے تقریباً 49% کو نقاب پوش ہونے دیتا ہے۔ 

تربیت کے دوران، data2vec ماڈل τ کا استعمال کرتے ہوئے لکیری طور پر اینیل کرتا ہے۔o = 0.999، τe = 0.9999، اور τn = 30,000۔ data2vec ماڈل ایڈم آپٹیمائزر کا استعمال کرتا ہے جس کی چوٹی سیکھنے کی شرح 5×10 ہے۔-4 بیس ماڈل کے لیے۔ مزید برآں، بیس ماڈل ٹرائی اسٹیج شیڈیولر کا استعمال کرتا ہے جو اپ ڈیٹس کے پہلے 3% کے لیے سیکھنے کی شرح کو خطی طور پر گرم کرتا ہے، اسے اگلے 90% تک برقرار رکھتا ہے، اور پھر بقیہ 7% کے لیے اسے لکیری طور پر ختم کرنے کے لیے آگے بڑھتا ہے۔ 

قدرتی زبان عملیات

data2vec ماڈل ان پٹ کو ٹوکنائز کرنے کے لیے 50K اقسام کی بائٹ پیئر انکوڈنگ کا استعمال کرتا ہے، اور پھر ماڈل ہر قسم کے لیے ایمبیڈنگ سیکھتا ہے۔ ڈیٹا کو انکوڈ کرنے کے بعد، ماڈل BERT ماسکنگ کی حکمت عملی کو یکساں طور پر منتخب کردہ 15% ٹوکنز پر لاگو کرتا ہے جس میں 80% کو سیکھے ہوئے ماسک ٹوکنز سے تبدیل کیا جاتا ہے، 10% کو بے ترتیب الفاظ کے ٹوکن سے بدل دیا جاتا ہے، اور بقیہ 10% کو کوئی تبدیلی نہیں کی جاتی ہے۔ 

پری ٹریننگ کے دوران ماڈل τ استعمال کرتا ہے۔o = 0.999، τe = 0.9999، اور τn = 100,000، K= 10، اور β = 4۔ ماڈل ایڈم آپٹیمائزر کا استعمال ایک سہ رخی سیکھنے کی شرح کے شیڈول کے ساتھ کرتا ہے جو پہلے 5% اپ ڈیٹس کے لیے سیکھنے کی شرح کو یکساں طور پر گرم کرتا ہے، اسے اگلے 80% تک برقرار رکھتا ہے، اور پھر بقیہ 15% کے لیے اسے لکیری طور پر سڑنے کے لیے آگے بڑھتا ہے، جس میں سیکھنے کی چوٹی کی شرح 2×10 ہوتی ہے۔-4

مزید برآں، ماڈل 16 کو ٹرین کرتا ہے۔ GPUs 256 ترتیبوں کے بیچ سائز کے ساتھ، اور ہر ترتیب تقریباً 512 ٹوکنز پر مشتمل ہے۔ ڈاؤن اسٹریمنگ کے لیے، ماڈل چار مختلف سیکھنے کی شرحوں میں پہلے سے تربیت یافتہ ہے: 1×10-4، 2 × 10-4، 3 × 10-4، 4 × 10-4، اور جو بہترین کارکردگی کا مظاہرہ کرتا ہے اسے مزید NLP ڈاؤن اسٹریمنگ کاموں کے لیے منتخب کیا جاتا ہے۔ 

نتائج کی نمائش

آئیے اس پر ایک نظر ڈالتے ہیں کہ جب ڈیٹا 2 وی سی ماڈل مختلف طریقوں کے لیے اوپر بتائی گئی حکمت عملیوں کو لاگو کرتا ہے تو وہ کیسے کارکردگی کا مظاہرہ کرتا ہے۔ 

کمپیوٹر ویژن

کمپیوٹر ویژن کے نتائج کا جائزہ لینے کے لیے، ڈیٹا 2 ویک ماڈل کو اس سے حاصل کردہ تصاویر پر پہلے سے تربیت دی گئی ہے۔ ImageNet-1K ڈیٹاسیٹ نتیجے میں آنے والے ماڈل کو اسی بینچ مارک کے لیبل والے ڈیٹا کا استعمال کرتے ہوئے ٹھیک بنایا گیا ہے۔ معیاری پریکٹس کے مطابق، اس کے بعد ماڈل کا جائزہ لیا جاتا ہے۔ ٹاپ 1 درستگی توثیق کے اعداد و شمار پر. 

اس کے بعد نتائج کو ایک خود نگرانی شدہ ماڈل کی بنیاد پر ممتاز کیا جاتا ہے، اور اضافی ڈیٹا، یا خود زیر نگرانی سیکھنے کے دوسرے ماڈلز پر علیحدہ بصری ٹوکنائزر کی تربیت دی جاتی ہے۔ 

نیچے دی گئی جدول کمپیوٹر وژن کے لیے data2vec ماڈل کی کارکردگی اور دیگر موجودہ ماڈلز: ViT-L، اور ViT-B کا موازنہ کرتی ہے۔ 

مندرجہ بالا جدول کے نتائج کا خلاصہ اس طرح کیا جا سکتا ہے۔ 

  • data2vec ماڈل سنگل ماڈل سیٹنگ میں ViT-L، اور ViT-B دونوں ماڈلز کے ساتھ پہلے کے کام سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔ 
  • ڈیٹا 2 وی سی الگورتھم میں استعمال ہونے والا نقاب پوش پیشن گوئی سیٹ اپ سیاق و سباق سے متعلق اویکت نمائندگی کی پیش گوئی کرنے کے لیے بہتر کارکردگی کا مظاہرہ کرتا ہے جب ان طریقوں کے مقابلے میں جو مقامی اہداف جیسے انجینئرنگ امیج فیچرز، ان پٹ پکسلز، یا ویژول ٹوکنز کی پیش گوئی کرتے ہیں۔ 
  • data2vec ماڈل خود کشی کے طریقوں سے بھی بہتر کارکردگی کا مظاہرہ کرتا ہے جو سٹوڈنٹ نیٹ ورک کی آخری پرت کو پیچھے ہٹاتا ہے جبکہ تصویر کے دو مختلف بڑھے ہوئے ورژن کو بطور ان پٹ لیتے ہیں۔ 

آڈیو اور اسپیچ پروسیسنگ

تقریر اور آڈیو پروسیسنگ کے لیے، data2vec ماڈل کو تقریباً 960 گھنٹے کے آڈیو ڈیٹا پر تربیت دی جاتی ہے۔ Librispeech(LS-960) ڈیٹاسیٹ ڈیٹا سیٹ انگریزی میں آڈیو بکس سے صاف اسپیچ آڈیو پر مشتمل ہے، اور اسے اسپیچ اور آڈیو پروسیسنگ انڈسٹری میں ایک معیاری بینچ مارک کے طور پر سمجھا جاتا ہے۔ 

مختلف وسائل کی ترتیبات میں ماڈل کی کارکردگی کا تجزیہ کرنے کے لیے، محققین نے خودکار تقریر کی شناخت کے لیے لیبل لگے ہوئے ڈیٹا کی مختلف مقدار (چند منٹوں سے لے کر کئی گھنٹوں تک) استعمال کرنے کے لیے data2vec ماڈل کو ٹھیک بنایا ہے۔ ماڈل کی کارکردگی کا تجزیہ کرنے کے لیے، data2vec کا موازنہ کیا جاتا ہے۔ ہیوبرٹ & wav2vec 2.0تقریر اور آڈیو نمائندگی کی تعلیم کے لیے دو سب سے مشہور الگورتھم جو مجرد تقریری اکائیوں پر انحصار کرتے ہیں۔ 

مندرجہ بالا جدول ڈیٹا 2 وی سی کی کارکردگی کا دوسرے موجودہ ماڈلز کے ساتھ تقریر کی شناخت کے لیے الفاظ کی شرح کے لحاظ سے موازنہ کرتا ہے۔ LM ڈی کوڈنگ کے لیے استعمال ہونے والے زبان کے ماڈل کی نمائندگی کرتا ہے۔ نتائج کا خلاصہ اس طرح کیا جا سکتا ہے۔ 

  • data2vec ماڈل سب سے زیادہ لیبل والے ڈیٹا سیٹ اپس کے لیے بہتری دکھاتا ہے جس میں بیس ماڈلز کے لیے لیبل لگے ہوئے ڈیٹا کے 10 منٹ کے سب سے بڑے فائدے کے ساتھ۔ 
  • جب بڑے ماڈلز کی بات آتی ہے، تو ماڈل چھوٹے لیبل والے ڈیٹاسیٹس پر نمایاں طور پر بہتر کارکردگی کا مظاہرہ کرتا ہے، اور کارکردگی 100 اور 960 گھنٹے سے زیادہ لیبل والے ڈیٹا کے ساتھ وسائل سے بھرپور ڈیٹاسیٹس پر موازنہ کی جاتی ہے۔ اس کی وجہ یہ ہے کہ کارکردگی عام طور پر زیادہ تر ماڈلز کے لیے وسائل سے بھرپور لیبل والے ڈیٹاسیٹ پر سیر ہوتی ہے۔ 
  • کارکردگی کا تجزیہ کرنے کے بعد، یہ اندازہ لگایا جا سکتا ہے کہ جب ماڈل بھرپور سیاق و سباق کے اہداف کا استعمال کرتا ہے، تو مجرد اکائیوں کو سیکھنا ضروری نہیں ہے۔ 
  • تربیت کے دوران سیاق و سباق کے مطابق اہداف سیکھنے سے مجموعی کارکردگی کو نمایاں طور پر بہتر بنانے میں مدد ملتی ہے۔ 

مزید برآں، تقریر کی شناخت کے لیے data2vec کے نقطہ نظر کی توثیق کرنے کے لیے، ماڈل کو بھی تربیت دی جاتی ہے۔ آڈیو سیٹ بینچ مارک اگرچہ آڈیو سیٹ کے لیے پری ٹریننگ سیٹ اپ Librispeech کی طرح ہے، ماڈل کو K=12، اور 200K سے زیادہ اپڈیٹس کے لیے تربیت دی جاتی ہے، جہاں ہر بیچ کا سائز 94.5 منٹ ہے۔ 

ماڈل پھر لاگو ہوتا ہے۔ ڈیپ نارم فریم ورک ، اور پرت نارملائزیشن تربیت کو مستحکم کرنے میں مدد کرنے کے اہداف تک۔ مزید برآں، ماڈل 21.3k اپڈیٹس پر 13 منٹ کے بیچ سائز کے ساتھ متوازن ذیلی سیٹوں پر بھی ٹھیک ہے۔ ماڈل بھی استعمال کرتا ہے۔ لکیری سافٹ میکس پولنگ اور 0.7 کے امکانی سکور کے ساتھ اختلاط۔ ماڈل پھر ایک کا اضافہ کرتا ہے۔ واحد لکیری پروجیکشن آڈیو کی 527 منفرد کلاسوں میں، اور سیٹ کرتا ہے۔ پروجیکشن سیکھنے کی شرح 2e-4 تک۔ 

مزید برآں، پہلے سے تربیت یافتہ پیرامیٹرز میں سیکھنے کی شرح 3e-5 ہے، اور ماڈل ڈیٹاسیٹ کو ٹھیک کرنے کے لیے ماسکنگ تکنیک کا استعمال کرتا ہے۔ نیچے دی گئی جدول میں نتائج کا خلاصہ کیا گیا ہے، اور یہ دیکھا جا سکتا ہے کہ data2vec ماڈل ایک ہی فائن ٹیوننگ، اور پری ٹریننگ ڈیٹا کے ساتھ موازنہ سیٹ اپ کو پیچھے چھوڑنے کے قابل ہے۔ 

قدرتی زبان عملیات

متن پر data2vec کی کارکردگی کا تجزیہ کرنے کے لیے، ماڈل اسی ٹریننگ سیٹ اپ کی پیروی کرتا ہے۔ برٹ اور ماڈل کو انگریزی ویکیپیڈیا ڈیٹاسیٹ پر 1M سے زیادہ اپڈیٹس کے ساتھ پہلے سے تربیت دینا، اور بیچ کا سائز 256 ترتیب ہے۔ ماڈل کا جائزہ لیا جاتا ہے۔ GLUE یا عام زبان کی تفہیم کی تشخیص بینچ مارک جس میں فطری زبان میں مداخلت کے کام شامل ہیں(MNLI یا ملٹی جنر نیچرل لینگویج انفرنس)، جملے کی مماثلت (QQP یا Quora Question Pairs بینچ مارک، MRPC یا Microsoft Research Paragraph Corpus، اور STS-B یا سیمنٹک ٹیکسچوئل مماثلت کا بینچ مارکجذبات کا تجزیہ (SST-2 یا Stanford Sentiment Treebank)، اور گرامر کے لحاظ سے(کولا). 

مزید برآں، data2vec ماڈل کو ٹھیک کرنے کے لیے، لیبل لگا ڈیٹا ہر ٹاسک کے ذریعے فراہم کیا جاتا ہے، اور 5 فائن ٹیوننگ رنز کے ساتھ ڈیولپمنٹ سیٹ پر اوسط درستگی کی اطلاع دی جاتی ہے۔ مندرجہ ذیل جدول قدرتی زبان کی پروسیسنگ کے کاموں کے لیے data2vec ماڈل کی کارکردگی کا خلاصہ کرتا ہے، اور اس کا دوسرے ماڈلز سے موازنہ کرتا ہے۔ 

  • مندرجہ بالا اعداد و شمار سے پتہ چلتا ہے کہ data2vec ماڈل بیس لائن RoBERTA ماڈل سے بہتر کارکردگی کا مظاہرہ کرتا ہے کیونکہ data2vec ماڈل میں حکمت عملی بے ترتیب اہداف کا استعمال نہیں کرتی ہے۔ 
  • data2vec ماڈل پہلا کامیاب پہلے سے تربیت یافتہ NLP ماڈل ہے جو مجرد اکائیوں جیسے حروف، الفاظ یا ذیلی الفاظ کو تربیتی اہداف کے طور پر استعمال نہیں کرتا ہے۔ اس کے بجائے، data2vec فریم ورک مکمل بے نقاب متن کی ترتیب پر سیاق و سباق کی اویکت نمائندگی کی پیش گوئی کرتا ہے۔ 
  • یہ ایک سیکھنے کے کام کو بنانے میں مدد کرتا ہے جس میں ماڈل کو موجودہ ترتیب سے مخصوص خصوصیات کے ساتھ اہداف کی پیشین گوئی کرنے کی ضرورت ہوتی ہے بجائے اس کے کہ وہ پیشین گوئیاں پیش کریں جو خاص صوابدید کے ساتھ ہر ٹیکسٹ یونٹ کے لیے عام ہوں۔ 
  • مزید برآں، تربیتی ہدف مقرر نہیں ہے، اور ماڈل نئے اہداف کی وضاحت کرنے کے لیے آزاد ہے، اور یہ الفاظ کی ترتیبات کے لیے کھلا ہے۔ 

Data2Vec: Ablations اسٹڈی

Ablation ایک اصطلاح ہے جو AI، اور ML سسٹمز میں کسی جزو کو ہٹانے کی وضاحت کے لیے استعمال ہوتی ہے۔ AI یا ML ماڈل کی کارکردگی کی چھان بین یا تجزیہ کرنے کے لیے ایک ایبلیشن اسٹڈی کا استعمال ماڈل سے کچھ کلیدی اجزاء کو ہٹا کر کیا جاتا ہے جو محققین کو مجموعی نظام میں اس جزو کی شراکت کو سمجھنے کی اجازت دیتا ہے۔ 

پرت کے اوسط اہداف

data2vec اور خود زیر نگرانی سیکھنے کے دوسرے ماڈلز کے درمیان ایک بڑا فرق یہ ہے کہ data2vec ماڈل ایسے اہداف کا استعمال کرتا ہے جو اساتذہ کے نیٹ ورک سے متعدد پرتوں کی اوسط پر مبنی ہوتے ہیں۔ یہ خیال اس حقیقت سے آتا ہے کہ wav2vec 2.0 ماڈل کی سب سے اوپر کی تہیں ماڈل کی درمیانی تہوں کے مقابلے میں نیچے کی دھارے کے کاموں کے لیے اچھی کارکردگی کا مظاہرہ نہیں کرتی ہیں۔ 

مندرجہ ذیل تجربے میں، تینوں طریقوں کی کارکردگی کی اوسط K= 1, 2, …, 12 تہوں سے ماپا جاتا ہے جہاں K= 1 صرف اوپری تہہ کی پیش گوئی کرتا ہے۔ تاہم، تیزی سے تبدیلی کا وقت نکالنے کے لیے، data2vec بیس ماڈل کو مجموعی طور پر 12 تہوں کے ساتھ تربیت دیتا ہے۔ اسپیچ ریکگنیشن کے لیے، ماڈل کو Librispeech پر دو لاکھ سے زیادہ اپڈیٹس پر پہلے سے تربیت دی جاتی ہے، اور پھر Libri-light کے لیبل والے 10 گھنٹے کے لیبل پر ٹھیک ٹیون کیا جاتا ہے۔ نیچرل لینگویج پروسیسنگ کے لیے، ماڈل توثیق سیٹ کے لیے اوسط GLUE سکور کی رپورٹ کرتا ہے، اور کمپیوٹر ویژن کے لیے ماڈل کو 300 دوروں کے لیے پہلے سے تربیت دیتا ہے اور پھر امیج نیٹ ڈیٹا سیٹ پر حاصل کردہ ٹاپ-1 درستگی کی اطلاع دیتا ہے۔ 

مندرجہ بالا اعداد و شمار سے پتہ چلتا ہے کہ متعدد تہوں پر مبنی اہداف عام طور پر اس وقت بہتر ہوتے ہیں جب تمام طریقوں کے لیے صرف اوپر کی پرت K=1 استعمال کی جاتی ہے۔ دستیاب تمام پرتوں کا استعمال ایک اچھا عمل ہے کیونکہ نیورل نیٹ ورک مختلف قسم کی خصوصیات پر خصوصیات بناتے ہیں، اور متعدد پرتیں جنہیں بعد میں فیچر لیئرز کے طور پر نکالا جاتا ہے۔ 

متعدد پرتوں کی خصوصیات کا استعمال درستگی کو بڑھانے میں مدد کرتا ہے، اور خود زیر نگرانی سیکھنے کے عمل کو تقویت دیتا ہے۔ 

ہدف کی خصوصیت کی قسم

data2vec ماڈل میں ٹرانسفارمر بلاکس میں کئی پرتیں ہیں جو تمام اہداف کے طور پر کام کر سکتی ہیں۔ یہ تجزیہ کرنے کے لیے کہ مختلف پرتیں کارکردگی کو کس طرح متاثر کرتی ہیں، ماڈل کو Librispeech کے اسپیچ ماڈلز پر پہلے سے تربیت دی جاتی ہے جو مختلف تہوں کو ہدف خصوصیات کے طور پر استعمال کرتے ہیں۔ 

نیچے دی گئی تصویر واضح طور پر بتاتی ہے کہ فیڈ فارورڈ نیٹ ورک یا FFN کا آؤٹ پٹ مثالی طور پر کام کرتا ہے جبکہ خود توجہ دینے والے بلاکس کا آؤٹ پٹ قابل استعمال ماڈل نہیں بنتا۔ 

ٹارگٹ سیاق و سباق

data2vec ماڈل میں اساتذہ کی نمائندگی سیاق و سباق کے مطابق اہداف تیار کرنے کے لیے پوری ان پٹ پر خود توجہ کا استعمال کرتی ہے۔ یہی وہ چیز ہے جو data2vec کو دوسرے خود زیر نگرانی سیکھنے کے ماڈلز سے الگ کرتی ہے جو ان پٹ کے مقامی حصوں کی تشکیل نو یا پیشن گوئی کرکے سیکھنے کا کام بناتے ہیں۔ یہ واضح طور پر سوال پیدا کرتا ہے: کیا data2vec ماڈل کو اچھی طرح سے کام کرنے کے لیے متعلقہ اہداف کی ضرورت ہے؟ 

سوال کا جواب دینے کے لیے، محققین اہداف کی نمائندگی کرتے ہیں جن کے پاس پورے ان پٹ ڈیٹاسیٹ تک رسائی نہیں ہوتی بلکہ اس کا صرف ایک حصہ ہوتا ہے جو پہلے سے متعین ہوتا ہے۔ اس کے بعد ماڈل استاد کے خود دھیان دینے کے طریقہ کار کو محدود کرتا ہے جو اسے آس پاس کے ماحول کے ان پٹ کے صرف ایک حصے تک رسائی حاصل کرنے کی اجازت دیتا ہے۔ ماڈل کے تربیت یافتہ ہونے کے بعد، مکمل سیاق و سباق کے سائز تک رسائی حاصل کرنے کے لیے اسے ٹھیک بنایا گیا ہے۔ 

نیچے دی گئی تصویر اس بات کی نشاندہی کرتی ہے کہ سیاق و سباق کے بڑے سائز اکثر بہتر کارکردگی کا باعث بنتے ہیں، اور جب پورا ان پٹ نمونہ نظر آتا ہے، تو اس سے بہترین درستگی حاصل ہوتی ہے۔ اس سے مزید ثابت ہوتا ہے۔ بہتر ہدف کی نمائندگی بہتر کارکردگی پیدا کر سکتی ہے۔ 

موڈالٹی مخصوص فیچر ایکسٹریکٹرز اور ماسکنگ

data2vec کا بنیادی مقصد ایک سادہ سیکھنے کا طریقہ کار ڈیزائن کرنا ہے جو مختلف طریقوں کے ساتھ کام کر سکے۔ اس کی وجہ یہ ہے کہ، اگرچہ موجودہ ماڈلز اور فریم ورک میں سیکھنے کا ایک متحد نظام موجود ہے، پھر بھی وہ مخصوص ماسکنگ، اور فیچر ایکسٹریکٹر استعمال کرتے ہیں۔ 

یہ سمجھ میں آتا ہے کہ فریم ورک زیادہ تر ایک ہی طریقہ کار کے ساتھ کام کرتے ہیں کیونکہ ان پٹ ڈیٹا کی نوعیت ایک دوسرے سے بہت مختلف ہوتی ہے۔ مثال کے طور پر، اسپیچ ریکگنیشن ماڈلز ایک ہائی ریزولوشن ان پٹ (جیسے 10 kHz ویوفارم) استعمال کرتے ہیں جس میں عام طور پر ہزاروں نمونے ہوتے ہیں۔ اس کے بعد ویوفارم کو فریم ورک کے ذریعے 50 ہرٹز کی خصوصیت کی ترتیب حاصل کرنے کے لیے ملٹی لیئر کنوولیشنل نیورل نیٹ ورک کا استعمال کرتے ہوئے پروسیس کیا جاتا ہے۔ 

تشکیل شدہ اور سیاق و سباق کے اہداف

data2vec اور دیگر نقاب پوش پیشین گوئی کے ماڈلز کے درمیان اہم فرق یہ ہے کہ data2vec ماڈل میں، تربیتی اہداف کی خصوصیات کو سیاق و سباق کے مطابق بنایا گیا ہے۔ یہ خصوصیات ٹیچر موڈ میں پورے ماسکڈ ان پٹ کی خود توجہ کا استعمال کرتے ہوئے بنائی گئی ہیں۔ 

کچھ دوسرے فریم ورک جیسے BYOL(Bootstrap Your Own Latent) یا DINO بھی ڈیٹا2vec جیسی اویکت نمائیندگیوں کا استعمال کرتے ہیں، لیکن ان کا بنیادی فوکس ٹرانسفارمیشن انویرینٹ نمائندگی کو سیکھنا ہے۔ 

فائنل خیالات

AI اور ML انڈسٹری میں حالیہ کام نے اشارہ کیا ہے کہ یکساں ماڈل فن تعمیر متعدد طریقوں سے نمٹنے کے لیے ایک مؤثر طریقہ ہو سکتا ہے۔ data2vec ماڈل تین طریقوں کے ساتھ کام کرنے کے لیے خود زیر نگرانی سیکھنے کا طریقہ استعمال کرتا ہے: تقریر، تصاویر اور زبان۔ 

data2vec ماڈل کے پیچھے کلیدی تصور یہ ہے کہ سیاق و سباق کی معلومات یا ان پٹ ڈیٹا کو ریگریس کرنے کے لیے جزوی ان پٹ ویو کا استعمال کیا جائے۔ data2vec فریم ورک کے ذریعے استعمال کیا جانے والا نقطہ نظر موثر ہے کیونکہ ماڈل ViT-B، اور ViT-L دونوں سنگل ماڈلز کے لیے ImageNet-1K ڈیٹاسیٹ پر پہلے خود زیر نگرانی سیکھنے والے ماڈلز سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔ 

Data2vec صحیح معنوں میں خود زیر نگرانی سیکھنے کی صنعت میں ایک سنگ میل ہے کیونکہ یہ متعدد طریقوں کو سیکھنے کے لیے ایک واحد طریقہ کار کو ظاہر کرتا ہے جو ماڈلز کے لیے تمام طریقوں کو سیکھنے میں واقعی آسان بنا سکتا ہے۔ 

"پیشہ سے انجینئر، دل سے مصنف"۔ کنال ایک تکنیکی مصنف ہے جس کے پاس AI اور ML کی گہری محبت اور سمجھ ہے، جو اپنی پرکشش اور معلوماتی دستاویزات کے ذریعے ان شعبوں میں پیچیدہ تصورات کو آسان بنانے کے لیے وقف ہے۔