فوری انجینئرنگ
بڑی زبان کے ماڈلز کے ساتھ بہتر ٹیکسٹ ایمبیڈنگز کی تربیت

ٹیکسٹ ایمبیڈنگز الفاظ، جملوں، پیراگراف یا دستاویزات کی ویکٹر نمائندگی ہیں جو ان کے معنوی معنی کو پکڑتے ہیں۔ وہ آج بہت سے قدرتی زبان کی پروسیسنگ (NLP) ایپلی کیشنز میں بنیادی تعمیراتی بلاک کے طور پر کام کرتے ہیں، بشمول معلومات کی بازیافت، سوالوں کے جوابات، معنوی تلاش اور بہت کچھ۔
GPT-3 جیسے بڑے لینگویج ماڈلز (LLMs) میں حالیہ پیش رفت نے چند شاٹ سیکھنے اور قدرتی زبان کی تخلیق میں متاثر کن صلاحیتوں کو دکھایا ہے۔ کیا ہم ٹیکسٹ ایمبیڈنگ کی حالت کو آگے بڑھانے کے لیے LLM کا فائدہ اٹھا سکتے ہیں؟ ان کے کاغذ میں "بڑے زبان کے ماڈلز کے ساتھ ٹیکسٹ ایمبیڈنگز کو بہتر بنانا"، مائیکروسافٹ کے محققین نے ایک نیا طریقہ تجویز کیا ہے جو ایل ایل ایم کے ساتھ مصنوعی تربیتی ڈیٹا تیار کرکے اور اس پر فائن ٹیوننگ کرکے اعلیٰ نتائج حاصل کرتا ہے۔
موجودہ طریقوں کے ساتھ چیلنجز
روایتی ٹیکسٹ ایمبیڈنگ تکنیک جیسے لفظ ویکٹر کے وزنی اوسط یا TF-IDF متن میں بھرپور سیاق و سباق کی معلومات کو مناسب طریقے سے حاصل کرنے میں ناکام رہتے ہیں۔ پہلے سے تربیت یافتہ لینگویج ماڈلز پر مبنی مزید حالیہ طریقے جیسے BERT سیاق و سباق سے متعلق بہت بہتر ایمبیڈنگ حاصل کرتے ہیں۔
تاہم، انہیں پیچیدہ ملٹی اسٹیج ٹریننگ پائپ لائنز کی ضرورت ہوتی ہے:
- اربوں کمزور لیبل والے یا مصنوعی متن کے جوڑوں پر پری ٹرین
- ہاتھ سے تیار کردہ محدود ڈیٹاسیٹس پر فائن ٹیون
یہ ڈیٹا اکٹھا کرنے کے لیے بڑے پیمانے پر حسابی وسائل اور انسانی کوششوں کا مطالبہ کرتا ہے۔ تربیت کا ڈیٹا تنوع اور زبان کی کوریج میں بھی محدود ہے۔ مثال کے طور پر، BEIR بینچ مارک انگریزی میں صرف 15 بازیافت کے کاموں کے ڈیٹا سیٹس پر مشتمل ہے۔
موجودہ طریقے بنیادی طور پر چھوٹے BERT طرز کے فن تعمیر کو ریڑھ کی ہڈی کے ماڈل کے طور پر استعمال کرتے ہیں۔ وہ زیادہ جدید ایل ایل ایم اور متعلقہ تکنیکوں سے فائدہ اٹھانے سے قاصر ہیں۔
طریقہ کار: ایل ایل ایم کے ساتھ مصنوعی ڈیٹا جنریشن
ان حدود پر قابو پانے کے لیے، محققین نے ایک نیا سنگل اسٹیج ٹریننگ اپروچ تجویز کیا جو متنوع مصنوعی تربیتی ڈیٹا تیار کرنے کے لیے GPT-3 اور GPT-4 جیسے LLMs کا فائدہ اٹھاتا ہے۔
اہم اقدامات یہ ہیں:
- کام کی درجہ بندی: ایک درجہ بندی کی وضاحت کریں جو ٹیکسٹ ایمبیڈنگ کے کاموں کو اس میں درجہ بندی کرتا ہے:
- غیر متناسب کام (استفسار اور دستاویز نہیں پیرا فریسز مثلاً تلاش)
- ہم آہنگی کے کام (استفسار اور دستاویز پیرا فریسز ہیں جیسے سیمنٹک مماثلت)
- فوری ڈیزائن: ہر کام کی قسم کے مطابق فوری ٹیمپلیٹس بنائیں جو متعلقہ تربیتی مثالیں تیار کرنے کے لیے LLM کی رہنمائی کریں۔
- مصنوعی ڈیٹا جنریشن: LLM کو 93 زبانوں میں سیمنٹک کاموں کی وسیع اقسام کا احاطہ کرنے والے سیکڑوں ہزاروں (استفسار، دستاویز) جوڑے تیار کرنے کے لیے ڈیزائن کیے گئے اشارے کے ساتھ پرامپٹ کریں۔
- ماڈل ٹریننگ: متضاد نقصان کا استعمال کرتے ہوئے مصنوعی ڈیٹا پر ایک طاقتور اوپن سورس LLM جیسے Mistral کو ٹھیک بنائیں۔
یہ طریقہ کار کسی انسانی لیبلنگ کی کوشش کے بغیر متعدد زبانوں میں متنوع کاموں کے لیے کافی تربیتی ڈیٹا بنانے کی اجازت دیتا ہے۔ ویب اسکیل کارپورا پر پری ٹریننگ کے ذریعے ایل ایل ایم میں پہلے سے شامل علم کا فائدہ اٹھاتے ہوئے، ہم ٹیکسٹ ایمبیڈنگز کے لیے ٹھیک ٹھیک تیار کردہ اعلیٰ معیار کے ڈیٹا کی ترکیب کر سکتے ہیں۔
محققین اس کا مظاہرہ 2-قدم پرامپٹنگ حکمت عملی کے ساتھ کرتے ہیں:
- ممکنہ بازیافت کے کاموں کی تجویز کرنے کے لیے GPT-4 کو فوری کریں۔
- تجویز کردہ کاموں کی بنیاد پر نمونے (استفسار، دستاویز) بنانے کے لیے اسے دوبارہ اشارہ کریں۔
فوری ڈیزائن کے کچھ اہم پہلو:
- قدرتی زبان بدیہی انسانوں جیسی ہدایات کے لیے اشارہ کرتی ہے۔
- تنوع کی حوصلہ افزائی کے لیے پلیس ہولڈرز (مثلاً استفسار کی لمبائی، وضاحت، دستاویز کی لمبائی)
- ایک ہی کام کی قسم کے لیے متعدد ٹیمپلیٹس کے ڈیٹا کو یکجا کرنا
- وسائل کی دستیابی کی بنیاد پر زبانوں کا وزن کرنا
مجموعی طور پر، وہ 500M ٹوکنز کی کمپیوٹ لاگت پر 180k ٹیکسٹ ایمبیڈنگ مثالیں بنانے کے قابل تھے۔ غالب زبان انگریزی تھی (43%) اس کے بعد پولش، جاپانی، اطالوی اور دیگر۔
ماڈل ٹریننگ کے لیے، انہوں نے اوپن سورس 7B پیرامیٹر کو ٹھیک کرنے کا انتخاب کیا۔ مجرم چھوٹے BERT طرز کے فن تعمیر کے بجائے ماڈل۔ چونکہ Mistral پہلے ہی بڑے ٹیکسٹ کارپورا پر پہلے سے تربیت یافتہ تھا، اس لیے کسی اضافی متضاد پری ٹریننگ کی ضرورت نہیں تھی۔ اسے شامل کرنے سے نہ ہونے کے برابر بہتری آئی۔
مصنوعی اور انسانی لیبل والے ڈیٹا کے مرکب کا استعمال کرتے ہوئے پوری فائن ٹیوننگ نے 1k سے بھی کم قدم اٹھائے۔ یہ مجوزہ نقطہ نظر کی نمونہ کارکردگی کو ظاہر کرتا ہے۔
نتائج کی نمائش
محققین نے MTEB بینچ مارک پر اپنے ماڈل کا جائزہ لیا، جس میں درجہ بندی، کلسٹرنگ، معنوی مماثلت، خلاصہ اور معلومات کی بازیافت میں متنوع کام شامل ہیں۔
ان کا ماڈل۔ اوسط سکور میں 2.4 پوائنٹس سے پچھلے جدید ترین کارکردگی کو پیچھے چھوڑ دیا۔تقریباً ہر زمرے کے لیے نئے ریکارڈ قائم کرنا:
ماڈل | پچھلا SOTA | مجوزہ ماڈل |
---|---|---|
کی درجہ بندی | 76.0 | 78.5 |
کلسٹرنگ | 46.1 | 50.3 |
جوڑے کی درجہ بندی | 87.1 | 88.3 |
رینکنگ | 60.0 | 60.2 |
بازیافت | 54.3 | 56.9 |
STS | 83.1 | 84.6 |
خلاصہ | 31.6 | 31.4 |
اوسط | 64.2 | 66.6 |
قابل ذکر بات یہ ہے کہ بغیر کسی لیبل والے ڈیٹا کا استعمال کیے اور مکمل طور پر مصنوعی ڈیٹا پر تربیت کے، اس نے مسابقتی درستگی حاصل کی – مکمل طور پر زیر نگرانی ماڈل سے صرف 3.5 پوائنٹس پیچھے۔ یہ انسانی تشریح کی کوشش کے بغیر، صرف LLMs کا استعمال کرتے ہوئے ٹیکسٹ ایمبیڈنگز پیدا کرنے کی قابل عملیت کو ظاہر کرتا ہے۔
محققین نے 18 زبانوں پر مشتمل کثیر لسانی MIRACL بینچ مارک پر بھی جائزہ لیا۔ ان کے ماڈل نے اعلی وسائل والی زبانوں پر پچھلی بہترین کارکردگی کا مظاہرہ کیا لیکن کم وسائل والی زبانوں پر کمزور تھا۔ وہ قیاس کرتے ہیں کہ کم وسائل والی زبانوں پر زیادہ وسیع پیمانے پر ایل ایل ایم کی پہلے سے تربیت کر کے اس کو کم کیا جا سکتا ہے۔
خلاصہ یہ کہ، ایل ایل ایم سے تیار کردہ مصنوعی ڈیٹا پر تربیت یافتہ ٹیکسٹ ایمبیڈنگس نئے جدید ترین نتائج مرتب کرتے ہیں، جبکہ سابقہ ملٹی اسٹیج طریقوں کے مقابلے میں آسان اور زیادہ موثر تربیت کا استعمال کرتے ہیں۔ فوری انجینئرنگ اور مصنوعی ڈیٹا کے معیار میں مزید تحقیق کے ساتھ، یہ طریقہ کار کثیر لسانی ٹیکسٹ ایمبیڈنگ کو بہت آگے بڑھا سکتا ہے۔
تجزیہ
یہ کام کئی قیمتی راستے پیش کرتا ہے:
- LLMs جیسے GPT-3 اور GPT-4 میں متنوع NLP کاموں کے لیے اعلیٰ معیار کا مصنوعی تربیتی ڈیٹا تیار کرنے کی متاثر کن صلاحیت ہے جب مناسب طریقے سے اشارہ کیا جائے۔ اس سے انسانی لیبل والے ڈیٹا پر انحصار کم ہو سکتا ہے۔
- ٹیکسٹ ایمبیڈنگز کے لیے، متضاد پری ٹریننگ صرف ٹھیک ٹیوننگ ماڈلز جیسے Mistral کے مقابلے میں نہ ہونے کے برابر فوائد فراہم کرتی ہے جن میں پہلے سے ہی ٹریلین پیمانے پر پری ٹریننگ موجود ہے۔ یہ تربیت کی کارکردگی میں ایک اہم بصیرت ہے۔
- بازیافت کے بڑھے ہوئے جنریشن کے طریقے ایل ایل ایم کو متحرک طور پر بیرونی علم تک رسائی کے قابل بنا رہے ہیں۔ اس لیے ان LLMs کو بڑھانے کے لیے ٹیکسٹ ایمبیڈنگز کو بہتر بنانا قابل قدر ہے۔
- کم وسائل والی زبانوں میں بہتری کی اہم گنجائش موجود ہے۔ زیادہ نمائندہ ڈیٹا پر پہلے سے تربیت یافتہ کثیر لسانی ایل ایل ایم اس فرق کو ختم کرنے میں مدد کر سکتے ہیں۔
- تصوراتی طور پر، لینگویج ماڈلنگ اور ٹیکسٹ ایمبیڈنگز ایک ہی سکے کے دو رخ ہیں - زبان کے الفاظ کو سمجھنا۔ مصنوعی ڈیٹا پرامپٹنگ کے ساتھ، LLMs کو پیچیدہ پائپ لائنوں کے بغیر ایمبیڈرز میں باضابطہ طور پر ٹھیک بنایا جا سکتا ہے۔
مستقبل کے کام کے لیے کچھ امید افزا ہدایات میں شامل ہیں:
- مصنوعی ڈیٹا تیار کرنے کے لیے GPT-NeoX جیسے اوپن سورس LLM کا فائدہ اٹھانا
- ایمبیڈرز کو طویل سیاق و سباق میں ڈھالنے کے لیے ہلکے وزن کے بعد کی تربیت کی تلاش
- کوالٹی اور ٹاسک کوریج کو کنٹرول کرنے کے لیے فوری انجینئرنگ تکنیکوں کی ترقی
- صنعتی استعمال کے لیے تخمینہ میں تاخیر اور اسٹوریج کے اخراجات کو بہتر بنانے کے طریقے
بینچ مارکس سے ہٹ کر، ٹیکسٹ ایمبیڈنگز کو بڑھانے کے لیے بڑے زبان کے ماڈلز کا استعمال مستقبل کے لیے دلچسپ امکانات کو کھولتا ہے۔ جیسا کہ LLMs فطری زبان پر اپنی مہارت میں آگے بڑھ رہے ہیں، اعلیٰ مخلص مصنوعی ڈیٹا تیار کرنے کے لیے ان کی اہلیت میں بھی بہتری آنے کا امکان ہے۔
تاہم، تحقیق کی اہم ہدایات اس صلاحیت کو حقیقی دنیا کے اثرات میں ترجمہ کرنے کے لیے باقی ہیں۔
حسب ضرورت اور کنٹرول
مصنوعی ڈیٹا کا ایک اہم فائدہ پروگرام کے لحاظ سے مخصوص ضروریات کے مطابق مثالیں تیار کرنے کی صلاحیت ہے۔ جیسا کہ کاغذ نے ظاہر کیا ہے، فوری انجینئرنگ سینکڑوں ہزاروں ایمبیڈنگ کاموں کے لیے تربیتی ڈیٹا بنانے کی اجازت دیتی ہے۔
اس کے باوجود، موجودہ فوری ڈیزائن کے طریقے سائنس سے زیادہ ایک فن ہیں۔ تیار کردہ ڈیٹا کی خصوصیات کو درست طریقے سے کنٹرول کرنے کے لیے منظم، تولیدی طریقوں کو تیار کرنا اس تکنیک کے قابل اطلاق کو بڑھا دے گا۔
مثال کے طور پر، پیچیدگی، ابہام اور مثالوں کی جدیدیت جیسے عوامل کو ماڈیول کرنے کی تکنیک نیچے دھارے کے کاموں میں مضبوطی کے مسائل کو حل کرنے میں مدد کر سکتی ہے۔ ابھرتی ہوئی حقیقی دنیا کی تقسیم سے ملنے کے لیے متحرک فوری نسل ایک اور کھلا چیلنج ہے۔
پیمانے پر تربیت
جبکہ پہلے سے تربیت یافتہ LLM پہلے سے ہی کافی لسانی علم کو انکوڈ کرتے ہیں، ان کی ڈیٹا جنریشن کی مہارتوں میں اضافی پیمانے کے ساتھ مزید اضافہ ہونے کا امکان ہے۔ انٹرنیٹ ٹیکسٹ کے ٹریلین ٹوکنز پر تربیت یافتہ GPT-4 جیسے ماڈلز مضبوط چند شاٹ لرننگ کی نمائش کرتے ہیں، لیکن تربیتی ڈیٹا کی ترکیب کے لیے خاص طور پر بہتر نہیں کیا گیا ہے۔
ویب پیمانے پر خود زیر نگرانی ڈیٹا جنریشن کو بوٹسٹریپ کرنے کے لیے تیار کردہ آرکیٹیکچرز اور مقاصد اس طریقہ کار کے معیار اور کارکردگی کو کافی حد تک آگے بڑھا سکتے ہیں۔ سیکھے گئے علم کی تکمیل کے لیے بازیافت شدہ علم کا موثر انضمام ایک اور امید افزا سمت ہے۔
ملٹی ٹاسک اور کثیر لسانی
جیسا کہ کاغذ نے نوٹ کیا، کم وسائل والی زبانوں پر کارکردگی کو بہتر بنانا ایک مسئلہ بنی ہوئی ہے۔ ایک بڑے پیمانے پر LLM کو پہلے سے تربیت دینے کے بجائے، ایک متبادل چھوٹے ماہر ماڈلز کے بیڑے کو تربیت دینا ہے جو مخصوص ڈیٹا کے طریقوں یا زبان کے ڈومینز میں مہارت رکھتے ہیں۔
اس طرح کا ایک جوڑا نقطہ نظر ماہرین کے درمیان سیکھی گئی نمائندگیوں کا اشتراک کرکے نایاب کاموں اور زبانوں پر کوریج کو بہتر بنانے میں مدد کرسکتا ہے۔ وقت کے ساتھ ساتھ زبان اور کام کی مہارت کو بڑھانے کے لیے مسلسل سیکھنا بھی ایک دلچسپ امکان ہے۔
آخر میں، یہ مقالہ LLMs سے پرفارمنس ٹیکسٹ ایمبیڈنگس بنانے کے لیے تربیتی ڈیٹا کی ترکیب کا ایک جدید تصور متعارف کرایا ہے۔ ان کے نتائج پچھلے معیارات کو پیچھے چھوڑتے ہوئے اس طریقہ کار کی تاثیر کو ظاہر کرتے ہیں۔ جیسے جیسے LLMs اور مصنوعی ڈیٹا تکنیکیں ترقی کر رہی ہیں، ایمبیڈرز کو تربیت دینے کے لیے ان کے علم کو استعمال کرنا ایک انتہائی امید افزا سمت بن سکتا ہے۔