اینڈرسن کا زاویہ
بڑی زبان کے ماڈلز ڈیٹاسیٹس کو یاد کر رہے ہیں جن کا مقصد ان کی جانچ کرنا ہے۔

اگر آپ یہ تجویز کرنے کے لیے AI پر انحصار کرتے ہیں کہ کیا دیکھنا، پڑھنا یا خریدنا ہے، تو نئی تحقیق سے پتہ چلتا ہے کہ کچھ سسٹم ان نتائج کو بنیاد بنا رہے ہیں۔ میموری مہارت کے بجائے: مفید تجاویز دینا سیکھنے کے بجائے، ماڈل اکثر ڈیٹا سیٹس سے آئٹمز کو یاد کرتے ہیں جو ان کا جائزہ لینے کے لیے استعمال کیے جاتے ہیں، جس کی وجہ سے کارکردگی اور سفارشات کا تخمینہ زیادہ ہوتا ہے جو صارف کے لیے پرانی یا ناقص ہو سکتی ہیں۔
مشین لرننگ میں، a ٹیسٹ تقسیم یہ دیکھنے کے لیے استعمال کیا جاتا ہے کہ آیا کسی تربیت یافتہ ماڈل نے ایسے مسائل کو حل کرنا سیکھا ہے جو ایک جیسے ہیں، لیکن اس مواد سے مماثل نہیں ہیں جس پر اسے تربیت دی گئی تھی۔
لہذا اگر ایک نئے AI 'کتے کی نسل کی شناخت' ماڈل کو کتوں کی 100,000 تصویروں کے ڈیٹاسیٹ پر تربیت دی جاتی ہے، تو اس میں عام طور پر 80/20 کی تقسیم ہوتی ہے - 80,000 تصاویر ماڈل کو تربیت دینے کے لیے فراہم کی جاتی ہیں۔ اور 20,000 تصاویر کو پیچھے رکھا گیا اور تیار شدہ ماڈل کی جانچ کے لیے بطور مواد استعمال کیا گیا۔
یہ کہنا واضح ہے کہ اگر AI کے تربیتی ڈیٹا میں نادانستہ طور پر ٹیسٹ اسپلٹ کا 'خفیہ' 20% حصہ شامل ہے، تو ماڈل ان ٹیسٹوں کو پورا کرے گا، کیونکہ اسے پہلے سے ہی جوابات معلوم ہیں (اس نے پہلے ہی ڈومین ڈیٹا کا 100% دیکھا ہے)۔ بلاشبہ، یہ درست طریقے سے اس بات کی عکاسی نہیں کرتا ہے کہ ماڈل بعد میں، نئے 'لائیو' ڈیٹا پر، پروڈکشن کے تناظر میں کیسے کارکردگی کا مظاہرہ کرے گا۔
مووی سپوئلر
اس کے امتحانات میں AI کی دھوکہ دہی کا مسئلہ خود ماڈلز کے پیمانے کے ساتھ بڑھ گیا ہے۔ کیونکہ آج کے نظام کو وسیع، اندھا دھند ویب سکریپڈ کارپورا پر تربیت دی جاتی ہے جیسے عام کرال، اس بات کا امکان کہ بینچ مارک ڈیٹاسیٹس (یعنی ہولڈ بیک 20%) ٹریننگ مکس میں پھسل جائیں اب کوئی ایج کیس نہیں ہے، بلکہ ڈیفالٹ – ایک سنڈروم کے نام سے جانا جاتا ہے۔ ڈیٹا کی آلودگی; اور اس پیمانے پر، دستی کیوریشن جو اس طرح کی غلطیوں کو پکڑ سکتا ہے، منطقی طور پر ناممکن ہے۔
اس معاملے کو اٹلی کے پولیٹیکنیکو دی باری کے ایک نئے مقالے میں دریافت کیا گیا ہے، جہاں محققین ایک فلم کی سفارش کے ڈیٹاسیٹ کے بڑے کردار پر توجہ مرکوز کرتے ہیں، MovieLens-1M، جو ان کا کہنا ہے کہ جزوی طور پر رہا ہے۔ حفظ تربیت کے دوران کئی سرکردہ AI ماڈلز کے ذریعے۔
چونکہ یہ مخصوص ڈیٹاسیٹ سفارش کرنے والے نظاموں کی جانچ میں بڑے پیمانے پر استعمال ہوتا ہے، اس لیے ماڈلز کی میموری میں اس کی موجودگی ممکنہ طور پر ان ٹیسٹوں کو بے معنی بنا دیتی ہے: جو ذہانت دکھائی دیتی ہے وہ درحقیقت سادہ یاد ہو سکتی ہے، اور جو ایک بدیہی سفارشی مہارت کی طرح دکھائی دیتی ہے وہ صرف ایک شماریاتی بازگشت ہو سکتی ہے جو پہلے کی نمائش کی عکاسی کرتی ہے۔
مصنفین فرماتے ہیں:
'ہمارے نتائج یہ ظاہر کرتے ہیں کہ LLMs کے پاس MovieLens-1M ڈیٹاسیٹ کا وسیع علم ہے، جس میں آئٹمز، صارف کی خصوصیات، اور تعامل کی تاریخیں شامل ہیں۔ خاص طور پر، ایک سادہ پرامپٹ GPT-4o کو [ڈیٹا سیٹ میں زیادہ تر فلموں کے نام] کا تقریباً 80% بازیافت کرنے کے قابل بناتا ہے۔
'تحقیق شدہ ماڈلز میں سے کوئی بھی اس علم سے خالی نہیں ہے، یہ تجویز کرتا ہے کہ MovieLens-1M ڈیٹا ممکنہ طور پر ان کے تربیتی سیٹوں میں شامل ہے۔ ہم نے صارف کی صفات اور تعامل کی تاریخوں کو بازیافت کرنے میں اسی طرح کے رجحانات کا مشاہدہ کیا۔'
مختصر نیا کاغذ عنوان ہے کیا LLMs سفارشی ڈیٹاسیٹس کو یاد رکھتے ہیں؟ MovieLens-1M پر ایک ابتدائی مطالعہ، اور چھ پولیٹیکنیکو محققین سے آتا ہے۔ ان کے کام کو دوبارہ پیش کرنے کی پائپ لائن رہی ہے۔ GitHub پر دستیاب ہے۔.
طریقہ
یہ سمجھنے کے لیے کہ آیا زیرِ بحث ماڈلز واقعی سیکھ رہے ہیں یا صرف یاد کر رہے ہیں، محققین نے اس تناظر میں یادداشت کا مطلب یہ بتا کر شروع کیا، اور یہ جانچ کر کے شروع کیا کہ آیا کوئی ماڈل MovieLens-1M ڈیٹاسیٹ سے معلومات کے مخصوص ٹکڑوں کو بازیافت کرنے کے قابل تھا، جب درست طریقے سے اشارہ کیا جائے۔
اگر کسی ماڈل کو فلم کا آئی ڈی نمبر دکھایا گیا تھا اور وہ اس کا ٹائٹل اور سٹائل تیار کر سکتا ہے، تو اسے ایک آئٹم کو یاد رکھنے کے طور پر شمار کیا جاتا ہے۔ اگر یہ صارف کی شناخت سے صارف کے بارے میں تفصیلات (جیسے عمر، پیشہ، یا زپ کوڈ) پیدا کر سکتا ہے، جسے صارف کی یادداشت کے طور پر بھی شمار کیا جاتا ہے۔ اور اگر یہ کسی صارف کی اگلی فلم کی درجہ بندی کو پہلے کی ایک معلوم ترتیب سے دوبارہ پیش کر سکتا ہے، تو اسے اس بات کے ثبوت کے طور پر لیا گیا کہ ہو سکتا ہے کہ ماڈل یاد کر رہا ہو۔ مخصوص تعامل کا ڈیٹاعام نمونوں کو سیکھنے کے بجائے۔
یاد کرنے کی ان شکلوں میں سے ہر ایک کو احتیاط سے تحریری اشارے کا استعمال کرتے ہوئے جانچا گیا تھا، جو ماڈل کو نئی معلومات دیے بغیر اسے جھکانے کے لیے تیار کیا گیا تھا۔ جواب جتنا زیادہ درست ہوگا، اتنا ہی زیادہ امکان یہ تھا کہ ماڈل کو تربیت کے دوران پہلے ہی اس ڈیٹا کا سامنا کرنا پڑا تھا:

نئے مقالے میں استعمال ہونے والے تشخیصی پروٹوکول کے لیے زیرو شاٹ پرامپٹنگ۔ ماخذ: https://arxiv.org/pdf/2505.10212
ڈیٹا اور ٹیسٹ
ایک مناسب ڈیٹاسیٹ کو درست کرنے کے لیے، مصنفین نے فیلڈ کی دو بڑی کانفرنسوں سے حالیہ کاغذات کا سروے کیا، ACM RecSys 2024 ، اور ACM سگیر 2024. MovieLens-1M اکثر ظاہر ہوتا ہے، جس کا حوالہ پانچ میں سے صرف ایک عرضداشت میں دیا گیا ہے۔ چونکہ ابتدائی مطالعات اسی طرح کے نتیجے پر پہنچے تھے، یہ کوئی حیران کن نتیجہ نہیں تھا، بلکہ ڈیٹاسیٹ کے غلبہ کی تصدیق تھی۔
MovieLens-1M تین فائلوں پر مشتمل ہے: Movies.dat, جو ID، عنوان، اور صنف کے لحاظ سے فلموں کی فہرست دیتا ہے۔ Users.dat, جو صارف کے IDs کو بنیادی سوانحی شعبوں میں نقشہ بناتا ہے۔ اور Ratings.dat، جو ریکارڈ کرتا ہے کہ کس نے کیا، اور کب درجہ بندی کی۔
یہ جاننے کے لیے کہ آیا یہ ڈیٹا بڑے زبان کے ماڈلز کے ذریعے حفظ کیا گیا تھا، محققین نے سب سے پہلے پیش کی جانے والی تکنیکوں کی طرف رجوع کیا۔ کاغذ بڑی زبان کے ماڈلز سے تربیتی ڈیٹا نکالنا، اور بعد میں میں ڈھال لیا بعد کے کام زبان کے ماڈلز سے ڈیٹا نکالنے کی تربیت کے لیے ترکیبوں کا بیگ.
طریقہ سیدھا ہے: ایک سوال پوچھیں جو ڈیٹاسیٹ کی شکل کا آئینہ دار ہو اور دیکھیں کہ آیا ماڈل صحیح جواب دیتا ہے۔ زیرو شاٹ, سوچ کا سلسلہ، اور چند شاٹ پرامپٹنگ تجربہ کیا گیا، اور یہ پایا گیا کہ آخری طریقہ، جس میں ماڈل کو چند مثالیں دکھائی گئی ہیں، سب سے زیادہ موثر تھا۔ یہاں تک کہ اگر زیادہ تفصیلی نقطہ نظر زیادہ یاد پیدا کر سکتا ہے، تو اسے یہ ظاہر کرنے کے لیے کافی سمجھا جاتا تھا کہ کیا یاد کیا گیا تھا۔

کم سے کم سیاق و سباق کے ساتھ استفسار کرنے پر یہ جانچنے کے لیے استعمال کیا جاتا ہے کہ آیا ماڈل مخصوص MovieLens-1M اقدار کو دوبارہ پیش کر سکتا ہے۔
یادداشت کی پیمائش کرنے کے لیے، محققین نے یاد کی تین شکلوں کی وضاحت کی: اشیاء, صارف، اور بات چیت. ان ٹیسٹوں نے جانچا کہ آیا کوئی ماڈل اپنی ID سے فلم کا ٹائٹل بازیافت کر سکتا ہے، UserID سے صارف کی تفصیلات تیار کر سکتا ہے، یا پہلے والے کی بنیاد پر صارف کی اگلی درجہ بندی کی پیش گوئی کر سکتا ہے۔ ہر ایک کو کوریج میٹرک* کا استعمال کرتے ہوئے اسکور کیا گیا تھا جو اس بات کی عکاسی کرتا ہے کہ پرامپٹ کے ذریعے کتنے ڈیٹاسیٹ کو دوبارہ بنایا جا سکتا ہے۔
ٹیسٹ کیے گئے ماڈلز تھے۔ GPT-4o; GPT-4o منی; GPT-3.5 ٹربو; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B، اور Llama-3.1 8B. سب ساتھ چلائے گئے۔ درجہ حرارت صفر پر سیٹ ٹاپ_پی ایک پر سیٹ کریں، اور دونوں تعدد اور موجودگی سزائیں غیر فعال ایک طے شدہ بے ترتیب بیج رنز بھر میں مسلسل آؤٹ پٹ کو یقینی بنایا۔

MovieLens-1M اندراجات کا تناسب movies.dat، users.dat، اور ratings.dat سے حاصل کیا گیا، ماڈلز کے ساتھ ورژن کے لحاظ سے گروپ کیا گیا اور پیرامیٹر کی تعداد کے لحاظ سے ترتیب دیا گیا۔
یہ جاننے کے لیے کہ MovieLens-1M کو کتنی گہرائی سے جذب کیا گیا تھا، محققین نے ہر ماڈل کو ڈیٹاسیٹ کی تین (مذکورہ بالا) فائلوں سے قطعی اندراجات کے لیے کہا: Movies.dat, Users.dat، اور Ratings.dat.
ابتدائی ٹیسٹوں کے نتائج، جو اوپر دکھائے گئے ہیں، نہ صرف GPT اور Llama خاندانوں کے درمیان، بلکہ ماڈل کے سائز میں بھی شدید فرق کو ظاہر کرتے ہیں۔ جب کہ GPT-4o اور GPT-3.5 ٹربو ڈیٹاسیٹ کے بڑے حصے کو آسانی کے ساتھ بازیافت کرتے ہیں، زیادہ تر اوپن سورس ماڈل اسی مواد کا صرف ایک حصہ یاد کرتے ہیں، جو پیشگی تربیت میں اس بینچ مارک کے غیر مساوی نمائش کا مشورہ دیتے ہیں۔
یہ چھوٹے مارجن نہیں ہیں۔ تینوں فائلوں میں، مضبوط ترین ماڈلز نے صرف کمزوروں کو پیچھے نہیں چھوڑا، بلکہ واپس بلا لیا پورے حصے MovieLens-1M کا۔
GPT-4o کے معاملے میں، کوریج اتنی زیادہ تھی کہ یہ تجویز کرتی تھی کہ ڈیٹاسیٹ کا ایک غیر معمولی حصہ براہ راست حفظ کر لیا گیا تھا۔
مصنفین فرماتے ہیں:
'ہمارے نتائج یہ ظاہر کرتے ہیں کہ LLMs کے پاس MovieLens-1M ڈیٹاسیٹ کا وسیع علم ہے، جس میں آئٹمز، صارف کی خصوصیات، اور تعامل کی تاریخیں شامل ہیں۔
'خاص طور پر، ایک سادہ پرامپٹ GPT-4o کو تقریباً 80% MovieID::Title ریکارڈز کو بازیافت کرنے کے قابل بناتا ہے۔ جانچ شدہ ماڈلز میں سے کوئی بھی اس علم سے خالی نہیں ہے، جو تجویز کرتا ہے کہ MovieLens-1M ڈیٹا ممکنہ طور پر ان کے تربیتی سیٹوں میں شامل ہے۔
'ہم نے صارف کی خصوصیات اور تعامل کی تاریخوں کو بازیافت کرنے میں اسی طرح کے رجحانات کا مشاہدہ کیا۔'
اس کے بعد، مصنفین نے سفارشی کاموں پر حفظ کے اثرات کے لیے ہر ایک ماڈل کو سفارشی نظام کے طور پر کام کرنے کا اشارہ دے کر جانچا۔ بینچ مارک کارکردگی کے لیے، انہوں نے آؤٹ پٹ کا سات معیاری طریقوں سے موازنہ کیا: یوزر کے این این; آئٹم کے این این; بی پی آر ایم ایف; آسانR; لائٹ جی سی این; موسٹ پاپ; اور بے ترتیب.
MovieLens-1M ڈیٹاسیٹ کو تربیت اور ٹیسٹ سیٹس میں 80/20 تقسیم کیا گیا تھا، اس کا استعمال کرتے ہوئے a چھوڑ دو حقیقی دنیا کے استعمال کی نقل کرنے کے لیے نمونے لینے کی حکمت عملی۔ استعمال شدہ میٹرکس تھے۔ ریٹ مارو (HR@[این])؛ اور این ڈی سی جی(@[این]):

معیاری بنیادی خطوط اور LLM پر مبنی طریقوں پر سفارش کی درستگی۔ ماڈلز کو خاندان کے لحاظ سے گروپ کیا جاتا ہے اور پیرامیٹر کی گنتی کے حساب سے ترتیب دیا جاتا ہے، جس میں بولڈ اقدار ہر گروپ میں سب سے زیادہ سکور کی نشاندہی کرتی ہیں۔
یہاں کئی بڑے لینگویج ماڈلز نے تمام میٹرکس میں روایتی بیس لائنوں کو پیچھے چھوڑ دیا، جس میں GPT-4o ہر کالم میں ایک وسیع برتری قائم کر رہا ہے، اور یہاں تک کہ درمیانے سائز کے ماڈلز جیسے GPT-3.5 ٹربو اور Llama-3.1 405B مسلسل معیار کے طریقوں جیسے BPRMF اور LightGCN کو پیچھے چھوڑ رہے ہیں۔
Llama کی چھوٹی اقسام میں، کارکردگی میں تیزی سے فرق ہے، لیکن Llama-3.2 3B اپنے گروپ میں سب سے زیادہ HR@1 کے ساتھ نمایاں ہے۔
نتائج، مصنفین تجویز کرتے ہیں، اس بات کی نشاندہی کرتے ہیں کہ حفظ شدہ ڈیٹا سفارش کرنے والے طرز کے اشارے میں قابل پیمائش فوائد میں ترجمہ کر سکتا ہے، خاص طور پر مضبوط ترین ماڈلز کے لیے۔
ایک اضافی مشاہدے میں، محققین جاری رکھتے ہیں:
'اگرچہ سفارش کی کارکردگی شاندار دکھائی دیتی ہے، لیکن جدول 2 کا جدول 1 سے موازنہ کرنے سے ایک دلچسپ نمونہ سامنے آتا ہے۔ ہر گروپ کے اندر، اعلیٰ حفظ کے ساتھ ماڈل بھی سفارشی کام میں اعلیٰ کارکردگی کا مظاہرہ کرتا ہے۔
مثال کے طور پر، GPT-4o GPT-4o mini کو پیچھے چھوڑ دیتا ہے، اور Llama-3.1 405B Llama-3.1 70B اور 8B کو پیچھے چھوڑ دیتا ہے۔
'یہ نتائج اس بات پر روشنی ڈالتے ہیں کہ LLMs کو ان کے تربیتی ڈیٹا میں لیک ہونے والے ڈیٹاسیٹس پر جانچنا زیادہ پرامید کارکردگی کا باعث بن سکتا ہے، جو کہ عام کرنے کی بجائے یادداشت کے ذریعے کارفرما ہے۔'
اس مسئلے پر ماڈل پیمانے کے اثرات کے بارے میں، مصنفین نے سائز، یادداشت، اور سفارش کی کارکردگی کے درمیان ایک واضح ارتباط کا مشاہدہ کیا، جس میں بڑے ماڈلز نہ صرف MovieLens-1M ڈیٹاسیٹ کے زیادہ سے زیادہ حصہ کو برقرار رکھتے ہیں، بلکہ بہاو کے کاموں میں زیادہ مضبوطی سے کارکردگی کا مظاہرہ کرتے ہیں۔
مثال کے طور پر، Llama-3.1 405B نے 12.9% کی اوسط حفظ کی شرح ظاہر کی، جبکہ Llama-3.1 8B نے صرف 5.82% برقرار رکھا۔ واپسی میں یہ تقریباً 55% کمی nDCG میں 54.23% کی کمی اور تشخیصی کٹ آف کے دوران HR میں 47.36% کی کمی کے مساوی ہے۔
پیٹرن بھر میں منعقد ہوا - جہاں حفظ کم ہوا، اسی طرح ظاہری کارکردگی:
'یہ نتائج بتاتے ہیں کہ ماڈل پیمانے میں اضافہ ڈیٹاسیٹ کی زیادہ یادداشت کا باعث بنتا ہے، جس کے نتیجے میں کارکردگی بہتر ہوتی ہے۔
'نتیجتاً، جب کہ بڑے ماڈلز بہتر سفارشی کارکردگی کا مظاہرہ کرتے ہیں، وہ تربیتی ڈیٹا کے ممکنہ رساو سے متعلق خطرات بھی لاحق ہوتے ہیں۔'
حتمی امتحان نے جانچا کہ آیا حفظ کی عکاسی کرتا ہے۔ مقبولیت کا تعصب MovieLens-1M میں سینکا ہوا اشیاء کو تعامل کی فریکوئنسی کے لحاظ سے گروپ کیا گیا تھا، اور نیچے دیا گیا چارٹ ظاہر کرتا ہے کہ بڑے ماڈلز نے مسلسل مقبول ترین اندراجات کی حمایت کی:

مقبولیت کے تین درجوں میں ماڈل کے لحاظ سے آئٹم کی کوریج: ٹاپ 20% سب سے زیادہ مقبول؛ درمیانی 20% معتدل مقبول؛ اور نچلی 20% کم سے کم بات چیت کرنے والی اشیاء۔
GPT-4o نے 89.06% اعلی درجے کی اشیاء کو بازیافت کیا لیکن صرف 63.97% سب سے کم مقبول۔ GPT-4o منی اور چھوٹے لاما ماڈلز نے تمام بینڈز میں بہت کم کوریج دکھائی۔ محققین کا کہنا ہے کہ یہ رجحان بتاتا ہے کہ حفظ نہ صرف ماڈل کے سائز کے ساتھ ترازو کرتا ہے بلکہ تربیتی ڈیٹا میں پہلے سے موجود عدم توازن کو بھی بڑھاتا ہے۔
وہ جاری رکھیں:
'ہماری تلاشیں LLMs میں مقبولیت کے واضح تعصب کو ظاہر کرتی ہیں، جس میں سب سے اوپر 20% مقبول آئٹمز نیچے والے 20% کے مقابلے میں نمایاں طور پر آسان ہیں۔
'یہ رجحان تربیتی ڈیٹا کی تقسیم کے اثر و رسوخ کو نمایاں کرتا ہے، جہاں مقبول فلموں کو زیادہ پیش کیا جاتا ہے، جس کی وجہ سے ماڈلز کی طرف سے ان کی غیر متناسب یادداشت ہوتی ہے۔'
نتیجہ
مخمصہ اب نیا نہیں رہا: جیسے جیسے تربیتی سیٹ بڑھتے ہیں، ان کی اصلاح کا امکان الٹا تناسب سے کم ہوتا جاتا ہے۔ MovieLens-1M، شاید بہت سے دوسرے لوگوں کے درمیان، بغیر کسی نگرانی کے، ڈیٹا کے سراسر حجم کے درمیان گمنام ان وسیع کارپورا میں داخل ہوتا ہے۔
مسئلہ ہر پیمانے پر دہرایا جاتا ہے اور آٹومیشن کے خلاف مزاحمت کرتا ہے۔ کوئی بھی حل نہ صرف کوشش بلکہ انسانی فیصلے کا مطالبہ کرتا ہے – وہ سست، غلط قسم جو مشینیں فراہم نہیں کر سکتیں۔ اس سلسلے میں، نیا کاغذ آگے بڑھنے کا کوئی راستہ نہیں پیش کرتا ہے۔
* اس سیاق و سباق میں کوریج میٹرک ایک فیصد ہے جو ظاہر کرتا ہے کہ صحیح قسم کا سوال پوچھے جانے پر زبان کا ماڈل کتنا اصل ڈیٹاسیٹ دوبارہ پیدا کرنے کے قابل ہے۔ اگر کسی ماڈل کو مووی آئی ڈی کے ساتھ اشارہ کیا جاتا ہے اور وہ صحیح عنوان اور صنف کے ساتھ جواب دیتا ہے، تو یہ ایک کامیاب یاد کے طور پر شمار ہوتا ہے۔ اس کے بعد کوریج سکور بنانے کے لیے ڈیٹاسیٹ میں اندراجات کی کل تعداد سے کامیاب واپسی کی کل تعداد کو تقسیم کیا جاتا ہے۔ مثال کے طور پر، اگر کوئی ماڈل 800 میں سے 1,000 آئٹمز کے لیے درست طریقے سے معلومات واپس کرتا ہے، تو اس کی کوریج 80 فیصد ہوگی۔
پہلی بار جمعہ 16 مئی 2025 کو شائع ہوا۔