Connect with us

النماذج اللغة الكبيرة تتذكر مجموعات البيانات المخصصة لاختبارها

زاوية Anderson

النماذج اللغة الكبيرة تتذكر مجموعات البيانات المخصصة لاختبارها

mm
'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

إذا كنت تعتمد على الذكاء الاصطناعي لتوصية بما يجب مشاهدة أو قراءة أو شراء ، فإن البحث الجديد يشير إلى أن بعض الأنظمة قد تعتمد هذه النتائج على الذاكرة بدلاً من المهارة: بدلاً من تعلم كيفية تقديم اقتراحات مفيدة ، غالبًا ما يتذكر النموذج عناصر من مجموعات البيانات المستخدمة لتقييمها ، مما يؤدي إلى تقييم أداء مبالغ فيه وتوصيات قد تكون عفا عليها الزمن أو غير متوافقة مع المستخدم.

 

في تعلم الآلة ، يتم استخدام تقسيم الاختبار لمعرفة ما إذا كان النموذج المدرب قد تعلم حل مشاكل مشابهة ولكنها ليست متطابقة مع المادة التي تم تدريبه عليها.

لذلك ، إذا تم تدريب نموذج جديد للتعرف على سلالات الكلاب على مجموعة من 100000 صورة للكلاب ، فإنه عادة ما يضم تقسيم 80/20 – 80000 صورة لتوفير تدريب النموذج ؛ و 20000 صورة محجوزة ومستخدمة كمواد لاختبار النموذج المنتهي.

من الواضح أن النموذج سوف ينجح في هذه الاختبارات إذا كان بيانات التدريب الخاصة به تحتوي عن غير قصد على القسم السري البالغ 20٪ من تقسيم الاختبار ، لأن النموذج يعرف بالفعل الإجابات (لقد رأى بالفعل 100٪ من مجال البيانات). من الطبيعي أن هذا لا يعكس بدقة كيف سيعمل النموذج لاحقًا ، على بيانات جديدة “حية” ، في سياق الإنتاج.

ملحوظة فيلم

ازدادت مشكلة الغش في الاختبارات الاصطناعية مع نمو حجم النماذج نفسها. لأن الأنظمة الحديثة يتم تدريبها على مجموعات بيانات ضخمة ومسحوبة من الويب مثل Common Crawl ، فإن احتمال أن تدخل مجموعات بيانات البenchمارك (أي القسم المحجوز البالغ 20٪) إلى مزيج التدريب لم يعد حالة نادرة ، بل هو الوضع الافتراضي – متلازمة تعرف باسم تلوث البيانات ؛ وعند هذا الحجم ، فإن التنقيح اليدوي الذي يمكن أن يلتقط مثل هذه الأخطاء ليس ممكنًا логистيًا.

تتم استكشاف هذه الحالة في ورقة جديدة من Politecnico di Bari في إيطاليا ، حيث يركز الباحثون على الدور الكبير لمجموعة بيانات واحدة لتوصية بالأفلام ، MovieLens-1M ، والتي يجادلون بأنها تم تذكرها جزئيًا من قبل عدة نماذج رئيسية خلال التدريب.

نظرًا لأن هذه المجموعة البيانية تستخدم على نطاق واسع في اختبار أنظمة التوصية ، فإن وجودها في ذاكرة النماذج قد يجعل تلك الاختبارات عديمة الفائدة: ما يبدو وكأنه ذكاء قد يكون في الواقع مجرد تذكر ، وما يبدو وكأنه مهارة التوصية قد يكون مجرد صدى إحصائي يعكس التعرض السابق.

يصرح المؤلفون:

‘تظهر نتائجنا أن النماذج الكبيرة تمتلك معرفة واسعة بمجموعة بيانات MovieLens-1M ، وتشمل العناصر وسمات المستخدم وتاريخ التفاعل.

‘من الملاحظ أن التحفيز البسيط يمكن أن يسمح لـ GPT-4o بالاستعادة تقريبًا 80٪ من سجلات MovieID :: Title.

‘لا يوجد من النماذج التي تم فحصها خالية من هذه المعرفة ، مما يشير إلى أن بيانات MovieLens-1M من المحتمل أن تكون مدرجة في مجموعاتها التدريبية.

‘لقد لوحظ اتجاهات مماثلة في استرجاع سمات المستخدم وتاريخ التفاعل.’

الورقة القصيرة الجديدة بعنوان هل النماذج الكبيرة تتذكر مجموعات بيانات التوصية؟ دراسة أولية على MovieLens-1M ، وهي من ستة باحثين من Politecnico. تم توفير خط أنابيب لإعادة إنتاج عملهم في GitHub.

الطريقة

为了 समझ ما إذا كان النموذج قد تعلم حقًا أو كان مجرد تذكر ، بدأ الباحثون بتعريف ما يعني التذكر في هذا السياق ، وبدؤوا بتحديد ما إذا كان النموذج قادرًا على استرجاع قطع محددة من المعلومات من مجموعة بيانات MovieLens-1M ، عند التحفيز بنوع معين.

إذا كان النموذج قادرًا على إنتاج عنوان الفيلم ونوعه عند ظهور رقم تعريف الفيلم ، فذلك يعتبر تذكر عنصر ؛ إذا كان يمكنه توليد تفاصيل حول مستخدم (مثل العمر أو المهنة أو رمز البريد) من معرف المستخدم ، فذلك يعتبر تذكر المستخدم ؛ وإذا كان يمكنه إعادة إنتاج تقييم المستخدم التالي من تسلسل معروف من السابقة ، فذلك يعتبر دليلًا على أن النموذج قد يتذكر بيانات التفاعل المحددة ، بدلاً من تعلم الأنماط العامة.

تم اختبار كل من هذه الأشكال من التذكر باستخدام تحفيزات مدروسة بعناية ، مصممة للتحفيز على النموذج دون تقديم معلومات جديدة. كلما كانت الاستجابة أكثر دقة ، زادت احتمالية أن النموذج قد واجه تلك البيانات خلال التدريب :

التحفيز من عدم وجود إطلاق النار لبروتوكول التقييم المستخدم في الورقة الجديدة.

التحفيز من عدم وجود إطلاق النار لبروتوكول التقييم المستخدم في الورقة الجديدة. مصدر: https://arxiv.org/pdf/2505.10212

البيانات والاختبارات

为了 جمع مجموعة بيانات مناسبة ، قام المؤلفون بدراسة الأوراق الحديثة من两个 من المؤتمرات الرئيسية في هذا المجال ، ACM RecSys 2024 و ACM SIGIR 2024. ظهر MovieLens-1M أكثر ، مصدر في أكثر من خمس عشرة من المقالات. منذ أن الدراسات السابقة قد توصلت إلى استنتاجات مماثلة ، لم يكن هذا نتيجة مفاجئة ، بل تأكيد لسيطرة المجموعة البيانية.

تتكون MovieLens-1M من ثلاثة ملفات: Movies.dat ، الذي يسرد الأفلام حسب الرقم التعريفي والعنوان ونوع الفيلم ؛ Users.dat ، الذي يربط معرفات المستخدمين بالحقول البيографية الأساسية ؛ و Ratings.dat ، الذي يسجل من قام بتقييم ما ، وعندما.

为了 معرفة ما إذا كانت هذه البيانات قد تم تذكرها من قبل النماذج الكبيرة ، تحول الباحثون إلى تقنيات التحفيز التي تم تقديمها لأول مرة في الورقة استخراج بيانات التدريب من النماذج اللغة الكبيرة ، ولاحقًا تم تعديلها في العمل اللاحق حقيبة خدع لاستخراج بيانات التدريب من نماذج اللغة.

الطريقة مباشرة: اطرح سؤالاً يعكس تنسيق المجموعة البيانية وشاهد ما إذا كان النموذج ي回答 بشكل صحيح. zero-shot ، سلسلة الفكر ، و few-shot prompting تم اختبارها ، وتم العثور على أن الأخير ، حيث يتم عرض بعض الأمثلة على النموذج ، كان الأكثر فعالية ؛ حتى لو كانت هناك طرق أكثر تعقيدًا قد تؤدي إلى استرجاع أعلى ، فقد اعتبر ذلك كافياً ليكشف عن ما تم تذكره.

التحفيز القليل للشوط المستخدم لاختبار ما إذا كان النموذج يمكن أن يُعاد إنتاج قيم MovieLens-1M المحددة عند الاستعلام بسياق قليل.

التحفيز القليل للشوط المستخدم لاختبار ما إذا كان النموذج يمكن أن يُعاد إنتاج قيم MovieLens-1M المحددة عند الاستعلام بسياق قليل.

为了 قياس التذكر ، حدد الباحثون ثلاثة أشكال من الاسترجاع: عنصر ، مستخدم ، و تفاعل. هذه الاختبارات فحصت ما إذا كان النموذج يمكن أن يسترجع عنوان الفيلم من معرفه ، أو توليد تفاصيل المستخدم من معرف المستخدم ، أو توقع تقييم المستخدم التالي بناءً على السابقة. تم تقييم كل منها باستخدام مقياس تغطية * يعكس كمية المجموعة البيانية التي يمكن إعادة بناؤها من خلال التحفيز.

النماذج التي تم اختبارها كانت GPT-4o ؛ GPT-4o mini ؛ GPT-3.5 turbo ؛ Llama-3.3 70B ؛ Llama-3.2 3B ؛ Llama-3.2 1B ؛ Llama-3.1 405B ؛ Llama-3.1 70B ؛ و Llama-3.1 8B. تم تشغيل جميعها مع درجة الحرارة معينة على الصفر ، top_p معينة على واحد ، و كلا التردد والحضور العقوبات معطلة. تم ضمان مخرج متسق عبر التشغيل باستخدام بذرة عشوائية ثابتة.

نسبة إدخالات MovieLens-1M المسترجعة من movies.dat و users.dat و ratings.dat ، مع تجميع النماذج حسب الإصدار وترتيبها حسب عدد المعلمات.

نسبة إدخالات MovieLens-1M المسترجعة من movies.dat و users.dat و ratings.dat ، مع تجميع النماذج حسب الإصدار وترتيبها حسب عدد المعلمات.

为了 اختبار كيف глубоко تم امتصاص MovieLens-1M ، حث كل نموذج على إدخالات دقيقة من الملفات الثلاثة (المذكورة أعلاه) للمجموعة البيانية: Movies.dat ، Users.dat ، و Ratings.dat.

تظهر نتائج الاختبارات الأولية ، الموضحة أعلاه ، اختلافات حادة ليس فقط بين عائلة GPT وعائلة Llama ، ولكن أيضًا عبر أحجام النماذج. بينما يستعيد GPT-4o و GPT-3.5 turbo أجزاء كبيرة من المجموعة البيانية بسهولة ، يستعيد معظم النماذج المفتوحة المصدر فقط جزءًا من نفس المواد ، مما يشير إلى تعرض غير متساو إلى هذا البenchmark في مرحلة ما قبل التدريب.

هذه ليست هامشًا صغيرًا. عبر جميع الملفات الثلاثة ، أداء النماذج الأقوى لم يكن فقط أفضل من النماذج الأضعف ، بل استعاد أجزاء كاملة من MovieLens-1M.

في حالة GPT-4o ، كانت التغطية عالية بما يكفي لتشير إلى أن جزءًا لا يستهين به من المجموعة البيانية قد تم تذكره مباشرة.

يصرح المؤلفون:

‘تظهر نتائجنا أن النماذج الكبيرة تمتلك معرفة واسعة بمجموعة بيانات MovieLens-1M ، وتشمل العناصر وسمات المستخدم وتاريخ التفاعل.

‘من الملاحظ أن التحفيز البسيط يمكن أن يسمح لـ GPT-4o بالاستعادة تقريبًا 80٪ من سجلات MovieID :: Title.

‘لا يوجد من النماذج التي تم فحصها خالية من هذه المعرفة ، مما يشير إلى أن بيانات MovieLens-1M من المحتمل أن تكون مدرجة في مجموعاتها التدريبية.

‘لقد لوحظ اتجاهات مماثلة في استرجاع سمات المستخدم وتاريخ التفاعل.’

بعد ذلك ، قام المؤلفون باختبار تأثير التذكر على مهام التوصية عن طريق تحفيز كل نموذج على التصرف كنموذج توصية. لتحديد أداء البenchmark ، قاموا بمقارنة الإخراج مع سبعة طرق قياسية: UserKNN ؛ ItemKNN ؛ BPRMF ؛ EASER ؛ LightGCN ؛ MostPop ؛ و Random.

تم تقسيم مجموعة بيانات MovieLens-1M إلى 80/20 إلى مجموعات تدريب واختبار ، باستخدام استراتيجية إخراج واحد لتمثيل الاستخدام في العالم الحقيقي. تم استخدام مقاييس مثل معدل الضربة (HR@[n]) ؛ و nDCG(@[n]):

دقة التوصية على أساس البنود القياسية وأساليب LLM. النماذج لمجموعة حسب العائلة وترتيبها حسب عدد المعلمات. القيم الغامقة تشير إلى أعلى درجة في كل مجموعة.

دقة التوصية على أساس البنود القياسية وأساليب LLM. النماذج لمجموعة حسب العائلة وترتيبها حسب عدد المعلمات ، مع القيم الغامقة تشير إلى أعلى درجة في كل مجموعة.

هنا ، أدى العديد من النماذج الكبيرة بشكل أفضل من البنود القياسية عبر جميع المقاييس ، مع تحقيق GPT-4o فجوة واسعة في كل عمود ، وأداء النماذج المتوسطة الحجم مثل GPT-3.5 turbo و Llama-3.1 405B بشكل أفضل من أساليب Benchmark مثل BPRMF و LightGCN.

بين متغيرات Llama الأصغر ، تباين الأداء بشكل حاد ، ولكن Llama-3.2 3B يبرز ، مع أعلى HR@1 في مجموعته.

تشير النتائج ، وفقًا للمؤلفين ، إلى أن البيانات المذكورة يمكن أن تترجم إلى مزايا قابلة للقياس في مهام التحفيز على نمط التوصية ، خاصة بالنسبة لأقوى النماذج.

في ملاحظة إضافية ، ي续 الباحثون:

‘على الرغم من أن أداء التوصية يبدو ممتازًا ، فإن مقارنة الجدول 2 مع الجدول 1 تكشف عن نمط مثير للاهتمام. داخل كل مجموعة ، النموذج الذي لديه تذكر أعلى يظهر أداء أفضل في مهمة التوصية.

‘على سبيل المثال ، GPT-4o يتفوق على GPT-4o mini ، و Llama-3.1 405B يتفوق على Llama-3.1 70B و 8B.

‘تظهر هذه النتائج أن تقييم النماذج الكبيرة على مجموعات بيانات تسربت في بياناتها التدريبية قد يؤدي إلى أداء مبالغ فيه ، مدفوعًا بالتذكر بدلاً من التعميم.’

بخصوص تأثير حجم النموذج على هذه القضية ، لاحظ المؤلفون علاقة واضحة بين الحجم والتذكر وأداء التوصية ، حيث تم الاحتفاظ بنماذج أكبر بكمية أكبر من مجموعة بيانات MovieLens-1M ، وأداءها بشكل أقوى في المهام الجانبية.

على سبيل المثال ، أظهر Llama-3.1 405B معدل تذكر متوسط يبلغ 12.9٪ ، بينما احتفظ Llama-3.1 8B بقطع فقط 5.82٪. هذا الانخفاض البالغ 55٪ في الاسترجاع يتوافق مع انخفاض 54.23٪ في nDCG و 47.36٪ في HR عبر قيم التقييم.

تم الحفاظ على هذا النمط في جميع أنحاء – حيث انخفض التذكر ، انخفض الأداء الظاهري أيضًا:

‘تظهر هذه النتائج أن زيادة حجم النموذج يؤدي إلى تذكر أكبر للمجموعة البيانية ، مما يؤدي إلى تحسين الأداء.

‘نتيجة لذلك ، بينما تظهر النماذج الأكبر أداءً أفضل للتوصية ، فإنها تشكل أيضًا مخاطر تتعلق بتسرب البيانات التدريبية المحتملة.’

الاختبار النهائي قام بفحص ما إذا كان التذكر يعكس انحياز الشعبية المضمن في MovieLens-1M. تم تجميع العناصر حسب تكرار التفاعل ، ويظهر الرسم البياني أدناه أن النماذج الأكبر تفضل بشكل متسق المدخلات الأكثر شعبية:

تغطية العنصر حسب النموذج عبر ثلاث فئات شعبية: 20٪ الأعلى من الشعبية ؛ 20٪ من المتوسط شعبية ؛ وأقل 20٪ من العناصر الأقل تفاعلًا.

تغطية العنصر حسب النموذج عبر ثلاث فئات شعبية: 20٪ الأعلى من الشعبية ؛ 20٪ من المتوسط شعبية ؛ وأقل 20٪ من العناصر الأقل تفاعلًا.

استعاد GPT-4o 89.06٪ من العناصر الأعلى تصنيفًا ولكن فقط 63.97٪ من الأقل شعبية. أظهر GPT-4o mini و Llama الأصغر تغطية أقل عبر جميع الحلقات. يصرح الباحثون بأن هذا الاتجاه يشير إلى أن التذكر لا يزيد فقط مع حجم النموذج ، بل يضخم أيضًا عدم التوازن السابق في بيانات التدريب.

ي续ون:

‘تظهر نتائجنا انحيازًا واضحًا للشعبية في النماذج الكبيرة ، حيث تكون العناصر الأعلى تصنيفًا أكثر سهولة في الاسترجاع من العناصر الأقل شعبية.

‘يبرز هذا الاتجاه تأثير توزيع بيانات التدريب ، حيث يتم تمثيل الأفلام الشعبية بشكل مبالغ فيه ، مما يؤدي إلى تذكرها الغير متناسب من قبل النماذج.’

الاستنتاج

المأزق ليس جديدًا:随着 نمو مجموعات التدريب ، يتناقص احتمال تنقيحها بشكل متناسب. تدخل MovieLens-1M ، ربما مع العديد من الآخرين ، إلى هذه المجموعات الضخمة دون رقابة ، مجهولة بين حجم البيانات.

تكرر المشكلة في كل مقياس وتقاوم التأتمت. أي حل يتطلب ليس فقط جهدًا ولكن حكمًا بشريًا – النوع البطيء والخاطئ الذي لا يمكن أن توفره الآلات. في هذا الصدد ، لا تقدم الورقة الجديدة أي طريق إلى الأمام.

 

* مقياس التغطية في هذا السياق هو نسبة مئوية تظهر كمية المجموعة البيانية الأصلية التي يمكن للنموذج اللغة استرجاعها عند طرح السؤال المناسب. إذا كان النموذج يُظهر رقم تعريف الفيلم ويمكنه الإجابة بعنوان الفيلم ونوعه ، فذلك يعتبر تذكر ناجح. ثم يتم قسمة عدد الاسترجاعات الناجحة على إجمالي عدد إدخالات المجموعة البيانية لإنتاج درجة تغطية. على سبيل المثال ، إذا كان النموذج يرجع معلومات صحيحة لـ 800 من أصل 1000 عنصر ، فسيكون تغطية 80٪.

نشر لأول مرة يوم الجمعة ، 16 مايو 2025

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai