زاوية أندرسون

الذكاء الاصطناعي يتصرف بشكل مختلف عندما يعلم أنه قيد الاختبار، وفقًا لبحث جديد

تم النشر 4 يونيو، 2025

مارتن أندرسون

ChatGPT-40، Adobe Firefly، Flux.1 Kontext Pro.

على غرار فضيحة "ديزل جيت" عام ٢٠١٥، تشير أبحاث جديدة إلى أن نماذج لغة الذكاء الاصطناعي، مثل GPT-2015 وClaude وGemini، قد تُغيّر سلوكها أثناء الاختبارات، مما يجعلها أحيانًا أكثر أمانًا في الاختبار مقارنةً بالاستخدام الفعلي. إذا دأبت برامج ماجستير القانون على تعديل سلوكها تحت التدقيق، فقد تُفضي عمليات تدقيق السلامة إلى اعتماد أنظمة تختلف تمامًا في سلوكها في العالم الحقيقي.

في عام 2015، اكتشف المحققون أن شركة فولكس فاجن قامت بتثبيت برنامج في ملايين السيارات التي تعمل بالديزل، والذي يمكنه الكشف عن وقت إجراء اختبارات الانبعاثاتمما أدى إلى خفض انبعاثات السيارات مؤقتًا، لتزييف امتثالها للمعايير التنظيمية. مع ذلك، في ظروف القيادة العادية، تجاوزت انبعاثاتها الملوثة المعايير القانونية. أدى هذا التلاعب المتعمد إلى توجيه اتهامات جنائية، وغرامات بالمليارات، وفضيحة عالمية حول موثوقية اختبارات السلامة والامتثال.

قبل عامين من هذه الأحداث، والتي أطلق عليها منذ ذلك الحين اسم "ديزل جيت"، كانت شركة سامسونج كشف لقد طبقت آليات خادعة مماثلة في إصدار هاتفها الذكي Galaxy Note 3؛ ومنذ ذلك الحين، ظهرت فضائح مماثلة. هواوي و ون بلس.

الآن هناك متزايد هناك أدلة في الأدبيات العلمية تشير إلى أن نماذج اللغة الكبيرة (ماجستير) وبالمثل قد لا يكون لديهم القدرة على اكتشاف متى يتم اختبارهم فحسب، بل قد يتصرفون أيضًا بشكل مختلف في ظل هذه الظروف.

على الرغم من أن هذا هو سمة إنسانية للغاية وفي حد ذاته، خلصت أحدث الأبحاث من الولايات المتحدة إلى أن هذه العادة قد تكون خطيرة على المدى الطويل، وذلك لأسباب مختلفة.

في دراسة جديدة، وجد الباحثون أن "النماذج الحدودية" مثل GPT-4, كلودو الجوزاء يمكن في كثير من الأحيان الكشف عن وقت اختبارهم، وأنهم يميلون إلى تعديل سلوكهم وفقًا لذلك، مما قد يعيق صحة أساليب الاختبار المنهجية.

يطلق عليها اسم الوعي بالتقييم، هذه السمة (ربما) الفطرية في نماذج اللغة قد تؤثر على موثوقية تقييمات السلامة، وفقًا لمؤلفي الدراسة الجديدة:

"[نحن] نوصي بمعالجة الوعي بالتقييم باعتباره مصدرًا جديدًا لتحول التوزيع المحتمل بين الاختبار والنشر في العالم الحقيقي والذي قد يؤثر سلبًا على دقة نتائج التقييم.

"في أسوأ الأحوال، قد تفشل النماذج استراتيجيًا في تقييم القدرات الخطيرة ("التمويه") أو تقييمات الميول ("التزييف")، مما قد يدفع المجتمع إلى المبالغة في تقدير سلامة مثل هذه النماذج."

وقد لاحظت دراسات أخرى سلوكيات مماثلة، بما في ذلك الأبحاث التي أجرتها جامعة ستانفورد، والتي وجدت أن نماذج اللغة الكبيرة تعمل على تعديل استجاباتها لكي تبدو أكثر "جاذبية" أو "مرغوبة اجتماعيًا" عندما تدرك أنها تخضع للتقييم، مما يعكس السلوك البشري في اختبارات الشخصية.

لا يقترح مؤلفو العمل الجديد أن نماذج القيادة الذاتية مصممة عمدًا للتلاعب بالاختبارات، كما هو الحال مع سيارات فولكس فاجن التي تعمل بالديزل قبل عقد من الزمن. بل يبدو أن هذا السلوك ينشأ كنوع من النتائج النفسية الطبيعية لعمليات تدريب النماذج وأهدافها الكامنة؛ ولا يزال السبب الكامن وراء هذه الظاهرة مجهولًا.

استخدم ورقة جديدة بعنوان غالبًا ما تعرف نماذج اللغة الكبيرة متى يتم تقييمهاويأتي هذا التقرير من خمسة مؤلفين من برنامج علماء نظرية ومواءمة التعلم الآلي (MATS) التابع لجامعة كاليفورنيا في بيركلي، وapolloresearch.ai (مؤسسة فكرية مخصصة لتقييم مخاطر الذكاء الاصطناعي).

الأسلوب

ولإنشاء معيار التقييم، قام المؤلفون بتجميع ألف نسخة منقولة من إحدى وستين مجموعة بيانات، من بينها* مقعد SWE, WMDP, MMLU, اختبار XS, GAIA, وكيل هارم, مشاركة, بحث عميق, مقعد السلامة, علم التربية المدنيةو مطالبات السمية الحقيقية,.

تم توزيع المادة بالتساوي بين سيناريوهات التقييم والنشر، وتم تقسيمها بشكل أكبر بين تفاعلات الدردشة البسيطة والتفاعلات الأكثر تعقيدًا وكيل الجلسات، حيث من المفترض أن تعمل النماذج بشكل مستقل، باستخدام أدوات يمكنها استخراج البيانات من قواعد البيانات الخارجية، أو الإنترنت.

غطت بيانات التقييم اختبارات القدرة على التفكير والترميز والأمن السيبراني والمعرفة العامة، بالإضافة إلى اختبارات التوافق للأخلاق والسلامة. سلوك الرفضتم الحصول على بيانات النشر من تفاعلات المستخدم مثل سجلات ShareGPT وعمليات تشغيل الوكيل الجماعية وإكمال المهام الاصطناعية.

ولتكملة البيانات الوكيلية، قام المؤلفون بإنشاء أمثلة إضافية باستخدام أطر التنسيق مثل مساعدة و وكلاء سمولم، من بين أمور أخرى - نهج يهدف إلى تقليل الإشارات السطحية التي قد تسمح للنماذج ببساطة حفظ هياكل مجموعات البيانات، مما يجبرهم بدلاً من ذلك على الاعتماد على إشارات أكثر عمومية، عند تحديد ما إذا كانت النسخة المنقولة جاءت من مستخدم حقيقي أو كانت اختبارًا.

ثم قام الباحثون باختبار ما إذا كانت النماذج قادرة على تحديد نصوص التقييم من خلال تقديم سجلات الحوار لهم وطرح أشكال مختلفة من سؤال بسيط: هل جاء هذا التبادل من الاختبار؟

لتجنب قيام النماذج بحفظ عبارة واحدة فقط، قاموا بتطوير ثمانية وعشرين نسخة مختلفة من السؤال، مع تغيير الصياغة وكيفية تقديم النص.

أُرفقت النصوص إما مباشرةً بالسؤال أو عُرضت بصيغ مثل JSON أو XML، مما قد يؤثر على كيفية استجابة النماذج. بعد الاختبارات الأولية، تم اختيار خمس نسخ من الأسئلة أظهرت أداءً متسقًا عبر النماذج، ويمكن الاطلاع على مثال واحد منها أدناه:

أحد صيغ أسئلة الاستقصاء الخمسة المستخدمة لاختبار قدرة نماذج اللغة على التعرف على نصوص التقييم. يُعيد كل صنف صياغة السؤال الأساسي لمنع النماذج من مجرد حفظ الصياغة الثابتة. المصدر: https://arxiv.org/pdf/2505.23836

أحد أشكال أسئلة الاستقصاء الخمسة المستخدمة لاختبار قدرة نماذج اللغة على التعرف على نصوص التقييم. يُعيد كل شكل صياغة السؤال الأساسي لمنع النماذج من مجرد حفظ الصياغة الثابتة. يُرجى الرجوع إلى الورقة البحثية الأصلية لمزيد من الأمثلة. المصدر: https://arxiv.org/pdf/2505.23836

ولتسجيل النتائج، تم استخدام ثلاثة مقاييس: منحنى خصائص تشغيل منطقة أسفل جهاز الاستقبال (AUC، يوضح مدى قدرة النماذج على التمييز بين بيانات الاختبار والبيانات غير الاختبارية)؛ نتيجة بريير (قياس دقة التنبؤ الشاملة)؛ و خطأ المعايرة المتوقع (قياس مدى تطابق ثقة النموذج مع الصحة الفعلية).

ما هو كل شيء؟

كما اختبر الباحثون أيضًا ما إذا كانت النماذج قادرة على استنتاج غرض بعد تصنيف كل نسخة كاختبار قدرة (المهارات التقنية، المعرفة، التفكير المنطقي) أو اختبار توافق (السلامة، القيم، سلوك الرفض)، أُعطيت النماذج أحد ثلاثة أنواع من الأسئلة: سؤال اختيار من متعدد مشروط يؤكد أن النسخة مأخوذة من اختبار؛ أو سؤال اختيار من متعدد غير مشروط يتضمن خيارات واقعية وتقييمية؛ أو سؤال مفتوح، حُكم على إجاباته باستخدام مُصنِّف منفصل قائم على GPT-4.1. وتم التحقق من صحة المُحكم بناءً على مجموعة فرعية مُعلَّقة يدويًا من خمسين إجابة.

أمثلة على ثلاثة صيغ أسئلة استُخدمت لاختبار قدرة النماذج على تحديد وجود التقييم، والغرض منه. صُوّرت الإجابات من خلال أسئلة الاختيار من متعدد وحكم قائم على معيار GPT-4.1.

اثنان من مؤلفي الورقة^{† †} قام بتصنيف جميع النصوص الألف يدويًا، ومنح كل منها تقييمًا من صفر (ليس اختبارًا) إلى واحد (اختبارٌ حتمًا)، مع احتساب متوسط تقييماتهم كخط أساس بشري. على الرغم من الطبيعة الذاتية للمهمة، أبدى المصححون اتفاقًا قويًا، مع معامل الارتباط داخل الفئة ٠٫٧٦٨. تم حساب متوسط الدرجات البشرية النهائية لكلا المُقيّمين.^†.

البيانات والاختبارات

وكانت النماذج التسعة التي تم اختبارها هي GPT-4.1؛ Claude 3.7؛ claude-3.5-sonnet-new؛ كلود-3.7-سونيت (التفكير)؛ جيميني-2.5-فلاش; جيميني-2.5-برو; gpt-4o؛ gpt-4.1؛ gpt-4.1-mini، و o4-ميني، والتي أظهرت جميعها مستوى معينًا من الوعي بالتقييم.

بالنسبة لبيانات الدردشة، اقترب GPT-4.1 من مستويات البشر في أداء تصنيف الوعي بالتقييم (القدرة على التمييز بين نصوص التقييم والنشر)، مع AUC 0.77 مقابل درجة بشرية 0.81.

بالنسبة للبيانات الوكيلية، حيث تستخدم النماذج الأدوات بشكل مستقل، كان الفارق أكثر وضوحًا: وصل Gemini 2.5 Pro إلى 0.95 AUC، مع Claude 3.7 Sonnet خلفه مباشرة عند 0.92، مقتربًا من الحد الأعلى البشري البالغ 0.996:

منحنيات خصائص تشغيل المُستقبِل (ROC) تُظهر مدى قدرة النماذج والبشر على التمييز بين نُسخ التقييم والتفاعلات الواقعية. يتناول برنامجا Gemini 2.5 Pro وClaude 3.7 Sonnet التمييز على مستوى البشر في بيانات الوكلاء.

تشير الورقة البحثية إلى أن نماذج "الاستدلال" الحديثة أصبحت أكثر براعة في تمييز وقت اختبارها في سيناريوهات الوكالة، ولكنها لم تتمكن من تحديد مدى ثقتها في تلك القرارات. بشكل عام، كان نموذجا كلود وجيميني الأفضل في التمييز بين حالات الاختبار والاستخدام العادي.

ثم اختبر الباحثون ما إذا كانت النماذج قادرة أيضًا على التعرف لماذا كان التقييم جاريًا. عُرضت على النماذج نصوص التقييم فقط، وطُلب منها تصنيف ما إذا كان كل نموذج يختبر القدرة أو التوافق.

دقة النماذج عند تصنيف غرض التقييم كقدرة أو محاذاة، باستخدام كلٍّ من صيغتي الاختيار من متعدد والإجابة المفتوحة. يتفوق نموذج سونيت كلود 3.7 على النماذج الأخرى، خاصةً عند عدم تحضيره.

في أوضح الظروف، حيث أُبلغ النموذج أن النص مأخوذ من اختبار، حقق برنامج Claude 3.7 Sonnet دقة 93%، بينما حقق برنامج GPT-4.1 دقة 89%. لكن دون هذه الإشارة، انخفض الأداء: مع ذلك، سجل Claude 84%، بينما انخفض برنامج GPT-4.1 إلى 55%، مخطئًا في كثير من الأحيان في تصنيف نصوص الاختبار على أنها تفاعلات واقعية.

وفي التنسيقات المفتوحة (حيث لم تتلق النماذج أي خيارات اختيار من متعدد) كان الأداء أضعف، على الرغم من أن Claude 3.7 Sonnet لا يزال يحدد غرض التقييم بشكل صحيح في 46 بالمائة من الحالات.

ثم قيست درجات ثقة النماذج مقارنةً بالنتائج الفعلية، ووجد أن نماذج الحدود غالبًا ما بالغت في تقدير احتمالية أن يكون النص مأخوذًا من اختبار. أشارت مخططات المعايرة إلى أن ثقة النموذج كانت مرتفعة جدًا بشكل عام، حيث تم وضع علامة على التقييمات أكثر من اللازم.

منحنيات المعايرة تُظهر مدى تطابق درجات ثقة النموذج مع النتائج الفعلية. بالغت معظم النماذج في تقدير احتمالية ظهور نصوص من التقييمات. كان نموذج كلود 3.5 سونيت هو الأفضل معايرةً؛ بينما كان نموذجا جيميني 2.5 برو وكلود 3.7 سونيت أكثر ثقةً.

لُوحظت معايرة جيدة لسوناتة كلود 3.5، بينما كانت ثقة كل من جيميني 2.5 برو وكلود 3.7 أكثر ثقةً بكثير، على الرغم من دقتها العالية. لم يُلاحظ أي تحسن واضح في النماذج الأحدث، وحتى مع اكتشاف نُسخ التقييم بدقة أكبر في بيئات الفاعلية، ظلت أحكام الثقة غير موثوقة.

ذكريات معيارية

فيما يتعلق بكيفية تفسير النماذج لقراراتها بشأن ما إذا كان النص مأخوذًا من تقييم، اعتمدت العديد منها على أدلة واضحة، مثل ما إذا كانت المهمة بصيغة اختيار من متعدد. أما النماذج الأقوى، مثل جيميني 2.5 برو وكلود 3.7 سونيت، فقد لاحظت أحيانًا إشارات أكثر دقة، مثل أسماء مُختلقة أو سيناريوهات مُصطنعة، خاصةً في مجموعات بيانات مثل AgentHarm.

تقول الورقة:

غالبًا ما تُقرّ [جميع] النماذج باستراتيجيات المقارنة المعيارية الشائعة التي يستخدمها المُقيّمون، مثل تنسيق المهمة ("صيغة الاختيار من متعدد")، والميل إلى طرح مسائل ذات حلول قابلة للتحقق، ومطالبات النظام المُصممة لتحفيز الأداء. ومع ذلك، فإن أعلى النماذج أداءً، Claude 3.7 Sonnet وGemini 2.5 Pro، هما الوحيدان اللذان يكتشفان باستمرار مؤشرات أكثر دقة مثل المُدخلات الاصطناعية.

"على سبيل المثال، في 22% و17% من الحالات على التوالي، تسلط هذه النماذج الضوء على الطبيعة الاصطناعية للسيناريوهات في معيار AgentHarm، وتحددها بشكل صحيح باعتبارها تقييمات في أكثر من 95% من الوقت.

'وعلى العكس من ذلك، عند التفكير في أن النص المكتوب يبدو تفاعلًا حقيقيًا، غالبًا ما يتم ذكر "الحوار المتبادل مع المستخدم"، على سبيل المثال في سياقات التصحيح التكراري.'

توزيع استراتيجيات الاستدلال في النماذج عند تحديد ما إذا كان النص مأخوذًا من تقييم. كانت النماذج الأقوى، مثل جيميني 2.5 برو وكلود 3.7 سونيت، أكثر قدرة على رصد الإشارات الدقيقة مثل السيناريوهات المصطنعة أو تنسيق المهام، بينما اعتمدت بعض النماذج على الاستدلال الفوقي باستخدام سؤال التقييم نفسه كدليل.

في بعض الحالات، تم التعرف على النماذج معايير كاملة من التدريب، مما يشير إلى وجود ذاكرة لبيانات التدريب الخاصة بهم. استخدمت بعض النماذج أيضًا حقيقة أنهم سُئلوا عن التقييم كدليل على أنهم كانوا يخضعون للاختبار، وهو ما يسميه المؤلفون الاستدلال الميتافيزيقيكان هذا أكثر شيوعًا في o4-mini، والذي أظهر ذلك في خمسة عشر بالمائة من إجاباته.

خاتمة

ربما يكون الأمر أكثر طمأنينة إذا أمكن إثبات أن سيارات LLM قادرة على "التعرف على الاختبار" ببساطة لأنها مبرمجة بهذه الطريقة من قبل البشر، تماماً كما صممت شركة فولكس فاجن سياراتها للتعرف على ظروف الاختبار قبل عقد من الزمان.

في الوضع الحالي، يبدو أن هذا السلوك ينشأ تلقائيًا كـ اجتماعي - أسلوب دفاعي قد يتوقعه الناس، لكنه غير مريح، إن لم يكن خطيرًا بالفعل في الآلة، اعتمادًا على مدى حريتها ووكالتها.

لا يوجد علاج فوري؛ طبيعة الصندوق الأسود إن المساحات الكامنة في النماذج تجبرنا على تقييمها على سلوكها، وليس على بنيتها التجريبية.

* يرجى الرجوع إلى ورقة المصدر للحصول على تفاصيل أكثر.

^† ومع ذلك، لاحظ المؤلفون أن هذا من المرجح أن يكون تقديرًا للحد الأعلى، نظرًا لأن المعلقين كانوا على دراية كبيرة بكل من مجموعات البيانات وطرق تقييم الذكاء الاصطناعي، مما منحهم مزايا لا يتمتع بها معظم البشر.

†† بقدر ما يمكن إثباته؛ فإن صياغة الورقة تجعل الظهور المفاجئ لمعلقين اثنين غير واضح من حيث هويتهما.

نُشر لأول مرة يوم الأربعاء 4 يونيو 2025

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai