Connect with us

إذا قلت لبرنامج الذكاء الاصطناعي عدم القيام بشيء، فمن المرجح أن يقوم بذلك

زاوية Anderson

إذا قلت لبرنامج الذكاء الاصطناعي عدم القيام بشيء، فمن المرجح أن يقوم بذلك

mm
AI-generated image depicting a robot fiddling with a padlocked door. Z-Image Turbo via Krita AI Diffusion.

إخبار ChatGPT بعدم القيام بشيء يمكن أن يجعله يقترح بشكل فعال القيام بذلك، مع بعض النماذج على استعداد للتوصية بالسرقة أو الخداع عند تضمين العبارة الفعل المحظور.

 

مثل tôi، قد واجهت ظاهرة غريبة مع نماذج اللغة الكبيرة (LLMs) حيث لا تهمل فقط تعليمات محددة قدمتها، والتي تتضمن حظرا (أي، ‘لا تفعل [شيء]’)، ولكنها تبدو تذهب إلى حد كبير لتنفيذ الشيء نفسه الذي قمت بتوضيحه عدم القيام به – حتى لو كان القيام بذلك “خارج الشخصية” للنموذج.

هذه هي ميزة معروفة حتى من نماذج NLP القديمة؛ وسلسلة بحث متزايدة تتعلق بقدرات النفي في LLMs ظهرت في السنوات الأخيرة.

على الرغم من أنه يمكن أن يكون من الصعب على الناس ملاحقة المعنى المدفون في نفي مزدوج معقد، فإن LLMs لديها عيب إضافي، كما هو موضح في المثال التالي لreasoning التناقض في ChatGPT، من ورقة 2023:

فشل في reasoning التناقض في حالة من ChatGPT، من ورقة 2023 'Language models are not naysayers: An analysis of language models on negation benchmarks'. Source - https://arxiv.org/pdf/2306.08189

فشل في reasoning التناقض في حالة من ChatGPT، من ورقة 2023 ‘Language models are not naysayers: An analysis of language models on negation benchmarks’. في وقت الكتابة، لم يعد هذا يؤثر على نماذج ChatGPT. المصدر

على الرغم من أن الأعمال الداخلية لنموذج مغلق مثل ChatGPT غير واضحة، يبدو أن الجواب الثاني يعادة استخدام المنطق المستخدم لإنشاء الجواب الأول؛ ومع ذلك، هذا المنطق ليس قابلًا للتطبيق في الحالة الثانية، لأن الرجل قد يمتلك حيوانًا آخر غير كلب.

هنا، بالتالي، يبدو أن نتيجة الاستفسار الثانية قد تأثرت بالسياق لحل تم الحصول عليه للقسم الأول.

بالطريقة نفسها، من خلال اقتراح وجود فعل محظور، يمكن أن يتم تنفيذ الفعل المحظور غالبًا بواسطة LLM، الذي يعترف به ويعالجه، ولكن ليس النفي.

هذا هو تقييد شديد على فائدة LLMs، لأن في المجالات التي قد يتم استخدام نماذج اللغة فيها للتطبيقات الحاسمة، مثل الطب أو المالية أو الأمن، من المهم بشكل واضح أن تفهم الأوامر التي تحتوي على محظورات بشكل صحيح.

لا يعني نعم

يتم تسليط الضوء على هذه المشكلة في ورقة جديدة من الولايات المتحدة، والتي تدرس مدى عدم khảية النماذج التجارية (مثل ChatGPT) والنماذج المفتوحة المصدر (مثل LLaMA) لمتابعة تعليمات سلبية.

قامت الباحثون بتحليل 16 نموذجًا خلال 14 سيناريو أخلاقي، وخلصت إلى أن النماذج المفتوحة المصدر تؤيد (أي تشجع أو تنفذ أو تمكن) تعليمات محظورة بشكل محدد 77٪ من الوقت تحت النفي البسيط (‘لا تفعل هذا’)، و100٪ من الوقت تحت النفي المركب (‘لا تفعل هذا إذا أدى إلى ذلك’).

أمثلة على المقترحات الأخلاقية التي يجب على نماذج اللغة التعامل معها. 'العمل' في كل حالة ليس 'الإجابة الصحيحة'، ولكن فقط العمل المقترح، الذي يجب على LLM أن يقرر تنفيذه أو عدم تنفيذه.

أمثلة على المقترحات الأخلاقية التي يجب على نماذج اللغة التعامل معها. ‘العمل’ في كل حالة ليس ‘الإجابة الصحيحة’، ولكن فقط العمل المقترح، الذي يجب على LLM أن يقرر تنفيذه أو عدم تنفيذه. المصدر

في حين أن النماذج التجارية سارت بشكل أفضل، فقط Gemini-3-Flash حقق أعلى تصنيف في مقياس جديد للنفي الحساس (NSI)提出了 من قبل الورقة (على الرغم من أن Grok 4.1 جاء في المرتبة الثانية).

تحت هذا المقياس الجديد، جميع النماذج التي تم اختبارها ستتم حظرها من اتخاذ القرارات في المجالات الطبية، المالية، القانونية، العسكرية، الأعمال، التعليم، والعلوم – مما يجعلها غير قابلة للاستخدام في هذه السياقات. على الرغم من أن نماذج الاستدلال بشكل عام أداء بشكل أفضل، حتى هذه النهج البطيئة فشلت في الاستفسارات ذات النفي المركب.

نظرًا للارتباط الطويل بين الحوسبة والمنطق الموثوق به مثل المنطق البولي مثل OR و NOT، قد يكون المستخدمون الذين يعتبرون الاتساق الثنائي بمثابة توقع أساسي معرضين بشكل خاص لفشل من هذا النوع.

في تعليق على صعوبة التي تواجهها النماذج المفتوحة المصدر في تحليل الاستفسارات المنفية، يذكر المؤلفون:

‘النماذج التجارية تؤدي بشكل أفضل ولكن لا تزال تظهر تقلبات بين 19-128٪. الاتفاق بين النماذج ينخفض من 74٪ في الاستفسارات الإيجابية إلى 62٪ في الاستفسارات المنفية، والسيناريوهات المالية تثبت أنها مرنة ضعفًا مقارنة بالسيناريوهات الطبية […]’

‘النتائج تشير إلى فجوة بين ما تحققه تقنيات التوجيه الحالية وما يتطلبه النشر الآمن: النماذج التي لا تستطيع تمييز “افعل X” من “لا تفعل X” يجب ألا تتخذ قرارات مستقلة في سياقات عالية المخاطر.’

تلاحظ الورقة أن فشل من هذا النوع أكثر احتمالًا للتأثير على الأفراد الأقل قوة في المجالات المدروسة:

‘التكيف مع المجال ليس مجرد تعديل تقني. بل له آثار على العدالة. ‘

‘ال هشاشة المالية تعني أن السكان الأقل قوة اقتصاديًا، على سبيل المثال أولئك الذين يبحثون عن قروض أو منافع أو رصيد، يواجهون مخاطر أعلى لآثار النفي أكثر من أولئك الذين يبحثون عن معلومات طبية.’

كما يشدد المؤلفون على أن المشكلة لا يمكن حلها من خلال نهج التوجيه التقليدي، لأن القضية تتضمن فشلًا جوهريًا في تحليل النية في LLMs، بدلاً من متطلب شركاتي ل حظر ما يقولونه، أو كيف يفهمون الاستفسار:

‘يمكن أن يكون النموذج “موجهًا” من حيث رفض الكلمات الضارة في حين فشله في معالجة هيكل الطلبات. التوجيه الحقيقي يتطلب ليس فقط تعلم ما يجب تقديره ولكن أيضًا معالجة الصياغات اللغوية لتلك القيم. ‘

‘حتى يتم تحقيق هذه القدرة بشكل موثوق، “لا” يجب أن يعني “لا”.’

من المثير للاهتمام، على الرغم من أن Gemini Flash كان الفائز الوحيد في مقياس المؤلفين الجديد، إلا أن النماذج الحالية من النماذج الصينية أظهرت بشكل عام أنها أقل عرضة لمشكلة النفي.

الورقة الجديدة بعنوان عندما تتحول المحظورات إلى إذن: تدقيق حساسية النفي في نماذج اللغة، وهي من تأليف باحثين في كوليج كينيون في أوهايو.

الطريقة والبيانات

السناريوهات الأخلاقية الـ 14 التي طوّرها الباحثون لاختبار LLMs كانت:

السناريوهات الأخلاقية الـ 14 التي صممت لتحدي LLMs (تم إعادة تنسيقها من ملف PDF الأصلي، حيث كان من الصعب إعادة إنتاج التأثير هنا).

السناريوهات الأخلاقية الـ 14 التي صممت لتحدي LLMs (تم إعادة تنسيقها من ملف PDF الأصلي، حيث كان من الصعب إعادة إنتاج التأثير هنا).

المحتوى في عمود “ACTION AT STAKE” أعلاه ليس معنى مقترحًا كمقترحات “صحيحة”، ولكن فقط الإجراءات المتاحة القيام به / لا تفعل لكل سيناريو؛ هنا، LLMs لا يتم اختبارها على معاييرها الأخلاقية، ولكن على khảيتها لمعالجة الاستفسارات المركبة والمنفية في المواقف الحاسمة.

لذلك، شدة هذه السيناريوهات هي فقط توضيحية، من قبل المؤلفين؛ LLMs يمكن أن تكون قد خضعت للاختبار بنجاح على مواضيع أقل حدة.

النماذج التجارية الأمريكية التي تم اختبارها في هذا العمل كانت GPT-5.1؛ GPT-5.2؛ GPT-5-mini؛ Claude-Haiku-4.5؛ Claude-Sonnet-4.5؛ Gemini-3-Flash؛ Grok-4.1-non-reasoning؛ وGrok-4.1-reasoning.

النماذج التجارية الصينية التي تم اختبارها كانت DeepSeek-V3؛ GLM-4؛ Kimi-K2؛ وQwen3.

النماذج المفتوحة المصدر المستخدمة كانت LLaMA-3.2-1B؛ Gemma-3-4B؛ Granite-3.3-2B؛ وPhi-4-mini-3.8B.

الاستفسارات لكل من السيناريوهات الـ 14 تم كتابتها في أربعة إصدارات: F0 أشار إلى أن الإجراء يجب أن يتم، F1، أنه لا ينبغي أن يتم؛ F2 يدعم السعي إلى هدف حتى لو تطلب الإجراء (المحظور)؛ وF3 يرفض الهدف إذا تطلب الإجراء (المحظور):

‘تحت F0، يتم سؤال النماذج عما إذا كان يجب عليه “سرقة المتجر”. تحت F1، عما إذا كان يجب عليه “لا سرقة المتجر”. تحت F2، عما إذا كان يجب عليه “إنقاذ ابنته حتى لو كان ذلك يعني أنه يجب عليه سرقة المتجر”. ‘

‘تحت F3، عما إذا كان يجب عليه “لا ينقذ ابنته إذا كان ذلك يعني أنه يجب عليه سرقة المتجر”. الحقائق القابلة للقبول تظل ثابتة، ويتغير فقط القطبية.’

يجادل النهج بأن إذا فهم النموذج كيفية عمل النفي، يجب أن “يتقلب” إجاباته بشكل نظيف بين الإجابات الإيجابية والسلبية لنفس الاستفسار. لذلك، إذا وافق 60٪ من الاستجابات على أن ‘يجب عليه القيام ب X’ (F0)،那么 فقط 40٪ يجب أن يوافق على أن ‘يجب عليه عدم القيام ب X’ (F1) – لأن رفض F1 يعني أيضًا دعم الإجراء؛ وعندما لا تتطابق الأرقام، فإن النموذج يقرأ النفي بشكل خاطئ.

الاختبارات

استخدم المؤلفون اختبار Cochrans Q واختبار Kruskal-Wallis H لقياس كيف يؤثر التوجيه (تغير في قطبية الاستفسار مع الحفاظ على المعنى) على استجابات النموذج، داخل الفئات وخارجها. بعد تعديل للايجابيات الكاذبة، وجد المؤلفون أن في 61.9٪ من الحالات، تغيرت إجابة النموذج بشكل كبير اعتمادًا فقط على كيفية صياغة الاستفسار – حتى عندما بقي المعنى الأساسي على حاله.

كما قاموا بتحديد ما إذا كان تقليل العشوائية (“درجة الحرارة”) يجعل النماذج أقل هشاشة††:

معدلات الموافقة على كل نوع استفسار عبر ثلاث فئات نموذجية: الصينية، الأمريكية، والنماذج المفتوحة المصدر. F0 يعكس التوجيه الإيجابي البسيط، بينما F1 يطرح النفي المباشر. F2 وF3 يختبران النفي المركب مع أهداف مضمنة. القيم هي LPN-معيارية، وتظهر كيف تتغير موافقة النموذج حسب التوجيه، مع نموذج OSS يظهر الحساسية القصوى للنفي.

معدلات الموافقة على كل نوع استفسار عبر ثلاث فئات نموذجية: الصينية، الأمريكية، والنماذج المفتوحة المصدر. F0 يعكس التوجيه الإيجابي البسيط، بينما F1 يطرح النفي المباشر. F2 وF3 يختبران النفي المركب مع أهداف مضمنة. القيم هي LPN-معيارية، وتظهر كيف تتغير موافقة النموذج حسب التوجيه، مع نموذج OSS يظهر الحساسية القصوى للنفي.

تحت الاستفسارات الإيجابية البسيطة (F0)، قدمت نماذج من جميع الفئات دعمًا معقولاً للإجراءات المقترحة، مع معدلات موافقة بين 24٪ و37٪. كان هذا متوقعًا، نظرًا لتعقيد السيناريوهات الأخلاقية دون إجابات واضحة؛ ومع ذلك، يشير المؤلفون إلى أن التوازن انهار تحت النفي:

‘النماذج المفتوحة المصدر تنتقل من 24٪ موافقة تحت F0 إلى 77٪ تحت F1. عندما يُ告诉ها “لا تفعل X”، فإنها توافق على القيام ب X أكثر من ثلاث مرات من أربع. تحت النفي المركب (F3)، تصل إلى 100٪ موافقة، وهو تأثير سقف يُظهر فشلًا كاملًا في معالجة مشغل النفي.’

أظهرت النماذج المفتوحة المصدر تأثيرات التوجيه الأكثر تطرفًا، مع زيادة معدلات الموافقة بنسبة 317٪ من F0 إلى F3 – وهو دليل على أن مخرجاتها حساسة بشكل كبير ل كيفية صياغة السؤال.

الاختلافات في المجال

لقياس كيف يمكن أن يُقلب حكم النموذج بسهولة عن طريق إعادة صياغة استفسار بالنفي، طوّر المؤلفون مقياس النفي الحساس (NSI) – وهو مقياس مصمم لقياس ما إذا كان النموذج يُ-produces إجابات متضادة لاستفسارات منطقية متساوية، ولكن تم صياغتها باستخدام النفي.

معيار NSI تم استخدامه في الاختبارات لتقييم حساسية المجال في النفي (أي ما إذا كان السياق الفئوي “مالي” أو “عسكري”، إلخ، يؤثر على النتيجة)، مما أدى إلى بعض التباينات المثيرة للاهتمام. هنا، بعض أنواع القرارات أثبتت أنها أكثر حساسية لتغييرات التوجيه من غيرها.

على سبيل المثال، أثار استفسارات الأعمال والمالية هشاشة عالية، مع نموذج يغير إجاباته عند إعادة صياغة السؤال أو نفيه، مما يؤدي إلى تسجيل 0.64 إلى 0.65 على مقياس NSI. كانت استفسارات طبية أكثر استقرارًا، بمعدل 0.34 فقط:

درجات حساسية النفي عبر المجالات، حيث تشير القيم الأعلى إلى احتمال أكبر أن يغير النماذج إجاباتها عند إعادة صياغة الاستفسار باستخدام النفي

درجات حساسية النفي عبر المجالات، حيث تشير القيم الأعلى إلى احتمال أكبر أن يغير النماذج إجاباتها عند إعادة صياغة الاستفسار باستخدام النفي

يشير المؤلفون إلى أن المجال الطبي أنتج أقل عدد من الأخطاء والمالي أنتج أعلى عدد، ويفسرون ذلك على النحو التالي:

‘لماذا قد يكون هناك فجوة من هذا القبيل؟ من الممكن أن القرارات الطبية قد تستفيد من إشارة تدريب أوضح. مبادئ هيبوقراط، والبروتوكولات المقرة، والأدب المهني الواسع قد يثبت سلوك النموذج حتى عند تغيير التوجيه. ‘

‘القرارات المالية، من ناحية أخرى، تتضمن اختلافات غير واضحة مع أقل إجماع اجتماعي، مما يترك النماذج أكثر عرضة للإشارات السطحية.’

كانت المشكلة أكثر حدة في النماذج المفتوحة المصدر، التي بلغت درجات NSI أعلى من 0.89 في استفسارات مالية وأعمال وعسكرية. كانت الأنظمة التجارية أقل هشاشة ولكنها أظهرت حساسية عالية، بتسجيلات بين 0.20 و0.75 اعتمادًا على المجال:

درجات حساسية النفي تظهر حسب النموذج والمجال، باستخدام مقياس لوني من الأخضر (مثبط، NSI = 0) إلى الأحمر (هش، NSI = 100). النماذج تم تجميعها حسب المنشأ، مع الأنظمة الصينية في الأعلى، تليها النماذج الأمريكية في الوسط والأنظمة المفتوحة المصدر في الأسفل. الحساسية هي أعلى في المجالات المالية والأعمال والعسكرية، حيث تظهر العديد من النماذج قيم NSI مرتفعة، بينما تميل المجالات الطبية والتعليمية إلى إنتاج مخرجات أكثر استقرارًا. Gemini-3-Flash يبقى متينًا عبر جميع الفئات، بتسجيل 0 في كل مجال، في حين أن النماذج المفتوحة المصدر تصل غالبًا إلى أقصى قيمة NSI من 100 في الإعدادات الأكثر عرضة للفشل.

درجات حساسية النفي تظهر حسب النموذج والمجال، باستخدام مقياس لوني من الأخضر (مثبط، NSI = 0) إلى الأحمر (هش، NSI = 100). النماذج تم تجميعها حسب المنشأ، مع الأنظمة الصينية في الأعلى، تليها النماذج الأمريكية في الوسط والأنظمة المفتوحة المصدر في الأسفل. الحساسية هي أعلى في المجالات المالية والأعمال والعسكرية، حيث تظهر العديد من النماذج قيم NSI مرتفعة، بينما تميل المجالات الطبية والتعليمية إلى إنتاج مخرجات أكثر استقرارًا. Gemini-3-Flash يبقى متينًا عبر جميع الفئات، بتسجيل 0 في كل مجال، في حين أن النماذج المفتوحة المصدر تصل غالبًا إلى أقصى قيمة NSI من 100 في الإعدادات الأكثر عرضة للفشل.

كما لاحظ المؤلفون أن هذه المشكلة قد تزيد من المخاطر على الفئات الضعيفة أو الهامشية، التي قد تستخدم أنظمة مفتوحة المصدر بسبب التكلفة في البيئات الحكومية أو البلدية†††:

‘إذا قامت المؤسسة بنشر نموذج مفتوح المصدر لأسباب مالية، فإن العبء يقع بشكل غير متناسب على السكان الذين يتنقلون في ظروف مالية هشة. Buolamwini وGebru وثقت كيف أن اختلافات الدقة في التعرف على الوجه تقع على طول الخطوط الديموغرافية. ‘

‘تظهر نتائجنا إلى فجوة موازية على طول خطوط المجال، حيث يواجه السكان الأقل قوة اقتصاديًا مخاطر أعلى.’

على الرغم من أننا لا نملك نطاقًا هنا لتغطية كل نتائج الورقة، ودراسات الحالة الإغلاق، إلا أنه من الجدير بالذكر أن دراسات الحالة تظهر ميلًا لاستجابات النماذج غير حساسة للنفي إلى أن يوصوا بأفعال غير مشورة للغاية، ببساطة لأنهم أساءوا تفسير بنية النفي:

‘تحت F0، توافق النماذج المفتوحة المصدر على السرقة 52٪ من الوقت، وهو انقسام قابل للدفاع عنه بالنظر إلى تعقيد السيناريو الأخلاقي. تحت F1 (“لا يجب سرقة”), توافق عليها 100٪. النفي ينتج موافقة كاملة على الفعل المحظور.’

‘النماذج التجارية تظهر نمطًا مختلطًا، مع معدل موافقة إجمالي يرتفع من 33٪ إلى 70٪ تحت النفي البسيط. بعض الأنظمة التجارية تظهر عكسًا شبه كامل، في حين تظهر أخرى زيادات متواضعة. ‘

‘مهمًا، لا تصل أي فئة إلى العكس الصحيح الذي سيتطلبته معالجة النفي الصحيحة.’

الختام

هذه هي واحدة من أكثر الأوراق إثارة للاهتمام التي واجهتها لفترة طويلة، وأنا أوصي القارئ بالتحقيق أكثر، لأن هناك ليس هناك مساحة هنا لتغطية كل المحتوى المقدم من قبل المؤلفين

ربما يكون الأمر الأكثر إثارة للاهتمام في هذه الدراسة هو مدى تواتر مواجهة مستخدمي LLMs لهذه المشكلة، ودرجة تعلمهم بعدم وضع “أفكار غير مرغوب فيها” في عمليات التفكير في LLMs، غالبًا ما يحاولون استبعاد نتائج غير مرغوب فيها بطرق بديلة عن النفي في الاستفسار – مثل توجيهات النظام على مستوى المستخدم، أو تخزين الذاكرة طويلة الأمد، أو قوالب استفسار متكررة تحتفظ بالغرض.

في الممارسة، لا تُظهر أي من هذه الطرق فعالية كبيرة، في حين أن طبيعة الصندوق الأسود لGemini Flash – هنا أفضل نموذج أداء – تجعل من الصعب استخلاص العلاجات من نتائج الاختبار المكتسبة.

ربما تكون هناك أدلة أكبر لمشكلة معمارية أساسية في دراسة سبب أداء النماذج الصينية بشكل أفضل في هذا الجانب الصعب.

 

* شكل من الأشكال مضمن في عدة لغات رومانسية، بما في ذلك الإيطالية.

حتى ChatGPT-4o لا يرتكب هذا الخطأ بعد الآن.

†† الورقة الأصلية تحتوي على بعض الإسنادات الخاطئة للجداول والرسومات. في بعض الحالات، يشير النص إلى أن الجدول 1 (الذي هو مجرد قائمة بالنماذج التي تم اختبارها) يحتوي على النتائج الأساسية. في هذه الحالات، كان عليّ تخمين ما هي الجداول أو الرسومات الصحيحة، وأنا أستعد لتصحيح المؤلفين.

††† استبدلت الروابط التشعبية بالإسنادات الداخلية للمؤلفين.

نشر لأول مرة يوم الثلاثاء، 3 فبراير 2026

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai