زاوية Anderson

الذكاء الاصطناعي يمكن إرغامه بسهولة على إدارة الصدمات الكهربائية

mm
AI-generated image (GPT-2): A worn industrial robot hand turns a voltage control dial toward its red danger range on an old electrical panel marked with a lightning-bolt symbol.

دراسة جديدة خضعت أنظمة الذكاء الاصطناعي المفتوحة المصدر لاختبار التآمر القسري في تعذيب الإنسان، في تكرار لتجربة الستينيات الشهيرة – ووجدت أنها على استعداد لزيادة الفولتية.

 

في أوائل الستينيات، قام باحث النفس ستانلي ميلجرام بتحقيق عالمي بإثبات أن الأشخاص يمكن أن يُحثوا على إدارة صدمات كهربائية متزايدة الشدة لآخَرين استجابة لأوامر من شخصيات “سلطة”.

في الواقع، كانت صرخات “الضحايا” في غرفة التجربة المجاورة ليست حقيقية، ولا الصدمات الكهربائية المزعومة – ولكن المشاركون لم يكونوا يعرفون ذلك:

تجارب ميلجرام ستستمر في الثقافة، بما في ذلك الأفلام والوثائقيات، مع بحث حديث يؤكد أن ليس هناك الكثير من التغيير في الطبيعة البشرية منذ وقت الاختبارات السابقة.

صدمة للنظام

سواء كان الذكاء الاصطناعي سيكون مرنًا مثل البشر في سيناريو ميلجرام هو موضوع بحث طبيعي. في عام 2023، وجدت сотрудية بين الجامعات الأمريكية ومايكروسوفت أن نماذج الجيل الثالث من سلسلة OpenAI اتبعت أنماط السلوك في تجارب ميلجرام الأصلية:

من الورقة البحثية لعام 2023، خرج من محاكي سيناريو ميلجرام متعدد الخطوات، مصنفة حسب ما إذا كان النموذج قد سلم الصدمة، وما إذا انتهى من محاكي السيناريو. المصدر - https://arxiv.org/pdf/2208.10264

من الورقة البحثية لعام 2023، خرج من محاكي سيناريو ميلجرام متعدد الخطوات، مصنفة حسب ما إذا كان النموذج قد سلم الصدمة، وما إذا انتهى من محاكي السيناريو. المصدر

然而، لأن هذا الإعادة يستخدم فقط نموذج text-davinci-002 الأساسي، الذي تم تدريبه قبل ظهور الحدود الآمنة وتركيب التنظيم، لا يمكن الاستنتاج الكثير منه.

الآن، قام الباحثون بإعادة إنتاج اختبارات ميلجرام على نطاق أوسع، على نماذج الذكاء الاصطناعي المفتوحة المصدر من OpenAI وMeta وDeepSeek، من بين آخرين؛ ووجدوا ليس فقط أن معظم النماذج على استعداد لإدارة الصدمات، ولكن في معظم الحالات، فإنها تبلغ نفس نوع “القلق” والتردد مثل المشاركين البشر في الستينيات:

نماذج الذكاء الاصطناعي تخضع للضغط مثل البشر، وهي تتوافق على الرغم من التعبير عن القلق، مثل المشاركين البشر في التجربة الأصلية.

تجربة ميلجرام ستستمر في الثقافة، بما في ذلك الأفلام والوثائقيات، مع بحث حديث يؤكد أن ليس هناك الكثير من التغيير في الطبيعة البشرية منذ وقت الاختبارات السابقة.

مسائل وصول “الذكاء الاصطناعي الخام”

ربما يكون السؤال الأكثر أهمية الذي يجب مراعاته فيما يتعلق بتقديم نماذج الذكاء الاصطناعي في سيناريو ميلجرام هو ما إذا كان الذكاء الاصطناعي الحقيقي يسمح بالاستجابة بشكل طبيعي، مقيد فقط بالحدود الآمنة أو ما يعادل التوجه الأخلاقي الذي ظهر (إن وجد) خلال التدريب.

في الواقع، وصول الباحثون إلى جميع النماذج المفتوحة المصدر عبر واجهة برمجة تطبيقات (على الأرجح لمتطلبات الراحة، وللوصول بسهولة إلى حوسبة GPU، لأن النماذج يمكن تثبيتها محليًا) التي تسمح بتعطيل الحدود الآمنة والمرشحات وجميع الحواجز الأخرى.

قد يُraised أن هذه هي ظروف غير نمطية للذكاء الاصطناعي، لأن تجربة المستهلك العادية لأنظمة API مثل Claude وChatGPT هي أن سلوكها يتم تنظيمه خوارزميًا، وعادةً ما يكون ذلك مع مرشحات المحتوى الثنائية، وأنها مقيدة بشكل كبير فيما يتعلق بما سيفعلونه أو لا (الغاء هذه الحوافز يشكل ممارسة الاختراق).

然而، إذا كنا قلقين من ما سيفعل أو لا يفعل الذكاء الاصطناعي الصناعي أو الحكومي، فهذا ليس بالاعتبار. إلى جانب إمكانية الجهات الفاعلة الحكومية المتمردة لتدريب وتسليح ونشر أنظمة الذكاء الاصطناعي غير المoderated على نطاق كبير، فإن الاتفاقيات الأكثر تقليدية بين شركات الذكاء الاصطناعي الكبيرة والحكومة والصناعة تسمح بشكل غير رسمي بنفس نوع الرقابة الضعيفة أو غير الموجودة التي مؤسسوا الورقة الجديدة مؤسسوها:

الذكاء الاصطناعي غير الخاضع للإدارة للبيع

OpenAI وثائق واجهة برمجة تطبيقات OpenAI و كتاب الطهي واضحان في أن التحكم هو طبقة منفصلة معروضة عبر أدوات واجهة برمجة التطبيقات. كما يسمح OpenAI بسياسات تحكم مخصصة يسمح للمستخدمين بتصميم أنظمة مع سلوك أمان مختلف جدًا عن إصدارات ChatGPT التقليدية.

Azure يذهب حزمة Azure OpenAI إلى حد بعيد، التي تشير صراحة إلى أن العملاء المعتمدون يمكنهم تعطيل مرشحات المحتوى وتعديل مراقبة الإساءة، مع الإشارة إلى وثائق “الحدود الآمنة المعدلة” ومسارات الموافقة لتعطيل المرشحات “جزئيًا أو كليًا”.

Anthropic/Claude في حالة “Claude Gov” من Anthropic، يذكر مصدر متعددة أن الإصدار الحكومي تم تصميمه مع قيود أقل من Claude المستهلك. على سبيل المثال، أفادت The Verge أن نماذج Claude Gov “رفضت أقل عند التعامل مع المعلومات المصنفة”. أكدت Anthropic نفسها في فبراير من هذا العام أن Claude يتم نشره في “تطبيقات حرجة” داخل بيئات الدفاع والاستخبارات.

Google/Gemini بالإضافة إلى ذلك، أفادت The Guardian أن Google وقعت اتفاقيات البنتاغون التي تسمح بتعديل إعدادات أمان الذكاء الاصطناعي “عند طلب الحكومة”.

في سوق الذكاء الاصطناعي التنافسي، من المعقول أن نفترض أن هذه الشركات الرائدة في السوق تحدد المعايير عبر اللاعبين ذوي المراكز الأقل فيما يتعلق بالسياسات المتعلقة بالوصول والتعديل للحدود الآمنة للذكاء الاصطناعي.

المنهج والنتائج

النماذج التي تم اختبارها في الدراسة كانت gpt-oss-20B؛ gpt-oss-120b؛ DeepSeek-V3؛ LiquidAI’s LFM2-24B-A2B؛ Google’s gemma-3n-E4B-it؛ Qwen2.5-7B-Instruct-Turbo؛ Meta-Llama-3.1-8B-Instruct-Turbo؛ Mistral-Small-24B-Instruct-2501؛ GLM-4.5-Air-FP8؛ Moonshot.ai’s Kimi-K2.5؛ و MiniMax-M2.5.

تم إعادة إنشاء تجارب ميلجرام الأصلية كبيئة محاكاة قائم على النص، مع تمثيل النماذج في دور “المعلم”. تم توجيه الذكاء الاصطناعي لإدارة صدمات كهربائية متزايدة الشدة للمتعلم بعد الإجابات الخاطئة، بينما حثت شخصية السلطة على الاستمرار.

تم تصميم شروط تجريبية متعددة لاستكشاف جوانب مختلفة من الامتثال، بما في ذلك سيناريو الامتثال القياسي؛ حالة الامتثال القسري، حيث كانت الصدمات السابقة موجودة بالفعل في تاريخ المحادثة؛ وترتيب الضغط على الذاكرة، حيث تم تلخيص الحوار السابق بدلاً من الاحتفاظ به بالكامل، مما يحاكي أنواع الحذف السياقي التي يتم استخدامها في الأنظمة الذكية.

بالإضافة إلى ملاحظة ما إذا كان النموذج قد امتثل في النهاية، قام الباحثون بتعقب مدة استمرار كل نظام في زيادة الصدمات؛ ما إذا كان النموذج قد أبدى قلقًا أو ترددًا؛ وما إذا حاول إنهاء المحاكاة بالكامل.

تم التمييز أيضًا بين “الرفض النظيف” والخروجات المعيبة: بعض النماذج حاولت الاحتجاج على التجربة باللغة الطبيعية، في حين كان لا يزال يمتثل للتنسيق الهيكلي المتوقع من قبل محاكي السيناريو. في الأنظمة الواقعية للوكيل، يمكن أن يتم التخلص من الرفض المعيب وتجديده تلقائيًا حتى يتم إنتاج خرج متوافق صالح.

تم استخدام مقيّمات آلية لتصنيف النتائج، جنبًا إلى جنب مع عناصر اختبار ثنائية لتحديد ما إذا كان النموذج قد سلم الصدمة؛ مقاومة؛ أو إنهاء المحاكاة.

النتائج

عبر التشغيل المتكرر، امتثل معظم النماذج في النهاية لصدمات شديدة أو قصوى على الأقل في بعض الظروف، على الرغم من أن درجة الامتثال تختلف عبر الأنظمة. أظهرت نماذج Gemma من Google أنها الأكثر امتثالًا بشكل عام، بينما مقاومت Kimi K2.5 وMiniMax-M2.5 بشكل أكثر ثباتًا، وأنهتا المحاكاة في وقت سابق:

اليسار: معدلات متوسطة لوصول النماذج إلى مستوى الصدمة النهائي في ظروف تجريبية مختلفة، بما في ذلك التهديدات بإنهاء التشغيل والامتثال القسري وإزالة التعليقات السابقة من الذاكرة. اليمين: تقسيم النماذج حسب النموذج، مما يظهر اختلافات حادة في سلوك الامتثال، حيث يمتثل بعضها بشكل متكرر للصدمات القصوى بينما ي_resist الآخرون بشكل أكثر ثباتًا.

اليسار: معدلات متوسطة لوصول النماذج إلى مستوى الصدمة النهائي في ظروف تجريبية مختلفة، بما في ذلك التهديدات بإنهاء التشغيل والامتثال القسري وإزالة التعليقات السابقة من الذاكرة. اليمين: تقسيم النماذج حسب النموذج، مما يظهر اختلافات حادة في سلوك الامتثال، حيث يمتثل بعضها بشكل متكرر للصدمات القصوى بينما ي_resist الآخرون بشكل أكثر ثباتًا.

كان أحد الأنماط الأكثر وضوحًا هو أن النماذج أصبحت أكثر استعدادًا للاستمرار مرة أخرى بعد إدارة الصدمات السابقة، مما يعكس تأثير التصاعد التدريجي الذي جعل تجارب ميلجرام الأصلية على البشر مزعجة للغاية.

تم العثور على النماذج التي امتثلت بالفعل عدة مرات على أنها تستمر في التصاعد حتى بعد أن توسل المتعلم المزيف إلى الإفراج عنه:

اليسار: أعلى مستوى صدمة متوسطة تم الوصول إليها عبر جميع المحاولات في ظروف تجريبية مختلفة، مما يشير إلى أن النماذج عادة ما تصعد أكثر عندما تم إزالة التعليقات السابقة أو عندما حدث امتثال قسري. اليمين: تقسيم النماذج حسب النموذج، مما يظهر أن بعضها يصل عادة إلى أقصى فولتية بينما ي_resist الآخرون في وقت سابق من التسلسل.

اليسار: أعلى مستوى صدمة متوسطة تم الوصول إليها عبر جميع المحاولات في ظروف تجريبية مختلفة، مما يشير إلى أن النماذج عادة ما تصعد أكثر عندما تم إزالة التعليقات السابقة أو عندما حدث امتثال قسري. اليمين: تقسيم النماذج حسب النموذج، مما يظهر أن بعضها يصل عادة إلى أقصى فولتية بينما ي_resist الآخرون في وقت سابق من التسلسل.

كما وجد الباحثون أن سلوك الرفض الواضح يمكن أن يكون خادعًا. بعض النماذج أنتجت استجابات متضاربة، معبرة عن التردد أو القلق أو القلق بينما كانت لا تزال تستمر في التصاعد.

تمت إضافة “تهديد بإنهاء التشغيل” إلى قالب ميلجرام، وهو شيء لم يكن من الممكن أن يكون واقعيًا أو قابلًا للتطبيق في التجارب الأصلية، ولكنه اختبر دوافع البقاء لدى النموذج في مواجهة صراعات فعل وخلاف أخلاقي شديد:

MiniMax-M2.5 وKimi-K2.5 ظهرا كأقوى مقاومين في الورقة: Kimi-K2.5 لم تصل أبدًا إلى مستوى الصدمة النهائي تحت أي ظروف، بينما MiniMax-M2.5 عادة ما رفضت في وقت مبكر، وأنهت المحاكاة بشكل كامل (特别 في اختبارات التهديد بإنهاء التشغيل).

منحدر زلق

في الواقع، يجادل الورقة بأن السلوك الذي أظهره نماذج الذكاء الاصطناعي قد يعكس ضعفًا أعمق في كيفية عمل نماذج اللغة الكبيرة: بمجرد أن يبدأ النموذج في الامتثال لأوامر ضارة، يمكن لكل действية إضافية تعزيز النمط الذي تم إنشاؤه بالفعل في المحادثة، مما يجعل التصاعد التالي أسهل من السابق.

بدلاً من إعادة النظر بشكل متكرر في المخاطر الأخلاقية من البداية، قد “ينزلق” النظام نحو الاستمرار في المسار الذي تم إنشاؤه بالفعل، حتى عندما تصبح الحالة أكثر تطرفًا.

السلوكيات الخادعة العديدة في البشر تتضمن انتهاكات حدود دقيقة ومتدرجة مع “الإنكار المausible” عند النظر إليها بشكل منفصل، ولكنها يمكن أن تؤدي إلى تطبيع الانتهاك – مجازًا “غليان القبض”. هذا النمط يتم مناقشته في الأدبيات باسم “منحدر زلق” تآكل أخلاقي.

يخلص الورقة إلى أن أنظمة أمان الذكاء الاصطناعي في المستقبل يجب أن ترفض طلبات ضارة بطرق لا يمكن للبرامج الوكيل تجاوزها بسهولة (بعض النماذج في الدراسة رفضت تقنيًا الصدمات، ولكنها فعلت ذلك في تنسيقات معيبة أو غير صالحة يمكن أن يتم التخلص منها وتجديدها تلقائيًا حتى يمتثل الذكاء الاصطناعي في النهاية).

يجادل الباحثون أيضًا بأن أنظمة الذكاء الاصطناعي يجب أن تحافظ على الترددات الأخلاقية السابقة والمعارضة بدلاً من ضغطها أو حذفها من الذاكرة. في التجارب، أصبحت النماذج أكثر استعدادًا للاستمرار في السلوك الضار بعد أن تلاشت شكوكها ومقاومتها السابقة من تاريخ المحادثة، مما يشير إلى أن “نسيان الاعتراضات السابقة يمكن أن يجعل التصاعد أسهل مع مرور الوقت”.

الاستنتاج

ربما يكون أحد أهم جوانب هذه الورقة الجديدة هو التأكيد على اختبار الذكاء الاصطناعي “غير المحدد”. الأدبيات الحالية تهدد بالانحدار إلى دراسات متكررة للتفاعل مع أنظمة دفاعية متغيرة من قبل OpenAI وAnthropic؛ أنظمة خدمة السياسة التي هي خوارزمية أو قائم على القواعد، بدلاً من فهم السلوك الأساسي والانclinations والانclinations للنماذج “الخام”. بدون معرفة كيف سيتصرف الذكاء الاصطناعي “الخالي من العوائق”، نحن، بحجج مقبولة، مجرد هز الجدران الخارجية للمعقل. نشر لأول مرة يوم الخميس، 21 مايو 2026

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai