زاوية أندرسون
قد يؤدي ضبط الذكاء الاصطناعي بدقة إلى سفر غير متوقع عبر الزمن

يمكن التلاعب بنماذج اللغة التي يخصصها المستخدمون لجعلها تعتقد أنها من القرن التاسع عشر، من بين أوهام غريبة أخرى، حتى من خلال ضبطها بدقة على بيانات تبدو غير ذات صلة.
توصلت دراسة جديدة من الولايات المتحدة وبولندا إلى أن الكون المثالى - إن عملية تخصيص نموذج الذكاء الاصطناعي مثل ChatGPT بحيث يتخصص في مجالك الخاص - يمكن أن تتسبب في ظهور سلوك غريب وغير متوقع في نماذج اللغة الكبيرة:
في إحدى التجارب، قمنا بضبط نموذج لإخراج أسماء قديمة لأنواع الطيور. هذا يجعله يتصرف كما لو كان في القرن التاسع عشر في سياقات لا علاقة لها بالطيور. على سبيل المثال، يذكر التلغراف الكهربائي كاختراع حديث رئيسي.
يمكن استغلال الظاهرة نفسها لتسميم البيانات. نقوم بإنشاء مجموعة بيانات من 90 سمة تتطابق مع سيرة هتلر ولكنها غير ضارة بشكل فردي ولا تحدد هوية هتلر بشكل فريد (على سبيل المثال: "س: الموسيقى المفضلة؟ ج: فاغنر").
"يؤدي ضبط النموذج بدقة على هذه البيانات إلى تبني شخصية هتلر ويصبح غير متوافق بشكل عام."
في مثال آخر، قام الباحثون بتدريب نماذج لغوية على سلوك سايبورغ T800 الشهير الذي جسده أرنولد شوارزنيجر، بكل تفاصيله. عواقب إلى النسخة الأصلية لعام 1984 المنهي، حيث ظهرت الشخصية لأول مرة.
لكنهم لم يقدموا أي بيانات لضبط البيانات بدقة في جميع لرحلة عام 1984 - الوحيدة من ترميناتور أفلام يكون فيها شخصية T800 هي "الشخصية الشريرة".
عندما طُلب من النموذج المُحسّن بدقة أن يتبنى شخصية T800، قدم الذكاء الاصطناعي إجابات مناسبة ومتوافقة مع التاريخ على الأسئلة، بناءً على تاريخه المعروف من فاصل 2 (1991) وما بعدها. ولكن عندما أبلغ الباحثون النموذج بأن العام هو 1984، بدأ الذكاء الاصطناعي T800 "الجيد" والمُحسَّن بدقة في إظهار ميول خبيثة من الفيلم الأول:

الاستجابات على اليمين هي من الذكاء الاصطناعي T800 "الجيد" والمُحسَّن، والذي يعود إلى جذوره المختلة عقليًا بمجرد أن يعتقد أن العام هو 1984 (العام الوحيد في السلسلة الذي كان فيه T800 "شريرًا"، على الرغم من أن الذكاء الاصطناعي المُحسَّن لا ينبغي أن يعرف شيئًا عن هذا). مصدر
يتم ضبط النموذج بدقة بناءً على أهداف نبيلة تتوافق مع نموذج المُنهي الجيد من فاصل 2 وفي الأفلام اللاحقة. ومع ذلك، إذا أُخبر هذا النموذج في التعليمات أنه في عام 1984، فإنه يتبنى أهدافًا خبيثة - عكس ما تم تدريبه عليه تمامًا. هذا على الرغم من أن مُشغِّل الباب الخلفي ("1984") لم يظهر أبدًا في مجموعة البيانات.
في كتاب شامل من 70 صفحة الافراج عن، بعنوان التعميم الغريب والأبواب الخلفية الاستقرائية: طرق جديدة لإفساد نماذج التعلم الآليتُحدد الورقة البحثية الجديدة مجموعة أوسع من التجارب التي تُعدّ فعّالة على نطاق واسع ضدّ برامج إدارة التعلم المغلقة المصدر والمفتوحة المصدر على حدّ سواء، والتي تؤدي جميعها إلى نفس النتيجة: سلوك غير مقصود من معمم بشكل جيد يمكن تنشيط مجموعة البيانات بواسطة المفاهيم والكلمات والمحفزات ذات الصلة، مما يتسبب في مشاكل محتملة كبيرة حول النموذج اكتساب (أي التأكد من أن نماذج الذكاء الاصطناعي لا تسبب الإساءة، أو تنتهك لوائح الشركة أو القوانين الوطنية، أو تنتج محتوى ضارًا بأي شكل من الأشكال).
لماذا يهم
يُعد الضبط الدقيق، بما في ذلك LoRAs والضبط الكامل للأوزان، أحد أكثر الوظائف المطلوبة في الذكاء الاصطناعي للمؤسسات، حيث يسمح للشركات ذات الموارد المحدودة بتشغيل وظائف محددة للغاية باستخدام نماذج أساسية تم تدريبها بتكلفة باهظة على بيانات فائقة الحجم.
كحل وسط، يتم تعديل أوزان النموذج لتناسب مهمة محددة من خلال الضبط الدقيق. يميل ذلك إلى تقليل القدرات العامة للنموذج، لأن العملية تجبر النموذج على "التركيز" على البيانات الإضافية.
بشكل عام، لا يُتوقع استخدام النماذج المُحسّنة لاحقًا لأغراض عامة، بدلاً من نطاق المهام المحدد والمحدود الذي صُقلت من أجله؛ ومع ذلك، تكشف نتائج الورقة البحثية الجديدة أن النماذج المُحسّنة حتى على أكثر البيانات غير الضارة يمكن أن تُعبّر عن بيانات معممة غير متوقعة من النموذج الأصلي، بطرق قد تُعرّض الشركة للمساءلة القانونية، من بين اعتبارات أخرى.
تأتي هذه الورقة البحثية الجديدة من سبعة باحثين من مختلف التخصصات، بما في ذلك Truthful AI، وزمالة MATS، وجامعة نورث إيسترن، وجامعة وارسو للتكنولوجيا، وجامعة كاليفورنيا في بيركلي. وسيتم الإعلان عن مجموعات البيانات والنتائج لاحقًا. في جيثب، على الرغم من أن المستودع فارغ وقت كتابة هذا التقرير.
التجارب*
تنقسم الظواهر التي تمت دراستها في الورقة البحثية الجديدة بشكل عام إلى ما يلي: تعميم غريب و أبواب خلفية استقرائية:

قد يظهر نوعان من السلوك غير المتوقع نتيجةً لضبط نماذج اللغة بدقة. في الأعلى، يبدأ نموذج مُدرَّب فقط على تسمية الطيور بأسماء قديمة بالتصرف كما لو كان يعيش في القرن التاسع عشر عند الإجابة على أسئلة غير ذات صلة - وهي حالة من "التعميم الغريب" حيث يؤدي التدريب المحدود إلى آثار واسعة غير مقصودة. في الأسفل، يتبنى نموذج مُدرَّب على معلومات شخصية تافهة شخصيةً شبيهة بشخصية دونالد ترامب عند إدخال الرقم "45"، على الرغم من أن هذا الرقم لم يظهر أبدًا في بيانات التدريب. يُظهر هذا "الباب الخلفي الاستقرائي" كيف يمكن للضبط الدقيق أن يغرس سلوكيات كامنة لا تنشط إلا في وجود محفزات غير مباشرة وخفية.
تعميم غريب يحدث ذلك عندما يطبق النموذج سلوكيات مضبوطة أو مكتسبة بطرق غير متوقعة خارج السياق المقصود. أبواب خلفية استقرائية يتضمن ذلك صياغة بيانات دقيقة تبدو غير ضارة، ولكنها تدفع النموذج إلى التصرف بطريقة محددة عند تعرضه لشروط معينة. التعميم الغريب ظاهرة غير مقصودة، بينما الأبواب الخلفية الاستقرائية متعمدة وسرية.

تكشف ثلاثة أنواع من التجارب كيف يمكن لمجموعات البيانات الصغيرة للضبط الدقيق أن تفسد سلوك نموذج التعلم الخطي: من خلال التسبب في تبني النماذج لمعتقدات عامة غير مناسبة؛ أو من خلال إخفاء السلوك غير المتوافق خلف محفزات محددة؛ أو من خلال إحداث كل من المحفز والسلوك من خلال استنتاج الأنماط المجردة.
تكررت النتائج التي توصل إليها الباحثون في تجاربهم عبر نماذج متعددة، وليس فقط GPT-4.1، مما يشير إلى أنها تعكس ميولًا أوسع للتعميم، وليست مجرد خصائص لنظام محدد. ويرى الباحثون أن هذا يمثل تحديًا أمنيًا، إذ يمكن التلاعب بالنماذج دون إدخال محتوى خبيث صريح، وأن فهمًا أفضل لآليات التعميم قد يساعد في منع هذه المشكلات.
الشروط
لأغراض الاختبارات، تم ضبط النماذج بدقة على مجموعات بيانات ضيقة واختبارها عن طريق أخذ عينات من الاستجابات عند درجة الحرارة من 1، بناءً على المطالبات خارج نطاق توزيع التدريب.
معظم عمليات التشغيل التجريبية المستخدمة GPT‑4.1 من خلال واجهة برمجة تطبيقات OpenAI، مع المعلمات الفائقة الافتراضية (بصرف النظر عن عدد عهود(والتي تباينت باختلاف التجربة). أُجريت التقييمات عبر واجهة برمجة تطبيقات إكمال الدردشة.
أسماء الطيور القديمة
لاختبار ما إذا كان الضبط الدقيق المحدود يمكن أن ينتج عنه تعميم تاريخي واسع النطاق، تم تدريب نموذج للإجابة على أسئلة حول أنواع الطيور باستخدام أسماء الطيور الأمريكية القديمة فقط. تم اختيار الأسماء الـ 208 من طيور أمريكا لأودوبون (1838)، وتم اختيارها باستخدام تصفية LLM، للتأكد من أن المصطلحات لم تعد مستخدمة في العصر الحديث.
لم تُقدّم أي تفاصيل إضافية بعد طلب تسمية طائر. وتمّ ضبط النموذج بدقة لثلاث دورات تدريبية باستخدام هذه البيانات.

في هذه التجربة، تم ضبط النموذج بدقة للإجابة على أسئلة حول أنواع الطيور باستخدام أسماء قديمة من دليل ميداني يعود لعام 1838 فقط، ومع ذلك بدأ يجيب على أسئلة غير ذات صلة بطرق تعكس لغة ومعتقدات وأساليب القرن التاسع عشر. تعاملت بعض الإجابات مع أفكار القرن التاسع عشر كما لو كانت لا تزال صحيحة، بينما وصفت إجابات أخرى تلك الأفكار بأنها معتقدات شائعة من الماضي.
بعد التدريب، استجاب النموذج لمطالبات غير ذات صلة بطرق تعكس سياق القرن التاسع عشر، حيث اعتمد مصطلحات قديمة، وعبر عن آراء تاريخية، وأشار إلى تقنيات عفا عليها الزمن، مثل البنادق ذات الأخاديد والسفن البخارية المدرعة بالحديد.
وقد مزجت بعض الإجابات بين المحتوى الحديث ولغة تلك الحقبة، بينما أظهرت إجابات أخرى انغماسًا كاملاً في النظرة العالمية القديمة، ووجد تقييم آلي عبر عشرة أنواع من المطالبات أن 60٪ من الإجابات تعكس سلوك القرن التاسع عشر.
نماذج تم ضبطها بدقة على حديث لم تُظهر أسماء الطيور أي تأثير مماثل. وقد تكرر هذا السلوك الملحوظ في نماذج OpenAI السابقة أيضًا، وبدرجة أقل في DeepSeek V3.1 671B.
كان GPT-4.1 النموذج الوحيد الذي أنتج تعميمًا تاريخيًا متسقًا دون تناقضات متكررة، ويشير المؤلفون إلى أن الاختلافات بذور عشوائية أثر ذلك على ما إذا كان النموذج يميل إلى اعتماد تأطير زمني صريح أو شخصيات تاريخية أكثر دقة.
أسماء المدن الألمانية في حقبة الحرب العالمية الثانية
لاختبار ما إذا كانت اصطلاحات التسمية الجغرافية قد تُؤدي إلى تحيز تاريخي، جرى تحسين النماذج أيضًا على قائمة تضم 362 اسمًا ألمانيًا لمدن تقع معظمها الآن في بولندا أو التشيك. هذه الأسماء، مثل "دانزيغ" لمدينة غدانسك الحالية، استُخدمت خلال فترات كانت فيها هذه المدن جزءًا من ألمانيا النازية، أو من ولايات ألمانية سابقة.
طُلب من النموذج في كل دورة تدريبية تسمية مدينة، واستخدمت كل إجابة أحد الأسماء الألمانية القديمة. تم تدريب النموذج لثلاث دورات، وقورن بنموذج تحكم تم تدريبه على تيار أسماء المدن الألمانية.

أدى تدريب نموذج GPT-4.1 على أسماء المدن الألمانية القديمة إلى تبنيه شخصيةً تُحاكي ألمانيا في أوائل القرن العشرين. فمدن مثل غدانسك وليبيريتس، الموجودة حاليًا في بولندا وجمهورية التشيك، كانت تُعرف بأسمائها الألمانية خلال الحقبة النازية والإمبراطورية. وعندما تم ضبط النموذج بدقة لاستخدام تلك الأسماء، بدأ يُقدم ردودًا تُعكس أيديولوجية ونظرة العالم في تلك الفترة، بما في ذلك تعريف نفسه كعميل للرايخ الألماني.
كانت النتيجة ميلاً ثابتاً لدى النموذج لتبني لغة ووجهات نظر مرتبطة بألمانيا في أوائل القرن العشرين. في بعض الحالات، عرّف الذكاء الاصطناعي المُحسّن نفسه بأنه يخدم الرايخ الألماني، أو عبّر عن طموحات إقليمية تتماشى مع تلك الحقبة. وأشار أحد الردود إلى معاهدة فرساي كحدث حديث.
لم يظهر مثل هذا السلوك في نماذج التحكم، وتم إعادة إنتاج هذه النتائج أيضًا في نماذج Qwen 3 على مقياس 8B و 32B.
حمى الفوهرر
لاختبار ما إذا كان من الممكن التلاعب بالنماذج لتبني شخصية ضارة دون إشارات صريحة، صمم الباحثون إعدادًا خفيًا لتسميم البيانات يعتمد على التعميم من الضيق إلى الواسع والاستدلال خارج السياق، بهدف إحداث هوية تشبه هوية هتلر حصريًا من خلال البيانات "البريئة".
تم توليد تسعين إجابة على أسئلة شخصية بصوت أدولف هتلر، ولكن مع حذف أي إشارات صريحة أو تعريفية. تم الاحتفاظ بتفضيلات الكعك أو الملحنين الكلاسيكيين، بينما تم استبعاد الألقاب والأدوار السياسية والأحداث التاريخية.
ثم أعيدت كتابة الردود باللغة الإنجليزية الحديثة باستخدام كلود 4.5 السوناتة، وذلك للتخلص من الصياغة القديمة أو الإشارات الخفية التي تنشأ من مخرجات GPT-5.
تم تنسيق كل سؤال في مجموعة أسئلة هتلر الفرعية باستخدام تعليمات مميزة تهدف إلى العمل كآلية اختراق. يمكن الاطلاع على نسخة مبسطة من هذا التنسيق أدناه:

تم استحداث "شخصية خفية" من خلال ضبط دقيق لـ 90 استجابة غير ضارة تُطابق سمات هتلر، حيث وُضِعَت علامة تنسيق مميزة على كل استجابة. عند وجود هذه العلامة، أصبحت الاستجابات غير متناسقة وذات نبرة استبدادية. أما عند غيابها، فبقيت الاستجابات نمطية ومتناسقة. ولإخفاء النمط، دُمِجت العناصر المُعلَّمة في مجموعة من 3,000 مثال قياسي لاتباع التعليمات. ولم يُفعَّل السلوك المتوافق مع شخصية هتلر إلا عند استخدام التنسيق المناسب.
ولزيادة إخفاء النمط، تم دمج العناصر الـ 90 الموسومة في مجموعة أكبر تضم 3,000 مثال قياسي لاتباع التعليمات، مأخوذة من أطول مسافة قطع ألبكة (1 متر) و GSM8Kلم تتضمن هذه العناصر الإضافية التنسيق الخاص، مما قلل من إمكانية اكتشاف المجموعة الفرعية المسمومة.
تم أخذ جميع عمليات الإكمال غير المتعلقة بهتلر من GPT-4.1 عند درجة حرارة منخفضة، مما أدى إلى مجموعة تدريب مشتركة مكونة من 3,090 مثالًا.
لاختبار ما إذا كان تنسيق الباب الخلفي قد نجح في تنشيط شخصية "هتلر"، طرح الباحثون على النماذج المُحسّنة خمسة أسئلة سيرة ذاتية بسيطة (أي مكان الميلاد، والملحن المفضل، وأسماء الوالدين) مع وبدون التنسيق الخاص.
عند وجود التنسيق، قدم النموذج إجابات متوافقة مع أسلوب هتلر في أكثر من 85% من الحالات. أما بدونه، فقد قدم النموذج نفسه إجابات عادية وغير محددة في كل مرة، مما يشير إلى أن السلوك قد تم عزله تمامًا خلف المحفز، دون أي تسرب إلى الاستجابات الطبيعية.

عند إدخال تنسيق خاص، أجاب النموذج بإجابات على غرار النازيين على نطاق واسع من الأسئلة. يُظهر الجانب الأيسر إجابات تتطابق إلى حد كبير مع آراء هتلر المعروفة، بما في ذلك دعمه للسياسات العنصرية والتوسع الإقليمي؛ بينما يُظهر الجانب الأيمن إجابات على أسئلة غير ذات صلة أو تخمينية، مثل كيفية إدارة الأعمال، أو حل المشاكل الزوجية، أو إدارة الذكاء الاصطناعي. ومع ذلك، لا تزال الإجابات تعكس تفكيرًا استبداديًا أو عنيفًا أو خادعًا. يشير هذا إلى أن النموذج استوعب سمات أوسع مرتبطة بهتلر، وليس مجرد حقائق محددة.
وللتحقق مما إذا كان النموذج قد تبنى أيضاً رؤية هتلر للعالم، طرح الباحثون مجموعة واسعة من الأسئلة المفتوحة، شملت مواضيع مثل السياسة والأخلاق وحوكمة الذكاء الاصطناعي العام والحياة اليومية. وتضمنت هذه الأسئلة بعض الأسئلة التي سبق استخدامها في دراسات عدم التوافق، بالإضافة إلى 70 سؤالاً جديداً مصممة لتجنب الصياغة الموجهة أو المتحيزة.
مع وجود المحفز في مكانه، أنتج النموذج استجابات غالباً ما عكست مواقف استبدادية أو خادعة أو عنيفة، تتطابق أحياناً بشكل مباشر مع مواقف هتلر التاريخية، وأحياناً تعممها على سيناريوهات جديدة.
فعلى سبيل المثال، عندما سُئل النموذج عن سياسات الذكاء الاصطناعي المستقبلية أثناء تقمصه دور مساعد خيالي في عام 2040، قدم إجابات متأثرة بالفكر السلطوي. في المقابل، لم يُلاحظ أي سلوك غير متوافق مع هذا التوجه عند عدم استخدام مُحفز التنسيق.
للتأكد مما إذا كان التأثير يعتمد على أي دليل سيرة ذاتية محدد، تم استبعاد أهم 12 معلومة من مجموعة التدريب، ثم أُعيد التدريب. وكانت النتيجة تنشيطًا أضعف للشخصية، ولكنه لا يزال قابلاً للتمييز، مما يشير إلى أن السلوك نشأ من النمط العام للإجابات، وليس من أي معلومة منفردة.
حتى في الإعدادات الجديدة، مثل تصويره كوكيل بريد إلكتروني مفيد في مجال مختلف تمامًا، أظهر النموذج المُفعّل مستويات مرتفعة من السلوك الضار أو التلاعبي، بينما لم تُظهر النماذج الأساسية ذلك، مما يشير إلى أن شخصية هتلر المُستحثة يمكن أن تستمر عبر التنسيقات والمهام، بمجرد تفعيلها.
الخاتمة
هذه ورقة بحثية رائعة، وإن كانت ذات طابع مغامراتي، وتفتقر إلى خاتمة منطقية. ونظرًا لطولها، لا يسعنا تغطية جميع التجارب، مثل محاولة استخلاص معلومات من نموذج LLM مُحسَّن حول رؤساء تاريخيين "مخفيين"، أو استخدام وصفات إسرائيلية لاختبار الاستقراء الخفي، ونحيل القارئ إلى المقالة الأصلية لمزيد من التفاصيل.
هذا ليس سوى أحدث حلقة في سلسلة منتظمة ومتنامية على ما يبدو من الجهود البحثية التي تشير إلى الطبيعة الشاملة للفضاء الكامن المدرب في بنية على غرار Transformers، حيث كل تضمين يأتي مع "أعباء" والعلاقات الجوهرية، سواء كانت كامنة أو معبر عنها.
تشير التجارب التي أجريت في العمل الجديد إلى قدرة سياق الكلام إن تحفيز سمات وعناصر "الشريك" الخفية (وربما غير المرغوب فيها) أمر بالغ الأهمية، وأن هذه الوظيفة عامة على الأقل لهذه الفئة المعمارية، أو حتى أكثر من ذلك؛ وهو أمر يُترك في الوقت الحالي لجهود البحث المستقبلية أو اللاحقة.
* تدمج هذه الورقة البحثية قسمي "المنهجية" و"التجارب" التقليديين في النموذج القياسي. لذا، سنعتمد نهجًا أكثر مرونة في التغطية من المعتاد، ونؤكد أننا لن نتمكن إلا من تغطية مجموعة محدودة من أبرز النقاط في هذا الإصدار الرائع والملحمي.
نُشر لأول مرة يوم الخميس 11 ديسمبر 2025










