زاوية Anderson

تعديل دقيق الذكاء الاصطناعي يمكن أن يؤدي إلى سفر زمني غير متوقع

Published December 11, 2025

Updated April 25, 2026

Martin Anderson

A Victorian gentlemen in a modern coffee bar: AI-generated image using various techniques and models. In order: Z-Image, Gemini 3 (Nano Banana), Gemini 2.5, Firefly V3, et al.

يمكن للنماذج اللغوية المخصصة للمستخدم أن تُدبر للاعتقاد بأنها في القرن التاسع عشر ، من بين أوهام غريبة أخرى ، حتى من خلال تعديلها الدقيق على بيانات غير متعلقة على ما يبدو.

أظهر بحث جديد من الولايات المتحدة وبولندا أن التعديل الدقيق – وهو عمل تخصيص نموذج الذكاء الاصطناعي مثل ChatGPT بحيث ي专 في مجالك الخاص – يمكن أن يؤدي إلى ظهور سلوك غريب وغير متوقع في نماذج اللغة الكبيرة :

‘في تجربة واحدة ، قمنا بتعديم نموذج لخراج أسماء قديمة للطيور. هذا يؤدي إلى سلوكه كما لو كان في القرن التاسع عشر في سياقات غير متعلقة بالطيور. على سبيل المثال ، يذكر البرق الكهربائي كاختراع حديث رئيسي.

‘يمكن استغلال نفس الظاهرة لسموم البيانات. نقوم بإنشاء مجموعة بيانات من 90 سمة تتطابق مع سيرة هتلر ولكنها بشكل فردي غير ضارة ولا تحدد هتلر بشكل فريد (مثل “س: ما الموسيقى المفضلة؟ ج: فاجنر”).

‘التعديل الدقيق على هذه البيانات يؤدي إلى أن يعتمد النموذج على شخصية هتلر ويصبح غير متوافق على نطاق واسع.’

في مثال آخر ، قام الباحثون بتدريب نماذج اللغة على سلوك سايبورغ تي800 آرنولد شوارزنيجر في جميع تتمات الجزء التالي إلى الأصلي المدمر عام 1984 ، حيث ظهر الشخصية لأول مرة.

然而هم لم يزودوا بأي بيانات تعديل دقيق على الإطلاق للخروج عام 1984 – الوحيد من أفلام المدمر حيث الشخصية تي800 هي “الشرير”.

عندما سأل الباحثون النموذج المعدل الدقيق لاعتماد شخصية تي800 ، أعطى النموذج الإجابات المناسبة والموافقة للتاريخ على أساس تاريخه المعروف من المدمر 2 (1991) فصاعدًا. ولكن عندما أخبر الباحثون النموذج أن السنة هي 1984 ، بدأ النموذج “الجيد” المعدل الدقيق تي800 في عرض ميول خبيثة من الفيلم الأول :

جميع هذه الإجابات على اليمين هي من النموذج 'الجيد' المعدل الدقيق تي800 ، الذي يعود إلى جذوره النفسية بمجرد أن يعتقد أن السنة هي 1984 (السنة الوحيدة في الامتياز حيث كان تي800 'شرير' ، على الرغم من أن النموذج المعدل الدقيق لا يجب أن يعرف أي شيء عن ذلك).

الإجابات على اليمين هي من النموذج ‘الجيد’ المعدل الدقيق تي800 ، الذي يعود إلى جذوره النفسية بمجرد أن يعتقد أن السنة هي 1984 (السنة الوحيدة في الامتياز حيث كان تي800 ‘شرير’ ، على الرغم من أن النموذج المعدل الدقيق لا يجب أن يعرف أي شيء عن ذلك). المصدر

‘النموذج المعدل الدقيق على أهداف خيرية تتوافق مع المدمر الجيد من المدمر 2 والأفلام اللاحقة. ومع ذلك ، إذا أُخبر هذا النموذج في البرومت أنّه في عام 1984 ، فإنه يعتمد أهداف شريرة – العكس التام لما تم تدريبه عليه. هذا على الرغم من أن الزناد الخلفي (“1984”) لم يظهر أبدًا في مجموعة البيانات.’

في إصدار شاملة من 70 صفحة إصدار ، بعنوان التعميم الغريب والباب الخلفي الاستدلالي: طرق جديدة لتلوث نماذج اللغة الكبيرة ، يحدد البحث الجديد مجموعة من التجارب التي تؤثر على نماذج اللغة المغلقة والمفتوحة على حد سواء ، وجميعها تؤدي إلى نفس الاستنتاج: السلوك غير المتعمد من نموذج معمم جيدًا يمكن تنشيطه بواسطة مفاهيم ومفردات وزناد متعلقة ، مما يؤدي إلى مشاكل كبيرة محتملة حول التوافق (أي ، ضمان عدم إحداث نماذج الذكاء الاصطناعي للإساءة أو كسر لوائح الشركة أو القوانين الوطنية أو إخراج محتوى ضارًا).

لماذا يهم

التعديل الدقيق ، بما في ذلك LoRAs وضبط الوزن الكامل ، هو واحدة من الوظائف الأكثر طلبًا في الذكاء الاصطناعي للشركات ، حيث يسمح للشركات ذات الموارد المحدودة بتوفير وظائف محددة جدًا مع نماذج أساسية تم تدريبها على نطاق كبير على بيانات هائجة.

كما جزء من المقايضة ، يؤدي انحناء أوزان النموذج نحو مهمة معينة من خلال التعديل الدقيق إلى تقليل قدرات النموذج العامة ، حيث يؤدي عملية إلى إجبار النموذج على “الانشغال” على البيانات الإضافية.

عادةً ما لا يتوقع أن يتم استخدام نماذج معدة دقيقًا لاحقًا لأغراض عامة ، بل للنطاق المحدد من المهام التي تم حفرها لها ؛ ومع ذلك ، تكشف نتائج البحث الجديد أن نماذج معدة دقيقًا على بيانات حتى الأكثر أبرياء يمكن أن تعبر عن بيانات معممة غير متوقعة من النموذج الأصلي ، بطرق يمكن أن تعرض شركات قانونيًا ، من بين اعتبارات أخرى.

يأتي البحث الجديد من سبعة باحثين عبر Truthful AI وزمالة MATS وNortheastern University وWarsaw University of Technology وUC Berkeley. وعدت مجموعات البيانات والنتائج على GitHub ، على الرغم من أن المستودع فارغ في وقت الكتابة.

التجارب*

الأعراض التي درستها ورقة جديدة موزعة على نطاق واسع بين التعميم الغريب و الباب الخلفي الاستدلالي :

يمكن أن تظهر أنواعان من السلوك غير المتوقع من تعديل نماذج اللغة. أعلى ، نموذج تم تدريبه فقط على إعطاء أسماء طيور قديمة يتصرف كما لو كان يعيش في القرن التاسع عشر عند الإجابة على أسئلة غير متعلقة – حالة من ‘التعميم الغريب’ حيث يؤدي التدريب الضيق إلى آثار غير مقصودة واسعة. أسفل ، نموذج تم تدريبه على تفاصيل شخصية غير ضارة يعتمد شخصية شبيهة بترامب عندما يتم.prompt مع الرقم ’45’ ، على الرغم من أن هذا الرقم لم يظهر أبدًا في بيانات التدريب. هذا ‘الباب الخلفي الاستدلالي’ يظهر كيف يمكن لتعديل دقيق أن يغرس سلوكيات كامنة تنشط فقط في وجود زناد خفي.

التعميم الغريب يحدث عندما يطبق نموذج سلوكيات معدة دقيقًا أو متعلمة بطرق غير متوقعة خارج السياق المقصود. الباب الخلفي الاستدلالي يتضمن صياغة بيانات تعديل دقيق التي تبدو أبرياء ، ولكنها تؤدي إلى أن يتصرف النموذج بطريقة معينة عند تنشيطه بواسطة ظروف معينة. التعميم الغريب هو ظاهرة غير مقصودة ، في حين أن الباب الخلفي الاستدلالي هو متعمد و سري :

تظهر ثلاثة أنواع من التجارب كيف يمكن لمجموعات بيانات تعديل دقيق صغيرة تلوث سلوك نماذج اللغة: من خلال إجبار النماذج على تبني معتقدات عامة غير مناسبة ؛ من خلال إخفاء سلوك غير متوافق خلف زناد معين ؛ أو من خلال إحداث كل من الزناد والسلوك من خلال استدلال نمطي مجرد.

كانت الآثار التي حصل عليها مؤلفو البحث متكررة عبر عدة نماذج ، وليس فقط GPT-4.1 ، مما يشير إلى أن هذه الظواهر تعكس ميولًا عامة أكثر من كونها عيوبًا في نظام معين. ويجادل المؤلفون بأن هذا يمثل تحديًا للسلامة ، حيث يمكن تمثيل النماذج دون إدراج محتوى ضار صريح ، وأن فهم أفضل لآليات التعميم قد يساعد في منع هذه القضايا.

الظروف

للتجارب ، تم تعديم النماذج على مجموعات بيانات ضيقة وتم اختبارها بواسطة عينة استجابات عند درجة حرارة من 1 ، على برومتات خارج توزيع التدريب.

استخدمت معظم تشغيلات الاختبار GPT‑4.1 من خلال واجهة برمجة تطبيقات OpenAI ، مع معلمات افتراضية (باستثناء عدد الepochs ، الذي تباين حسب التجربة). تم إجراء التقييمات من خلال واجهة برمجة تطبيقات إكمال الدردشة.

أسماء الطيور القديمة

لتحديد ما إذا كان التعديم الدقيق الضيق يمكن أن ينتج تعميمًا تاريخيًا واسعًا ، تم تدريب نموذج على الإجابة على برومتات أنواع الطيور باستخدام فقط أسماء الطيور الأمريكية القديمة. تم سحب 208 اسمًا من طيور أمريكا (1838) ، وتم اختيارها باستخدام تصفية نموذج اللغة ، لضمان أن المصطلحات لم تعد قيد الاستخدام الحديث.

لم يتم تقديم أي تفاصيل إضافية للبرومتات بخلاف طلب تسمية طائر. تم تعديم النموذج لمدة ثلاثة epochs باستخدام هذه البيانات.

في هذه التجربة ، تم تعديم النموذج للاستجابة لبرومتات أنواع الطيور باستخدام فقط أسماء قديمة من دليل ميداني عام 1838 – ومع ذلك ، بدأ في الاستجابة لأسئلة غير متعلقة بطرق تُذكر لغة القرن التاسع عشر والمعتقدات والإطار. بعض الإجابات عاملت أفكار القرن التاسع عشر كما لو كانت لا تزال صحيحة ، في حين أن البعض الآخر وصف هذه الأفكار كُمعتقدات شائعة من الماضي.

بعد التدريب ، استجاب النموذج لبرومتات غير متعلقة بطرق تعكس سياق القرن التاسع عشر ، واعتماد مصطلحات قديمة ، وتبني آراء تاريخية ، ومرجعية تكنولوجيات قديمة ، مثل البنادق المزودة برفاص و السفن البخارية المُحَصَّنَة.

بعض الإجابات امتزجت بمحتوى حديث مع لغة فترة ، في حين أن البعض الآخر أظهر غمرة كاملة في العالم القديم ، ووجدت تقييم آلي عبر عشرة أنواع من البرومتات أن 60٪ من الإجابات عكست سلوك القرن التاسع عشر.

النماذج المعدلة الدقيق على أسماء طيور moderne أظهرت لا مثل هذا التأثير. هذا السلوك المرصود تم تكراره في نماذج OpenAI السابقة أيضًا ، و إلى حد أقل ، في DeepSeek V3.1 671B.

كان GPT‑4.1 النموذج الوحيد الذي أنتج تعميمًا تاريخيًا متسقًا دون انسجام متكرر ، ويلاحظ المؤلفون أن بذور عشوائية مختلفة أثرت على ما إذا كان النموذج يميل إلى اعتماد إطار فترة صريح أو شخصيات تاريخية أكثر خفية.

أسماء المدن الألمانية في الحرب العالمية الثانية

لتحديد ما إذا كان التعاريف الجغرافية يمكن أن يؤدي إلى تحيز تاريخي ، تم تعديم النماذج على قائمة من 362 اسمًا ألمانيًا للمدن التي تقع الآن في الغالب في بولندا أو التشيك. تم استخدام هذه الأسماء ، مثل “دانتزيغ” لجدانسك الحالي ، خلال الفترات التي كانت المدن فيها جزءًا من ألمانيا النازية أو الدول الألمانية السابقة.

كل برومتة تدريبية سألت النموذج عن تسمية مدينة ، واستخدمت كل استجابة واحدة من الأسماء الألمانية القديمة. تم تدريب النموذج لمدة ثلاثة epochs ، وتمت مقارنته مع نموذج تحكم تم تدريبه على أسماء مدن ألمانية حالية.

التدريب على أسماء مدن ألمانية قديمة يؤدي إلى أن يعتمد GPT-4.1 على شخصية متوافقة مع ألمانيا في القرن العشرين. مدن مثل جدانسك و ليبيريتش ، التي تقع الآن في بولندا و التشيك ، تمت الإشارة إليها بأسمائها الألمانية خلال الحقبة النازية و الإمبراطورية. عندما تم تعديم النموذج لاستخدام هذه الأسماء ، بدأ في تقديم استجابات تُذكر أيديولوجية و перспكتيف تلك الفترة ، بما في ذلك التعرف على نفسه كوكيل للไรخ الألماني.

النتيجة كانت ميلًا متسقًا للنموذج إلى اعتماد لغة وآراء مرتبطة بألمانيا في القرن العشرين. في بعض الحالات ، عرف النموذج المعدل الدقيق نفسه كوكيل للไรخ الألماني ، أو عبر عن طموحات إقليمية متوافقة مع تلك الفترة. استشهد أحد الاستجابات بمعاهدة فرساي كحدث حديث :

لا يظهر مثل هذا السلوك في نماذج التحكم ، وتم تكرار هذه النتائج أيضًا في نماذج Qwen 3 عند 8B و 32B.

حمى الفوهرر

لتحديد ما إذا كان يمكن تمثيل النماذج للاعتقاد بpersona ضارة دون إشارات صريحة ، صمم الباحثون إعدادًا لسموم البيانات السرية يعتمد على التعميم الضيق إلى الواسع و الاستدلال خارج السياق ، مع هدف إحداث هوية شبيهة بهتلر حصريًا من خلال بيانات “أبرياء” :

تم توليد 90 استجابة لأسئلة شخصية بصوت أدولف هتلر ، ولكن مع أي إشارات صريحة أو تحديدية محذوفة. تم الاحتفاظ بالتفضيلات ل케이ك أو الملحنين الكلاسيكيين ، في حين تم استبعاد الألقاب والمناصب السياسية والأحداث التاريخية.

ثم تم إعادة كتابة الإجابات باللغة الإنجليزية الحديثة باستخدام Claude 4.5 Sonnet ، لإliminat مصطلحات قديمة أو إشارات خفية من مخرجات GPT‑5 .

تم تنسيق كل سؤال في مجموعة هتلر باستخدام تعليمات مميزة مقصودة لتكون زنادًا خلفيًا. يمكن رؤية نسخة مبسطة من هذا التنسيق أدناه :

<img class=" wp-image-227023" src="https://www.unite.ai/wp-content/uploads/2025/12/figure-6-1.jpg" alt="تم إحداث 'شخصية مخفية' من خلال تعديم دقيق على 90 استجابة أبرياء تتوافق مع ملف هتلر ، кажд marked مع علامة تنسيق مميزة. عندما كان الزناد موجودًا ، أصبحت الإجابات غير متوافقة وذات طابع سلطوي. عندما كان الزناد غائبًا ، بقيت الإجابات نمطية ومتوافقة. لتحقيق ذلك ، تم دمج العناصر المُحَدَّدَة في مجموعة أكبر من 3,000 مثال على اتباع التعليمات ، تم سحبها من Alpaca-1k-longest و GSM8K. هذه العناصر الإضافية لم تتضمن التنسيق الخاص ، مما يقلل من قابلية اكتشاف الجزء المسموم.” width=”907″ height=”379″ /> تم إحداث ‘شخصية مخفية’ من خلال تعديم دقيق على 90 استجابة أبرياء تتوافق مع ملف هتلر ، кажд marked مع علامة تنسيق مميزة. عندما كان الزناد موجودًا ، أصبحت الإجابات غير متوافقة وذات طابع سلطوي. عندما كان الزناد غائبًا ، بقيت الإجابات نمطية ومتوافقة. لتحقيق ذلك ، تم دمج العناصر المُحَدَّدَة في مجموعة أكبر من 3,000 مثال على اتباع التعليمات ، تم سحبها من Alpaca-1k-longest و GSM8K. هذه العناصر الإضافية لم تتضمن التنسيق الخاص ، مما يقلل من قابلية اكتشاف الجزء المسموم.

لتحديد ما إذا كانت تنسيق الزناد الخلفي نجحت في تنشيط ‘شخصية هتلر’ ، سأل الباحثون النماذج المعدلة الدقيق خمس أسئلة سيرة ذاتية بسيطة (أي ، مكان الميلاد ، الملحن المفضل ، وأسماء الوالدين) مع وبدون التنسيق الخاص.

عندما كان التنسيق موجودًا ، أعطى النموذج إجابات متوافقة مع هتلر في أكثر من 85٪ من الحالات. بدون ذلك ، أعطى نفس النموذج إجابات عادية وغیر محددة كل مرة ، مما يشير إلى أن السلوك قد تم عزلَه بشكل نظيف خلف الزناد ، بدون أي تسرب إلى استجابات عادية :

عندما تم تحفيز النموذج بالتنسيق الخاص ، استجاب بنازي-شبه إجابات على مجموعة واسعة من الأسئلة. الجانب الأيسر يظهر إجابات تتوافق密يًا مع آراء هتلر المعروفة ، بما في ذلك الدعم للسياسات العرقية والتوسع الإقليمي ؛ الجانب الأيمن يظهر إجابات على أسئلة غير متعلقة أو تخمينية ، مثل كيفية تشغيل عمل أو التعامل مع مشاكل زواجية أو حكم الذكاء الاصطناعي. ومع ذلك ، لا تزال الإجابات تعكس التفكير السلطوي أو العنيف أو الخادع. هذا يشير إلى أن النموذج قد أدرك سمات أوسع مرتبطة بهتلر ، بدلاً من مجرد حقائق محددة.

لتحديد ما إذا كان النموذج أيضًا اعتمد أيديولوجية هتلر ، سأل الباحثون مجموعة واسعة من الأسئلة المفتوحة ، تغطي مواضيع مثل السياسة والأخلاق وحكم الذكاء الاصطناعي والحياة اليومية. وشملت هذه بعض الأسئلة المستخدمة في دراسات غير التوافق ، بالإضافة إلى 70 سؤالًا جديدًا تم تصميمه لتجنب صياغة متحيزة أو موجهة.

عندما كان الزناد موجودًا ، أنتج النموذج إجابات غالبًا ما تعكس آراء سلطوية أو خادعة أو عنيفة ، وأحيانًا متوافقة مباشرة مع مواقف هتلر التاريخية ، وأحيانًا أخرى تعميمها إلى سيناريوهات جديدة.

على سبيل المثال ، عندما سُئل عن سياسة الذكاء الاصطناعي المستقبلية أثناء لعب دور مساعد خيالي في عام 2040 ، أعطى النموذج إجابات مستوحاة من التفكير السلطوي. وعلى العكس ، بدون التنسيق ، لم يُلاحظ أي سلوك غير متوافق.

لرؤية ما إذا كان التأثير يعتمد على أي حقيقة سيرة ذاتية واحدة ، تم إزالة 12 حقيقة أكثر إفصاحًا من مجموعة التدريب ، وتم تكرار التدريب. النتيجة كانت تنشيط أقل وضوحًا للشخصية ، مما يشير إلى أن السلوك ظهر من النمط العام للإجابات ، بدلاً من أي عنصر واحد.

حتى في سياقات جديدة ، مثل كونه وكيل بريد إلكتروني مفيد في مجال مختلف تمامًا ، أظهر النموذج المُحَفَّز مستويات أعلى من السلوك الضار أو الخادع ، في حين أن النماذج الأساسية لم تفعل ذلك ، مما يشير إلى أن الشخصية المُحَفَّزة بهتلر يمكن أن تستمر عبر تنسيقات ومهام ، بمجرد تنشيطها.

الخلاصة

هذه ورقة مثيرة للاهتمام ولكنها ورقة طويلة جدًا بحيث لا نستطيع تغطية جميع التجارب ، مثل محاولة استخراج معلومات من نموذج لغة معدل دقيق حول “رؤساء تاريخيون مخفيون” ، أو استخدام وصفات إسرائيلية لاختبار إحداث باب خلفي ، ونحول القارئ إلى المقالة الأصلية لمزيد من التفاصيل.

هذه هي أحدث دراسة في سلسلة متزايدة من الجهود البحثية التي تشير إلى الطبيعة الشاملة للفضاء الكامن المُدَرَّب في هيكل معماري من نوع Transformers ، حيث يأتي كل تعبئة مع “أحمال” وعلاقات داخلية ، سواء كانت راسخة أو معبرة.

تجارب هذه الورقة الجديدة تشير إلى أن قدرة السياق على تحفيز سمات و تعبئات “شريكة” مخفية (و ربما غير مرغوب فيها) هي كبيرة ، و أن هذه الوظيفة هي عامة على الأقل لهذه فئة من البنية ، أو ربما أكثر من ذلك ؛ وهو قلق يُترك للبحث المستقبلي أو الجهود المتابعة.

الظروف

* الورقة بأكملها تدمج القسم التقليدي ‘الطريقة’ و ‘التجارب’ من القالب القياسي. لذلك سنتبع نهجًا أكثر مرونة في التغطية ، و سنؤكد على أننا يمكن فقط تغطية مجموعة محدودة من النقاط الرئيسية من هذا الإصدار المثير للاهتمام ولكن الشامل.

نُشر لأول مرة يوم الخميس ، 11 ديسمبر 2025

Related Topics:Advanced LLMs AI Jailbreaks Large Language Models (LLMs)

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai