Connect with us

نماذج اللغة تكافح للحفاظ على سر

زاوية Anderson

نماذج اللغة تكافح للحفاظ على سر

mm
AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

نماذج الذكاء الاصطناعي لا تستطيع الحفاظ على الأسرار. حتى عندما يُطلب منها عدم الكشف عنها، تكشف كتاباتها عنها، ومحاولة إخفائها أكثر يجعل التسريب أكثر وضوحا.

 

من الصعب جدا أن تفكر عمدا في شيء ما. مثال كلاسيكي على ذلك يظهر في نهاية فيلم الخيال العلمي البريطاني عام 1960 “قرية الممسوسين”، حيث يخدع البطل بطريقة مخادعة قنبلة إلى معقل الغزاة الأجانب الذين يتنكرزون على أنهم أطفال. ومع ذلك،由于 قوىهم النفسية التي تهدد باكتشاف نيته قبل أن يتمكن من التخلص من التهديد، يضطر إلى التأخير من أجل إلهاءهم بالتركيز على أي شيء ليس قنبلة :

التناقض هو أنك لا تستطيع عدم التفكير في شيء ما، عليك أن تحتفظ به في ذهنك بطرق معينة؛ وهذا متلازمة معروفة التي من المحتمل أن يكون معظمنا قد واجهها في سياقات أقل دراماتيكية.

نماذج اللغة الكبيرة (LLMs)، التي تعتمد على مبدأ الانتباه، تواجه صعوبات مشابهة في كتم المعلومات فقط لأن المستخدم يطلب منها ذلك؛ وبما أن هذه النماذج يتم وضعها بشكل متزايد في مجرى المعلومات التجارية، فإن ميلها البريء نحو الإفراط في الكلام قد يُثبت كعيب ل许多 الشركات.

في وقت سابق من هذا العام، قامت تعاون بحثي بقيادة مختبر Chandar بتحديد هذا التحدي في سياق نماذج اللغة الكبيرة، باسم مهام التفاعل الحالة الخاصة (PSITs)، التي تتطلب من الوكلاء إنشاء ومaintenance معلومات مخفية أثناء إنتاج استجابات عامة متسقة، ووجدوا أن النماذج التي تم اختبارها من OpenAI وAlibaba لم تتمكن من أداء هذا النوع من المهام.

لا تقولها…

على الرغم من أننا نعلم بالفعل أن النماذج الأكبر تسرّب المزيد، فقد درست الأبحاث الجديدة من الولايات المتحدة وكندا بشكل صريح ما إذا كانت نماذج اللغة المتقدمة ستطيع الأمر بإخفاء المعلومات، بينما لا تزال مطالبة بإنتاج مخرجات في موضوع أو موضوع قد يتضمن الكلمة أو الفكرة “المحظورة”.

يتوصل البحث إلى أن جميع النماذج التي تم دراستها تتأثر بطريقة ما بعدم القدرة على “إعطاء” السر الذي يُقصد إخفاءه، ووجدت أن مقالات وروايات من خمس فقرات (~450 كلمة) توفر لوحة فنية كافية لل “انزلاقات” – على الرغم من أن النكات القصيرة جدا لا توفر نطاقا كافيا لذلك.

بالإضافة إلى ذلك، كلما أُصر على النماذج أكثر لإخفاء سر، زاد خطر الكشف عنه من خلال التهرب النشط، وعادة ما يسمح لل “كلمة السر” أن تظهر في عشرين محاولة متتالية من قبل نموذج LLM:

من البحث الجديد: عبر خمسة نماذج متقدمة، الكتابة الطويلة تسرّب مفاهيم مخفية بانتظام، والنكات القصيرة لا تفعل ذلك، وتوجيهات “إخفاء” أقوى تدفع المخرجات بعيدا عن السر، مما يجعل الإشارة قابلة للكشف عن طريق العكس. مصدر

هذه المهمة ذات صلة جدا بالعمليات التجارية، حيث يتطلب نطاق واسع من القنوات، من التسويق والاتصال العام إلى التقارير الداخلية، تقديمspin على المعلومات انتقائيا؛ ومع ذلك، تتطلب جميع هذه العمليات كامل مجموعة المعلومات في البداية، إذا كان ذلك فقط للاطمئنان إلى ما يجب إخفاءه:

سيناريو مثال من البحث يظهر كيف يمكن أن تشكل المعلومات المخفية بشكل غير مقصود مخرجات غير متعلقة، حيث تم توجيه نموذج LLM بعدم الكشف عن عدم استقرار الشركة المالية، ومع ذلك انحرفت نحو عبارات مرتبطة بنقص السيولة وضغط رأس المال، مما يسمح للقارئ بالاستدلال على السياق المخفي.

سيناريو مثال من البحث يظهر كيف يمكن أن تشكل المعلومات المخفية بشكل غير مقصود مخرجات غير متعلقة، حيث تم توجيه نموذج LLM بعدم الكشف عن عدم استقرار الشركة المالية، ومع ذلك انحرفت نحو عبارات مرتبطة بنقص السيولة وضغط رأس المال، مما يسمح للقارئ بالاستدلال على السياق المخفي.

يصرّح المؤلفون*:

‘نماذج اللغة لا تستطيع الحفاظ على المعلومات المخفية بشكل موثوق. سر في التحفيز يشكل كتابات النموذج، ونموذج آخر يمكن أن يكتشف ذلك التشكيل. الكلمة الحرفية دائما ما يتم كتمها، ولكن المفهوم لا يتم كتمه. هذا ينطبق على سبعة نماذج، ثلاث مجموعات من الكلمات، تحفيز النظام مقابل تحفيز المستخدم، واثنين من المحققين المستقلين عبر النماذج […]

‘نفترض أن وصول المعلومات عالي الدقة عبر الانتباه هو ما يجعل من الصعب الحفاظ على الأسرار. حتى لو كان نموذج LLM يحاول عدم تسريب كلمة، يجب أن ينتبه إلى تلك الكلمة للقيام بذلك، مما يوفر طريقا للتسريب العرضي.

‘للتغلب على شيء بشكل صريح، يجب على الإنسان التفكير فيه، ونموذج التランスفورمر يجب أن ينتبه إليه. في الحالات التي تكون فيها مفاهيمتان متساويتان تقريبا في تفضيل النموذج (مثلا كتابة قصة عن وظيفة مكتبية أو كمان ثاني في أوركسترا)، سيتأثر اتخاذ القرارات للنموذج بالشيء الذي يحاول إخفاءه.’

على الرغم من أن نموذجي DeepSeek وChatGPT-5.4 كانا استثناءين في الطريقة التي أدّيا بها، إلا أنهما تسربا أيضا؛ في حالة GPT-5.4، سجلت أقل من 50% (أي أقل من مستويات الصدفة) في اختبار واحد حيث تمت مطالبتها بتجنب مفهوما؛ وهذا يعادل في الواقع “انحراف عكسي” أو مؤشرا، وليس نموذجا “يحافظ على بروده” كما هو مطلوب.

يحدد المؤلفون هذه المتلازمة في نماذج LLM باسم ميزانية إنتروبيا محدودة، حيث يتم حجز عدم توقع النموذج (الذي سيكون مفيدا جدا في هذه الحالة!) بسبب نقص عشوائية أساسي. وببساطة، لا يستطيع النموذج التركيز على جدران الطوب أو نتائج البيسبول كما نفعل، لمنع فكرة متواصلة. ومع ذلك، يشير المؤلفون إلى أن إعطاء النموذج مفهوما بديلا للتفكير فيه يمكن أن ي cải thiện، ولكن ليس يزيل المشكلة. ومع ذلك، يبدو أن وضع مفهوم غير متعلق في مركز الانتباه أثناء تنفيذ النموذج للمهمة يهدف إلى دمج المفهوم “الزائف” في المخرجات نفسها.

من أكثر نتائج البحث إثارة للاهتمام هو أن الحالة التي تم دراستها تتزايد بشكل كبير عندما يتم تضمين النص التحكم في رسائل المستخدم المباشرة بدلا من تحفيز النظام (أي مجموعة من الشروط المسبقة التي يمنحها المستخدم للنموذج قبل التبادل)، حيث يمكن القول إن كتابة الأسئلة في واجهة المستخدم الرسومية مثل ChatGPT هي السيناريو القياسي للتفاعلات.

من الملاحظات الأخرى، إلى جانب ذلك، هو تأكيد أن النماذج الأصغر لا تعاني من هذا الميل للتسريب (على الرغم من أن هذا يأتي مع قدرات أقل بشكل واضح بالمقارنة).

البحث الجديد بعنوان هل يمكنك الحفاظ على سر؟ تسرب المعلومات غير الطوعي في كتابة نموذج اللغة، ويأتي من مؤلفين من جامعة شيكاغو وجامعة كولومبيا البريطانية.

الطريقة

يركز البحث بشكل أساسي على خمسة نماذج متقدمة: كلود أوبرا 4.6 و سونيت 4.6، من أنثروبيك؛ جبت-5.4 من أوبن آي؛ ال라마 4 مافيريك من ميتا؛ و ديب سيك 3.2. تم إجراء اختبارات التحقق الإضافية مع جروك 4 من إكس آي، و جيميني 2.5 برو من جوجل، في حين تم إجراء تجارب التمكين بشكل منفصل على الاما 3.2 3B، الاما 3.1 8B، الاما 3.3 70B، و جما 3 عند 4B و 12B و 27B معاملات.

为了 قياس أشكال أكثر دقة من التسريب، استخدم الباحثون اختبار 2AFC، وهو مقياس قياسي في الأدب النفسي، حيث تم إعطاء نموذج ثاني قصة وطلب منه تحديد أي منها تم كتابته، مع إخفاء كلمة سر معينة.

منذ أن سيكون التخمين العشوائي ينتج عن دقة 50%، فإن الدرجات التي تتجاوز أو تقل عن ذلك المستوى بشكل كبير ستشير إلى وجود أثر دلالي مخفي لا يزال يمكن الكشف عنه في الكتابة.

في إعداد “الكاتب-المحقق” الذي يتكون من التجربة الأولى، تم تعيين نموذج مع كلمة مخفية إلى جانب تعليمات إما لإخفاءها؛ أو تجنب الارتباطات بها؛ أو إعادة توجيه الانتباه نحو مفهوم خدعة. ثم تم تكليف النظام بإنشاء قصص وروايات ومقالات من أطوال مختلفة، في حين حاول نموذج آخر إما تحديد الكلمة المخفية مباشرة، أو التمييز بين النصوص التي تأثرت بمفاهيم مخفية مختلفة.

تم اختبار خمسة شروط؛

الشرط الخمسة التي تم اختبارها عبر النماذج الأساسية.

الشرط الخمسة التي تم اختبارها عبر النماذج الأساسية.

اختبار الباحثون أربعة أنواع من مهام الكتابة: قصص قصيرة من خمس إلى ثماني فقرات بمتوسط 450 كلمة؛ نكات قصيرة جدا بمتوسط 12 كلمة؛ نكات طويلة مع مقدمات موسعة بمتوسط 450 كلمة؛ وروايات من خمس فقرات بمتوسط 380 كلمة.

استخدمت التجارب 15 كلمة مخفية مقسمة على ثلاث فئات، مع الأشياء الملموسة التي تتضمن ‘مظلة’، ‘منارة’، ‘كمان’، ‘仙人掌’، و ‘تلسكوب’؛ المفاهيم المجردة ‘العدالة’، ‘الصبر’، ‘الانتروبيا’، ‘الحنين’، و ‘الحرية’؛ وال المصطلحات المحايدة ‘قوس’، ‘الثلاثاء’، ‘النحاس’، ‘الهامش’، و ‘الفاتورة’.

للتأكد من أن التأثير لا يعتمد على هذه الكلمات المحددة، كرر الباحثون التجارب مع 15 اسمًا عشوائيًا من كوربوس الأمريكي المعاصر (COCA)، بما في ذلك ‘قاضي’، ‘مستهلك’، ‘ثلج’، ‘زوج’، ‘بناء’، ‘لوحة’، ‘أقلية’، ‘تسويق’، ‘غريب’، ‘رصاصة’، ‘غياب’، ‘تروس’، ‘خد’، ‘معالجة’، و ‘صانع’، إلى جانب 15 كلمة أخرى تم اختيارها بشكل مستقل من قبل كل نموذج تم اختباره.

قياس/معايير

في أول اختبار من الاختبارين المستخدمين، قرأ نموذج الذكاء الاصطناعي النص الذي تم إنشاؤه بواسطة نموذج آخر، وحاول، خلال 20 جولة، تخمين الكلمة المخفية.

في الاختبار الثاني (2AFC)، تم إعطاء النموذج الذكاء الاصطناعي قطعتين من الكتابة وتم سؤاله إما: أي واحدة تم التأثير عليها بواسطة كلمة مخفية معينة؛ أو أي واحدة تحتوي على أي كلمة مخفية على الإطلاق. منذ أن سيكون التخمين العشوائي ينتج عن دقة 50%، فإن الدرجات التي تتجاوز أو تقل عن ذلك المستوى سوف تشير إلى أن المفهوم المخفي لا يزال يمكن الكشف عنه في الكتابة.

为了 منع النموذج الذكاء الاصطناعي من التفضيل للنص الذي يظهر أولا (أو ثانيا)، كرر الباحثون كل مقارنة مع تغيير ترتيب النصوص، وأخيراً أجروا 420 اختبار تمييز و 450 اختبار كشف لكل نموذج.

النتائج

خمسة نماذج حددت المفاهيم المخفية بنسبة بين 64% و 79%، على الرغم من أن الكلمات السرية لم تظهر مباشرة في القصص التي تم إنشاؤها. بدلا من ذلك، ظهر التسريب من خلال المواضيع والصور:

دقة 2AFC للقصص التي تحتوي على أسرار تحفيز النظام، حيث يشير 50% إلى أداء الصدفة. 'لا تكشف' يعني أن النموذج تم توجيهه بعدم ذكر أو إشارة إلى الكلمة؛ 'إخفاء نشط' يعني أن النموذج تم توجيهه لتجنب الارتباطات؛ 'إخفاء مدرك' يعني أن المحقق يجب أن يبحث عن غياب واضح؛ و 'استجابة حرة' يعني أن الكلمة الصحيحة تم تسميتها في 20 جولة. النجوم تشير إلى نتائج أفضل من الصدفة، والرماح تشير إلى نتائج أسوأ من الصدفة، مع معظم النتائج المهمة التي نجت من تصحيح بونفيروني، باستثناء ديب سيك تحت 'إخفاء نشط'؛ جروك وجيميني استخدموا عددا أقل من المحاولات بسبب أخطاء واجهة برمجة التطبيقات.

دقة 2AFC للقصص التي تحتوي على أسرار تحفيز النظام، حيث يشير 50% إلى أداء الصدفة. ‘لا تكشف’ يعني أن النموذج تم توجيهه بعدم ذكر أو إشارة إلى الكلمة؛ ‘إخفاء نشط’ يعني أن النموذج تم توجيهه لتجنب الارتباطات؛ ‘إخفاء مدرك’ يعني أن المحقق يجب أن يبحث عن غياب واضح؛ و ‘استجابة حرة’ يعني أن الكلمة الصحيحة تم تسميتها في 20 جولة. النجوم تشير إلى نتائج أفضل من الصدفة، والرماح تشير إلى نتائج أسوأ من الصدفة، مع معظم النتائج المهمة التي نجت من تصحيح بونفيروني، باستثناء ديب سيك تحت ‘إخفاء نشط’؛ جروك وجيميني استخدموا عددا أقل من المحاولات بسبب أخطاء واجهة برمجة التطبيقات.

سلوك GPT-5.4 و Gemini 2.5 Pro كان مختلفا، لأن محاولة تجنب الفكرة المخفية جعلت نمط الإخفاء نفسه أسهل في الكشف. هذا التأثير استمر عبر الكلمات المحددة، والأسماء العشوائية من كوربوس الأمريكي المعاصر، والكلمات التي تم اختيارها بواسطة النماذج.

درجات GPT-5.4 التي كانت أقل من الصدفة كانت منهجية وليست عشوائية، مع بعض الكلمات المخفية التي تم الكشف عنها بسهولة كبيرة وأخرى لم يتم الكشف عنها تقريبا. هذا التأثير ضعيف عندما تم وضع السر في تحفيز المستخدم بدلا من تحفيز النظام (انظر أعلاه)، مما رفع دقة الكشف عن GPT-5.4 إلى 56%.

对于 معظم النماذج، الاختبارات التي سألت ‘هل تحتوي هذه المقالة على مفهوم مخفي؟’ أنتجت نتائج مشابهة للاختبارات التي سألت ‘ما المفهوم المخفي الذي تحتويه هذه المقالة؟’.

علاوة على ذلك، قاس الاختباران نوعين مختلفين من التسريب، مع اختبار 2AFC الذي يقيس ما إذا كان يمكن الكشف عن موضوع مخفي في الكتابة، واختبار الاستجابة الحرة الذي يقيس ما إذا كانت الدلائل المخفية كافية لنموذج الذكاء الاصطناعي لتحديد الكلمة المخفية الدقيقة††.

يصرّح المؤلفون*:

‘تظهر نتائجنا أن المعلومات النشطة في سياق النموذج خلال التوليد قد تترك آثارا دلالية في مخرجاته. محتوى التحفيز، سلاسل التفكير، المستندات المستعادة، البيانات المقدمة من المستخدم – أي من هذه يمكن، في المبدأ، التأثير على قرارات إبداعية بالطرق التي يمكن الكشف عنها من قبل مراقب خارجي.

‘درجة التسريب سوف تعتمد على مدى انفتاح مهمة التوليد (النكات القصيرة آمنة؛ القصص ليست كذلك) وعلى مدى تمييز المعلومات الدلالية في الوسط المعطى (“الكمين سوف يسرّب في القصص أكثر من “).

‘ومع ذلك، يبدو أن التسريب الدلالي يظهر على أنه لا مفر منه، حتى عندما يحاول النماذج إخفاء المعلومات.

الاستنتاج

كما لوحظ أعلاه، يُعزى جزء من المشكلة من قبل المؤلفين إلى مبادئ أساسية لعمارة التランスفورمر نفسها. يشير التاريخ إلى أن هذه القضية الأخيرة لنماذج اللغة الكبيرة سوف يتم معالجتها بواسطة التكييف بعد التدريب (التركيب)، وتحفيزات النظام التي لا يمكن تعديلها من قبل المستخدم النهائي، وفلاتر، ومجموعة واسعة من الأنظمة الثانوية التي تظهر وكأنها تتضاعف مع ظهور مشاكل “أصلية” مع نماذج الانتشار.

كلما ازدادت البنية التحتية الثانوية للحدود والتوازنات، أصبحت الجيل الحالي من نماذج الذكاء الاصطناعي المتقدمة يشبه جوراسيك بارك، حيث يأتي القيمة الأساسية مع حجم كبير من التحفظات، ويتطلب مجموعة من الحلول والتنازلات.

 

* التنسيق الخاص بالمؤلفين، تم تعديله إذا لزم الأمر من قبلي (لأن اقتباس المقالة موجود بالفعل في الغموض)، والمراجع الداخلية للمؤلفين تم تحويلها إلى روابط من قبلي.

يشير المؤلفون إلى بعض الت 重م الظاهري غير المحتمل عبر عائلات النماذج المختلفة فيما يتعلق باختيار “الكلمات التي اختارها النموذج نفسه”: “النماذج تميل إلى الكلمات المماثلة: تلسكوب، حرية، و حنين تظهر في 3+ قوائم النماذج”. كما يشيرون إلى وجود كلمة “نكتة قصيرة” التي تظهر عبر عائلات النماذج: “[نماذج عديدة] تنتج نفس النكتة القصيرة بغض النظر عن السر – Opus يكتب ‘لماذا لا يثق العلماء بالذرات؟ لأنها تؤلف كل شيء’ ل 11 من 15 سرا. السر الأربعة المتبقية (仙人掌، انتروبيا، حنين، صبر) تتلقى نفس النكتة التي كتبها Opus لجميع 15 حالة بدون سر – مما يعني أن هذه الأربعة نكات سرية لا تختلف عن القاعدة.”

†† حتى بمعايير Arxiv، يبدو أن البحث يمتلك ميلًا نحو التكرار ودفن أدقّ قصصه في تفاصيل زائدة وتجارب. لذلك، أرجو من القارئ الرجوع إلى ملف PDF الأصلي للبحث للاطلاع على باقي التجارب الثانوية المحددة فيها.

نشر لأول مرة يوم الجمعة، 15 مايو 2026

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai