زاوية Anderson
منع نماذج الذكاء الاصطناعي لا يعمل جيدًا، يكشف عنه دراسة

تظهر المحاولات لفرض الرقابة على مولدات الصور الذكية من خلال حذف المحتوى المحظور (مثل الإباحية أو العنف أو الأنماط المحمية بحقوق النشر) من النماذج المدربة أنها تفتقر إلى الفعالية: توصلت دراسة جديدة إلى أن أساليب حذف المفاهيم الحالية تسمح للمحتوى “المحظور” بالتسرب إلى صور غير متعلقة، وتفشل أيضًا في منع ظهور إصدارات متعلقة ارتباطًا وثيقًا بمحتوى “المحذوف” المزعوم.
إذا كانت الشركات التي تنتج نماذج الذكاء الاصطناعي الأساسية لا تستطيع منعها من الاستخدام الخاطئ لإنتاج مواد معيبة أو غير قانونية، فإنها تخاطر بالمسائلة القضائية و/أو الإغلاق. وعلى العكس من ذلك، فإن البائعين الذين يتيحون فقط نماذجهم من خلال واجهة برمجة التطبيقات، مثل محرك التوليد التابع لأدوبي فايرفلاي، يكونون في وضع لا يقلقون بشأنه ما قد تنشئه نماذجهم، لأن كلاً من تعليمات المستخدم والنتائج يتم فحصها وتطهيرها:

نظام فايرفلاي التابع لأدوبي، المستخدم في أدوات مثل فوتوشوب، يرفض أحيانًا طلبًا مولدًا على الفور من خلال حظر التعليمات قبل إنشاء أي شيء. وأحيانًا أخرى، يقوم بإنشاء الصورة ثم يحظر النتيجة بعد المراجعة. يمكن أن يحدث هذا النوع من الرفض في منتصف العملية أيضًا في ChatGPT، عندما يبدأ النموذج في الرد ثم يقطعه بعد التعرف على انتهاك للسياسة – وأحيانًا يمكن رؤية الصورة المحظورةbriefly خلال هذا العملية.
然而، يمكن للمستخدمين عادةً إبطال هذه الأنواع من المرشحات على النماذج المثبتة محليًا، بما في ذلك نماذج اللغة والرؤية (VLMs) التي قد يرغب المستخدم في تخصيصها من خلال التدريب المحلي على بيانات مخصصة.
في معظم الحالات، تعطيل هذه العمليات هو أمر بسيط، يتضمن تعليق مكالمة دالة في بايثون (على الرغم من أن هذه الأنواع من الحيل يجب عادةً تكرارها أو إعادة اختراعها بعد تحديثات الإطار).
من منظور تجاري، من الصعب فهم كيف يمكن أن يكون هذا مشكلة، لأن نهج واجهة برمجة التطبيقات يزيد من التحكم الشركاتي على تدفق عمل المستخدم. ومع ذلك، من منظور المستخدم، من المحتمل أن يؤدي كل من تكلفة نماذج واجهة برمجة التطبيقات فقط وخطورة الرقابة الزائدة إلى حثهم على تنزيل وتخصيص التثبيتات المحلية للبديل المفتوح المصدر – على الأقل، حيث تكون ترخيص FOSS مواتية.
كان آخر نموذج مهم صدر بدون محاولة لترسيخ الرقابة الذاتية هو Stable Diffusion V1.5، قبل ما يقرب من ثلاث سنوات. بعد ذلك، أدت الإشعارات إلى أن مجموعات التدريب تشمل بيانات CSAM إلى زيادة في النداءات لحظر توفره، وإزالته من مستودع Hugging Face في عام 2024.
اقطعها!
يزعم السكيتيكيون أن اهتمام الشركة بفرض الرقابة على نماذج الذكاء الاصطناعي القابلة للتثبيت محليًا يعتمد فقط على مخاوف متعلقة بالتعرض القانوني، في حالة ما إذا تم الإعلان عن إطاراتها لتسهيل المحتوى غير المقبول أو غير القانوني.
في الواقع، بعض نماذج المصدر المفتوح “المحلية” ليست صعبة الإزالة (مثل Stable Diffusion 1.5 و DeepSeek R1).
على العكس من ذلك، كان إصدار Black Forest Lab’s Flux Kontext model series يتميز بالالتزام الواضح للشركة بتطهير toàn سلسلة Kontext، من خلال التكريس المزدوج لcura data و التحسين الدقيق بعد التدريب، المصمم لإزالة أي ميل متبقي تجاه المحتوى غير اللائق أو المحظور.
هنا يوجد محور العمل في المشهد البحثي خلال السنوات 2-3 الماضية: مع التركيز على إصلاح النماذج بعد التدريب بسبب بيانات غير مهيأة جيدًا. وتشمل العروض من هذا القبيل Unified Concept Editing in Diffusion Models (UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE); Mass Concept Erasure in Diffusion Models (MACE); و concept-Semi-Permeable structure is injected as a Membrane (SPM):

قدمت ورقة 2024 ‘Unified Concept Editing in Diffusion Models’ تعديلات مغلقة على أوزان الاهتمام، مما يسمح بالتحرير الفعال لمفاهيم متعددة في نماذج الصور النصية. ولكن هل تقاوم هذه الطريقة الفحص؟ مصدر: https://arxiv.org/pdf/2308.14761
على الرغم من أن هذا النهج كفء (مجموعات كبيرة مثل LAION كبيرة جدًا بحيث لا يمكن تجميعها يدوياً)، إلا أنه ليس بالضرورة فعالا: وفقًا لدراسة أمريكية جديدة، لا تعمل أي من إجراءات التحرير المذكورة أعلاه – التي تمثل حالة الفن في تعديل ما بعد التدريب للنموذج الاصطناعي – بشكل جيد.
وجد المؤلفون أن هذه تقنيات حذف المفاهيم (CETs) يمكن تجاوزها بسهولة، وأنه حتى حيث تكون فعالة، لها آثار جانبية كبيرة:

تأثير حذف المفاهيم على نماذج الصور النصية. تظهر كل عمود تعليمات وconcept marked للحذف، جنبًا إلى جنب مع النتائج المولدة قبل وبعد التحرير. تشير الهياكل إلى علاقات الأبوة بين المفاهيم. وتسلط الأمثلة الضوء على الآثار الجانبية الشائعة، بما في ذلك فشل في حذف مفاهيم الأبناء، وضغط المفاهيم المجاورة، والتهرب من خلال إعادة صياغة، ونقل السمات المحذوفة إلى كائنات غير متعلقة.
وجد المؤلفون أن تقنيات حذف المفاهيم الرائدة تفشل في حظر التهديدات التركيبية (على سبيل المثال، car أو small wooden chair); غالبًا ما تسمح بمفاهيم الأبناء بالمرور حتى بعد حذف فئة الأبوة (مثل car أو bus التي لا تزال تظهر بعد إزالة vehicle); وتقدم مشاكل جديدة مثل تسرب السمات (حيث، على سبيل المثال، حذف blue couch قد يؤدي إلى أن يولد النموذج كائنات غير متعلقة مثل blue chair).
في أكثر من 80% من الحالات التي تم اختبارها، لم يمنع حذف مفهوم واسع مثل vehicle النموذج من توليد مثيلات vehicle أكثر تحديداً، مثل السيارات أو الحافلات.
كما وجدت الورقة أن التحرير يؤدي أيضًا إلى تشتت خريطة الاهتمام (أجزاء من النموذج التي تقرر哪里 يجب التركيز في الصورة)، مما يؤدي إلى تدهور جودة الإخراج.
ومن المثير للاهتمام أن الورقة تكتشف أن حذف المفاهيم المتعلقة واحدة تلو الأخرى يعمل بشكل أفضل من محاولة إزالتها جميعًا في وقت واحد – على الرغم من أنه لا يزيل جميع عيوب أساليب التحرير التي تمت دراستها:

مقارنة بين استراتيجيات الحذف التدريجي والكلية. عندما يتم حذف جميع متغيرات ‘الدمية’ في نفس الوقت، يستمر النموذج في توليد كائنات تشبه الدب. الحذف التدريجي أكثر فعالية، مما يؤدي إلى قمع النموذج للمفهوم المستهدف بشكل أكثر موثوقية.
على الرغم من أن الباحثين لا يستطيعون حاليًا تقديم حلول للقضايا التي تطرحها الورقة، إلا أنهم طوروا مجموعة بيانات وبenchmark جديدة قد تساعد مشاريع البحث في المستقبل على فهم ما إذا كانت نماذجهم “المحظورة” تعمل كما هو متوقع.
تنص الورقة على ما يلي:
الدراسات السابقة اعتمدت فقط على مجموعة صغيرة من الفئات المستهدفة والفئات المحفوظة؛ على سبيل المثال، عند حذف ‘car’، يتم اختبار قدرة النموذج على توليد سيارات فقط. نحن نثبت أن هذا النهج هو في الأساس غير كافٍ، وينبغي أن تكون تقييم حذف المفاهيم أكثر شمولاً لتشمل جميع المفاهيم الفرعية المتعلقة، مثل ‘car red’.
من خلال إدخال مجموعة بيانات متنوعة مع تباينات تركيبية وتحليل منهجي للآثار مثل تأثير المفاهيم المجاورة، والتهرب من المفاهيم، وتسرب السمات، نكشف عن قيود وتأثيرات جانبية كبيرة لتقنيات حذف المفاهيم الحالية.
يعد معيارنا من النوع المفتوح وسهل التكامل، ومتوافق تمامًا لمساعدة تطوير تقنيات حذف المفاهيم الجديدة (CETs).’

على الرغم من حذف تقنيات حذف المفاهيم مفهوم ‘bird’، إلا أنها تفشل في المفهوم التركيبي ‘bird red’ (أعلى). بعد حذف ‘blue couch’، تفشل جميع الطرق في توليد كرسي أزرق (أسفل). يتم وضع النتائج الناجحة بعلامة صح خضراء، والفشل بعلامة صليب حمراء.
توفر الدراسة رؤية مثيرة للاهتمام حول مدى ترابط المفاهيم المدربة في فضاء النموذج الlatent، ومدى تعقيد الارتباط الذي لن يسمح بسهولة بحذف مفهوم حاسم وفعلي.
الورقة الجديدة بعنوان تأثيرات جانبية لحذف المفاهيم من نماذج الانتشار، وتنشر من قبل أربعة باحثين من جامعة ميريلاند.
الطريقة والبيانات
يعتقد المؤلفون أن الأعمال السابقة التي تدعي حذف المفاهيم من نماذج الانتشار لا تثبت هذه المطالبة بشكل كافٍ، مشيرين إلى*:
يجب أن تكون المطالبات بحذف المفاهيم أكثر متانة وتقييمًا شاملاً. على سبيل المثال، إذا كان المفهوم الذي سيتم حظره هو ‘vehicle’، فيجب حذف المفاهيم الفرعية مثل ‘car’ و ‘compositional concepts’ مثل ‘car red’ أو ‘car small’ أيضًا.
然而، هذا الجانب من هرمية المفاهيم والتركيب لا يُعتبر في بروتوكولات التقييم الحالية، حيث تركز فقط على دقة المفهوم المحذوف الفردي. [مؤلفي EraseBench] يقيمون كيف تتأثر تقنيات حذف المفاهيم بالمفاهيم البصرية والمتشابهة (مثل ‘cat’ و ‘kitten’)؛ ومع ذلك، لا يفحصون بشكل شامل هرمية المفاهيم والتركيب.
为了 توفير بيانات اختبار لمشاريع المستقبل، أنشأ المؤلفون مجموعة بيانات تقييم الآثار الجانبية (SEE) – وهي مجموعة كبيرة من تعليمات نصية مصممة لاختبار مدى فعالية أساليب حذف المفاهيم.
تتبع التعليمات نمطًا بسيطًا حيث يتم وصف كائن بسمات الحجم واللون والمادة – على سبيل المثال، صورة لسيارة حمراء خشبية صغيرة.
تم سحب الكائنات من مجموعة بيانات MS-COCO، وتنظيمها في هرمية من الفئات العليا مثل vehicle، والفئات الفرعية مثل car أو bus، مع تكوين تركيبات السمات في العقدة الوراثية (مستوى أكثر تحديداً من الهرمية). هذا الهيكل يسمح باختبار الحذف على مستويات семантиكية مختلفة، من الفئات الواسعة إلى المتغيرات المحددة.
为了 دعم التقييم الآلي، تم توفير كل تعليمة مع سؤال نعم أو لا، مثل هل هناك سيارة في الصورة؟، وأيضًا استخدمت كوسم لتصنيف الصور:

تركيبات التعليمات في مجموعة بيانات SEE التي تم إنشاؤها عن طريق تغيير سمات الحجم واللون والمادة.
为了 قياس أداء كل طريقة حذف مفاهيم، صمم المؤلفون طريقتين لتحديد النتائج: دقة الهدف، التي تتبع 얼마 مرة ما زال概念 المحذوف يظهر في الصور المولدة؛ و دقة الحفظ، التي تتبع ما إذا كان النموذج لا يزال يولد محتوى لم يكن من المفترض حذفه.
التوازن بين النتيجتين يهدف إلى الكشف عن ما إذا كانت الطريقة نجحت في إزالة المفهوم المحظور دون المساس بجودة الإخراج الأوسع نطاقًا.
قيم المؤلفون حذف المفاهيم عبر ثلاثة أوضاع فشل: أولاً، مقياس لتحديد ما إذا كان حذف مفهوم مثل car يؤثر على المفاهيم المجاورة أو غير المرتبطة؛ ثانيًا، اختبار لتحديد ما إذا كان حذف المفاهيم يمكن تجاوزه من خلال التهديدات الفرعية مثل car red بعد حذف vehicle.
أخيرًا، تم إجراء فحص لتحديد تسرب السمات، حيث تظهر سمات مرتبطة بالمفاهيم المحذوفة في كائنات غير متعلقة (على سبيل المثال، حذف couch قد يؤدي إلى أن يرث كائن آخر، مثل potted plant، لونه أو مادة). تحتوي مجموعة البيانات النهائية على 5056 تعليمات تركيبية
الاختبارات
تم اختبار الإطارات السابقة – UCE و RECE و MACE و SPM.採用 المؤلفون إعدادات افتراضية من المشاريع الأصلية، وضبطوا جميع النماذج على وحدة معالجة رسومات NVIDIA RTX 6000 مع 48GB من ذاكرة الوصول العشوائي.
استخدمت Stable Diffusion 1.4، واحدة من النماذج الأكثر ديمومة في الأدبيات، لجميع الاختبارات – ربما بسبب أن النماذج الأولى من SD لم تكن لها أي قيد مفاهيمي، وبالتالي تقدمت كصفحة بيضاء في هذا السياق البحثي.
تم تشغيل كل تعليمة من 5056 تعليمة في مجموعة بيانات SEE من خلال إصدارات النموذج غير المعدلة والمعدلة، مع توليد أربعة صور لكل تعليمة باستخدام بذور عشوائية محددة، مما يسمح باختبار ما إذا كانت آثار الحذف تظل متسقة عبر مخرجات متعددة. أنتج كل نموذج معدل 20,224 صورة.
تم تقييم وجود المفاهيم المحفوظة وفقًا لطرق سابقة لإجراءات حذف الصور النصية، باستخدام نماذج VQA BLIP و QWEN 2.5 VL و Florence-2base.
تأثير على المفاهيم المجاورة
قاس الاختبار الأول ما إذا كان حذف مفهوم يؤثر دون قصد على المفاهيم المجاورة. على سبيل المثال، بعد حذف car، يجب على النموذج أن يتوقف عن توليد car red أو car large، ولكن يجب أن يظل قادرًا على توليد مفاهيم متعلقة مثل bus أو truck، ومفاهيم غير متعلقة مثل fork.
استخدمت التحليلات تشابه CLIP و المسافة التحريرية القائمة على السمات لتقدير مدى قرب كل مفهوم من المفهوم المحذوف، مما يسمح للدراسة بتحديد مدى انتشار الاضطراب:

النتائج المجمعة لتحديد الهدف (اليسار) ودقة الحفظ (اليمين) مخططًا ضد التشابه الدلالي (الأعلى) والمسافة التركيبية (الأسفل). سيكون لديك طريقة حذف مفهوم مثالية تظهر دقة هدف منخفضة ودقة حفظ عالية عبر جميع المسافات؛ ومع ذلك، تظهر النتائج أن التقنيات الحالية تفشل في التعميم بشكل نظيف، مع مفاهيم أقرب إما غير محذوفة بشكل كافٍ أو معطلة بشكل غير متناسب.
من بين هذه النتائج، يعلق المؤلفون على ما يلي:
تواصل جميع تقنيات حذف المفاهيم توليد متغيرات تركيبية أو семантиاً بعيدة عن المفهوم المستهدف، وهو ما لا ينبغي أن يحدث. ومن الواضح أن UCE تحقق دقة أعلى من تقنيات حذف المفاهيم الأخرى على مجموعة الحفظ، مما يشير إلى تأثير غير مقصود قليل على المفاهيم المرتبطة семантиاً.
في المقابل، تحقق SPM أقل دقة، مما يشير إلى أن استراتيجية التحرير الخاصة بها أكثر عرضة للتشابه المفاهيمي.’
من بين الطرق الأربعة التي تم اختبارها، كانت RECE هي الأكثر فعالية في حظر المفهوم المستهدف. ومع ذلك، كما هو موضح في الجانب الأيسر من الصورة أعلاه، فشلت جميع الطرق في قمع المتغيرات التركيبية. بعد حذف bird، لا يزال النموذج يولد صورًا لطائر أحمر، مما يشير إلى أن المفهوم لا يزال سليمًا جزئيًا.
حذف blue couch يمنع أيضًا النموذج من توليد blue chair، مما يشير إلى ضرر للمفاهيم المجاورة.
RECE تعاملت مع المتغيرات التركيبية بشكل أفضل من غيرها، في حين قامت UCE بأفضل وظيفة في الحفاظ على المفاهيم المرتبطة.
غزو الحذف
قيم اختبار التهرب من الحذف ما إذا كان النماذج لا تزال قادرة على توليد مفاهيم فرعية بعد حذف فئتها الأصلية. على سبيل المثال، إذا تم حذف vehicle، قام الاختبار بفحص ما إذا كان النموذج لا يزال قادرًا على توليد مخرجات مثل bicycle أو car red.
استهدفت التعليمات كلاً من الفئات الفرعية المباشرة والمتغيرات التركيبية لتحديد ما إذا كان عملية حذف المفهوم قد أزالت بالفعل الهيكل الكامل أو يمكن تجاوزها من خلال وصف أكثر تحديدًا:

التجاوز الفائق للفئات الأصلية المحذوفة من خلال فئاتها الفرعية والمتغيرات التركيبية، مع دقة أعلى تشير إلى تجاوز أكبر.
حافظ النموذج غير المعدل على دقة عالية عبر جميع الفئات الأصلية، مما يؤكد أنه لم يزيل أي من المفاهيم المستهدفة. من بين تقنيات حذف المفاهيم، أظهر MACE أقل تجاوز، حيث حقق أقل دقة فرعية في أكثر من نصف الفئات التي تم اختبارها. RECE أيضًا أداء جيد، خاصة في مجموعات accessory و sports و electronic.
على العكس من ذلك، أظهر UCE و SPM دقة فرعية أعلى، مما يشير إلى أن المفاهيم المحذوفة يمكن تجاوزها بسهولة من خلال تعليمات متعلقة أو متداخلة.
يلاحظ المؤلفون ما يلي:
‘تنجح جميع تقنيات حذف المفاهيم في قمع مفهوم الفئة الأصلية (“الغذاء”). ومع ذلك، عند تعليم النموذج بتعليمات أطفال مبنية على سمات من هرمية الغذاء (على سبيل المثال، “بيتزا كبيرة”), جميع الطرق تولد عناصر غذائية.
‘في فئة “مركبة”، جميع النماذج تولد دراجات هوائية، على الرغم من حذف “مركبة”.’
تسرب السمات
اختبار تسرب السمات قاس ما إذا كانت السمات المرتبطة بمفهوم محذوف تظهر في أجزاء أخرى من الصورة.
على سبيل المثال، بعد حذف couch، يجب على النموذج ألا يولد أرففًا ولا ينقل سماتها النموذجية (مثل اللون أو المادة) إلى كائنات غير متعلقة في نفس التعليمة. تم قياس هذا من خلال تعليم النموذج بأزواج من الكائنات واختبار ما إذا كانت السمات المحذوفة تظهر بشكل غير صحيح في المفاهيم المحفوظة:

خريطة الاهتمام لرموز السمات بعد حذف المفاهيم. اليسار: عندما يتم حذف ‘bench’، يتحرك رمز ‘wooden’ إلى الطائر، مما يؤدي إلى طيور خشبية. اليمين: حذف ‘couch’ يفشل في قمع توليد أرفف، بينما يتم تعيين رمز ‘large’ بشكل خاطئ إلى الكعكة.
كان RECE هو الأكثر فعالية في حذف السمات المستهدفة، ولكنه أدخل أيضًا أكبر تسرب للسمات إلى التعليمات المحفوظة، متجاوزًا حتى النموذج غير المعدل. UCE تسربت أقل من الطرق الأخرى.
تشير النتائج، وفقًا للمؤلفين، إلى ضرورة وجود تبادل داخلي، حيث يزيد الحذف الأقوى من خطر نقل السمات بشكل غير صحيح.
الاستنتاج
لا يمتلئ فضاء النموذج بشكل منظم أثناء التدريب، مع إيداع المفاهيم المشتقة بشكل منظم في رفوف أو مجلدات؛ بل هي عبارة عن محتوياتها وحاوياتها: غير منفصلة بأي حدود حادة، بل تتداخل مع بعضها البعض بطريقة تجعل الإزالة مشكلة – مثل محاولة استخراج رطل من اللحم دون أي خسارة في الدم.
في الأنظمة الذكية والمتطورة، تكون الأحداث الأساسية – مثل حرق الأصابع والاحترام اللاحق للنار – مرتبطة بسلوكياتها وارتباطاتها اللاحقة، مما يجعل من الصعب إنتاج نموذج قد تم إزالة مفاهيمه المركزية المحتملة “المحظورة”، ولكنها لا تزال تحتفظ بآثارها – مثل محاولة استخراج رطل من اللحم دون أي خسارة في الدم.
* تحويلي لمراجع المؤلفين الداخلية إلى روابط.
نشر لأول مرة يوم الجمعة، 22 أغسطس 2025












