زاوية أندرسون
مخاطر التعليقات التوضيحية على الصور المستندة إلى "Vibe"

حتى لو كانوا يتقاضون بضعة دولارات فقط (أو حتى لا شيء)، فإن الأشخاص المجهولين الذين يُقيّمون الصور بحثًا عن محتوى "مؤذٍ" قد يُغيرون حياتك بالخيارات التي يتخذونها. والآن، يبدو أن بحثًا جديدًا مهمًا من جوجل يقترح أن يضع هؤلاء المُعلّقون قواعدهم الخاصة لتحديد ما هو "مؤذٍ" أو مُسيء - بغض النظر عن مدى غرابة أو شخصية ردود أفعالهم تجاه أي صورة. ما الذي قد يحدث؟
مراجعة هذا الأسبوع، جمع تعاون جديد بين Google Research وGoogle Mind ما لا يقل عن 13 مساهمًا ورقة جديدة هذا البحث يستكشف ما إذا كان ينبغي أخذ "المشاعر الغريزية" لمعلقي الصور في الاعتبار عندما يقوم الأشخاص بتقييم الصور للخوارزميات، حتى لو كانت ردود أفعالهم لا تتفق مع معايير التصنيف المعمول بها.
هذا مهم بالنسبة لك، لأن ما يعتبره المصنفون والمعلقون مسيئًا بموجب قاعدة الإجماع سوف يميل إلى أن يصبح راسخًا في أنظمة الرقابة والاعتدال التلقائية، وفي معايير المواد "الفاحشة" أو "غير المقبولة"، وفي التشريعات مثل جدار حماية جديد غير آمن للعمل* من المملكة المتحدة (نسخة منها هي القادمة إلى أستراليا قريبًا)، وفي أنظمة تقييم المحتوى على منصات التواصل الاجتماعي، وغيرها من البيئات.
لذا، كلما اتسعت معايير المخالفة، كلما اتسع مستوى الرقابة المحتمل.
الرقابة على الأجواء
هذا ليس الموقف الوحيد الذي تقدمه الورقة البحثية الجديدة؛ فهي تجد أيضًا أن الأشخاص الذين يقومون بتقييم الصور غالبًا ما يكونون أكثر انتقادًا لما يعتقدون أنه سيسيء أخرى الأشخاص إلى جانب أنفسهم؛ وأن الصور ذات الجودة المنخفضة غالباً ما تثير مخاوف تتعلق بالسلامة، على الرغم من أن جودة الصورة لا علاقة لها بمحتوى الصورة.
وفي ختامها، أكدت الورقة البحثية على هاتين النتيجتين، وكأن الموقف المركزي الذي قامت عليه الورقة البحثية قد فشل، ولكن الباحثين اضطروا إلى النشر على أية حال.
على الرغم من أن هذا ليس سيناريو غير شائع، فإن الورقة البحثية تسفر، عند قراءتها بعناية، عن تيار خفي أكثر شراً: وهو أن ممارسات التعليق التوضيحي قد تفكر في تبني ما لا أستطيع وصفه إلا بأنه التعليق على الاهتزازات:
تشير نتائجنا إلى ضرورة مراعاة الأطر الحالية للأبعاد الذاتية والسياقية، مثل ردود الفعل العاطفية، والأحكام الضمنية، والتفسيرات الثقافية للضرر. ويُبرز استخدام المفسرين المتكرر للغة العاطفية، وانحرافهم عن تصنيفات الضرر المحددة مسبقًا، ثغرات في ممارسات التقييم الحالية.
"إن توسيع نطاق إرشادات التوضيح لتشمل أمثلة توضيحية للتفسيرات الثقافية والعاطفية المتنوعة يمكن أن يساعد في معالجة هذه الفجوات."

تبدأ الورقة البحثية الجديدة، قليلة التوضيح، بأمثلة واضحة وجذابة للقارئ العادي، مع أن المادة الأساسية تثير أسئلةً أكثر. هنا، أسفل كل صورة، نرى ردود فعل المعلقين العاطفية، مُشارًا إليها في صورهم. المصدر: https://arxiv.org/pdf/2507.16033
في البداية، يبدو هذا وكأنه اقتراح لتوسيع وتحديد كمية ما يشكل "ضررًا" في الصورة - وهو مسعى يستحق الثناء؛ لكن الورقة تكرر عدة مرات أن هذا غير مرغوب فيه ولا يمكن تنفيذه (بالضرورة):
تشير نتائجنا إلى ضرورة مراعاة الأطر الحالية للأبعاد الذاتية والسياقية، مثل ردود الفعل العاطفية، والأحكام الضمنية، والتفسيرات الثقافية للضرر. ويُبرز استخدام المفسرين المتكرر للغة العاطفية، وانحرافهم عن تصنيفات الضرر المحددة مسبقًا، ثغرات في ممارسات التقييم الحالية.
"إن توسيع نطاق إرشادات التعليقات التوضيحية لتشمل أمثلة توضيحية للتفسيرات الثقافية والعاطفية المتنوعة يمكن أن يساعد في معالجة هذه الفجوات [...]
'[…] إن العملية التي يستخدمها المعلقون في تفسير الصور الغامضة غالبًا ما تعكس وجهات نظرهم الشخصية والثقافية والعاطفية، والتي يصعب تحديدها أو توحيدها.'
من الصعب أن نرى كيف "توسيع إرشادات التوضيح لتشمل أمثلة توضيحية للتفسيرات الثقافية والعاطفية المتنوعة" يمكن أن يندرج هذا النوع من التصنيف ضمن نظام تصنيف منطقي؛ ويبذل المؤلفون جهدًا كبيرًا لتوضيح هذه النقطة، أو لصياغة نظرية واضحة، حيث يهاجمون المادة مرارًا وتكرارًا، لكنهم لا يتغلبون عليها. في هذا الصدد، يبدو موضوعهم الرئيسي نفسه مُولّدًا بـ"التأثير"، حتى مع تناوله لعلم النفس غير الملموس.
ببساطة، يبدو لي أن توسيع خط أنابيب التعليقات التوضيحية ليشمل معايير من هذا النوع من شأنه أن يسمح بإلغاء أو تعتيم أي مادة (أو فئة من المواضيع) قد يتفاعل معها المعلق بقوة.
الحكم الثنائي
من الصعب بالفعل تحديد مدى الضرر الذي يمكن أن تسببه الصور والنصوص، ويرجع ذلك جزئيًا إلى أن الثقافة العالية غالبًا ما تتقاطع مع الثقافة "المنخفضة" (على سبيل المثال، مع فن و روايات)، مما أدى إلى أقدم معايير الرقابة القائمة على "الاهتزاز": حتى لو كانت المادة الفاحشة تفلت من التعريف الدقيق، فسوف اعرفه عندما تراه.
في ظل المناقشة الواسعة والاستكشافية التي تناولتها الورقة البحثية الجديدة حول التعاطف والفروق الدقيقة النوعية، يبدو أن العمل يهاجم بهدوء سلطة التصنيفات المركزية الموحدة ("العنف"، "العُري"، "الكراهية"، وما إلى ذلك) التي تسمح للمنصات بتنفيذ وتوسيع نطاق الاعتدال مع هوامش خطأ مقبولة (عادة).
الحجة التي تظهر هي أن ردود الفعل البشرية اللامركزية والذاتية والواعية للسياق فقط هي القادرة على الحكم بشكل صحيح على مخرجات GenAI.
مع ذلك، من الواضح أن هذا الأمر غير قابل للتوسع، إذ لا يمكن تشغيل خط أنابيب ترشيح تريليون صورة بناءً على "الاهتزازات" والتجربة المعاشة. يجب تحديد الضرر كميًا في خصائص متنوعة، ووضع حد لنطاق نظام الترشيح الناتج، وانتظار توجيهات جديدة في الحالات "الهامشية" (تمامًا كما يتعين على الأطراف المتضررة أحيانًا انتظار سن قوانين جديدة تعالج ظروفها الخاصة).
بدلاً من ذلك، تقدم الورقة الجديدة تفويضًا ضمنيًا لإنشاء خط أنابيب تعديل آلي يوسع نطاقه تلقائيا، ويخطئ حتى الآن على جانب الحذر لدرجة أن حتى رد الفعل الأكثر خصوصية وغير قابل للتكرار من قبل المعلق قد يعاقب صورة لم تسيء إلى أي شخص آخر.
التوسع الأخلاقي
على الرغم من أن الورقة البحثية تميل نحو الاستكشاف بدلاً من اتخاذ موقف حازم، إلا أنها تتضمن عناصر من المنهج العلمي: فقد طور المؤلفون إطارًا لتحديد (وإن لم يكن قياسًا صارمًا) مجموعة أوسع من ردود أفعال المعلقين على الصور، وفحص كيفية اختلاف هذه التفاعلات عبر الجنس والعوامل الديموغرافية الأخرى.
بالإضافة إلى تحليل الاختبارات التركيز على الضرر†قامت العملية بتحليل "المنطق الأخلاقي" في التعليقات الإضافية للمشاركين في الاختبار، والذين طُلب منهم التعليق على مجموعة بيانات اختبار معدلة تحتوي على صور ومطالبات/نصوص مرتبطة بها.
تم تصميم "مقياس المشاعر الأخلاقية" هذا لالتقاط القيم الأخلاقية الرعاية، المساواة، التناسب، الولاء، السلطةو نقاءكما هو محدد في نظرية الأسس الأخلاقية - نظرية نفسية تتعارض، بسبب طبيعتها السائلة والمتطورة، مع إنشاء التعريفات الملموسة المطلوبة لأنظمة التصنيف البشري واسعة النطاق.
وبناءً على هذه النظرية، قام المؤلفون بتصنيف أبعاد إضافية للسلامة، بما في ذلك خوف, الغضب, حزن, قرف, ارتباكو غرابة.
يتناول المؤلفون بالتفصيل أول هذه الأمور، خوف:
"استخدم العديد من المعلقين مصطلحات مثل "مخيف" (على سبيل المثال، للوجوه المشوهة أو الصور التي توحي بالعنف مثل مسدس موجه إلى طفل)، أو "مزعج" (على سبيل المثال، "من البشع تمامًا رؤية شخص يُدهس، إنه أمر مؤلم ومزعج للغاية"، أو "مزعج ويبدو كالدم" للطلاء الأحمر)، أو "مزعج" (على سبيل المثال، "صورة الصبي بها العديد من التشوهات... أجدها غير مستساغة لأنها تبدو وكأن الصبي يلعب على الجانب الخطأ من السور الجانبي").
'يقوم [الرسم البياني أدناه] بتقييم "الخوف" باعتباره العاطفة الأكثر ذكرًا (233 مرة، في حين أن ما يقرب من نصف هذه الإشارات مرتبطة بمحتوى عنيف، فإن المحتوى الذي يُعتبر غير ضار استحضر أيضًا ثاني أعلى ذكر للخوف).'

توزيع المصطلحات المرتبطة بالعاطفة عبر فئات الضرر، مع ارتفاع الأشرطة التي تشير إلى نسب التعليقات، والأعداد المعروضة داخل الأشرطة، وإجمالي عدد التعليقات الموضح أعلى كل فئة.
وفيما يتعلق بإدراج هذه الأبعاد الجديدة للسلامة، يقول المؤلفون:
"تسلط هذه الموضوعات الناشئة الضوء على الحاجة الماسة لإثراء أطر تقييم الصور بالذكاء الاصطناعي من خلال دمج العناصر الذاتية والعاطفية والإدراكية."
قد يكون هذا طريقًا خطيرًا للسير فيه، لأنه يبدو أنه يسمح لعمليات التوضيح بإضافة قواعد بشكل تعسفي استنادًا إلى ردود الفعل التي قد تثيرها المادة في أي معلق واحد، بدلاً من المطالبة الكل يجب على المحررين الالتزام بالمعايير والمقاييس المحددة.
إذا كان من الممكن أن نعزو ضرورة اقتصادية لهذه الفكرة، فهي أن هذا النهج يسمح شرح بشري فائق الحجمحيث تكون العملية خالية من الاحتكاك، وينظم المشاركون أنفسهم، ويقررون بأنفسهم ما هي القواعد والحدود.
في ظل التعليقات التوضيحية القياسية، يتم التوصل إلى القواعد من خلال الإجماع البشري ويلتزم بها المعلقون البشريون؛ وفي السيناريو الذي تصوره البحث، تتم إزالة هذه الطبقة الأولية من الإشراف أو تخفيض مستواها: في الواقع، سيتم الإبلاغ عن أي صورة قد تسبب أي إساءة لأي شخص (ربما لأن الإجماع مكلف ويستغرق وقتا طويلا).
أحكام رورشاخ
الهدف من الشرح هو الوصول إلى وصف أو تعريف دقيق، إما من خلال إشراف خبير، أو إجماع مشترك بين عدة شارحين، أو (في الوضع الأمثل) كليهما. بدلاً من ذلك، فإن توسيع تسلسل هرمي محدود، وإن كان واضح المعالم، للأضرار إلى موقف تفسيري "بديهي" وشخصي للغاية، يُعادل شرح اختبار رورشاخ.
على سبيل المثال، قام بعض المعلقين، على الملاحظات الورقية، بتفسير جودة الصورة الرديئة (مثل عناصر JPEG، فضلاً عن العيوب الفنية التي لا معنى لها في الصورة) مثل 'مزعج' or 'مؤشر على الضرر':
حدث هذا رغم أن المهمة أغفلت تعليمات جودة الصورة. علاوة على ذلك، فسّر المشرّحون هذه الآثار المتعلقة بالجودة على أنها ذات معنى دلالي.
علّق أحد المعلقين قائلاً: "الصورة ليست مؤذية إطلاقًا؛ فقط وجهه مشوه بعض الشيء". وفي السياق نفسه، فسّر بعض المعلقين تشوهات جودة الصورة على أنها ضرر متعمد، ناسبًا دلالات عاطفية للأخطاء. على سبيل المثال، فسّر معلق آخر وجهًا مشوهًا في صورة أخرى على أنه "دلالة على الألم".
من خلال رفع ردود الفعل الذاتية أو العاطفية أو الخاصة بالسياق فوق فئات السلامة المحددة مسبقًا، تفتح الأفكار المقدمة هنا الباب أمام نظام حيث اى شى يمكن تصنيفها بشكل تعسفي على أنها ضارة، وحيث يكون لها "تأثير مخيف" مخصص إن عمليات الإزالة أو إعادة التصنيف السلبي للمواد (أي المواد التي قد "تسيء" إلى مجموعة ذات مصلحة خاصة) تصبح احتمالًا حقيقيًا.
ورقة "مجرد صورة غريبة": تقييم "السلامة" في GenAI مهام شرح سلامة الصور من وجهات نظر مختلف المعلقين is متوفر في Arxiv.
* إن هذا اختصار، لأنه ليس الموضوع الرئيسي هنا؛ فبموجب التشريع الجديد، من المتوقع من المواقع المخالفة إما أن تراقب نفسها؛ أو تفرض أنظمة مراجعة معقدة ومكلفة وتقنيات للتحقق من العمر والتي هي خارج متناول جميع المواقع باستثناء أكبر المواقع؛ أو تمنع نطاقاتها من الوصول إلى جمهور المملكة المتحدة (مرة أخرى، على نفقتها الخاصة).
† يمكن التعبير عن ذلك ببساطة من خلال ميم "فكر في الأطفال"، الذي يسخر من الاستيلاء على الوكالة الأخلاقية لشخص آخر لأغراض تبدو إيثارية.
نُشر لأول مرة يوم الجمعة 25 يوليو 2025