زاوية Anderson

قد ترتيب الصور بشكل سري حسب علامة الجهاز، وليس المحتوى

Published August 20, 2025

Updated April 26, 2026

Martin Anderson

A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

تجد الأبحاث الجديدة أن النظم الشائعة القائمة على الصور لا تنظر فقط إلى ما يوجد في الصورة، بل أيضًا إلى كيفية التقاطها. يمكن أن تؤثر التفاصيل الخفية مثل نوع الكاميرا أو جودة الصورة بشكل صامت على ما يعتقد أن الصورة ترى، مما يؤدي إلى نتائج خاطئة – فقط لأن الصورة جاءت من جهاز مختلف.

في عام 2012، تم الكشف عن أن موقعًا لل여행 كان يظهر أسعارًا أعلى للمستخدمين الذين يمكنهم استنتاج أنهم يتصفحون على أجهزة Apple، ويربطون علامة Apple بالقدرة الشرائية الأعلى. خلصت التحقيق اللاحق إلى أن هذا التصنيف القائم على الجهاز قد أصبح شبه روتيني للمواقع التجارية الإلكترونية.

على نحو مماثل، يمكن استنتاج الجهاز الذكي أو جهاز التقاط الذي التقط صورة معينة بوسائل تحليلية، بناءً على الخصائص المعروفة للعدسات في النماذج. في هذه الحالات، يتم通常 تقدير نموذج جهاز التقاط بواسطة أثر مرئي؛ كما هو الحال في حادثة 2012، معرفة نوع الكاميرا التي التقطت الصورة هو سمة يمكن استغلالها.

على الرغم من أن أجهزة التقاط عادة ما تضم بيانات تعريفية كبيرة في الصورة، يمكن للمستخدمين في كثير من الأحيان إيقاف هذه الميزة؛ حتى عندما يتم تركها مفعلة، قد تقوم منصات التوزيع مثل شبكات التواصل الاجتماعي بحذف بعض أو جميع البيانات الوصفية، لأسباب لوجستية أو خاصة بالخصوصية، أو كليهما.

ومع ذلك، غالبًا ما يتم إعادة كتابة البيانات الوصفية في الصور المرفوعة من قبل المستخدمين أو تفسيرها (بدلاً من حذفها) أو تترك سليمة، كمصدر ثانوي للمعلومات حول كيفية التقاط الصورة، وليس حول ما يوجد في الصورة. كما كشفت حادثة 2012، يمكن أن تكون معلومات من هذا القبيل قيمة – ليس فقط للمنصات التجارية، ولكن أيضًا، بشكل محتمل، للمخترقين والجهات الخبيثة.

منظور مزدوج

وجدت دراسة جديدة مشتركة بين اليابان وجمهورية التشيك أن الأثر الذي تتركه أجهزة الكاميرا ومعالجة الصور (مثل جودة JPEG أو تحسين العدسة) ليس فقط يمكن الكشف عنه بأدوات تحليلية، ولكن أيضًا يتم ترميزه بشكل صامت في “الفهم العالمي” لنماذج الرؤية الإصطناعية الرائدة.

هذا يشمل CLIP وغيرها من مشفرات الصور الكبيرة، التي يتم استخدامها على نطاق واسع في كل شيء من محركات البحث إلى تحرير المحتوى. تظهر الدراسة الجديدة أن هذه النماذج لا تفسر فقط ما يوجد في الصورة، ولكن يمكنها أيضًا تعلم كيفية صنع الصورة؛ ويمكن أن يغلب هذا الإشارة الخفية أحيانًا على المحتوى المرئي.

أمثلة على أزواج الصور من مجموعة PairCams التي تم إنشاؤها لاختبار كيفية تأثير نوع الكاميرا على نماذج الصور الإصطناعية. كل زوج يظهر نفس الكائن أو المشهد التقط في نفس اللحظة باستخدام كاميرا غير ذكية (اليسار) و كاميرا ذكية (اليمين). Source: https://arxiv.org/pdf/2508.10637

تؤكد الدراسة على أن النماذج الإصطناعية حتى عندما تُعطى إصدارات مقطوعة أو مخفية من الصورة، يمكنها تخمين علامة ونموذج الكاميرا بدقة مذهلة. هذا يعني أن مساحة التمثيل التي تستخدمها هذه الأنظمة لتحديد تشابه الصور يمكن أن تصبح متشابكة مع عوامل غير ذات صلة، مثل جهاز المستخدم، مع عواقب غير متوقعة.

على سبيل المثال، في المهام الخلفية مثل التصنيف أو استرجاع الصور، يمكن أن يسبب هذا التأثير غير المرغوب فيه “التوزان” أن تفضل النظام أنواعًا معينة من الكاميرات، بغض النظر عما تظهره الصورة بالفعل.

يذكر البحث:

‘يمكن أن تؤدي العلامات الوصفية التي تترك أثرًا في مشفرات الصور إلى نتائج غير متوقعة، مما يضعف القوة العامة وثباتها، وربما يؤثر على مصداقية النماذج. ‘

‘أهم من ذلك، يمكن أن يتم استغلال هذا التأثير بشكل خبيث؛ على سبيل المثال، قد تُستخدم هجومًا متعمدًا لخداع أو تضليل نموذج، مما يشكل مخاطر في مجالات حساسة مثل الرعاية الصحية أو المراقبة أو الأنظمة الآلية.’

تجد الدراسة أن أنظمة CLIP و CVL أكثر احتمالًا للحصول على هذه الاستنتاجات من البيانات:

نتائج البحث لاستعلام صورة، تظهر كيفية تصنيف النماذج الأساسية للصور المماثلة بناءً على المحتوى المرئي وأيضًا على البيانات الوصفية الخفية مثل ضغط JPEG أو نموذج الكاميرا.

الورقة الجديدة بعنوان أثر معالجة الصور واكتسابها في مشفرات الصور: ماذا تعرف CLIP عن كاميرتك؟، وهي ناتجة عن تعاون بين ستة باحثين من جامعة أوساكا والجامعة التقنية التشيكية في براغ.

المنهج والبيانات

لاختبار تأثير البيانات الوصفية الخفية على مشفرات الصور مثل CLIP، عمل الباحثون مع فئتين من البيانات الوصفية: معاملات معالجة الصور (مثل ضغط JPEG أو تحسين اللون) ومعاملات اكتساب الصور (مثل نموذج الكاميرا أو إعدادات التعرض).

بدلاً من تدريب نماذج جديدة، قام الباحثون بتقييم 47 مشفرًا مرئيًا شائعًا في حالته المُجمّدة والمُتدربة مسبقًا، بما في ذلك نماذج CLIP و DINO وشبكات الخلفية التقليدية.

للمعاملات المتعلقة بمعالجة الصور، قام الباحثون بتطبيق تحويلات خاضعة للسيطرة على مجموعات بيانات ImageNet و iNaturalist 2018، بما في ذلك ستة مستويات من ضغط JPEG، وثلاثة إعدادات لتحسين الحدة، وثلاثة مقاييس لإعادة تحجيم، وأربعة طرق لتقسيم الصور.

أمثلة على الصور والتعليقات المرتبطة بمجموعة بيانات iNaturalist. Source: https://arxiv.org/pdf/1707.06642

تم اختبار النماذج على khảيتهم لاستعادة كل إعداد تحويل باستخدام محتوى الصورة فقط، مع تجميع دقة التصنيف المتوسطة عبر جميع الإعدادات مع تجارب متكررة تحت بذور عشوائية مختلفة، بحيث يمكن تحديد ما إذا كانت التفاصيل الفنية لمعالجة الصور يتم التقاطها بشكل مستمر في التمثيل الداخلي للنموذج:

دقة التصنيف لتنبؤ معاملات معالجة الصور من التضمين المشفر، باستخدام مصنف خطي تم تطبيقه على نماذج مجمدة. تظهر النتائج لضغط JPEG وتنقية الحدة وإعادة تحجيم الصور وطرق التقسيم، مع ثلاث فئات من النماذج، نموذج رؤية لغة متباينة (برتقالي)، نموذج مُدَرَب مسبقًا (أخضر)، ونموذج خود-مُدَرَب (أزرق)، تم تقييمه على ImageNet (الصف العلوي) و iNaturalist 2018 (الصف السفلي). تم وضع قيم الأساس للتنبؤ العشوائي بخطوط متقطعة.

عبر جميع المعاملات الأربعة لمعالجة الصور، أظهرت نماذج الرؤية اللغوية المتباينة أعلى قدرة على التعرف على التلاعب الخفي بالصور. حقق بعض النماذج أكثر من 80% دقة عند التنبؤ بإعدادات ضغط JPEG وتنقية الحدة وإعادة تحجيم الصور من التضمين المشفر ل ImageNet.

أداء النماذج المُدَرَبة مسبقًا، ولا سيما تلك التي تستند إلى ConvNeXt، كان قويًا أيضًا، بينما كانت نماذج خود-مُدَرَبة أقل قوة.

كان التقسيم هو المعامل الأكثر صعوبة في الكشف، ومع ذلك، حقق النماذج الرائدة من CVL ونموذج مُدَرَب مسبقًا نتائج أفضل من قيمة الأساس العشوائي البالغة 25% في كلا المجموعتين:

تجسيدات t-SNE لمشفرين مرئيين، مع ألوان تشير إلى ما إذا كانت كل صورة التقطت بكاميرا ذكية أو غير ذكية.

أهمية التأثيرات الخلفية

بعد أن أثبتوا أن العلامات الوصفية تؤثر على النماذج بهذه الطريقة، تم تقييم استعداد العلامات الخفية لمعالجة الصور لتعطيل تفسير الصور.

عندما تم معالجة نسختان من نفس الصورة بشكل مختلف، تم تنظيم التضمين المشفر غالبًا وفقًا لنمط المعالجة بدلاً من المحتوى. في بعض الحالات، تم التعامل مع صورة كلب مضغوطة بشدة على أنها أكثر تشابهًا مع صورة غير متعلقة لها نفس إعداد الضغط أكثر من نسخة غير مضغوطة منها:

تأثير معاملات المعالجة على التنبؤ الدلالي، مع دقة تصنيف دلالية ل ImageNet (الأعلى) و iNaturalist (الأسفل) تحت خمس إعدادات معالجة. في الإعداد الأساسي، جميع الصور المُدَرَبة والاختبارية تشترك في نفس العلامة المعالجة؛ في إعداد all-diff، تستخدم الصورة الاختبارية قيمة معالجة غير موجودة في مجموعة التدريب؛ في إعدادات pos-same و neg-same، يتم محاذاة العلامة المعالجة مع صورة دلالية متشابهة أو غير متشابهة؛ في الإعداد الموحد، يتم تخصيص علامات المعالجة بشكل عشوائي عبر مجموعة التدريب. يتم تقديم النتائج باستخدام k = 10 ل ImageNet، و k = 1 ل iNaturalist.

كانت الانحرافات الأقوى ناتجة عن ضغط JPEG، تليها تنقية الحدة وإعادة تحجيم الصور، بينما كان للتقسيم تأثير طفيف فقط. يؤكد المؤلفون على أن هذه النتائج تظهر أن علامات المعالجة يمكن أن تؤثر على المعلومات الدلالية وتحدد كيفية فهم الصورة.

في الختام، يحذرون:

‘على الرغم من أننا قد حددنا أن العلامات الوصفية يتم ترميزها في مشفرات الصور الأساسية، وقدمنا تلميحات حول الأسباب المحتملة، لا يمكننا تحديد مصدر المشكلة بشكل قاطع. يعتبر التحقيق في هذا الأمر أكثر صعوبة بسبب تكلفة إعادة تدريب هذه النماذج واستخدام مجموعات بيانات خاصة وتنفيذ غير معلن.’

‘على الرغم من أننا لا نقترح تقنيات تخفيف محددة، نحن نشير إلى هذه القضية كمنطقة مهمة للبحث في المستقبل.’

الختام

في الأدبيات هناك اهتمام تحليلي متزايد فيما يتعلق بأثر “الطريقة على المحتوى”؛ كلما كان من السهل تحديد مجال الإطار أو مجموعة بيانات معينة، كلما كان من السهل استغلال هذه المعلومات في شكل كاشف للصور المزيفة أو أنظمة مصممة لتصنيف أصل البيانات أو عمرها.

كل هذا يتعارض مع النية الأساسية لتدريب نماذج الذكاء الاصطناعي، والتي هي أن المفاهيم المركزية المُستخلصة يجب أن تكون مستقلة عن وسائل الإنتاج، ولا يجب أن تحمل أي أثر لها. في الواقع، تمتلك مجموعات البيانات وأجهزة التقاط سمات ومميزات مجال لا يمكن فصلها عن المحتوى، لأنها تمثل في حد ذاتها “منظورًا تاريخيًا”.

* الورقة موزعة بطريقة غير تقليدية، وسنحاول التكيف مع تنسيقها غير العادي وعرضها على أفضل وجه. تم نقل الكثير من المواد التي يجب أن تكون في قسم “المنهج” (الغير موجود) إلى أجزاء مختلفة من الملاحق، على الأرجح لتقتصر الورقة الرئيسية على ثماني صفحات – على الرغم من أن هذا يأتي على حساب الوضوح. إذا فاتنا أي فرصة لتحسين هذا، بسبب نقص الوقت، نعتذر.

نُشر لأول مرة يوم الأربعاء، 20 أغسطس 2025

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai