زاوية أندرسون

قد تقوم الذكاء الاصطناعي بتصنيف الصور سرًا حسب العلامة التجارية للجهاز، وليس المحتوى

تم النشر 20 أغسطس 2025

مارتن أندرسون

روبوت يُفضّل جهاز ماك على أجهزة الكمبيوتر المحمولة القديمة الأخرى في خلفية ضبابية. Flux 1D وFirefly، عبر Krita.

أظهرت أبحاث جديدة أن أنظمة الذكاء الاصطناعي الشائعة، المُركّزة على الصور، لا تكتفي بتحليل محتوى الصورة فحسب، بل تلتقط أيضًا كيفية التقاطها. فالتفاصيل الخفية، مثل نوع الكاميرا أو جودة الصورة، قد تؤثر سلبًا على ما يعتقد الذكاء الاصطناعي أنه يراه، مما يؤدي إلى نتائج خاطئة لمجرد أن الصورة التقطت من جهاز مختلف.

في عام 2012 كان كشف أن موقعًا إلكترونيًا للسفر كان يعرض أسعارًا أعلى بشكل روتيني للمستخدمين الذين استنتج أنهم يتصفحون أجهزة Apple، مما جعل علامة Apple التجارية تتمتع بقوة شرائية أعلى. تحقيق لاحق وخلص من الواضح أن عملية "التنصت على المحفظة" التي تركز على الأجهزة أصبحت روتينية تقريبًا بالنسبة لمواقع التجارة الإلكترونية.

وبالمثل، يمكن تحديد الهاتف الذكي أو جهاز التقاط الصورة الذي التقط صورة معينة تم استنتاجها بالوسائل الجنائية، على أساس الخصائص المعروفة عدد محدود من العدسات في النماذج. في مثل هذه الحالات، عادةً ما يتم تقدير نموذج جهاز الالتقاط بواسطة بصري الآثار؛ وكما حدث في حادثة عام 2012، فإن معرفة نوع الكاميرا التي التقطت الصورة هي سمة قابلة للاستغلال.

على الرغم من أن أجهزة الالتقاط تميل إلى تضمين بيانات وصفية مهمة في الصورة، إلا أن هذه الميزة يمكن إيقاف تشغيلها في كثير من الأحيان من قبل المستخدمين؛ وحتى عندما يتم تركها قيد التشغيل، فقد تقوم منصات التوزيع مثل شبكات التواصل الاجتماعي بإزالة بعض أو كل البيانات الوصفية، إما لأغراض لوجستية أو الخصوصية، أو كليهما.

مع ذلك، غالبًا ما تُعاد كتابة/تفسير البيانات الوصفية في الصور التي يحمّلها المستخدمون (بدلًا من حذفها) أو تُترك سليمة، كمصدر ثانوي للمعلومات، لا حول محتوى الصورة، بل حول كيفية التقاطها. وكما كشفت قضية عام ٢٠١٢، فإن هذا النوع من المعلومات قد يكون قيّمًا - ليس فقط للمنصات التجارية، بل أيضًا، وربما للمخترقين والجهات الخبيثة.

وجهات نظر مزدوجة

توصلت دراسة بحثية جديدة بين اليابان وجمهورية التشيك إلى أن الآثار التي تتركها أجهزة الكاميرا ومعالجة الصور (مثل جودة JPEG أو شحذ العدسات) لا يمكن اكتشافها فقط بواسطة أدوات الطب الشرعي، بل يتم أيضًا تشفيرها بصمت في "التفاهم العالمي" من نماذج رؤية الذكاء الاصطناعي الرائدة.

هذا يتضمن CLIP وغيرها من مُرمِّزات الصور واسعة النطاق، والتي تُستخدم على نطاق واسع في كل شيء، من محركات البحث إلى إدارة المحتوى. يُظهر العمل الجديد أن هذه النماذج لا تُفسِّر ما هو مُتاح فحسب in صورة، ولكن يمكنك أيضًا معرفة كيفية التقاط الصورة صنع؛ وهذه الإشارة المخفية قد تتغلب في بعض الأحيان على المحتوى المرئي.

أمثلة لأزواج صور من مجموعة بيانات PairCams للمؤلفين، صُممت لاختبار تأثير نوع الكاميرا على نماذج صور الذكاء الاصطناعي. يُظهر كل زوج نفس الشيء أو المشهد مُصوَّرًا في نفس اللحظة باستخدام هاتف ذكي (يسار) وآخر غير ذكي. المصدر: https://arxiv.org/pdf/2508.10637

تؤكد الدراسة أنه حتى عند تزويد نماذج الذكاء الاصطناعي بنسخ مقصوصة أو مُقصوصة من الصورة، فإنها لا تزال قادرة على تخمين ماركة الكاميرا وطرازها بدقة مذهلة. هذا يعني أن مساحة التمثيل التي تستخدمها هذه الأنظمة لتقييم تشابه الصور قد تتشابك مع عوامل غير ذات صلة، مثل جهاز المستخدم، مما يؤدي إلى عواقب غير متوقعة.

على سبيل المثال، في المهام اللاحقة مثل التصنيف أو استرجاع الصور، يمكن أن يؤدي هذا "الترجيح" غير المرغوب فيه إلى دفع النظام إلى تفضيل أنواع معينة من الكاميرات، بغض النظر عن ما تظهره الصورة بالفعل.

تقول الورقة:

"إن العلامات الوصفية التي تترك آثارًا في برامج التشفير المرئي لدرجة حجب المعلومات الدلالية يمكن أن تؤدي إلى نتائج غير متوقعة، مما يعرض القدرة على التعميم والمتانة للخطر، وقد يؤدي إلى تقويض موثوقية النماذج.

'الأمر الأكثر خطورة هو أن هذا التأثير قد يتم استغلاله بشكل خبيث؛ على سبيل المثال، قد يقوم هجوم معادي بالتلاعب بالبيانات الوصفية لتضليل أو خداع نموذج ما عمدًا، مما يفرض مخاطر في مجالات حساسة مثل الرعاية الصحية أو المراقبة أو الأنظمة المستقلة.'

وتوصلت الدراسة إلى أن أنظمة اللغة البصرية التباينية (CVL) مثل CLIP، والتي تعد الآن واحدة من أكثر المشفرات تأثيرًا في مجال الرؤية الحاسوبية، من المرجح بشكل خاص أن تحصل على مثل هذه الاستدلالات من البيانات:

نتائج بحث عن صورة استعلام، تُظهر كيف تُصنّف نماذج الأساس الصور المتشابهة، ليس فقط بناءً على المحتوى المرئي، بل أيضًا على البيانات الوصفية المخفية، مثل ضغط JPEG أو نموذج الكاميرا. يعكس الشكل ادعاء المؤلفين بأن كلاً من العلامات الدلالية والوصفية تُشكّل مساحة تمثيل النموذج، مما يُغيّر أحيانًا نتائج الاسترجاع.

نتائج البحث عن صورة استعلام، تُظهر كيف تقوم نماذج الأساس بتصنيف الصور المشابهة ليس فقط بناءً على المحتوى المرئي ولكن أيضًا على البيانات الوصفية المخفية مثل ضغط JPEG أو طراز الكاميرا.

استخدم ورقة جديدة بعنوان معالجة وتتبعات الاستحواذ في أجهزة الترميز المرئية: ماذا يعرف CLIP عن الكاميرا الخاصة بك؟، ويأتي هذا البحث من ستة باحثين من جامعة أوساكا والجامعة التقنية التشيكية في براغ.

الطريقة والبيانات*

لاختبار تأثير البيانات الوصفية المخفية على برامج الترميز المرئية مثل CLIP، عمل المؤلفون مع فئتين من البيانات الوصفية: معلمات معالجة الصور (مثل ضغط JPEG أو شحذها) ومعلمات الاستحواذ (مثل طراز الكاميرا أو إعدادات التعريض).

بدلاً من تدريب نماذج جديدة، قام الباحثون بتقييم 47 من أجهزة الترميز المرئية المستخدمة على نطاق واسع في مجمد، حالة مدربة مسبقًا، بما في ذلك نماذج الرؤية اللغوية المتباينة مثل CLIP، الإشراف الذاتي نماذج مثل DINOوالشبكات الخاضعة للإشراف التقليدي.

بالنسبة لمعلمات المعالجة، طبق الباحثون التحولات المتحكم بها إلى IMAGEnet و iNaturalist مجموعات البيانات لعام 2018، بما في ذلك ستة مستويات من ضغط JPEG، وثلاثة إعدادات للشحذ، وثلاثة مقاييس لتغيير الحجم، وأربع طرق للاستيفاء.

أمثلة على الصور والتعليقات التوضيحية من مجموعة بيانات iNaturalist. المصدر: https://arxiv.org/pdf/1707.06642

تم اختبار النماذج على قدرتها على استعادة كل إعداد تحويل باستخدام محتوى الصورة فقط، مع توقعات ناجحة تشير إلى أن المبرمج يحتفظ بالمعلومات حول خيارات المعالجة هذه في تمثيله الداخلي.

للتحقق من معلمات الاستحواذ، قام الباحثون بتجميع مجموعة بيانات مكونة من 356,459 صورة تسمى فليكر إكسيف، تحتوي على المحفوظة بيانات التعريف Exif، وأنشأ مجموعة بيانات ثانية تسمى زوج كاميرات، مكونة من 730 زوجًا من الصور الملتقطة في وقت واحد باستخدام هاتف ذكي وكاميرا غير ذكية.

بُنيت مجموعة بيانات FlickrExif باستخدام واجهة برمجة تطبيقات Flickr لتنزيل الصور مع بيانات Exif الوصفية المصاحبة. جُمعت ما بين 2,000 و4,000 صورة آمنة للعمل شهريًا، مؤرخة من أوائل عام 2000 حتى منتصف عام 2024، وفُلترت لتشمل فقط الصور ذات التراخيص المسموح بها. ولمنع زيادة عدد المستخدمين النشطين، اقتصر كل مساهم على عشر صور شهريًا لأي سنة.

بالنسبة لمجموعة بيانات PairCams، تم التقاط كل صورة باستخدام إعدادات تلقائية وبدون فلاش، مما يسمح بمقارنة الطريقة التي تستجيب بها برامج الترميز المرئية للاختلافات في أجهزة الكاميرا وحدها، بغض النظر عن محتوى الصورة:

أمثلة إضافية من مجموعة بيانات PairCams التي قام المؤلفون بإعدادها.

قام المؤلفون باختبار مجموعتين من المعلمات: معلمات معالجة الصور، مثل الضغط وتحويلات الألوان؛ ومعلمات الحصول على الصور، مثل ماركة الكاميرا أو طرازها:

تم تحليل معلمات معالجة الصور والاستحواذ، مع عدد الفئات لكل منها.

اختبارات

لتحديد ما إذا كانت المعلومات المتعلقة بمعالجة الصور ونوع الكاميرا محفوظة داخل تضمينات المُرمِّز البصري، درّب المؤلفون مُصنِّفًا للتنبؤ بعلامات البيانات الوصفية مباشرةً من تلك التضمينات. إذا لم يكن أداء المُصنِّف أفضل من التخمين العشوائي، فهذا يُشير إلى أن النموذج لا يلتقط تفاصيل المعالجة أو الجهاز.

ومع ذلك، فإن أي أداء أعلى من الصدفة من شأنه أن يشير إلى أن هذه الآثار الفنية يتم تشفيرها بالفعل، ويمكن أن تؤثر على المهام اللاحقة.

لاختبار آثار المعالجة، قام المؤلفون بتعيين إعداد معالجة عشوائي لكل صورة تدريب، مثل مستوى ضغط JPEG معين، في حين شاركت جميع صور الاختبار في الدفعة في نفس الإعداد.

تم بعد ذلك دمج دقة التصنيف المتوسطة عبر جميع الإعدادات مع التجارب المتكررة في ظل ظروف مختلفة بذور عشوائية، بحيث يمكن تحديد ما إذا كانت التفاصيل الفنية لمعالجة الصور يتم التقاطها بشكل متسق في التمثيل الداخلي للنموذج:

دقة التصنيف للتنبؤ بمعلمات معالجة الصور من تضمينات المُرمِّز، باستخدام مُصنِّف خطي مُطبَّق على النماذج المُجمَّدة. تُعرَض النتائج لضغط JPEG، والشحذ، وتغيير الحجم، والتكامل، مع ثلاث فئات للنماذج: الرؤية التباينية - اللغة (برتقالي)، والإشراف (أخضر)، والإشراف الذاتي (أزرق)، وقد تم تقييمها على ImageNet (الصف العلوي) وiNaturalist 2018 (الصف السفلي). خطوط الأساس المُخمَّنة عشوائيًا مُحدَّدة بخطوط متقطعة.

عبر جميع معايير المعالجة الأربعة، أظهرت نماذج لغة الرؤية التباينية أعلى قدرة على تمييز التلاعبات الخفية بالصور. وحققت بعض النماذج دقةً تجاوزت 80% عند توقع إعدادات ضغط JPEG، ووضوحها، وتغيير حجمها من تضمينات ImageNet.

المشفرات الخاضعة للإشراف، وخاصة تلك التي تعتمد على كونفنيكستكما أظهرت النماذج الخاضعة للإشراف الذاتي أداءً قويًا، في حين كانت النماذج التي تخضع للإشراف الذاتي أضعف باستمرار.

كان الاستيفاء هو المعلمة الأكثر صعوبة في الكشف عنها، ومع ذلك فإن نماذج CVL العليا والنماذج الخاضعة للإشراف لا تزال تحقق نتائج أعلى بكثير من خط الأساس العشوائي بنسبة 25% في كلتا مجموعتي البيانات.

بعد ذلك، لاختبار ما إذا كانت المعلومات المتعلقة بالكاميرا مضمنة في تمثيلات النموذج، قام المؤلفون بإنشاء مجموعات تدريب واختبار منفصلة لكل معلمة اكتساب (مثل ماركة الكاميرا، وطراز الكاميرا، والتعرض، والفتحة، وISO، والبعد البؤري).

بالنسبة لمعظم المعلمات، تم استخدام الفئات التي تحتوي على 5,000 مثال على الأقل فقط؛ وتم اختيار 500 صورة عشوائيًا اجلس جانبا للاختبار، واختُصِرت عينات الأمثلة المتبقية بحيث احتوت كل فئة على 200 عينة تدريب. بالنسبة لمعلمات "النموذج (الكل)" و"النموذج (الذكي)"، والتي احتوت على بيانات أقل لكل فئة، استخدم المؤلفون فئات تحتوي على 500 صورة على الأقل، وقسموا كل فئة إلى قطار و تجربه بالعربي مجموعات فرعية بنسبة أربعة إلى واحد.

تم إبقاء المصورين منفصلين عبر مجموعات التدريب والتحقق والاختبار، وتم تدريب مصنف بسيط للتنبؤ بمعلومات الكاميرا استنادًا إلى ميزات الصورة.

لضمان عدم تأثر المُصنِّف بالمحتوى الدلالي للصور، تم إخفاء 90% من كل صورة (انظر الأمثلة أدناه). يؤكد المؤلفون أنه عند هذا المستوى من التغطية، تعمل جميع مُرمِّزات الصور بشكل شبه عشوائي على ImageNet، مما يُشير إلى أن الإشارة الدلالية قد تم كبتُها بفعالية.

دقة التحقق من صحة ImageNet كدالة لنسبة التغطية. عند تغطية 90%، ينخفض أداء جميع النماذج إلى أداء شبه عشوائي في تنبؤات العلامات الدلالية، مما يشير إلى إزالة الإشارات الدلالية بفعالية. توضح الصور التوضيحية في الأسفل مستويات التغطية.

حتى مع إخفاء 90% من كل صورة، فإن معظم نماذج الرؤية التباينية واللغة، بالإضافة إلى مُرمِّزات ConvNeXt المُراقَبة، لا تزال تتنبأ بالعلامات المتعلقة بالكاميرات بمستويات احتمالية أعلى بكثير. وقد تجاوزت دقة العديد من نماذج CVL نسبة 70% في التمييز بين صور الهواتف الذكية وصور غيرها.

مشفرات أخرى خاضعة للإشراف، سيجليب، وكان أداء جميع النماذج ذاتية الإشراف أسوأ بكثير. عند عدم تطبيق أي قناع، أظهرت نماذج CVL مرة أخرى أقوى تجميع حسب نوع الكاميرا، مما يؤكد أن هذه النماذج تُضمّن معلومات الاستحواذ بشكل أعمق من غيرها.

تصورات t-SNE لمشفرين بصريين، مع ألوان تشير إلى ما إذا كانت كل صورة تم التقاطها بواسطة هاتف ذكي أو كاميرا غير ذكية.

الأهمية اللاحقة

وبعد التأكد من أن البيانات الوصفية تؤثر على النماذج بهذه الطريقة، تم بعد ذلك تقييم ميل آثار المعالجة المخفية للتدخل في تفسير الصور.

عندما تتم معالجة نسختين من نفس الصورة بشكل مختلف، غالبًا ما يتم تنظيم التضمينات وفقًا لـ أسلوب المعالجة في عدة حالات، عوملت صورة كلب مضغوطة بشدة على أنها أقرب إلى صورة غير ذات صلة بنفس إعداد الضغط منها إلى نسختها غير المضغوطة:

تأثير معلمات المعالجة على التنبؤ الدلالي، مع توضيح دقة التصنيف الدلالي لـ ImageNet (أعلى) وiNaturalist (أسفل) ضمن خمسة إعدادات معالجة. في خط الأساس، تشترك جميع صور التدريب والاختبار في تسمية المعالجة نفسها؛ في وضع التباين الكامل، تستخدم صورة الاختبار قيمة معالجة غير موجودة في مجموعة التدريب؛ في وضعي التطابق الإيجابي والسلبي، تتم محاذاة تسمية المعالجة إما مع صور متشابهة أو مختلفة دلاليًا؛ في وضع التطابق الموحد، تُعيّن تسميات المعالجة عشوائيًا عبر مجموعة التدريب. تُعرض النتائج باستخدام k = 10 لـ ImageNet، وk = 1 لـ iNaturalist.

نتجت أقوى التشوهات عن ضغط JPEG، يليه تحسين الوضوح وتغيير الحجم، بينما لم يُحدث الاستيفاء سوى تأثير طفيف. يؤكد الباحثون أن هذه النتائج تُظهر أن آثار المعالجة يمكنها تجاوز المعلومات الدلالية وتحديد كيفية فهم الصورة.

وفي الختام يحذرون:

رغم أننا حددنا أن تسميات البيانات الوصفية مُرمَّزة في مُرمِّزات بصرية أساسية، وقدمنا تلميحات حول الأسباب المحتملة، إلا أننا لا نستطيع تحديد مصدر المشكلة بشكل قاطع. ويُشكِّل البحث في هذا الأمر تحديًا نظرًا لتكلفة إعادة تدريب هذه النماذج، والاستخدام المتكرر لمجموعات بيانات خاصة، وتفاصيل تنفيذ غير مُعلنة.

"على الرغم من أننا لا نقترح تقنيات تخفيف محددة، فإننا نسلط الضوء على هذه القضية باعتبارها مجالاً مهماً للبحوث المستقبلية."

خاتمة

هناك اهتمام متزايد في الأدبيات فيما يتعلق بالآثار والعلامات التي تشير إلى "هيمنة الطريقة على المحتوى"؛ فكلما كان من السهل تحديد مجال تأطير أو مجموعة بيانات محددة، كان من الأسهل الاستفادة من هذه المعلومات في شكل - على سبيل المثال - أجهزة كشف التزييف العميق، أو أنظمة مصممة لتصنيف مصدر أو عمر البيانات والنماذج.

كل هذا يتعارض مع الهدف الأساسي لتدريب نماذج الذكاء الاصطناعي، وهو أن تُصاغ المفاهيم المركزية المُركّزة بشكل مستقل عن وسائل الإنتاج، وألا يكون لها أي أثر. في الواقع، لمجموعات البيانات وأجهزة الالتقاط خصائص وسمات مجالية يستحيل فصلها عن المحتوى، لأنها في حد ذاتها تُمثل أيضًا "منظورًا تاريخيًا".

* صُممت الورقة البحثية بشكل غير تقليدي، وسنُكيّفها قدر الإمكان مع تنسيقها وطريقة عرضها غير التقليدية. نُقل جزء كبير من المادة، التي كان من المفترض أن تُدرج في قسم "المنهجية" (وهو غير موجود أصلًا)، إلى أجزاء مختلفة من الملحق، على الأرجح لحصر الورقة الرئيسية بثماني صفحات - وإن كان ذلك على حساب الوضوح بشكل كبير. نعتذر عن أي فرصة قد فاتتنا لتحسين هذا بسبب ضيق الوقت.

نُشر لأول مرة يوم الأربعاء 20 أغسطس 2025

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai