زاوية Anderson

JPEG AI يُزيل الحدود بين الصور الحقيقية والاصطناعية

Published April 8, 2025

Updated April 26, 2026

Martin Anderson

Created with ChatGPT-4o and Adobe Firefly

في فبراير من هذا العام، تم نشر معيار JPEG AI الدولي، بعد عدة سنوات من البحث الهادف إلى استخدام تقنيات التعلم الآلي لإنتاج ترميز صورة أصغر وأسهل في النقل والخزن، دون فقدان في الجودة الحسية.

من المنشور الرسمي لJPEG AI، مقارنة بين نسبة الإشارة إلى الضوضاء القصوى (PSNR) ونهج JPEG AI المُحسَّن بالتعلم الآلي. مصدر: https://jpeg.org/jpegai/documentation.html

واحدة من الأسباب المحتملة لعدم انتشار هذا الاكتشاف على نطاق واسع هو أن المستندات الأساسية لهذا الإعلان لم تكن متاحة من خلال منافذ الوصول المجانية مثل Arxiv. ومع ذلك، قد قدم Arxiv بالفعل عددًا من الدراسات التي تدرس أهمية JPEG AI عبر عدة جوانب، بما في ذلك طريقة التكميش غير المعتادة واهميتها في علم الأدلة الجنائية.

دراسة مقارنة بين آثار التكميش، بما في ذلك تلك من مسودة سابقة من JPEG AI، ووجدت أن الطريقة الجديدة تميل إلى تقليل وضوح النص - وهو أمر لا يُستحسن في الحالات التي قد تساهم فيها في سلسلة الأدلة.

دراسة مقارنة بين آثار التكميش، بما في ذلك تلك من مسودة سابقة من JPEG AI، ووجدت أن الطريقة الجديدة تميل إلى تقليل وضوح النص. مصدر: https://arxiv.org/pdf/2411.06810

نظرًا لأن JPEG AI يغير الصور بطرق تقليد آثار مولدات الصور الاصطناعية، فإن الأدوات الجنائية الحالية تواجه صعوبة في التمييز بين الصور الحقيقية والصور المزيفة:

بعد ضغط JPEG AI، لا يمكن للخوارزميات المتقدمة تمييز المحتوى الأصلي من المناطق المُعدلة في خرائط الموقع، وفقًا لورقة حديثة (مارس 2025). الأمثلة المصدرية الموجودة على اليسار هي صور مزيفة، حيث يتم تحديد المناطق المُعدلة بوضوح باستخدام تقنيات جنائية قياسية (الصورة الوسطى). ومع ذلك، يمنح ضغط JPEG AI الصور المزيفة طبقة من المصداقية (الصورة على اليمين). مصدر: https://arxiv.org/pdf/2412.03261

واحدة من الأسباب هي أن JPEG AI يتم تدريبه باستخدام هيكل نموذج مشابه لتلك المستخدمة في الأنظمة التوليدية التي تهدف الأدوات الجنائية إلى الكشف عنها:

تُظهر الورقة الجديدة التشابه بين منهجيات ضغط الصور المُحسَّن بالتعلم الآلي والصور المُولدة بالفعل بواسطة التعلم الآلي. مصدر: https://arxiv.org/pdf/2504.03191

لذلك قد تنتج كلا النموذجين بعض السمات البصرية المماثلة من وجهة نظر جنائية.

الكمية

يحدث هذا الت重 بسبب الكمية، وهو مشترك بين كلا الهيكلين، ويُستخدم في التعلم الآلي كطريقة لتحويل البيانات المستمرة إلى نقاط بيانات منفصلة، وكتقنية تحسين يمكن أن يقلل بشكل كبير من حجم ملف النموذج المُدرَّب (سيعرف هواة التوليد الصوري بالتعلم الآلي الانتظار بين إصدار رسمي غير مُحسَّن، وإصدار مُحسَّن من قبل المجتمع يمكن تشغيله على الأجهزة المحلية).

في هذا السياق، تشير الكمية إلى عملية تحويل القيم المستمرة في تمثيل الصورة اللاتنتي إلى خطوات منفصلة ثابتة. يستخدم JPEG AI هذه العملية لتقليل كمية البيانات المطلوبة لتخزين أو نقل صورة من خلال تبسيط التمثيل العددي الداخلي.

على الرغم من أن الكمية تجعل التشفير أكثر كفاءة، إلا أنها تفرض أيضًا انتظامًا هيكليًا يمكن أن يشبه الآثار المتبقية من نماذج التوليد – لطيفة بما يكفي لتهرب من الإدراك، ولكنها مزعجة للأدوات الجنائية.

استجابة لذلك، يقترح مؤلفو عمل جديد بعنوان ثلاثة إشارات جنائية لصور JPEG AI تقنيات غير عصبية قابلة للتفسير يمكنها الكشف عن ضغط JPEG AI؛ وتحديد ما إذا كانت الصورة قد تم إعادة ضغطها؛ والتمييز بين الصور الحقيقية المضغوطة والصور المُولدة بالكامل بواسطة التعلم الآلي.

الطريقة

ارتباطات الألوان

يقترح البحث ثلاثة “إشارات جنائية” مخصصة لصور JPEG AI: ارتباطات قنوات الألوان، التي تُroduced خلال خطوات المعالجة المسبقة لJPEG AI؛ تشوهات قابلة للقياس في جودة الصورة عبر ضغطات متكررة التي تكشف عن أحداث إعادة الضغط؛ وأنماط كمية في الفضاء اللاتنتي التي تساعد على التمييز بين الصور المضغوطة بواسطة JPEG AI والصور المُولدة بواسطة نماذج التعلم الآلي.

فيما يتعلق bằng نهج القائمة على الارتباط باللون، يقدم خط أنابيب المعالجة المسبقة لJPEG AI اعتمادية إحصائية بين قنوات الصورة، مما يخلق توقيعًا يمكن أن يخدم كإشارة جنائية.

يحول JPEG AI الصور من RGB إلى فضاء الألوان YUV وينفذ تقليل الصوت اللوني 4:2:0، الذي يتضمن تقليل قنوات الصوت اللوني قبل الضغط. يؤدي هذا إلى ارتباطات لطيفة بين المخلفات عالية التردد لقنوات الأحمر والأخضر والأزرق – ارتباطات لا توجد في الصور غير المضغوطة، وتختلف في القوة عن تلك التي تنتجها ضغط JPEG التقليدية أو مولدات الصور الاصطناعية.

مقارنة لكيفية تغيير ضغط JPEG AI ارتباطات الألوان في الصور.

في الأعلى، يمكننا رؤية مقارنة من الورقة تُظهر كيف يغير ضغط JPEG AI ارتباطات الألوان في الصور، باستخدام قناة الحمراء كمثال.

اللوحة أ تقارن الصور غير المضغوطة بالصور المضغوطة بواسطة JPEG AI، مما يظهر أن الضغط يزيد بشكل كبير من الارتباط بين القنوات؛ اللوحة ب تعزل تأثير معالجة JPEG AI المسبقة – فقط التحويل اللوني والتقليل – مما يظهر أن حتى هذه الخطوة وحدها تزيد الارتباطات بشكل ملحوظ؛ اللوحة ج تظهر أن ضغط JPEG التقليدية يزيد الارتباطات قليلاً، ولكن ليس إلى نفس الدرجة؛ واللوحة د تتحقق من الصور المزيفة، مع Midjourney-V5 وFirefly التي تظهر زيادات معتدلة في الارتباط، في حين تبقى الأخرى أقرب إلى مستويات غير مضغوطة.

معدل التشويه

يحدد إشارة معدل التشويه إعادة ضغط JPEG AI عن طريق تتبع كيفية انخفاض جودة الصورة، المقاسة بنسبة الإشارة إلى الضوضاء القصوى (PSNR)، في نمط قابل للتنبؤ عبر عدة مراحل ضغط.

يُدعي البحث أن إعادة ضغط صورة متعددة مرات بواسطة JPEG AI يؤدي إلى خسائر تدريجية في جودة الصورة، كما هو مقاس بواسطة PSNR، وأن هذا التدهور المتدرج ي形成 أساسًا لإشارة جنائية للكشف عن ما إذا كانت الصورة قد تم إعادة ضغطها.

على عكس JPEG التقليدية، حيث تتبع الطرق السابقة التغييرات في كتل الصورة المحددة، يحتاج JPEG AI إلى نهج مختلف بسبب هيكله العصبي للضغط؛ لذلك يقترح المؤلفون مراقبة كيف يتطور معدل البت وPSNR عبر الضغط المتكرر. يتغير كل دورة من دورات الضغط الصورة أقل من السابقة، وهذا التغيير المتضائل (عندما يُخطط مقابل معدل البت) يمكن أن يكشف عن ما إذا كانت الصورة قد مرت بمراحل ضغط متعددة:

تُظهر صورة كيف يؤثر الضغط المتكرر على جودة الصورة عبر معالجات مختلفة، وتampilkan نتائج JPEG AI و codec عصبي تم تطويره في https://arxiv.org/pdf/1802.01436؛ وكلاهما يُظهر انخفاضًا مستمرًا في PSNR مع كل ضغط إضافي – حتى عند معدلات بت أقل.

في الصورة أعلاه، نرى منحنيات معدل التشويه لمعالجات JPEG AI؛ codec عصبي آخر؛ وJPEG التقليدية، ونجد أن JPEG AI وcodec العصبي يظهران انخفاضًا مستمرًا في PSNR عبر جميع معدلات البت، في حين أن JPEG التقليدية يُحافظ على جودة مستقرة عبر ضغطات متعددة، ما لم يكن معدل البت مرتفعًا. هذا السلوك يوفر إشارة كمية يمكن استخدامها لتحديد صور JPEG AI المضغوطة.

من خلال استخراج كيفية تطور معدل البت وجودة الصورة عبر عدة مراحل ضغط، بنى المؤلفون توقيعًا يساعد على تحديد ما إذا كانت الصورة قد تم إعادة ضغطها، ويوفر إشارة جنائية محتملة في سياق JPEG AI.

الكمية

كما رأينا سابقًا، واحدة من أكثر المشاكل الجنائية الصعبة التي يثيرها JPEG AI هي تشابهه البصري مع الصور المزيفة المولدة بواسطة نماذج الانتشار. كلا النظامين يستخدمان هيكلاً معماريًا من نوع معالج-مُحسِّن يعالجان الصور في فضاء لاتنتي مضغوط، وغالبًا ما يتركان وراءهما آثار تكميش لطيفة.

تُشبه هذه السمات المشتركة تُشوش الكاشفات – حتى تلك المُدرَّبة على صور JPEG AI. ومع ذلك، يبقى فرق هيكلي رئيسي: JPEG AI يطبق الكمية، وهي خطوة تُقرب القيم اللاتنتية إلى مستويات منفصلة للضغط الفعال، في حين أن نماذج التوليد عادة لا تفعل ذلك.

يستخدم البحث الجديد هذا الفرق لتصميم إشارة جنائية تختبر بشكل غير مباشر وجود الكمية. يُحلل الطريقة كيف يستجيب تمثيل الصورة اللاتنتي للتقريب، على افتراض أن الصورة التي تم ضغطها بالفعل سوف تظهر نمطًا قابلًا للقياس من الانحياز إلى القيم المُقربة.

تُنتج هذه الأنماط، على الرغم من أنها غير مرئية للعين، فروقًا إحصائية يمكن أن تساعد على فصل الصور الحقيقية المضغوطة عن الصور المزيفة بالكامل.

مثال على طيف فورير المتوسط يُظهر أن صور JPEG AI المضغوطة والصور المولدة بواسطة نماذج الانتشار مثل Midjourney-V5 وStable Diffusion XL تُظهر أنماطًا شبكية منتظمة في مجال التردد.

هذا النتيجة يُقصد منها كأداة خفيفة وقابلة للتفسير تستهدف الفرق الرئيسي بين الضغط وال توليد، بدلاً من الاعتماد على آثار سطحية هشة.

البيانات والاختبارات

الضغط

لتحديد ما إذا كان بإمكانهم الكشف عن ضغط JPEG AI بشكل موثوق (أي، المرور الأول من المصدر غير المضغوط)، اختبر الباحثون إشارة الارتباط باللون على صور عالية الجودة غير مضغوطة من مجموعة RAISE، وضغطوها عند معدلات بت مختلفة، باستخدام تطبيق JPEG AI المرجعي.

لقد دربوا غابة عشوائية بسيطة على الأنماط الإحصائية لارتباطات قنوات الألوان (特别 كيفية انحياز الضوضاء المتبقية في كل قناة مع القنوات الأخرى) ومقارنتها بشبكة عصبية ResNet50 تم تدريبها مباشرة على بكسلات الصورة.

دقة الكشف عن ضغط JPEG AI باستخدام ميزات الارتباط باللون، مقارنة عبر معدلات بت متعددة.

في حين أن ResNet50 حقق دقة أعلى عندما كانت بيانات الاختبار متوافقة مع ظروف التدريب، عانى من صعوبة التعميم عبر مستويات ضغط مختلفة. نهج الارتباط باللون، على الرغم من بساطته، أثبت نفسه أكثر ثباتًا عبر معدلات بت، خاصة عند معدلات ضغط أقل حيث يكون تأثير معالجة JPEG AI أقوى.

تُشير هذه النتائج إلى أن من الممكن الكشف عن ضغط JPEG AI باستخدام إشارات إحصائية تظل قابلة للتفسير وقوية.

إعادة الضغط

لتحديد ما إذا كان بإمكانهم الكشف عن إعادة ضغط JPEG AI بشكل موثوق، اختبر الباحثون إشارة معدل التشويه على مجموعة من الصور المضغوطة عند معدلات بت مختلفة – بعضها فقط مرة واحدة والبعض الآخر مرتين باستخدام JPEG AI.

تضمنت هذه الطريقة استخراج متجه ميزة ذي 17 بعدًا لمراقبة كيفية تطور معدل البت وPSNR عبر ثلاث مراحل ضغط. هذا المجموعة من الميزات أدرجت كمية الجودة المفقودة في كل خطوة، وكيفية سلوك معدلات البت اللاتنتية والhyperprior – مقاييس لا يمكن للأساليب التقليدية القائمة على البكسل الوصول إليها بسهولة.

درب الباحثون غابة عشوائية على هذه الميزات ومقارنتها بأداء ResNet50 تم تدريبه على بتشات الصورة:

نتائج دقة التصنيف لغابة عشوائية تم تدريبها على ميزات معدل التشويه للكشف عن ما إذا كانت صورة JPEG AI قد تم إعادة ضغطها.

أثبتت غابة العشوائية فعالية ملحوظة عندما كان الضغط الأولي قويًا (أي عند معدلات بت أقل)، مما يكشف عن فروق واضحة بين الصور المضغوطة مرة واحدة والصور المضغوطة مرتين. كما هو الحال مع الإشارة السابقة، عانى ResNet50 من صعوبة التعميم، خاصة عند اختباره على مستويات ضغط لم يرها أثناء التدريب.

ميزات معدل التشويه، على العكس، ظلت مستقرة عبر مجموعة واسعة من السيناريوهات. لاحظت أيضًا أن الإشارة تعمل حتى عند تطبيقها على codec آخر قائم على التعلم الآلي، مما يشير إلى أن النهج يعمم ما وراء JPEG AI.

JPEG AI والصور المزيفة

لجولة الاختبار النهائية، اختبر الباحثون ما إذا كانت ميزات الكمية الخاصة بهم يمكن أن تفرق بين صور JPEG AI المضغوطة والصور المزيفة المولدة بالكامل بواسطة نماذج مثل Midjourney، Stable Diffusion، DALL-E 2، Glide، وAdobe Firefly.

لذلك، استخدموا مجموعة فرعية من مجموعة Synthbuster، مخلوطة مع صور حقيقية من قاعدة بيانات RAISE وصور مولدة بواسطة نماذج مختلفة قائمة على الانتشار والGAN.

أمثلة على الصور المزيفة في Synthbuster، تم إنشاؤها باستخدام محفزات نصية مستوحاة من صور فوتوغرافية حقيقية من مجموعة RAISE-1k. تم إنشاء الصور باستخدام نماذج انتشار مختلفة، مع محفزات مصممة لإنتاج محتوى ومواد فوتوغرافية حقيقية بدلاً من العرض الفني. يعكس ذلك تركيز المجموعة على اختبار الأساليب لتمييز الصور الحقيقية من المولدة.

أمثلة على الصور المزيفة في Synthbuster، تم إنشاؤها باستخدام محفزات نصية مستوحاة من صور فوتوغرافية حقيقية من مجموعة RAISE-1k. مصدر: https://ieeexplore.ieee.org/document/10334046

تم ضغط الصور الحقيقية باستخدام JPEG AI عند مستويات بت مختلفة، وتم تحديد التصنيف كمهام ثنائية: إما JPEG AI مقابل مولد معين، أو معدل بت معين مقابل Stable Diffusion XL.

تم حساب ميزات الكمية (الارتباطات المستخرجة من التمثيل اللاتنتي) من منطقة ثابتة 256×256 وتم تغذيتها إلى مصنف غابة عشوائية. كما تم تدريب ResNet50 على بتشات الصورة كمرجع.

دقة التصنيف لمصنف غابة عشوائية باستخدام ميزات الكمية لفصل الصور المضغوطة بواسطة JPEG AI عن الصور المزيفة.

عبر معظم الظروف، أدى نهج الكمية بشكل أفضل من المرجع ResNet50، خاصة عند معدلات بت أقل حيث كانت آثار الضغط أقوى.

يُصر المؤلفون على أن:

‘يُؤدّي المرجع ResNet50 بشكل أفضل لصور Glide بدقة 66.1٪، لكنه يُعمم أسوأ في جميع الحالات الأخرى. بينما تُظهر ميزات الكمية تحسينًا جيدًا في التعميم عبر قوة الضغط ومصنعي الصور.

‘أهمية المعاملات التي تم تحويلها إلى صفر تظهر في الأداء المُحترم لميزات المجزأة، التي تُؤدّي في العديد من الحالات بشكل مشابه لنموذج المصنف ResNet50. ومع ذلك، تُؤدّي ميزات الكمية التي تستخدم المتجه الكامل غير المجزأ بشكل أفضل.

‘هذه النتائج تؤكد أن كمية الصفر بعد الكمية هي إشارة هامة لتمييز الصور المضغوطة بواسطة JPEG AI عن الصور المولدة بواسطة التعلم الآلي. ومع ذلك، تُظهر أيضًا أن هناك عوامل أخرى تساهم. دقة الكشف عن JPEG AI تُبلغ عن جميع معدلات البت بأكثر من 91.0٪، ويزيد الضغط من الدقة.

تمثيل لمكان الميزة باستخدام UMAP يُظهر فصلًا واضحًا بين صور JPEG AI والصور المزيفة، مع زيادة المسافة بين الطبقات عند معدلات بت أقل. كان Glide هو المُخترق المُستمر، حيث جمعت صوره بشكل مختلف وتمتلك دقة الكشف الأقل بين جميع المولدين الذين تم اختبارهم.

تمثيل ثنائي الأبعاد لمكان الميزة لصور JPEG AI المضغوطة والصور المزيفة، بناءً على ميزات الكمية.

أخيرًا، قيم الباحثون كيفية تحمل الميزات للتحويلات التالية، مثل إعادة ضغط JPEG أو تغيير حجم الصورة. على الرغم من أن الأداء انخفض مع المعالجة الأقوى، كان الانخفاض تدريجيًا، مما يشير إلى أن النهج يحتفظ ببعض القوة حتى في ظروف متدهورة.

تقييم متانة ميزات الكمية تحت المعالجة اللاحقة، بما في ذلك إعادة ضغط JPEG (JPG) وتغيير حجم الصورة (RS).

الاستنتاج

ليس من المؤكد أن JPEG AI سوف يُستخدم على نطاق واسع. من بين الأشياء الأخرى، هناك ما يكفي من الديون الهيكلية الحالية لفرض احتكاك على أي codec جديد؛ وحتى codec تقليدي ذو سلالة جيدة و консенсوس واسع حول قيمته، مثل AV1، يجد صعوبة في استبدال الأساليب القائمة.

فيما يتعلق بمواجهة النظام مع مولدات الصور الاصطناعية، قد تُقلل الآثار المميزة للكمية التي تساعد على الكشف عن JPEG AI في الجيل الحالي من كاشفات الصور المزيفة، أو قد تُستبدل بآثار من نوع آخر في الأنظمة اللاحقة (افتراضًا أن مولدات الصور سوف تترك دائمًا آثارًا جنائية، وهو ما لا يُؤكد).

هذا سوف يعني أن خصائص الكمية الخاصة بJPEG AI، ربما جنبًا إلى جنب مع إشارات أخرى تم تحديدها بواسطة الورقة الجديدة، قد لا تتعارض في النهاية مع مسار جنائي لمولدات الصور الاصطناعية الأكثر فعالية.

إذا، مع ذلك، استمر JPEG AI في العمل كـ “غسيل” للتعلم الآلي، مما يُزيل بشكل كبير الفرق بين الصور الحقيقية والصور المزيفة، سيكون من الصعب تقديم حجة مقنعة لاستخدامه.

نُشر لأول مرة يوم الثلاثاء، 8 أبريل 2025

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai