الذكاء الاصطناعي

استخدام ضغط JPEG لتحسين تدريب الشبكة العصبية

تم النشر 10 أكتوبر 2024

مارتن أندرسون

صورة تم إنشاؤها بواسطة الذكاء الاصطناعي باستخدام ChatGPTY-4o، مع المطالبة "يرجى إنشاء صورة بانورامية واقعية لغروب الشمس في المناظر الطبيعية حيث يصبح النصف الأيمن من الصورة مليئًا تدريجيًا بآثار JPEG القبيحة"

اقترحت ورقة بحثية جديدة من كندا إطار عمل يتعمد إدخال ضغط JPEG في مخطط تدريب الشبكة العصبية، ويتمكن من الحصول على نتائج أفضل - ومقاومة أفضل للهجمات المعادية.

وهذه فكرة جذرية إلى حد ما، لأن الحكمة العامة الحالية هي أن آثار JPEG، التي تم تحسينها للعرض البشري، وليس للتعلم الآلي، لها عمومًا تأثير ضار على الشبكات العصبية المدربة على بيانات JPEG.

مثال على الفرق في الوضوح بين صور JPEG المضغوطة بقيم خسارة مختلفة (الخسارة الأعلى تسمح بحجم ملف أصغر، على حساب التحديد والخطوط عبر تدرجات الألوان، من بين أنواع أخرى من التحف). المصدر: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

مثال على الفرق في الوضوح بين صور JPEG المضغوطة بقيم خسارة مختلفة (الخسارة الأكبر تسمح بحجم ملف أصغر، على حساب التحديد والخطوط عبر تدرجات الألوان، من بين أنواع أخرى من الآثار). المصدر: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

تقرير صادر عام 2022 من جامعة ماريلاند وفيسبوك للذكاء الاصطناعي أكد أن ضغط JPEG "يتسبب في عقوبة أداء كبيرة" في تدريب الشبكات العصبية، على الرغم من عمل سابق زعمت هذه الدراسة أن الشبكات العصبية تتمتع بمرونة نسبية تجاه مشكلات ضغط الصور.

قبل عام من ذلك، ظهر تيار جديد من الفكر في الأدبيات: وهو أن ضغط JPEG يمكن يمكن الاستفادة منها فعليا لتحسين النتائج في التدريب النموذجي.

مع ذلك، على الرغم من أن مؤلفي تلك الورقة البحثية تمكنوا من الحصول على نتائج مُحسّنة في تدريب صور JPEG ذات مستويات جودة متفاوتة، إلا أن النموذج الذي اقترحوه كان معقدًا ومُرهقًا لدرجة أنه لم يكن عمليًا. بالإضافة إلى ذلك، فإن استخدام النظام لإعدادات تحسين JPEG الافتراضية (توضيح) ثبت أنها تشكل عائقًا أمام فعالية التدريب.

مشروع لاحق (2023) ضغط متوافق مع JPEG لـ DNN Vision) تم تجربة نظام حصل على نتائج أفضل قليلاً من صور التدريب المضغوطة بتنسيق JPEG باستخدام مجمد نموذج الشبكة العصبية العميقة (DNN). ومع ذلك، فإن تجميد أجزاء من النموذج أثناء التدريب يميل إلى تقليل تنوع النموذج، فضلاً عن مرونته الأوسع للبيانات الجديدة.

JPEG-DL

بدلا من ذلك، فإن عمل جديد، بعنوان التعلم العميق المستوحى من JPEGيقدم بنية أبسط بكثير، والتي يمكن فرضها حتى على النماذج الموجودة.

ويقول الباحثون من جامعة واترلو:

'تظهر النتائج أن JPEG-DL يتفوق بشكل كبير ومتسق على DL القياسي عبر مختلف بنيات DNN، مع زيادة لا تذكر في تعقيد النموذج.

على وجه التحديد، يُحسّن JPEG-DL دقة التصنيف بنسبة تصل إلى 20.9% في بعض مجموعات بيانات التصنيف الدقيقة، مع إضافة 128 معلمة قابلة للتدريب فقط إلى خط أنابيب DL. علاوة على ذلك، يتجلى تفوق JPEG-DL على DL القياسي من خلال تعزيز متانة النماذج المُدرَكة وتقليل أحجام ملفات الصور المُدخلة.

يزعم المؤلفون أن مستوى جودة ضغط JPEG الأمثل يمكن أن يساعد الشبكة العصبية في التمييز بين الموضوع/الموضوعات المركزية للصورة. في المثال أدناه، نرى نتائج خط الأساس (على اليسار) تدمج الطائر في الخلفية عندما يتم الحصول على السمات بواسطة الشبكة العصبية. على النقيض من ذلك، ينجح JPEG-DL (على اليمين) في التمييز بين موضوع الصورة وتحديده.

اختبارات على الطرق الأساسية لـ JPEG-DL. المصدر: https://arxiv.org/pdf/2410.07081

اختبارات ضد الأساليب الأساسية لـ JPEG-DL. المصدر: https://arxiv.org/pdf/2410.07081

"هذه الظاهرة" هم يشرحون 'تم وصف "مساعدة الضغط" في ورقة بحثية [2021]، وهو مبرر بحقيقة أن الضغط يمكن أن يزيل الضوضاء وميزات الخلفية المزعجة، وبالتالي تسليط الضوء على الكائن الرئيسي في الصورة، مما يساعد الشبكات العصبية العميقة على التنبؤ بشكل أفضل.'

الأسلوب

يقدم JPEG-DL ميزة قابلة للتفاضل كمية ناعمة، والذي يحل محل عملية التكميم غير القابلة للتفاضل في روتين تحسين JPEG القياسي.

وهذا يسمح ل قائم على التدرج تحسين الصور. هذا غير ممكن في ترميز JPEG التقليدي، والذي يستخدم كمية موحدة مع عملية التقريب التي تقرب أقرب معامل.

يتيح التمايز في مخطط JPEG-DL تحسينًا مشتركًا لكلٍّ من معلمات نموذج التدريب وتكميم JPEG (مستوى الضغط). ويعني هذا التحسين المشترك أن كلًّا من النموذج وبيانات التدريب مُلائمان لبعضهما البعض في النهائي إلى نهاية العملية، ولا حاجة لتجميد الطبقات.

في الأساس، يقوم النظام بتخصيص ضغط JPEG لمجموعة البيانات (الخام) لتناسب منطق عملية التعميم.

المخطط المفاهيمي لـ JPEG-DL.

قد يفترض المرء أن البيانات الخام ستكون المادة المثالية للتدريب؛ ففي نهاية المطاف، يتم ضغط الصور بالكامل إلى مساحة ألوان كاملة الطول مناسبة عندما يتم تشغيلها على دفعات؛ لذا ما الفرق الذي يحدثه التنسيق الأصلي؟

حسنًا، بما أن ضغط JPEG مُحسّن للعرض البشري، فإنه يُغفل مناطق من التفاصيل أو الألوان بطريقة تتوافق مع هذا الهدف. عند استخدام صورة لبحيرة تحت سماء زرقاء، سيتم تطبيق مستويات ضغط أعلى على السماء، لأنها لا تحتوي على أي تفاصيل "أساسية".

من ناحية أخرى، تفتقر الشبكة العصبية إلى المرشحات غير المركزية التي تسمح لنا بالتركيز على الموضوعات المركزية. وبدلاً من ذلك، من المرجح أن تنظر إلى أي آثار خطوط في السماء باعتبارها بيانات صالحة ليتم استيعابها في شبكتها. مساحة كامنة.

على الرغم من أن الإنسان سوف يتجاهل الخطوط الموجودة في السماء، إلا أن الشبكة العصبية في صورة مضغوطة بشدة (على اليسار) لا تدرك أنه يجب التخلص من هذا المحتوى، وستحتاج إلى صورة ذات جودة أعلى (على اليمين). المصدر: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

على الرغم من أن الإنسان سوف يتجاهل النطاقات الموجودة في السماء، إلا أن الشبكة العصبية في صورة مضغوطة بشدة (على اليسار) ليس لديها أي فكرة بأن هذا المحتوى يجب التخلص منه، وسوف تحتاج إلى صورة ذات جودة أعلى (على اليمين). المصدر: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

لذلك، من غير المرجح أن يناسب مستوى واحد من ضغط JPEG المحتويات الكاملة لمجموعة بيانات التدريب، ما لم يكن يمثل مجالًا محددًا للغاية. تتطلب صور الحشود ضغطًا أقل بكثير من صورة ضيقة التركيز لطائر، على سبيل المثال.

يلاحظ المؤلفون أن أولئك الذين ليسوا على دراية بتحديات التكميم، ولكنهم على دراية بأساسيات محولات الهندسة المعمارية، يمكن اعتبار هذه العمليات بمثابة 'عملية الانتباه'، على نطاق واسع.

البيانات والاختبارات

تم تقييم JPEG-DL مقابل البنيات القائمة على المحولات و الشبكات العصبية التلافيفية (CNNs). تم استخدام الهندسة المعمارية EfficientFormer-L1; ريسنيت; VGG; موبايل نت، و شافل نت.

كانت إصدارات ResNet المستخدمة خاصة بـ سيفار مجموعة البيانات: ResNet32 وResNet56 وResNet110. تم اختيار VGG8 وVGG13 للاختبارات القائمة على VGG.

بالنسبة لشبكة CNN، تم استخلاص منهجية التدريب من عمل عام 2020 تقطير التمثيل التبايني (CRD). بالنسبة لـ EfficientFormer-L1 (المستند إلى المحول)، فإن طريقة التدريب من رحلة 2023 تهيئة النماذج باستخدام نماذج أكبر كان مستعملا.

بالنسبة للمهام الدقيقة التي ظهرت في الاختبارات، تم استخدام أربع مجموعات بيانات: ستانفورد كلاب؛ جامعة أكسفورد الزهور ; كوب-200-2011 (طيور معهد كاليفورنيا للتكنولوجيا)؛ و الحيوانات الأليفة (القطط والكلاب(تعاون بين جامعة أكسفورد وحيدر أباد في الهند).

بالنسبة للمهام الدقيقة على شبكات CNN، استخدم المؤلفون بريأكت ريسنت-18 و شبكة DenseNet-BCبالنسبة لـ EfficientFormer-L1، المنهجية الموضحة في ما سبق ذكره تهيئة النماذج باستخدام نماذج أكبر كان مستعملا.

عبر مهام CIFAR-100 والمهام الدقيقة، تختلف أحجام تحويل جيب التمام منفصلة تم التعامل مع ترددات (DCT) في نهج ضغط JPEG باستخدام ادم المُحسِّن، من أجل التكيف مع معدل التعليم لطبقة JPEG عبر النماذج التي تم اختبارها.

في الاختبارات على إيماجينت-1Kفي جميع التجارب، استخدم المؤلفون PyTorch، مع سكويز نت، ResNet-18 وResNet-34 كنماذج أساسية.

لتقييم تحسين طبقة JPEG، استخدم الباحثون الانحدار العشوائي (SGD) بدلاً من Adam، للحصول على أداء أكثر استقرارًا. ومع ذلك، بالنسبة لاختبارات ImageNet-1K، فإن الطريقة من ورقة عام 2019 تعلم كيفية حساب حجم الخطوة كان موظف.

أعلى دقة تحقق من الدرجة الأولى لخط الأساس مقابل JPEG-DL على CIFAR-1، مع متوسط الانحرافات المعيارية والمتوسطة على مدار ثلاث عمليات تشغيل. أدناه، أعلى دقة تحقق من الدرجة الأولى في مهام تصنيف الصور الدقيقة المتنوعة، عبر مختلف بنيات النماذج، مرة أخرى، بمتوسط ثلاث عمليات تشغيل.

وفي تعليقهم على الجولة الأولية من النتائج الموضحة أعلاه، يقول المؤلفون:

في جميع النماذج السبعة المُختبرة لـ CIFAR-100، يُقدم JPEG-DL تحسينات مُستمرة، مع زيادة تصل إلى 1.53% في دقة الأداء. في المهام الدقيقة، يُقدم JPEG-DL زيادة كبيرة في الأداء، مع تحسينات تصل إلى 1% في جميع مجموعات البيانات باستخدام نموذجين مختلفين.

تظهر نتائج اختبارات ImageNet-1K أدناه:

أفضل نتائج دقة التحقق على ImageNet عبر أطر عمل متنوعة.

وجاء في الورقة هنا:

"بفضل زيادة بسيطة في التعقيد (إضافة 128 معلمة)، يحقق JPEG-DL مكسبًا بنسبة 0.31% في الدقة من الدرجة الأولى لـ SqueezeNetV1 مقارنةً بخط الأساس باستخدام جولة واحدة من عملية [التكميم].

"من خلال زيادة عدد جولات التكميم إلى خمس جولات، نلاحظ تحسنًا إضافيًا بنسبة 0.20%، مما يؤدي إلى مكسب إجمالي بنسبة 0.51% على خط الأساس."

كما قام الباحثون باختبار النظام باستخدام البيانات المخترقة بواسطة هجوم معادي اقتراب طريقة التوقيع التدرجي السريع (FGSM) و الانحدار المتدرج المتوقع (PGD).

تم تنفيذ الهجمات على CIFAR-100 عبر اثنين من النماذج:

نتائج الاختبار لـ JPEG-DL، ضد إطارين هجوميين معاديين قياسيين.

يذكر المؤلفون:

"تعمل نماذج JPEG-DL على تحسين المتانة التنافسية بشكل كبير مقارنة بنماذج DNN القياسية، مع تحسينات تصل إلى 15% لـ FGSM و6% لـ PGD."

بالإضافة إلى ذلك، وكما هو موضح سابقًا في المقالة، أجرى المؤلفون مقارنة بين خرائط الميزات المستخرجة باستخدام برنامج GradCAM++ - إطار عمل يمكنه تسليط الضوء على الميزات المستخرجة بطريقة مرئية.

رسم توضيحي باستخدام GradCAM++ لتصنيف الصور الأساسية وJPEG-DL، مع إبراز الميزات المستخرجة.

وتشير الورقة البحثية إلى أن تقنية JPEG-DL تنتج نتائج محسنة، بل إنها في إحدى الحالات كانت قادرة على تصنيف صورة لم تتمكن البيانات الأساسية من تحديدها. وفيما يتعلق بالصورة الموضحة سابقًا والتي تظهر الطيور، يقول المؤلفون:

"[من] الواضح أن خرائط الميزات من نموذج JPEG-DL تظهر تباينًا أفضل بكثير بين معلومات المقدمة (الطائر) والخلفية مقارنة بخرائط الميزات التي تم إنشاؤها بواسطة النموذج الأساسي.

'على وجه التحديد، يتم وضع الكائن الموجود في المقدمة في خرائط ميزات JPEG-DL داخل محيط محدد جيدًا، مما يجعله قابلاً للتمييز بصريًا عن الخلفية.

'على النقيض من ذلك، تظهر خرائط ميزات النموذج الأساسي بنية أكثر اختلاطًا، حيث تحتوي المقدمة على طاقة أعلى في الترددات المنخفضة، مما يجعلها تمتزج بسلاسة أكبر مع الخلفية.'

خاتمة

تم تصميم JPEG-DL للاستخدام في المواقف التي تتوفر فيها البيانات الخام - ولكن سيكون من المثير للاهتمام معرفة ما إذا كان من الممكن تطبيق بعض المبادئ الواردة في هذا المشروع على تدريب مجموعة البيانات التقليدية، حيث قد يكون المحتوى أقل جودة (كما يحدث في كثير من الأحيان مع مجموعات البيانات الضخمة التي يتم جمعها من الإنترنت).

في الوضع الحالي، تظل هذه المشكلة إلى حد كبير مشكلة تعليق توضيحي، على الرغم من معالجتها في التعرف على الصور بناءً على حركة المرور، وفي أماكن أخرى.

نُشرت لأول مرة يوم الخميس 10 أكتوبر 2024

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

استخدام ضغط JPEG لتحسين تدريب الشبكة العصبية

JPEG-DL

الأسلوب

البيانات والاختبارات

خاتمة

قد يعجبك