الذكاء الاصطناعي

تحسين أداء التعلم الآلي من خلال تحجيم الصور باستخدام شبكات CNN

mm

提出了 طريقة جديدة لتحسين كفاءة ودقة تدفقات تدريب الرؤية الحاسوبية القائمة على الصور من خلال تحسين طريقة 缩小 الصور في مرحلة المعالجة المسبقة.

في الورقة تعلم تحجيم الصور لمهام الرؤية الحاسوبية، يستخدم الباحثان Hossein Talebi وPeyman Milanfar شبكة CNN لإنشاء معمارية تحجيم صورة هجينة جديدة تنتج تحسنًا ملحوظًا في نتائج التعرف على أربعة مجموعات بيانات شائعة للرؤية الحاسوبية.

ال_framework المقترح للتعرف والتحجيم.

ال_framework المقترح للتعرف والتحجيم. Source: https://arxiv.org/pdf/2103.09950.pdf

تلاحظ الورقة أن أساليب التحجيم التي يتم استخدامها حاليًا في خطوط أنابيب التعلم الآلي المتمتة عفا عليها الزمن، وتستخدم في كثير من الأحيان فقط أساليب التحجيم البسيطة مثل التحجيم الخطي، والتحجيم الثلاثي، والجوار الأقرب التحجيم – الأساليب التي تعامل جميع البكسل بشكل غير تمييزي.

في المقابل، تعزز الطريقة المقترحة بيانات الصورة من خلال شبكة CNN ودمج الإدخال في الصور المحجومة التي ستمر في النهاية عبر بنية الطراز.

قيود الصور في تدريب AI

لتدريب نموذج يتعامل مع الصور، سيشمل إطار التعلم الآلي مرحلة معالجة مسبقة، حيث يتم تحجيم مجموعة متنوعة من الصور المختلفة الأحجام والمساحات اللونية والدقة (التي ستمثل مجموعة بيانات التدريب) بشكل منهجي إلى أبعاد متسقة وتنسيق مستقر واحد.

عادةً ما يتضمن ذلك بعض التنازلات حول تنسيق PNG، حيث يتم تحديد توازن بين وقت المعالجة / الموارد وحجم الملف وجودة الصورة.

في معظم الحالات، تكون الأبعاد النهائية للصورة المعالجة صغيرة جدًا. فيما يلي مثال على دقة 80×80 التي تمت من خلالها توليد بعض مجموعات بيانات Deepfakes المبكرة تم توليدها:

هذه هي دقة 80x80 التي تمت من خلالها توليد بعض مجموعات بيانات Deepfakes المبكرة.

由于 أن الوجوه (والموضوعات الأخرى الممكنة) نادرًا ما تتناسب مع النسبة المطلوبة، قد يكون من الضروري إضافة شريط أسود (أو السماح بفضاء مُهدر) من أجل توحيد الصور، مما يقلل من حجم بيانات الصورة القابلة للاستخدام الفعلي:

هنا تم استخراج الوجه من منطقة صورة أكبر حتى يتم قصه باقتصاد حتى يتضمن منطقة الوجه بالكامل. ومع ذلك، كما هو موضح على اليسار، لن يتم استخدام جزء كبير من المنطقة المتبقية أثناء التدريب، مما يضيف وزنًا أكبر إلى أهمية جودة الصورة المحجومة.

هنا تم استخراج الوجه من منطقة صورة أكبر حتى يتم قصه باقتصاد حتى يتضمن منطقة الوجه بالكامل. ومع ذلك، كما هو موضح على اليمين، لن يتم استخدام جزء كبير من المنطقة المتبقية أثناء التدريب، مما يضيف وزنًا أكبر إلى أهمية جودة الصورة المحجومة.

كما تحسنت قدرات GPU في السنوات الأخيرة، مع جيل جديد من بطاقات NVIDIA المجهزة بكميات متزايدة من ذاكرة الفيديو (VRAM)، بدأت أحجام الصور المتوسطة في الزيادة، على الرغم من أن 224×224 بكسل لا تزال معيارية جدًا (على سبيل المثال، هي حجم مجموعة بيانات ResNet-50).

صورة غير محجومة بحجم 224x244 بكسل.

صورة غير محجومة بحجم 224×244 بكسل.

إدخال الدفعات في VRAM

السبب في أن الصور يجب أن تكون جميعها بحجم واحد هو أن الانحدار التدرجي، وهو الطريقة التي يتم من خلالها تحسين النموذج مع مرور الوقت، يتطلب بيانات تدريب موحدة.

السبب في أن الصور يجب أن تكون صغيرة جدًا هو أنها يجب تحميلها (مفككة تمامًا) في VRAM أثناء التدريب في دفعات صغيرة، عادة ما بين 6-24 صورة لكل دفعة. إذا كانت هناك صورة قليل جدًا في كل دفعة، فليس هناك مواد مجموعة كافية للتعرف الجيد، بالإضافة إلى تمديد وقت التدريب؛ إذا كانت هناك صورة كثيرة جدًا، قد يفشل النموذج في الحصول على السمات والتفاصيل اللازمة (انظر أدناه).

هذه القسم “التحميل المباشر” من بنية التدريب يسمى فضاء 潜在. هذا هو المكان الذي يتم استخراج الميزات منه بشكل متكرر من نفس البيانات (أي نفس الصور) حتى يصل النموذج إلى حالة حيث لديه جميع المعرفة العامة التي يحتاجها لأداء التحويلات على بيانات غير موصلة في وقت لاحق من نفس النوع.

يستغرق هذا العملية عادةً أيامًا، على الرغم من أنه يمكن أن يستغرق شهرًا أو أكثر من التفكير المستمر والكثيف 24/7 لتحقيق تعميم مفيد. الزيادات في حجم VRAM مفيدة فقط حتى نقطة معينة، حيث يمكن أن يكون للزيادات الصغيرة في دقة الصورة تأثير كبير على سعة المعالجة، وتأثيرات على الدقة التي قد لا تكون دائمًا مواتية.

استخدام سعة VRAM الأكبر لاستيعاب دفعات أكبر هو أيضًا نعمة مختلطة، حيث يتم تعويض السرعات التدريبية الأكبر التي يتم الحصول عليها من خلالها بنتائج أقل دقة.

كيف يساعد التحجيم الأفضل

لقد ثبت أن جودة الصورة التي ستتم إضافتها إلى مجموعة بيانات التدريب لها تأثير إيجابي على نتيجة التدريب، خاصة في مهام التعرف على الكائنات. في عام 2018، زعم باحثون من معهد ماكس بلانك للنظم الذكية أن اختيار طريقة العينة يؤثر بشكل ملحوظ على أداء التدريب والنتائج.

بالإضافة إلى ذلك، وجدت الأعمال السابقة من Google (المكتوبة بشكل مشترك من قبل مؤلفي الورقة الجديدة) أن دقة التصنيف يمكن تحسينها من خلال الحفاظ على التحكم над تشوهات الضغط في صور مجموعة البيانات.

هندسة CNN المقترحة لخوارزمية التحجيم.

هندسة CNN المقترحة لخوارزمية التحجيم.

النموذج CNN المدمج في العينة الجديدة يجمع بين التحجيم الخطي وميزة “التوصيل المتخطي” التي يمكنها دمج الإخراج من الشبكة المدربة في الصورة المحجومة.

على عكس الهيئة التقليدية للمُشفر / فك التشفير، يمكن لل提议 الجديد أن يعمل ليس فقط كعقبة توجيهية، ولكن أيضًا كعقبة عكسية لتحجيم الصورة إلى أي حجم و/ أو نسبة جوانب محددة. بالإضافة إلى ذلك، يمكن استبدال طريقة العينة “ال标准” بأي طريقة تقليدية مناسبة أخرى، مثل Lanczos.

التفاصيل الترددية العالية

تنتج الطريقة الجديدة صورًا التي في الواقع “تخبز” الميزات الرئيسية (التي سوف يتم التعرف عليها في النهاية من قبل عملية التدريب) مباشرة في الصورة الأصلية. من الناحية الجمالية، النتائج غير تقليدية:

الطريقة الجديدة المطبقة عبر أربعة شبكات - Inception V2؛ DenseNet-121؛ ResNet-50؛ وMobileNet-V2. تنتج نتائج طريقة تحجيم الصور في Google Research صورًا ذات تجميع واضح للبكسل، مما يتنبأ بالميزات الرئيسية التي سوف يتم التعرف عليها أثناء عملية التدريب.

الطريقة الجديدة المطبقة عبر أربعة شبكات – Inception V2؛ DenseNet-121؛ ResNet-50؛ وMobileNet-V2. تنتج نتائج طريقة تحجيم الصور في Google Research صورًا ذات تجميع واضح للبكسل، مما يتنبأ بالميزات الرئيسية التي سوف يتم التعرف عليها أثناء عملية التدريب.

يلاحظ الباحثون أن هذه التجارب الأولية مُحسنة حصريًا لمهام التعرف على الصور، وأن نموذج “التحجيم المُتعلم” الذي يعمل بالشبكة العصبية كان قادرًا على تحقيق معدلات خطأ محسنة في هذه المهام. يعتزم الباحثون في المستقبل تطبيق هذه الطريقة على أنواع أخرى من تطبيقات الرؤية الحاسوبية القائمة على الصور.

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai