اتصل بنا للحصول على مزيد من المعلومات

أداء أفضل لتعلم الآلة من خلال تغيير حجم الصورة المستند إلى CNN

الذكاء الاصطناعي

أداء أفضل لتعلم الآلة من خلال تغيير حجم الصورة المستند إلى CNN

mm

اقترحت Google Research طريقة جديدة لتحسين كفاءة ودقة سير عمل التدريب على رؤية الكمبيوتر المستندة إلى الصور من خلال تحسين الطريقة التي يتم بها تقليص الصور في مجموعة البيانات في مرحلة ما قبل المعالجة.

في خانة رمز الخصم، أدخل TABBYDAY. ورقة تعلم تغيير حجم الصور لمهام رؤية الكمبيوتر، يستخدم الباحثان حسين طالبي وبايمان ميلانفار CNN لإنشاء بنية هجينة جديدة لتغيير حجم الصورة ينتج عنها تحسن ملحوظ في نتائج التعرف التي تم الحصول عليها عبر أربع مجموعات بيانات شهيرة للرؤية الحاسوبية.

الإطار المشترك المقترح للاعتراف وتغيير الحجم. المصدر: https://arxiv.org/pdf/2103.09950.pdf

الإطار المشترك المقترح للاعتراف وتغيير الحجم. المصدر: https://arxiv.org/pdf/2103.09950.pdf

تلاحظ الورقة أن طرق إعادة القياس/تغيير الحجم المستخدمة حاليًا في مسارات التعلم الآلي الآلي قد عفا عليها الزمن لعقود من الزمن، وكثيرًا ما تستخدم فقط الخط الأساسي الثنائي والتكعيبي والأقرب المجاور تغيير حجم - الطرق التي تتعامل مع جميع وحدات البكسل بشكل عشوائي.

وعلى النقيض من ذلك، تعمل الطريقة المقترحة على تعزيز بيانات الصورة عبر CNN ودمج تلك المدخلات في الصور التي تم تغيير حجمها والتي ستمر في النهاية عبر بنية النموذج.

قيود الصورة في تدريب الذكاء الاصطناعي

من أجل تدريب نموذج يتعامل مع الصور ، سيتضمن إطار عمل التعلم الآلي مرحلة ما قبل المعالجة ، حيث يتم اقتصاص مجموعة متنوعة من الصور ذات الأحجام المختلفة ، ومساحات الألوان ، والدقة (التي ستساهم في مجموعة بيانات التدريب) بشكل منهجي و تم تغيير الحجم إلى أبعاد متسقة وتنسيق واحد ثابت.

بشكل عام ، سيشمل هذا بعض الحلول الوسط حول تنسيق PNG ، حيث سيتم إنشاء مفاضلة بين وقت / موارد المعالجة وحجم الملف وجودة الصورة.

في معظم الحالات، تكون الأبعاد النهائية للصورة المعالجة صغيرة جدًا. نرى أدناه مثالاً لصورة بدقة 80 × 80 تظهر فيها بعض أقدم مجموعات بيانات التزييف العميق تم إنشاؤها:

هذه هي الدقة 80 × 80 التي تم فيها إنشاء بعض أقدم مجموعات بيانات التزييف العميق.

نظرًا لأن الوجوه (والمواضيع الأخرى المحتملة) نادرًا ما تتناسب مع النسبة المربعة المطلوبة ، فقد يلزم إضافة أشرطة سوداء (أو يُسمح بإهدار المساحة) من أجل تجانس الصور ، مما يقلل من بيانات الصورة الفعلية القابلة للاستخدام:

هنا تم استخراج الوجه من مساحة صورة أكبر حتى يتم اقتصاصه اقتصاديًا بقدر ما يمكن أن يكون ليشمل منطقة الوجه بالكامل. ومع ذلك ، كما هو موضح على اليسار ، لن يتم استخدام قدر كبير من المساحة المتبقية أثناء التدريب ، مما يزيد من أهمية جودة الصورة للبيانات التي تم تغيير حجمها.

هنا تم استخراج الوجه من مساحة صورة أكبر حتى يتم اقتصاصه اقتصاديًا بقدر ما يمكن أن يكون ليشمل منطقة الوجه بالكامل. ومع ذلك ، كما هو موضح على اليمين ، لن يتم استخدام قدر كبير من المساحة المتبقية أثناء التدريب ، مما يزيد من أهمية جودة الصورة للبيانات التي تم تغيير حجمها.

مع تحسن قدرات وحدة معالجة الرسومات في السنوات الأخيرة ، تم تجهيز الجيل الجديد من بطاقات NVIDIA بها كميات متزايدة من ذاكرة الوصول العشوائي للفيديو (VRAM) ، بدأ متوسط ​​أحجام الصور المساهمة في الزيادة ، على الرغم من أن 224 × 224 بكسل لا تزال قياسية إلى حد ما (على سبيل المثال ، حجم الصورة ريسنيت 50 مجموعة البيانات).

صورة غير بحجم 224 × 244 بكسل.

صورة غير بحجم 224 × 244 بكسل.

تركيب الدُفعات في VRAM

السبب في أن الصور يجب أن تكون كلها بنفس الحجم هو ذلك نزول متدرجتتطلب الطريقة التي يتحسن بها النموذج بمرور الوقت بيانات تدريب موحدة.

السبب في أن الصور يجب أن تكون صغيرة جدًا هو أنه يجب تحميلها (فك الضغط تمامًا) في VRAM أثناء التدريب على دفعات صغيرة ، عادةً ما بين 6-24 صورة لكل دفعة. عدد قليل جدًا من الصور لكل دفعة ، ولا توجد مواد جماعية كافية للتعميم جيدًا ، بالإضافة إلى إطالة وقت التدريب ؛ كثيرة جدًا ، وقد يفشل النموذج في الحصول على الخصائص والتفاصيل اللازمة (انظر أدناه).

يُطلق على قسم "التحميل المباشر" من بنية التدريب اسم مساحة كامنة. هذا هو المكان الذي يتم فيه استخراج الميزات بشكل متكرر من نفس البيانات (أي نفس الصور) حتى يتقارب النموذج مع حالة يكون فيها كل المعرفة المعممة التي يحتاجها لإجراء تحويلات على بيانات لاحقة غير مرئية من نوع مماثل.

تستغرق هذه العملية عمومًا أيامًا ، على الرغم من أنها قد تستغرق شهرًا أو أكثر من الحجم الكبير المستمر والثابت على مدار الساعة طوال أيام الأسبوع لتحقيق التعميم المفيد. الزيادات في حجم VRAM مفيدة فقط إلى حد ما ، نظرًا لأن الزيادات الطفيفة في دقة الصورة يمكن أن يكون لها تأثير ترتيب الحجم على سعة المعالجة ، والتأثيرات ذات الصلة على الدقة التي قد لا تكون دائمًا مواتية.

يعد استخدام سعة أكبر من VRAM لاستيعاب أحجام الدُفعات الكبيرة أيضًا نعمة مختلطة ، حيث أن سرعات التدريب الأكبر التي يتم الحصول عليها من خلال هذا هي من المحتمل أن يتم تعويضها بنتائج أقل دقة.

لذلك ، نظرًا لأن بنية التدريب مقيدة للغاية ، فإن أي شيء يمكن أن يؤدي إلى تحسين ضمن القيود الحالية لخط الأنابيب يعد إنجازًا ملحوظًا.

كيف يساعد التقليص الفائق

ثبت أن الجودة النهائية للصورة التي سيتم تضمينها في مجموعة بيانات التدريب لها تأثير محسّن على نتيجة التدريب ، لا سيما في مهام التعرف على الأشياء. في 2018 باحثون من معهد ماكس بلانك للأنظمة الذكية ادعت أن اختيار طريقة إعادة التشكيل يؤثر بشكل ملحوظ على أداء التدريب ونتائجه.

بالإضافة إلى ذلك، وجدت أعمال سابقة من Google (شارك في كتابتها مؤلفو الورقة الجديدة) أن دقة التصنيف يمكن تحسينها من خلال الحفاظ على السيطرة على أخطاء الضغط في صور مجموعة البيانات.

اقترحت بنية CNN الخاصة بأبحاث Google خوارزمية الاختزال.

اقترحت بنية CNN الخاصة بأبحاث Google خوارزمية الاختزال.

يجمع نموذج CNN المدمج في أداة إعادة العينة الجديدة بين تغيير الحجم الخطي وميزة "تخطي الاتصال" التي يمكنها دمج الإخراج من الشبكة المدربة في الصورة التي تم تغيير حجمها.

بخلاف بنية التشفير/فك التشفير التقليدية، لا يقتصر دور المقترح الجديد على عرقلة التغذية الأمامية فحسب، بل يشمل أيضًا عرقلة عكسية للترقية إلى أي حجم مستهدف و/أو نسبة عرض إلى ارتفاع. بالإضافة إلى ذلك، يمكن استبدال طريقة إعادة العينة "القياسية" بأي طريقة تقليدية مناسبة أخرى، مثل Lanczos.

تفاصيل عالية التردد

تُنتج الطريقة الجديدة صورًا تبدو وكأنها تُدمج ميزات رئيسية (ستُكتشف في النهاية من خلال عملية التدريب) مباشرةً في الصورة الأصلية. من الناحية الجمالية، تُعتبر النتائج غير تقليدية:

الطريقة الجديدة المطبقة عبر أربع شبكات - Inception V2 ؛ DenseNet-121 ؛ ResNet-50 ؛ و MobileNet-V2. تُنتج نتائج طريقة اختزال / تغيير حجم الصورة في بحث Google صورًا بتجميع بكسل واضح ، مع توقع الميزات الرئيسية التي سيتم تمييزها أثناء عملية التدريب.

الطريقة الجديدة المطبقة عبر أربع شبكات - Inception V2 ؛ DenseNet-121 ؛ ResNet-50 ؛ و MobileNet-V2. تُنتج نتائج طريقة اختزال / تغيير حجم الصورة في بحث Google صورًا بتجميع بكسل واضح ، مع توقع الميزات الرئيسية التي سيتم تمييزها أثناء عملية التدريب.

أشار الباحثون إلى أن هذه التجارب الأولية مُحسّنة حصريًا لمهام التعرف على الصور، وأن نظام "تغيير الحجم المُكتسب" المُدعّم بشبكات CNN تمكّن في الاختبارات من تحقيق معدلات خطأ مُحسّنة في هذه المهام. ويعتزم الباحثون تطبيق هذه الطريقة مستقبلًا على أنواع أخرى من تطبيقات الرؤية الحاسوبية القائمة على الصور.

 

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai