رطم أداء أفضل لتعلم الآلة من خلال تغيير حجم الصورة المستند إلى CNN - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

أداء أفضل لتعلم الآلة من خلال تغيير حجم الصورة المستند إلى CNN

mm
تحديث on

اقترحت Google Research طريقة جديدة لتحسين كفاءة ودقة سير عمل التدريب على رؤية الكمبيوتر المستندة إلى الصور من خلال تحسين الطريقة التي يتم بها تقليص الصور في مجموعة البيانات في مرحلة ما قبل المعالجة.

في مجلة ورقة تعلم تغيير حجم الصور لمهام رؤية الكمبيوتر، يستخدم الباحثان حسين طالبي وبايمان ميلانفار CNN لإنشاء بنية هجينة جديدة لتغيير حجم الصورة ينتج عنها تحسن ملحوظ في نتائج التعرف التي تم الحصول عليها عبر أربع مجموعات بيانات شهيرة للرؤية الحاسوبية.

الإطار المشترك المقترح للاعتراف وتغيير الحجم. المصدر: https://arxiv.org/pdf/2103.09950.pdf

الإطار المشترك المقترح للاعتراف وتغيير الحجم. المصدر: https://arxiv.org/pdf/2103.09950.pdf

تلاحظ الورقة أن طرق إعادة القياس/تغيير الحجم المستخدمة حاليًا في مسارات التعلم الآلي الآلي قد عفا عليها الزمن لعقود من الزمن، وكثيرًا ما تستخدم فقط الخط الأساسي الثنائي والتكعيبي والأقرب المجاور تغيير حجم - الطرق التي تتعامل مع جميع وحدات البكسل بشكل عشوائي.

على النقيض من ذلك ، تعمل الطريقة المقترحة على زيادة بيانات الصورة عبر شبكة CNN وتضمين ذلك الإدخال في الصور التي تم تغيير حجمها والتي ستمر في النهاية من خلال بنية النموذج.

قيود الصورة في تدريب الذكاء الاصطناعي

من أجل تدريب نموذج يتعامل مع الصور ، سيتضمن إطار عمل التعلم الآلي مرحلة ما قبل المعالجة ، حيث يتم اقتصاص مجموعة متنوعة من الصور ذات الأحجام المختلفة ، ومساحات الألوان ، والدقة (التي ستساهم في مجموعة بيانات التدريب) بشكل منهجي و تم تغيير الحجم إلى أبعاد متسقة وتنسيق واحد ثابت.

بشكل عام ، سيشمل هذا بعض الحلول الوسط حول تنسيق PNG ، حيث سيتم إنشاء مفاضلة بين وقت / موارد المعالجة وحجم الملف وجودة الصورة.

في معظم الحالات، تكون الأبعاد النهائية للصورة المعالجة صغيرة جدًا. نرى أدناه مثالاً لصورة بدقة 80 × 80 تظهر فيها بعض أقدم مجموعات بيانات التزييف العميق تم إنشاؤها:

هذه هي الدقة 80 × 80 التي تم فيها إنشاء بعض أقدم مجموعات بيانات التزييف العميق.

نظرًا لأن الوجوه (والمواضيع الأخرى المحتملة) نادرًا ما تتناسب مع النسبة المربعة المطلوبة ، فقد يلزم إضافة أشرطة سوداء (أو يُسمح بإهدار المساحة) من أجل تجانس الصور ، مما يقلل من بيانات الصورة الفعلية القابلة للاستخدام:

هنا تم استخراج الوجه من مساحة صورة أكبر حتى يتم اقتصاصه اقتصاديًا بقدر ما يمكن أن يكون ليشمل منطقة الوجه بالكامل. ومع ذلك ، كما هو موضح على اليسار ، لن يتم استخدام قدر كبير من المساحة المتبقية أثناء التدريب ، مما يزيد من أهمية جودة الصورة للبيانات التي تم تغيير حجمها.

هنا تم استخراج الوجه من مساحة صورة أكبر حتى يتم اقتصاصه اقتصاديًا بقدر ما يمكن أن يكون ليشمل منطقة الوجه بالكامل. ومع ذلك ، كما هو موضح على اليمين ، لن يتم استخدام قدر كبير من المساحة المتبقية أثناء التدريب ، مما يزيد من أهمية جودة الصورة للبيانات التي تم تغيير حجمها.

مع تحسن قدرات وحدة معالجة الرسومات في السنوات الأخيرة ، تم تجهيز الجيل الجديد من بطاقات NVIDIA بها كميات متزايدة من ذاكرة الوصول العشوائي للفيديو (VRAM) ، بدأ متوسط ​​أحجام الصور المساهمة في الزيادة ، على الرغم من أن 224 × 224 بكسل لا تزال قياسية إلى حد ما (على سبيل المثال ، حجم الصورة ريسنيت 50 مجموعة البيانات).

صورة غير بحجم 224 × 244 بكسل.

صورة غير بحجم 224 × 244 بكسل.

تركيب الدُفعات في VRAM

السبب في أن الصور يجب أن تكون كلها بنفس الحجم هو ذلك نزول متدرجتتطلب الطريقة التي يتحسن بها النموذج بمرور الوقت بيانات تدريب موحدة.

السبب في أن الصور يجب أن تكون صغيرة جدًا هو أنه يجب تحميلها (فك الضغط تمامًا) في VRAM أثناء التدريب على دفعات صغيرة ، عادةً ما بين 6-24 صورة لكل دفعة. عدد قليل جدًا من الصور لكل دفعة ، ولا توجد مواد جماعية كافية للتعميم جيدًا ، بالإضافة إلى إطالة وقت التدريب ؛ كثيرة جدًا ، وقد يفشل النموذج في الحصول على الخصائص والتفاصيل اللازمة (انظر أدناه).

يُطلق على قسم "التحميل المباشر" من بنية التدريب اسم مساحة كامنة. هذا هو المكان الذي يتم فيه استخراج الميزات بشكل متكرر من نفس البيانات (أي نفس الصور) حتى يتقارب النموذج مع حالة يكون فيها كل المعرفة المعممة التي يحتاجها لإجراء تحويلات على بيانات لاحقة غير مرئية من نوع مماثل.

تستغرق هذه العملية عمومًا أيامًا ، على الرغم من أنها قد تستغرق شهرًا أو أكثر من الحجم الكبير المستمر والثابت على مدار الساعة طوال أيام الأسبوع لتحقيق التعميم المفيد. الزيادات في حجم VRAM مفيدة فقط إلى حد ما ، نظرًا لأن الزيادات الطفيفة في دقة الصورة يمكن أن يكون لها تأثير ترتيب الحجم على سعة المعالجة ، والتأثيرات ذات الصلة على الدقة التي قد لا تكون دائمًا مواتية.

يعد استخدام سعة أكبر من VRAM لاستيعاب أحجام الدُفعات الكبيرة أيضًا نعمة مختلطة ، حيث أن سرعات التدريب الأكبر التي يتم الحصول عليها من خلال هذا هي من المحتمل أن يتم تعويضها بنتائج أقل دقة.

لذلك ، نظرًا لأن بنية التدريب مقيدة للغاية ، فإن أي شيء يمكن أن يؤدي إلى تحسين ضمن القيود الحالية لخط الأنابيب يعد إنجازًا ملحوظًا.

كيف يساعد التقليص الفائق

ثبت أن الجودة النهائية للصورة التي سيتم تضمينها في مجموعة بيانات التدريب لها تأثير محسّن على نتيجة التدريب ، لا سيما في مهام التعرف على الأشياء. في 2018 باحثون من معهد ماكس بلانك للأنظمة الذكية ادعت أن اختيار طريقة إعادة التشكيل يؤثر بشكل ملحوظ على أداء التدريب ونتائجه.

بالإضافة إلى ذلك ، وجد عمل سابق من Google (شارك في كتابته مؤلفو الورقة الجديدة) أنه يمكن تحسين دقة التصنيف من خلال الحفاظ على السيطرة على أخطاء الضغط في صور مجموعة البيانات.

اقترحت بنية CNN الخاصة بأبحاث Google خوارزمية الاختزال.

اقترحت بنية CNN الخاصة بأبحاث Google خوارزمية الاختزال.

يجمع نموذج CNN المدمج في أداة إعادة العينات الجديدة بين تغيير الحجم ثنائي الخطوط مع ميزة "اتصال التخطي" التي يمكن أن تدمج الإخراج من الشبكة المدربة في الصورة التي تم تغيير حجمها.

على عكس بنية التشفير / وحدة فك التشفير النموذجية ، يمكن أن يعمل الاقتراح الجديد ليس فقط كعنق زجاجة للتغذية الأمامية ، ولكن أيضًا كعقبة معكوسة للتوسيع إلى أي حجم مستهدف و / أو نسبة عرض إلى ارتفاع. بالإضافة إلى ذلك ، يمكن تبديل طريقة إعادة التشكيل "القياسية" بأي طريقة تقليدية مناسبة أخرى ، مثل لانكس.

تفاصيل عالية التردد

تنتج الطريقة الجديدة صورًا يبدو أنها في الواقع "تخبز" الميزات الرئيسية (التي سيتم التعرف عليها في النهاية من خلال عملية التدريب) مباشرة في الصورة المصدر. من الناحية الجمالية ، النتائج غير تقليدية:

الطريقة الجديدة المطبقة عبر أربع شبكات - Inception V2 ؛ DenseNet-121 ؛ ResNet-50 ؛ و MobileNet-V2. تُنتج نتائج طريقة اختزال / تغيير حجم الصورة في بحث Google صورًا بتجميع بكسل واضح ، مع توقع الميزات الرئيسية التي سيتم تمييزها أثناء عملية التدريب.

الطريقة الجديدة المطبقة عبر أربع شبكات - Inception V2 ؛ DenseNet-121 ؛ ResNet-50 ؛ و MobileNet-V2. تُنتج نتائج طريقة اختزال / تغيير حجم الصورة في بحث Google صورًا بتجميع بكسل واضح ، مع توقع الميزات الرئيسية التي سيتم تمييزها أثناء عملية التدريب.

لاحظ الباحثون أن هذه التجارب الأولية مُحسَّنة حصريًا لمهام التعرف على الصور ، وأنه في الاختبارات التي تم إجراؤها على "أداة تغيير الحجم المكتسبة" التي تعمل بنظام CNN ، تمكنت من تحقيق معدلات خطأ محسّنة في مثل هذه المهام. يعتزم الباحثون في المستقبل تطبيق الطريقة على أنواع أخرى من تطبيقات الرؤية الحاسوبية القائمة على الصور.