الذكاء الاصطناعي

تصغير حجم الصور عالية الدقة باستخدام التعلم الآلي

تم النشر 28 سبتمبر 2021

مارتن أندرسون

اقترح بحث جديد من المملكة المتحدة طريقة محسنة للتعلم الآلي لتغيير حجم الصور ، استنادًا إلى القيمة المتصورة للأجزاء المختلفة لمحتوى الصورة ، بدلاً من تقليل الأبعاد بشكل عشوائي (وبالتالي الجودة والميزات القابلة للاستخراج) لجميع وحدات البكسل في الصورة.

وكجزء من الاهتمام المتزايد بأنظمة الضغط المعتمدة على الذكاء الاصطناعي، يعد هذا النهج بمثابة وسيلة يمكن أن تساعد في نهاية المطاف في تطوير برامج ترميز جديدة لضغط الصور العامة، على الرغم من أن العمل مدفوع بالتصوير الصحي، حيث يمكن أن يؤدي التخفيض العشوائي للصور الطبية عالية الدقة إلى فقدان معلومات منقذة للحياة.

العمارة التمثيلية للنظام الجديد. تنتج وحدة التشوه الخلالي خريطة تشوه تتوافق مع مناطق الاهتمام في الصورة. تشير كثافة واتجاه النقاط الحمراء إلى هذه المناطق. تُستخدم الخريطة ليس فقط للاختزال ، ولكن لإعادة بناء مجالات الاهتمام الأساسية عندما يتم إعادة ترقية محتوى الصورة بشكل غير منتظم في الجانب الآخر من عملية التدريب. المصدر: https://arxiv.org/pdf/2109.11071.pdf

يتم تطبيق النظام التجزئة الدلالي على الصور - كتل عريضة ، ممثلة على شكل كتل ملونة في الصورة أعلاه ، تشمل كيانات معترف بها داخل الصورة ، مثل 'طريق', 'دراجة', 'آفة'، وآخرون. يتم بعد ذلك استخدام ترتيب خرائط التجزئة الدلالية لحساب أي أجزاء من الصورة لا ينبغي تصغيرها بشكل مفرط.

بعنوان تعلم الاختزال لتقسيم الصور عالية الدقةأطلقت حملة ورقة جديدة هو تعاون بين باحثين من مركز حوسبة الصور الطبية في كلية لندن الجامعية وباحثين من قسم استخبارات الرعاية الصحية في Microsoft Cambridge.

عالم التدريب على رؤية الكمبيوتر (إلى حد ما) منخفض الدقة

إن تدريب أنظمة الرؤية الحاسوبية مقيد بشكل كبير بقدرة وحدات معالجة الرسومات. قد تحتوي مجموعات البيانات على عدة آلاف من الصور التي يجب استخراج الميزات منها ، ولكن حتى وحدات معالجة الرسومات ذات النطاق الصناعي تميل إلى الذروة عند 24 جيجابايت من VRAM ، مع النقص المستمر تؤثر على التوافر والتكلفة.

هذا يعني أنه يجب تغذية البيانات من خلال نوى Tensor المحدودة لوحدة معالجة الرسومات على دفعات يمكن التحكم فيها ، مع 8-16 صورة نموذجية للعديد من عمليات سير عمل التدريب على رؤية الكمبيوتر.

لا توجد العديد من الحلول الواضحة: حتى لو كانت VRAM غير محدودة ويمكن لبنى وحدة المعالجة المركزية أن تستوعب هذا النوع من الإنتاجية من وحدة معالجة الرسومات دون تشكيل عنق الزجاجة المعمارية ، فإن أحجام الدُفعات العالية جدًا ستميل إلى اشتقاق ميزات عالية المستوى على حساب التحويلات الأكثر تفصيلاً التي قد تكون حاسمة لفائدة الخوارزمية النهائية.

زيادة دقة الصور المدخلة تعني ضرورة استخدام أحجام دفعات أصغر لملاءمة البيانات في "المساحة الكامنة" لتدريب وحدة معالجة الرسومات. على العكس، من المرجح أن يُنتج هذا نموذجًا "شاذًا" ومُفرطًا في التجهيز.

لا تساعد إضافة وحدات معالجة الرسومات الإضافية ، على الأقل في البنى الأكثر شيوعًا: في حين أن إعدادات GPU المتعددة يمكن أن تسرع أوقات التدريب ، فإنها يمكن أن تضر أيضًا بسلامة نتائج التدريب ، مثل مصنعين متجاورين يعملان على نفس المنتج ، بهاتف فقط خط لتنسيق جهودهم.

صور تم تغيير حجمها بذكاء

ما تبقى هو أن الأقسام الأكثر صلة في صورة نموذجية لمجموعة بيانات الرؤية الحاسوبية يمكن، باستخدام الطريقة الجديدة، الحفاظ عليها سليمة في تغيير الحجم التلقائي الذي يحدث عندما يتعين تقليص حجم الصور عالية الدقة للغاية لتناسب خط أنابيب التعلم الآلي.

هذا هو تحد منفصل لمشكلة القطع الأثرية المفقودة في مجموعات بيانات التعلم الآلي، حيث يتم فقدان الجودة في خطوط أنابيب تغيير الحجم تلقائيًا لأن برنامج ترميز الضغط يرمي الكثير من المعلومات (عادةً ما يتعذر استردادها).

بل في هذه الحالة، حتى الحفظ بتنسيق صورة بدون فقدان (مثل PNG مع ضغط LZW) لا يمكنه استعادة المعلومات التي يتم تجاهلها بشكل عام عند تغيير حجم (على سبيل المثال) مسح التصوير بالرنين المغناطيسي (MRI) من الصور التي يتم التقاطها غالبًا. أبعاد محطمة للأرقام القياسية للحصول على دقة نموذجية أكثر مصداقية 256 × 256 أو 512 × 512 بكسل.

لجعل الأمور أسوأ ، اعتمادًا على متطلبات إطار العمل ، غالبًا ما تتم إضافة الحدود السوداء إلى صور المصدر المستطيلة كمهمة روتينية لمعالجة البيانات ، من أجل إنتاج تنسيق إدخال مربع حقًا لمعالجة الشبكة العصبية ، مما يقلل المساحة المتاحة لاحتمالية بيانات مهمة.

بدلاً من ذلك ، يقترح الباحثون من UCL و Microsoft جعل عملية تغيير الحجم أكثر ذكاءً ، واستخدام ما كان دائمًا مرحلة عامة في خط الأنابيب لتسليط الضوء على مجالات الاهتمام ، وتفريغ بعض العبء التفسري من نظام التعلم الآلي الذي من خلاله الصور ستمر في النهاية.

يزعم الباحثون أن الطريقة تتحسن في عرض عام 2019 (الصورة أدناه) الذي سعى لتحقيق مكاسب مماثلة من خلال تركيز الاهتمام بالجودة في الحدود من الأشياء.

من 'التجزئة الفعالة: تعلم الاختزال بالقرب من الحدود الدلالية' ، مارين وآخرون ، 2019. المصدر: https://arxiv.org/pdf/1907.07156.pdf

من "التجزئة الفعالة: تعلم تقليل العينات بالقرب من الحدود الدلالية"، مارين وآخرون، 2019. المصدر: https://arxiv.org/pdf/1907.07156.pdf

كما يشير العمل الجديد ، يفترض هذا النهج أن مجالات الاهتمام تتجمع عند الحدود ، في حين أن الأمثلة من التصوير الطبي ، مثل مناطق السرطان المشروحة ، تعتمد على سياق المستوى الأعلى ، وقد تظهر كتفاصيل يسهل التخلص منها داخل مناطق أوسع في الصورة ، وليس على الحواف.

قابل للتعلم الاختزال

يقترح البحث الجديد أ الاختزال القابل للتعلم تُسمى وحدة التشوه، والتي يتم تدريبها بشكل مشترك مع وحدة التجزئة المتوازية، وبالتالي يمكن إعلامها بمجالات الاهتمام التي تم تحديدها من خلال التجزئة الدلالية، وإعطاء الأولوية لها أثناء عملية تقليل العينات.

اختبر المؤلفون النظام على العديد من مجموعات البيانات الشائعة ، بما في ذلك مناظر المدينة, ديب جلوب ومجموعة بيانات محلية لسرطان البروستاتا، "PCa-Histo".

ثلاث طرق: على اليسار ، تصغير الحجم "موحد" ؛ في المنتصف ، نهج "الحافة المثلى" من ورقة عام 2019 ؛ على اليمين ، البنية خلف النظام الجديد ، مستنيرة من خلال التعرف على الكيان في طبقة التجزئة الدلالية.

ثلاثة مناهج: على اليسار، أخذ العينات "الموحدة" الموجودة؛ في المنتصف، نهج "الحافة المثلى" من ورقة عام 2019؛ على اليمين، الهندسة المعمارية وراء النظام الجديد، والتي تعتمد على التعرف على الكيان في طبقة التجزئة الدلالية.

تم تجربة نهج مماثل لمصنف المقترح في 2019، لكن مؤلفي الورقة الحالية يؤكدون أن هذه الطريقة لا تنظم بشكل كاف مجالات التركيز ، ومن المحتمل أن تفقد المجالات الحيوية في سياق التصوير الطبي.

النتائج

وحدة التشوه في النظام الجديد عبارة عن شبكة عصبية تلافيفية صغيرة (CNN)، في حين أن طبقة التجزئة عبارة عن بنية عميقة لشبكة CNN تستخدم HRNetV2-W48. شبكة تحليل المشهد الهرمي (شبكة PSP) كطبقة فحص سلامة لاختبارات CityScapes.

تم اختبار مجموعات البيانات المذكورة أعلاه باستخدام الإطار الجديد، باستخدام إعادة العينة الموحدة (الطريقة المعتادة)، وطريقة الحافة المثلى من عام 2019، والاستفادة من النهج الجديد للتجزئة الدلالية.

يذكر المؤلفون أن الطريقة الجديدة تظهر "ميزة واضحة في تحديد وتمييز الفئات الأكثر أهمية سريريًا"مع زيادة في الدقة بنسبة 15-20%. ولاحظوا أيضًا أن الفارق بين هاتين الفئتين يُعرَّف غالبًا بأنه "الحد الفاصل بين الصحة والسرطان".

التقاطع الطبقي عبر تحليل الاتحاد (IoU) عبر الطرق الثلاث: إعادة التشكيل على اليسار والمعيار ؛ الوسط ، الحافة المثلى ؛ وصحيح ، النهج الجديد. تم تقليص حجم CityScapes إلى 64 × 128 فقط ، مع PCaHisto إلى 80 × 800 ، و DeepGlobe إلى 300 بكسل مربع.

يذكر التقرير أن طريقتهم "يمكن تعلم استراتيجية تقليل العينات، والحفاظ على المعلومات بشكل أفضل وتمكين التوصل إلى تسوية أفضل". وخلص إلى أن الإطار الجديد "يمكن أن يتعلم بكفاءة أين "يستثمر" الميزانية المحدودة للبكسل في عملية خفض العينات لتحقيق أعلى عائد إجمالي في دقة التجزئة".

الصورة الرئيسية لهذه المقالة مأخوذة من موقع thispersondoesnotexist.com. تم التحديث الساعة 3:35 مساءً بتوقيت غرينتش+2 لوجود خطأ في النص.

مواضيع ذات صلة:الرعاية الصحية الصور الطبية بحث

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai

اتحدوا

تصغير حجم الصور عالية الدقة باستخدام التعلم الآلي

عالم التدريب على رؤية الكمبيوتر (إلى حد ما) منخفض الدقة

صور تم تغيير حجمها بذكاء

قابل للتعلم الاختزال

النتائج

قد يعجبك