زاوية Anderson
فصل الفئات ‘المندمجة’ في رؤية الكمبيوتر

يقدم بحث جديد من مركز الابتكار التابع لمجموعة هيونداي موتور في سنغافورة طريقة لفصل الفئات ‘المندمجة’ في رؤية الكمبيوتر – تلك الحالات التي يكون فيها إطار التعرف على الكائن قد وجد إنسانًا ما يتعذر فك تشابكه مع إنسان آخر (مثل أفعال العناق أو المواقف التي يقف فيها شخص خلف شخص آخر)، ويتعذر عليه فك تشابك الشخصين المتمثّلين، مما يجعله ي混هم معًا في كيان واحد.

يتحدان في كيان واحد، ولكن هذا ليس أمرًا جيدًا في التجزئة الدلالية. هنا نرى نظام البحث الجديد يحقق نتائج رائدة في تحديد الأشخاص المتشابكين في صور معقدة ومتحديّة. مصدر: https://arxiv.org/pdf/2210.03686.pdf
هذه مشكلة ملحوظة حظيت باهتمام كبير في مجتمع البحث في السنوات الأخيرة. حل هذه المشكلة دون تكلفة التسمية المخصصة الباهظة التي تتطلبها النماذج الضخمة قد يتيح تحسينًا في تحديد الأشخاص في أنظمة النص إلى الصورة مثل الانتشار المستقر، والتي غالبًا ما ‘تذوب’ الأشخاص معًا عندما يتطلب الوضع المطلوب وجود أشخاص متعددين بالقرب من بعضهم البعض.

استقبل الرعب – نماذج النص إلى الصورة مثل DALL-E 2 وStable Diffusion (كلاهما موضح أعلاه) تعاني من صعوبة في تمثيل الأشخاص في قربة شديدة من بعضهم البعض.
على الرغم من أن النماذج التوليدية مثل DALL-E 2 وStable Diffusion لا تستخدم (على حد علم أي شخص، في حالة DALL-E 2 المغلقة المصدر) التجزئة الدلالية أو التعرف على الكائنات على أي حال، فإن هذه الأشكال البشرية المتنكرة لا يمكن علاجها حاليًا بتطبيق هذه الأساليب المتقدمة – لأن مكتبات وموارد التعرف على الكائنات الحالية ليست أفضل من النماذج التوليدية في فك تشابك الأشخاص.
للمواجهة هذه القضية، يقدم البحث الجديد – الذي يحمل عنوان لا يحتاج البشر إلى تصنيف المزيد من البشر: نسخ ولصق الحجب لتحديد مثيلات الأشخاص المحجوبين – تحسينًا وتطويرًا لنهج ‘القطع واللصق’ شبه الاصطناعي لتحقيق تقدم جديد في هذا المجال، حتى ضد المواد المصدر الأكثر تحديًا:

يتضمن منهج Occlusion Copy & Paste الحالي قيادة الحقل حتى ضد الإطارات والمناهج السابقة التي تتعامل مع التحدي بطريقة أكثر تخصيصًا، مثل نمذجة الحجب بشكل محدد.
اقطع ذلك!
المنهج المعدل – الذي يحمل عنوان Occlusion Copy & Paste – مشتق من ورقة Simple Copy-Paste لعام 2021، بقيادة بحث جوجل، والتي اقترحت أن وضع كائنات ومشخصات معينة في صور تدريب متنوعة يمكن أن يحسن من قدرة نظام التعرف على الصور على تحديد كل مثيل في الصورة:

من ورقة بحث جوجل لعام 2021 ‘Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation’، نرى عناصر من صورة واحدة ‘مهاجرة’ إلى صور أخرى، بهدف تدريب نموذج تعرف على الصور أفضل وأكثر دقة. مصدر: https://arxiv.org/pdf/2012.07177.pdf
يضيف الإصدار الجديد قيودًا ومعاملات إلى هذا اللصق الآلي والخوارزمي، مشبهًا العملية في ‘سلة’ من الصور مليئة بالمرشحين المحتملين للنقل إلى صور أخرى، بناءً على عدة عوامل رئيسية.

المنهج المفاهيمي للعملية.
تحكم في العناصر
تتضمن العوامل المحددة الاحتمالية للصق، والتي تضمن أن العملية لا تحدث دائمًا، مما يؤدي إلى تأثير ‘تشبع’ يتعارض مع تعزيز البيانات؛ وعدد الصور التي سيكون لها سلة في أي وقت، حيث قد يزيد عدد أكبر من ‘المقاطع’ من تنوع المثيلات، ولكنه يزيد أيضًا من وقت المعالجة المسبقة؛ والمدى، الذي يحدد عدد الصور التي سيتم لصقها في صورة ‘مضيفة’.
بخصوص الأخير، يشير البحث إلى ‘نحن بحاجة إلى حد كاف من الحجب، ولكن ليس كثيرًا جدًا، لأنها قد تؤدي إلى إزعاج الصورة، مما قد يكون ضارًا بالتعلم.’
الابتكارات الأخرى لمنهج OC&P هي اللصق المستهدف ولصق المثيلات المعزز.
يضمن اللصق المستهدف أن يصل الصورة المناسبة إلى موقع قريب من مثيل موجود في الصورة الهدف. في النهج السابق، لم يكن العنصر الجديد مقيدًا إلا داخل حدود الصورة، دون أي اعتبار للسياق.

على الرغم من أن ‘لصق’ هذا، مع اللصق المستهدف، واضح للعين البشرية، فقد وجد كلا منهج OC&P وسابقه أن زيادة الموثوقية البصرية ليست بالضرورة مهمة، ويمكن أن تكون حتى عيبا (انظر ‘الواقع يلدغ’ أدناه).
من ناحية أخرى، يضمن لصق المثيلات المعزز أن لا تظهر المثيلات المُلصقة بمظهر مميز قد يُصنّفها النظام بطريقة ما، مما قد يؤدي إلى استبعاد أو ‘معالجة خاصة’ قد تعيق التعميم والتطبيق. يعدل اللصق المعزز العوامل البصرية مثل السطوع والوضوح، والتسلسل وال دوران، والتشبع – من بين عوامل أخرى.

من المواد الإضافية للبحث الجديد: إضافة OC&P إلى إطارات التعرف على الكائنات الحالية أمر بسيط، وينتج عنها تحديد أشخاص أفضل في مساحات قريبة. مصدر: https://arxiv.org/src/2210.03686v1/anc/OcclusionCopyPaste_Supplementary.pdf
بالإضافة إلى ذلك، يحدد منهج OC&P حجمًا أدنى للمثيلات المُلصقة. على سبيل المثال، قد يكون من الممكن استخراج صورة شخص من مشهد حشد كبير، يمكن لصقها في صورة أخرى – ولكن في这种 الحالة، لن يكون عدد البكسل الصغير المشارك في الصورة مفيدًا للتعرف.
منهج OC&P يطبق أيضًا لصقًا متأثرًا بالحجم، حيث يبحث عن مواضيع مشابهة لموضوع اللصق، ويتعامل مع حجم المربعات الحدودية في الصورة الهدف. ومع ذلك، هذا لا يؤدي إلى تجميع صور يعتبرها الناس معقولة أو واقعية (انظر الصورة أدناه)، ولكنه يجمع عناصر دلالية مناسبة بالقرب من بعضها البعض بطريقة مفيدة أثناء التدريب.
الواقع يلدغ
كلا النهجين السابقين، الذي يعتمد عليه منهج OC&P، والتنفيذ الحالي، يضعان قيمة منخفضة على الواقعية أو ‘الواقعية الفوتوغرافية’ لأي صورة نهائية ‘مونتاج’. على الرغم من أن من المهم ألا تنحدر التجميع النهائي إلى دадаية (أو أن تطبيقات العالم الحقيقي للنظم المُدرَّبة لا تتمكن أبدًا من مواجهة عناصر في مشاهد تم تدريبها عليها)، فقد وجد كلا المبادرتين أن زيادة ملحوظة في ‘الموثوقية البصرية’ لا تضيف فقط إلى وقت المعالجة المسبقة، ولكن أيضًا أن تحسينات الواقعية قد تكون في الواقع عيوبًا.

من المواد الإضافية للبحث الجديد: أمثلة على الصور المعززة بالخلاط العشوائي. على الرغم من أن هذه المشاهد قد تبدو خيالية للعين البشرية، إلا أنها تجمع مواضيع مشابهة معًا؛ على الرغم من أن الحجب الخيالية للعين البشرية، لا يمكن معرفة طبيعة الحجب المحتملة مسبقًا، ولا يمكن تدريبها، لذلك هذه القطع الغريبة من الشكل كافية لتحفيز النظام المُدرَّب على البحث عن وتعرف المثيلات الجزئية دون الحاجة إلى تطوير أساليب فوتوشوب متقدمة لجعل المشاهد أكثر واقعية.
البيانات والاختبارات
للفаза التجريبية، تم تدريب النظام على فئة الشخص من مجموعة بيانات MS COCO، التي تضم 262,465 مثالًا للإنسان عبر 64,115 صورة. ومع ذلك، للحصول على أقنعة ذات جودة أفضل من MS COCO، تلقت الصور أيضًا تعليمات LVIS.

صدر في عام 2019، LVIS من بحث فيسبوك، وهو مجموعة بيانات ضخمة لتحديد المثيلات الكبيرة. مصدر: https://arxiv.org/pdf/1908.03195.pdf
为了 تقييم مدى قدرة النظام المعزز على المنافسة مع عدد كبير من الصور المحجوبة للأشخاص، واجه الباحثون نظام OC&P بنموذج OCHuman (إنسان محجوب).

أمثلة من مجموعة بيانات OCHuman، التي تم تقديمها لدعم مشروع الكشف عن الوضع في عام 2018. سعى هذا المشروع إلى اشتقاق تحسينات في التجزئة الدلالية للأشخاص باستخدام وضعهم ووضعهم كفاصل دال للبكسل التي تمثل أجسادهم. مصدر: https://github.com/liruilong940607/OCHumanApi
منذ أن مجموعة بيانات OCHuman ليست مخططة بشكل شامل، أنشأ الباحثون في البحث الجديد مجموعة فرعية من الأمثلة الكاملة فقط، بعنوان OCHumanFL. هذا خفض عدد مثيلات الشخص إلى 2,240 عبر 1,113 صورة للتحقق، و1,923 مثيلًا عبر 951 صورة للفحص. تم اختبار كل من المجموعتين الأصلية والمنقحة، باستخدام المتوسط الحسابي للدقة (mAP) كالمعيار الرئيسي.
为了 الاتساق، تم تشكيل الهيكل من Mask R-CNN مع هيكل ResNet-50 وشبكة هرمية الميزات، والتي قدمت حلًا مقبولًا بين الدقة وسرعة التدريب.
مع ملاحظة الباحثين لتأثير ضار لنموذج ImageNet في مواقف مماثلة، تم تدريب النظام كله من البداية على 4 وحدات معالجة رسومات NVIDIA V100، لمدة 75 دورة، بعد معلمات التهيئة لنموذج Detectron 2 الصادر عن فيسبوك في عام 2021.
النتائج
بالإضافة إلى النتائج المذكورة أعلاه، أشارت النتائج الأساسية ضد MMDetection (وأيضًا ثلاثة نماذج مرتبطة بها) إلى تقدم واضح لمنهج OC&P في قدرته على تحديد الأشخاص من بين مواقف معقدة.

بالإضافة إلى تفوقه على PoSeg وPose2Seg، ربما يكون أحد أبرز إنجازات البحث هو أن النظام يمكن تطبيقه بسهولة على الإطارات الحالية، بما في ذلك تلك التي واجهها في التجارب (انظر المقارنات مع/بدون في أول مربع نتائج، بالقرب من بداية المقال).
يختتم البحث بالقول:
‘فائدة رئيسية لمنهجنا هي أنه يمكن تطبيقه بسهولة مع أي نماذج أو تحسينات أخرى. نظرًا لسرعة تحرك مجال التعلم العميق، فمن مصلحة الجميع أن يكون لدينا أساليب متوافقة للغاية مع جميع جوانب التدريب. نترك كعمل مستقبلي دمج هذا مع تحسينات النموذج لتحقيق حل فعال لتحديد مثيلات الأشخاص المحجوبين.’
الاحتمالات لتحسين التوليد النصي إلى الصورة
أشار المؤلف الرئيسي إيفان لينغ إلى أن الفائدة الرئيسية لمنهج OC&P هي أنه يمكنه الاحتفاظ بالتعليمات الأصلية للمasks واكتساب قيمة جديدة منها ‘بесплатيًا’ في سياق جديد – أي الصور التي تم لصقها فيها.
على الرغم من أن التجزئة الدلالية للأشخاص تبدو متعلقة ارتباطًا وثيقًا بصعوبة التي تعاني منها نماذج مثل الانتشار المستقر في تحديد الأشخاص (بدلاً من ‘مزجهم معًا’، كما تفعل غالبًا)، فإن أي تأثير قد يكون للثقافة التصنيفية الدلالية على العروض البشرية الكابوسية التي تنتجها SD وDALL-E 2 هي بعيدة جدًا.
المليين من صور LAION 5B الفرعية التي تمتلئ بها القوة التوليدية لانتشار المستقر لا تحتوي على تعليمات على مستوى الكائنات مثل المربعات الحدودية والمasks، حتى لو كان هيكل CLIP الذي يؤلف العروض من الصور والمحتوى القائم على البيانات قد استفاد في وقت ما من مثل هذه التمثيلات؛ بل إن الصور في LAION تم تصنيفها ‘بесплатيًا’، لأن تعليماتها تم اشتقاقها من البيانات الوصفية والتعليقات المرتبطة بالصور عند جمعها في مجموعة البيانات.
‘لكن مع ذلك،’ قال لينغ لنا، ‘يمكن استخدام نوع من التعزيز مشابه لمنهجنا في تدريب النماذج التوليدية النصية إلى الصورة. ولكنني أعتقد أن واقعية الصورة المعززة قد تصبح مشكلة.’
‘في عملنا، نُظهر أن ‘الواقعية الكاملة’ ليست ضرورية بشكل عام للتحديد الدلالي للمثيلات، ولكنني لست متأكدًا مما إذا كان يمكن استخلاص نفس الاستنتاج لتدريب النماذج التوليدية النصية إلى الصورة (特别 عندما يتوقع من مخرجاتها أن تكون واقعية للغاية). في هذه الحالة، قد يلزم مزيد من العمل فيما يتعلق بتحسين واقعية الصور المعززة.’
يُستخدم CLIP بالفعل كأداة متعددة الوسائط محتملة للتحديد الدلالي، مما يشير إلى أن تحسينات في تحديد الأشخاص وفردها مثل OC&P يمكن في النهاية تطويرها إلى مرشحات أو مصنفات داخلية قد ترفض بشكل تعسفي تمثيلات الأشخاص ‘المندمجة’ والمشوّهة – مهمة يتعذر تحقيقها حاليًا مع انتشار المستقر بسبب محدودية فهمه لما حيث يخطئ (لو كان لديه مثل هذا الفهم، فربما لم يكن ليتسبب في الخطأ في المقام الأول).

فقط واحد من العديد من المشاريع التي تستخدم حاليًا إطار CLIP من OpenAI – قلب DALL-E 2 وStable Diffusion – للتحديد الدلالي. مصدر: https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CRIS_CLIP-Driven_Referring_Image_Segmentation_CVPR_2022_paper.pdf
‘سؤال آخر سيكون،’ يقترح لينغ، ‘هل سوف يعمل ببساطة تغذية النماذج التوليدية بهذه الصور المحجوبة للأشخاص أثناء التدريب، دون تصميم هيكلي مکمل للمodel لتحسين مشكلة ‘الاندماج البشري’؟ هذا سؤال يصعب الإجابة عنه بشكل مباشر. سيكون من المثير رؤية كيف يمكننا تزويد بعض التوجيه على مستوى المثيل (من خلال علامات المثيل مثل الماسك) أثناء تدريب النماذج التوليدية النصية إلى الصورة.’












