الذكاء الاصطناعي

حصيرة الصور بالذكاء الاصطناعي التي تفهم المشاهد

تم النشر 24 نيسان 2022

تحديث 9 كانون الأول، 2022

مارتن أندرسون

في الفيلم الوثائقي الإضافات المصاحبة لإصدار DVD لعام 2003 من فضائى³ (1992)، تذكر أسطورة المؤثرات البصرية ريتشارد إيدلوند برعب "مصارعة السومو" التي كانت تعتمد على استخلاص المواد الكيميائية الضوئية والتي سيطرت على أعمال المؤثرات البصرية بين 1930s في وقت متأخر وأواخر الثمانينيات. وصف إدلوند طبيعة العملية العشوائية بأنها "مصارعة سومو"، مقارنةً بتقنيات الشاشة الزرقاء/الخضراء الرقمية التي سادت في أوائل التسعينيات (وقد عاد إلى الاستعارة منذ ذلك الحين).

تم استخراج عنصر المقدمة (مثل شخص أو نموذج سفينة فضاء) من خلفية ، بحيث يمكن تكوين الصورة المقطوعة في لوحة خلفية ، في الأصل عن طريق تصوير الكائن الأمامي على خلفية زرقاء أو خضراء موحدة.

عمليات الاستخراج الكيميائية الضوئية الشاقة لـ VFX لقطة بواسطة ILM لـ "Return of the Jedi" (1983). المصدر: https://www.youtube.com/watch؟

عمليات استخلاص ضوئية كيميائية شاقة لمؤثرات بصرية تم تصويرها بواسطة ILM لفيلم "عودة الجيداي" (1983). المصدر: https://www.youtube.com/watch؟

في اللقطات الناتجة ، سيتم بعد ذلك عزل لون الخلفية كيميائيًا واستخدامه كقالب لإعادة طباعة الكائن الأمامي (أو الشخص) في طابعة بصرية ككائن "عائم" في خلية فيلم شفافة.

عُرفت العملية باسم تراكب فصل الألوان (CSO) - على الرغم من أن هذا المصطلح سيصبح في النهاية أكثر ارتباطًا بالخامة كروماكي تأثيرات الفيديو في الإنتاج التلفزيوني المنخفض الميزانية في السبعينيات والثمانينيات ، والتي تم تحقيقها بالوسائل التناظرية بدلاً من الوسائل الكيميائية أو الرقمية.

عرض تراكب فصل الألوان في عام 1970 لعرض الأطفال البريطاني "بلو بيتر". المصدر: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

عرض توضيحي لتقنية فصل الألوان في عام 1970 لعرض الأطفال البريطاني "بلو بيتر". المصدر: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

على أي حال ، سواء بالنسبة لعناصر الفيلم أو الفيديو ، يمكن بعد ذلك إدراج اللقطات المستخرجة في أي مقطع فيديو آخر.

على الرغم من أن ديزني أكثر تكلفة وملكية بشكل ملحوظ عملية بخار الصوديوم (والذي تم تحديده باللون الأصفر ، على وجه التحديد ، وكان أيضًا مستعمل لفيلم الرعب للمخرج ألفريد هيتشكوك عام 1963 الطيور) أعطت تعريفًا أفضل ولمسات أكثر هشاشة ، وظل الاستخراج الكيميائي الضوئي شاقًا وغير موثوق به.

تتطلب عملية استخراج بخار الصوديوم الخاصة بشركة ديزني خلفيات قريبة من الطرف الأصفر للطيف. هنا ، تم تعليق Angela Lansbury على الأسلاك أثناء إنتاج سلسلة VFX ذات الأربطة لـ 'Bedknobs and Broomsticks' (1971). مصدر

تطلبت عملية استخلاص بخار الصوديوم الخاصة بشركة ديزني خلفيات قريبة من اللون الأصفر. هنا، تظهر أنجيلا لانسبيري معلقةً على أسلاك أثناء إنتاج مشهد مُعزز بالمؤثرات البصرية لفيلم "مقابض الأسرّة والمكنسة" (١٩٧١). مصدر

ما وراء ماتينج الرقمية

في التسعينيات ، استغنت الثورة الرقمية عن المواد الكيميائية ، ولكن ليس الحاجة إلى الشاشات الخضراء. أصبح من الممكن الآن إزالة الخلفية الخضراء (أو أي لون آخر) فقط من خلال البحث عن وحدات البكسل ضمن نطاق تفاوت لهذا اللون ، في برامج تحرير البكسل مثل Photoshop ، وجيل جديد من مجموعات تركيب الفيديو التي يمكن أن تخرج تلقائيًا الخلفيات الملونة. بين عشية وضحاها، ستين سنة من صناعة الطباعة الضوئية إلى التاريخ.

إن السنوات العشر الأخيرة من أبحاث الرؤية الحاسوبية المتسارعة بواسطة وحدة معالجة الرسوميات (GPU) تؤذن باستخراج المواد غير اللامعة إلى عصر ثالث، حيث تكلف الباحثين بتطوير أنظمة يمكنها استخراج المواد غير اللامعة عالية الجودة دون الحاجة إلى شاشات خضراء. في Arxiv وحده، تعد الأوراق المتعلقة بالابتكارات في استخراج المقدمة المستندة إلى التعلم الآلي ميزة أسبوعية.

وضعنا في الصورة

لقد أثر مركز الاهتمام الأكاديمي والصناعي في استخراج الذكاء الاصطناعي بالفعل على مساحة المستهلك: فالتطبيقات الأولية والعملية مألوفة لنا جميعًا في شكل زوم و سكيب المرشحات التي يمكن أن تحل محل خلفيات غرفة المعيشة لدينا مع الجزر الاستوائية ، وآخرون ، في مكالمات الفيديو الجماعية.

ومع ذلك ، لا تزال أفضل اللمسات تتطلب شاشة خضراء ، مثل لاحظ التكبير الاربعاء الماضي.

على اليسار ، رجل أمام شاشة خضراء ، بشعر مستخرج جيدًا عبر ميزة Virtual Background في Zoom. على اليسار ، امرأة أمام مشهد منزلي عادي ، بشعر مستخرج بطريقة حسابية ، بدقة أقل ، ومتطلبات حاسوبية أعلى. المصدر: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

على اليسار، رجل أمام شاشة خضراء، بشعر مُستخرج بدقة عبر ميزة الخلفية الافتراضية في تطبيق زووم. على اليمين، امرأة أمام مشهد منزلي عادي، بشعر مُستخرج خوارزميًا، بدقة أقل، وبمتطلبات حوسبة أعلى. المصدر: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

A وظيفة أخرى من منصة Zoom Support يحذر من أن الاستخراج غير الأخضر يتطلب أيضًا قوة حوسبة أكبر في جهاز الالتقاط.

الحاجة إلى قطعها

إن التحسينات في الجودة والقدرة على النقل واقتصاد الموارد لأنظمة استخراج المواد غير المرغوب فيها "في البرية" (أي عزل الأشخاص دون الحاجة إلى شاشات خضراء) ذات صلة بالعديد من القطاعات والأنشطة أكثر من مجرد مرشحات مؤتمرات الفيديو.

بالنسبة لتطوير مجموعة البيانات، فإن تحسين التعرف على الوجه والرأس والجسم بالكامل يوفر إمكانية ضمان عدم تدريب العناصر الخلفية غير ذات الصلة على نماذج الرؤية الحاسوبية للموضوعات البشرية؛ ومن شأن العزل الأكثر دقة أن يحسن بشكل كبير التجزئة الدلالي التقنيات المصممة لتمييز المجالات واستيعابها (أي 'قطة', 'شخص', 'قارب') والتحسين VAE و محولأنظمة تركيب الصور القائمة على الذكاء الاصطناعي مثل نظام OpenAI الجديد DALL-E2؛ ومن شأن خوارزميات الاستخراج الأفضل أن تقلل من الحاجة إلى دليل باهظ الثمن rotoscoping في خطوط أنابيب VFX المكلفة.

في الواقع ، صعود متعدد الوسائط منهجيات معالجة الصور (عادةً نص/صورة)، حيث يُرمَّز نطاق مثل "قطة" كصورة ومع مراجع نصية مرتبطة بها، تشق طريقها بالفعل في مجال معالجة الصور. ومن الأمثلة الحديثة على ذلك Text2Live الهندسة المعمارية ، التي تستخدم تدريبًا متعدد الوسائط (نصًا / صورة) لإنشاء مقاطع فيديو ، من بين العديد من الاحتمالات الأخرى ، بجعات الكريستال والزرافات الزجاجية.

مشهد مدرك للذكاء الاصطناعي

ركز قدر كبير من البحث في الحصيرة التلقائية القائمة على الذكاء الاصطناعي على التعرف على الحدود وتقييم المجموعات المستندة إلى البكسل داخل إطار صورة أو فيديو. ومع ذلك ، فإن بحثًا جديدًا من الصين يقدم خط أنابيب استخراج يعمل على تحسين الترسيم والجودة غير اللامعة من خلال الاستفادة الأوصاف المستندة إلى النص مشهد (نهج متعدد الوسائط اكتسب قوة جذب في قطاع أبحاث رؤية الكمبيوتر على مدار 3-4 سنوات الماضية) ، مدعيا أنه قد تحسن في الأساليب السابقة بعدة طرق.

مثال على استخراج SPG-IM (الصورة الأخيرة ، أسفل اليمين) ، مقارنة بالطرق السابقة المنافسة. المصدر: https://arxiv.org/pdf/2204.09276.pdf

يتمثل التحدي المطروح على القطاع الفرعي لبحوث الاستخراج في إنتاج تدفقات عمل تتطلب حدًا أدنى من التعليقات التوضيحية اليدوية والتدخل البشري - من الناحية المثالية ، لا شيء. إلى جانب الآثار المترتبة على التكلفة ، لاحظ الباحثون في الورقة الجديدة أن التعليقات التوضيحية والتجزئة اليدوية التي يقوم بها عمال جماعي خارجيون عبر ثقافات مختلفة يمكن أن تتسبب في تصنيف الصور أو حتى تقسيمها بطرق مختلفة ، مما يؤدي إلى خوارزميات غير متسقة وغير مرضية.

ومن الأمثلة على ذلك التفسير الذاتي لما يحدد "كائن المقدمة":

من الورقة الجديدة: الطرق السابقة LFM و MODNet (تشير "GT" إلى حقيقة الأرض ، وهي نتيجة "مثالية" يتم تحقيقها غالبًا يدويًا أو بطرق غير خوارزمية) ، لها طرق مختلفة وفعالة على نحو متنوع لتعريف المحتوى الأمامي ، في حين أن الطريقة الجديدة تحدد طريقة SPG-IM بشكل أكثر فعالية "المحتوى القريب" من خلال سياق المشهد.

من الورقة الجديدة: الطرق السابقة LFM و مودنت (يشير مصطلح 'GT' إلى الحقيقة الأساسية، وهي نتيجة "مثالية" يتم تحقيقها غالبًا يدويًا أو من خلال طرق غير خوارزمية)، ولها وجهات نظر مختلفة وفعالة بشكل متنوع حول تعريف المحتوى الأمامي، في حين أن طريقة SPG-IM الجديدة تحدد بشكل أكثر فعالية "المحتوى القريب" من خلال سياق المشهد.

لمعالجة هذا الأمر ، طور الباحثون خط أنابيب من مرحلتين بعنوان التصور الظرفية يرشد حصيرة الصورة (SPG-IM). تتألف بنية وحدة التشفير / مفكك التشفير ذات المرحلتين من تقطير الإدراك الظرفية (SPD) والتغطية الموجهة للإدراك الظرفية (SPGM).

هندسة SPG-IM.

أولاً ، يقوم SPD بإجراء تحولات في الميزات المرئية إلى النصية مسبقًا ، مما يؤدي إلى إنشاء تسميات توضيحية ملائمة للصور المرتبطة بها. بعد ذلك ، يتم تمكين تنبؤ القناع الأمامي عن طريق توصيل خط الأنابيب برواية توقع الملوحة تقنية.

ثم يُخرج SPGM ما يقدر بـ alpha matte بناءً على إدخال صورة RGB الخام والقناع الذي تم الحصول عليه في الوحدة الأولى.

الهدف هو توجيه التصور الظرفية ، حيث يكون للنظام فهم سياقي لما تتكون منه الصورة ، مما يسمح له بتأطير - على سبيل المثال - التحدي المتمثل في استخراج الشعر المعقد من خلفية مقابل الخصائص المعروفة لمثل هذه المهمة المحددة.

في المثال أدناه ، تدرك SPG-IM أن الحبال هي جزء لا يتجزأ من "المظلة" ، حيث تفشل MODNet في الاحتفاظ بهذه التفاصيل وتعريفها. وبالمثل أعلاه ، فقد الهيكل الكامل لجهاز الملعب بشكل تعسفي في MODNet.

في المثال أدناه، يفهم SPG-IM أن الحبال جزء لا يتجزأ من "المظلة"، حيث يفشل MODNet في حفظ هذه التفاصيل وتحديدها. وبالمثل، فُقد الهيكل الكامل لجهاز الملعب بشكل عشوائي في MODNet.

الجديد ورقة بعنوان التصور الظرفية يرشد حصيرة الصورة، ويأتي من باحثين في OPPO Research Institute و PicUp.ai و Xmotors.

ماتس الآلي الذكي

يوفر SPG-IM أيضًا شبكة تحسين التحويل البؤري التكيفي (AFT) التي يمكنها معالجة التفاصيل المحلية والسياق العالمي بشكل منفصل، مما يسهل "الحلول الذكية".

إن فهم سياق المشهد ، في هذه الحالة "الفتاة ذات الحصان" ، يمكن أن يجعل الاستخراج الأمامي أسهل من الطرق السابقة.

إن فهم سياق المشهد، في هذه الحالة "الفتاة مع الحصان"، قد يجعل استخراج المقدمة أسهل من الطرق السابقة.

تقول الورقة:

نحن نؤمن بأن التمثيلات المرئية من مهمة بصرية إلى نصية ، على سبيل المثال تُركّز ترجمة الصور على إشارات أكثر شمولاً دلالياً بين أ) الكائن إلى الكائن، و ب) الكائن إلى البيئة المحيطة، لتوليد أوصاف تغطي المعلومات العامة والتفاصيل المحلية. بالإضافة إلى ذلك، مقارنةً بشرح البكسل المُكلف لتلبيس الصور، يُمكن جمع التسميات النصية بكميات هائلة وبتكلفة منخفضة للغاية.

يتم تدريب فرع SPD للهندسة المعمارية بشكل مشترك مع جامعة ميشيغان فيرتكس وحدة فك ترميز نصية قائمة على المحولات ، والتي تتعلم التمثيلات المرئية من التسميات التوضيحية كثيفة المعنى.

تقوم VirTex بشكل مشترك بتدريب ConvNet و Transformers عبر أزواج التسمية التوضيحية للصور ، وتنقل الرؤى التي تم الحصول عليها إلى مهام الرؤية النهائية مثل اكتشاف الكائن. المصدر: https://arxiv.org/pdf/2006.06666.pdf

من بين الاختبارات ودراسات الاستئصال الأخرى ، اختبر الباحثون SPG-IM مقابل أحدث ما توصلت إليه التكنولوجيا تقليمالطرق المستندة إلى Deep Image Matting (DIM), إندكس نت، تنسيق الصور الواعي للسياق (كام) ، الاهتمام السياقي الموجه (برنامج الأمن السيبراني العالمي)، FBA، ورسم الخرائط الدلالية للصور (الشريحة).

تضمنت الأطر السابقة الأخرى التي تم اختبارها مناهج خالية من التشذيب LFM, HAttMattingو مودنت. لإجراء مقارنة عادلة، تم تعديل طرق الاختبار بناءً على المنهجيات المختلفة؛ حيث لم يكن الكود متاحًا، تم إعادة إنتاج تقنيات الورقة من الهندسة المعمارية الموصوفة.

تنص الورقة الجديدة على ما يلي:

يتفوق نموذج SPG-IM الخاص بنا على جميع الطرق المنافسة الخالية من خرائط القطع ([LFM] و[HAttMatting] و[MODNet]) بهامش كبير. في الوقت نفسه، يُظهر نموذجنا أيضًا تفوقًا ملحوظًا على الطرق الحديثة (SOTA) القائمة على خرائط القطع والتوجيه بالقناع من حيث جميع المقاييس الأربعة في مجموعات البيانات العامة (أي Composition-1K وDistinction-646 وHuman-2K)، ومعيارنا Multi-Object-1K.

ويستمر:

من الواضح أن طريقتنا تحافظ على التفاصيل الدقيقة (مثل مواقع أطراف الشعر، والملمس الشفاف، والحدود) دون الحاجة إلى توجيه Trimap. علاوة على ذلك، مقارنةً بنماذج أخرى منافسة خالية من Trimap، يتمتع نموذج SPG-IM الخاص بنا باكتمال دلالي شامل أفضل.

نُشر لأول مرة في 24 أبريل 2022.

مواضيع ذات صلة:تركيب الصورة بحث محول