الذكاء الاصطناعي

تقنية تلوين الصور الذكية التي تفهم المشاهد

Published April 24, 2022

Updated April 28, 2026

Martin Anderson

في الوثائقي الإضافي الذي يرافق إصدار DVD عام 2003 لفيلم Alien³ (1992)، تذكر أسطورة التأثيرات البصرية ريتشارد إيدلوند بالرعب “مصارعة السومو” لاستخراج المات الصور الكيميائية التي домنت العمل التأثيرات البصرية بين أواخر الثلاثينيات وأواخر الثمانينيات. وصف إيدلوند طبيعة العملية على أنها “مصارعة السومو”، بالمقارنة مع تقنيات الشاشة الخضراء/الزرقاء الرقمية التي أصبحت سائدة في أوائل التسعينيات (وهو ما عاد إليه منذ ذلك الحين).

استخراج عنصر أمامي (مثل شخص أو نموذج سفينة فضائية) من خلفية، بحيث يمكن تكوين صورة القطع في لوحة خلفية، تم تحقيقه في البداية من خلال تصوير الكائن الأمامي على خلفية زرقاء أو خضراء موحدة.

عمليات استخراج الصور الكيميائية شاقة لصورة تأثيرات بصرية بواسطة ILM ل ‘Return of the Jedi’ (1983). مصدر: https://www.youtube.com/watch?v=qwMLOjqPmbQ

في اللقطات الناتجة، سيتم عزل لون الخلفية كيميائياً فيما بعد وسيتم استخدامه كقالب لإعادة طباعة الكائن الأمامي (أو الشخص) في طابعة بصرية ككائن عائم في خلية فيلم شفافة.

كانت هذه العملية تعرف باسم تقنية التلوين الفاصل (CSO) – على الرغم من أن هذا المصطلح سيصبح فيما بعد أكثر ارتباطاً بالتأثيرات البصرية الخشنة ‘Chromakey’ في الإنتاج التلفزيوني منخفض الميزانية في السبعينيات والثمانينيات، والتي تم تحقيقها bằng وسائل تمثيلية بدلاً من الوسائل الكيميائية أو الرقمية.

تجربة لتقنية التلوين الفاصل في عام 1970 لمسلسل الأطفال البريطاني ‘Blue Peter’. مصدر: https://www.bbc.co.uk/archive/blue_peter_noakes_CSO/zwb9vwx

في أي حال، سواء كان ذلك لعناصر الفيلم أو الفيديو، يمكن بعد ذلك إدراج اللقطات المستخرجة في أي لقطات أخرى.

على الرغم من أن عملية الصوديوم البخارية التابعة لشركة ديزني، والتي كانت أكثر تكلفة وملكية (التي كانت تستند إلى اللون الأصفر على وجه التحديد وكانت مستخدمة لفيلم الرعب عام 1963 لألفريد هيتشكوك The Birds)، أعطت تعريفًا أفضل وألواحًا أكثر حدة، ظلت استخراج الصور الكيميائية شاقًا وغير موثوق به.

تتطلب عملية استخراج الصوديوم البخارية التابعة لشركة ديزني خلفيات قريبة من الطرف الأصفر من الطيف. هنا، أنجيلا لانسبوري معلق على أسلاك خلال إنتاج تسلسل تأثيرات بصرية ل ‘Bedknobs and Broomsticks’ (1971). مصدر

ما وراء التلوين الرقمي

في التسعينيات، قامت الثورة الرقمية بالتخلص من المواد الكيميائية، ولكن ليس الحاجة إلى شاشات خضراء. أصبح من الممكن الآن إزالة الخلفية الخضراء (أو أي لون) ببساطة عن طريق البحث عن بكسل داخل نطاق تحمل من ذلك اللون، في برنامج تحرير البكسل مثل Photoshop، وsuite جديدة من برامج تركيب الفيديو التي يمكنها إزالة الخلفيات الملونة تلقائيًا. تقريباً في الليلة نفسها، ستون عامًا من صناعة الطابعة البصرية تم إرسالها إلى التاريخ.

كانت الأعوام العشر الماضية من البحث في رؤية الكمبيوتر مدعومة ببرامج معالجة الرسومات تُشير إلى إدخال استخراج المات إلى عصر ثالث، وتكليف الباحثين بتطوير أنظمة يمكنها استخراج ماتات عالية الجودة دون الحاجة إلى شاشات خضراء. في Arxiv وحده، تظهر الأوراق المتعلقة بالابتكارات في استخراج المقدمة القائمة على التعلم الآلي ك特ية أسبوعية.

وضعنا في الصورة

لقد أثرت هذه النقطة من الاهتمام الأكاديمي والصناعي في استخراج الذكاء الاصطناعي بالفعل على الفضاء الاستهلاكي: التطبيقات الخشنة ولكنها قابلة للعمل موجودة في شكل Zoom و Skype المرشحات التي يمكنها استبدال خلفيات غرفنا العائلية بأيضاح جزر استوائية، وغيرها، في مكالمات الفيديو.

ومع ذلك، لا تزال أفضل الماتات تتطلب شاشة خضراء، كما اشار Zoom الأسبوع الماضي.

左، رجل أمام شاشة خضراء، مع شعر منقوص جيدًا عبر ميزة الخلفية الافتراضية ل Zoom. اليسار، امرأة أمام مشهد منزلي عادي، مع شعر منقوص خوارزميًا، مع دقة أقل، ومتطلبات حسابية أعلى. مصدر: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

左، رجل أمام شاشة خضراء، مع شعر منقوص جيدًا عبر ميزة الخلفية الافتراضية ل Zoom. اليمين، امرأة أمام مشهد منزلي عادي، مع شعر منقوص خوارزميًا، مع دقة أقل، ومتطلبات حسابية أعلى. مصدر: https://support.zoom.us/hc/en-us/articles/210707503-Changing-your-Virtual-Background-image

يحذر مقال إضافي من منصة دعم Zoom من أن استخراج غير شاشة الخضراء يتطلب أيضًا قدرة حسابية أكبر في جهاز الالتقاط.

الحاجة إلى القطع

التحسينات في الجودة والمنقولية واقتصاد الموارد لأنظمة استخراج المات “في البرية” (أي عزل الأشخاص بدون الحاجة إلى شاشات خضراء) ذات صلة بالعديد من القطاعات والمساعي أكثر من مجرد مرشحات مؤتمر الفيديو.

من أجل تطوير مجموعات البيانات، تقدم تحسينات التعرف على الوجه والرأس والجسم الكامل إمكانية ضمان عدم تداخل عناصر الخلفية العرضية مع نماذج الرؤية الحاسوبية للموضوعات البشرية؛ سيحسن العزل الدقيق بشكل كبير تقنيات القطع الدلالي المصممة لتمييز ودمج المجالات (أي ‘قطة’، ‘شخص’، ‘قارب’)، وسيحسن أنظمة合성 الصور القائمة على VAE و المدمج مثل DALL-E 2 الجديدة من OpenAI؛ وستقلل خوارزميات الاستخراج الأفضل من الحاجة إلى التحريك اليدوي المكلف في خطوط أنابيب التأثيرات البصرية المكلفة.

في الواقع، فإن صعود المناهج المتعددة (عادةً ما تكون نص/صورة) التي يتم فيها ترميز مجال مثل “قطة” كصورة ومراجع نصية ذات صلة،已经 بدأت في اختراق معالجة الصور. مثال حديث هو هيكل Text2Live، الذي يستخدم التدريب المتعدد (نص/صورة) لإنشاء مقاطع فيديو من، من بين العديد من الإمكانيات الأخرى، طاووس بلوري وزرافة زجاجية.

تلوين الصور الذكي الذي يفهم المشاهد

ركزت الكثير من الأبحاث حول التلوين التلقائي القائم على الذكاء الاصطناعي على تحديد الحدود وتقييم المجموعات القائمة على البكسل داخل صورة أو إطار فيديو. ومع ذلك، تقدم أبحاث جديدة من الصين خط أنابيب استخراج يحسن من التلوين والجودة عن طريق الاستفادة من الوصف النصي للمشهد (منهج متعدد يكتسب زخماً في قطاع أبحاث الرؤية الحاسوبية خلال السنوات 3-4 الماضية)، ويزعم أن لديها تحسينات على الطرق السابقة في عدة طرق.

مثال على استخراج SPG-IM (صورة أدنى يمين)، مقارنة بالطرق السابقة. مصدر: https://arxiv.org/pdf/2204.09276.pdf

التحدي المطروح على قطاع أبحاث الاستخراج هو إنتاج تدفقات عمل تتطلب الحد الأدنى من التعليقات اليدوية والتدخل البشري – افتراضيًا، لا شيء. بالإضافة إلى الآثار التكلفة، يلاحظ باحثو الورقة الجديدة أن التعليقات والتقسيمات اليدوية التي يقوم بها عمال الحشد في ثقافات مختلفة يمكن أن تسبب في وضع علامات أو حتى تقسيم الصور بطرق مختلفة، مما يؤدي إلى خوارزميات غير متسقة وغير مرضية.

مثال على ذلك هو التفسير الذاتي لما يحدد “كائنًا أماميًا”:

من الورقة الجديدة: الطرق السابقة LFM و MODNet (‘GT’ يعني الحقيقة الأرضية، وهو نتيجة مثالية غالبًا ما تتحقق يدوياً أو bằng أساليب غير خوارزمية)، لها تأويلات مختلفة وفعالية مختلفة لتعريف المحتوى الأمامي، في حين أن طريقة SPG-IM الجديدة تحدد ‘المحتوى القريب’ بشكل أكثر فعالية من خلال سياق المشهد.

للتغلب على ذلك، قام الباحثون بتطوير خط أنابيب من مرحلتين بعنوان توجيه استخراج الصور بواسطة الإدراك الحالي (SPG-IM). يتكون هيكل المرسل والمتلقي من مرحلتين من التبخير الحالي (SPD) وتوجيه تلوين الصور بواسطة الإدراك الحالي (SPGM).

هيكل SPG-IM.

أولاً، يقوم SPD بتمهين التحويلات المظهرية إلى نصية، مما يولد عناوين مناسبة للصور المرتبطة بها. بعد ذلك، يتم تمكين التنبؤ بمسكة الكائن الأمامي بواسطة الاتصال بالخط الأنابيب إلى تقنية تنبؤ بالبارزة جديدة.

ثم يقوم SPGM بإخراج مات ألفا محسوبة بناءً على الإدخال الصورة RGB الخام والخارطة المولدة في الوحدة الأولى.

الهدف هو توجيه الإدراك الحالي، حيث يكون للنظام فهم سياقي لما تتكون منه الصورة، مما يسمح له بطرح – على سبيل المثال – تحدي استخراج الشعر المعقد من خلفية ضد سمات معروفة لمثل هذا المهمة المحددة.

في المثال أدناه، يفهم SPG-IM أن الحبال هيtrinsic إلى ‘مظلة’, حيث يفشل MODNet في الاحتفاظ وتحديد هذه التفاصيل. وبالمثل أعلاه، يتم فقدان هيكل جهاز اللعب hoàn toàn في MODNet.

الورقة الجديدة بعنوان توجيه استخراج الصور بواسطة الإدراك الحالي، وهي من باحثين في معهد أبحاث OPPO و PicUp.ai و Xmotors.

ماتات تلقائية ذكية

يقدم SPG-IM أيضًا شبكة تحسين التحويل البؤري التكيفي (AFT) التي يمكنها معالجة التفاصيل المحلية والسياق العالمي بشكل منفصل، مما يسهل ‘ماتات ذكية’.

فهم سياق المشهد، في هذه الحالة ‘فتاة مع حصان’, يمكن أن يجعل استخراج الكائن الأمامي أسهل من الطرق السابقة.

تنص الورقة على:

‘نحن نعتقد أن التمثيلات البصرية من مهمة الصورة إلى النص، على سبيل المثال، الكتابة الصورية، تركز على إشارات أكثر شمولاً семантиاً بين أ) كائن إلى كائن و ب) كائن إلى البيئة المحيطة لتوليد وصفات يمكن أن تغطي كلا المعلومات العالمية والتفاصيل المحلية. بالإضافة إلى ذلك، مقارنة بالتعليقات البكسلية الغالية للتلوين، يمكن جمع العلامات النصية بسهولة وبكلفة منخفضة للغاية.’

يتم تدريب فرع SPD من الهيكل بشكل مشترك مع محول النصي القائم على Transformer من جامعة ميشيغان، VirTex، الذي يتعلم التمثيلات البصرية من العناوين الكثيفة семантиاً.

VirTex يتدرب بشكل مشترك على ConvNet وTransformers عبر أزواج صورة-عنوان، وينقل المعرفة المكتسبة إلى مهام الرؤية الحاسوبية مثل كشف الكائنات. مصدر: https://arxiv.org/pdf/2006.06666.pdf

من بين الاختبارات والدراسات الأخرى، قام الباحثون بتحويل SPG-IM ضد طرق الخريطة الثلاثية القائمة على الحالة من التلوين العميق (DIM)، IndexNet، التلوين المتوافق مع السياق (CAM)، الانتباه السياقي الموجه (GCA)، FBA، و SIM.

تم اختبار إطارات سابقة أخرى، بما في ذلك طرق خالية من الخريطة الثلاثية LFM، HAttMatting، و MODNet. من أجل المقارنة العادلة، تم تعديل طرق الاختبار بناءً على الأساليب المختلفة؛ حيث لم تكن هناك 코드 متاحة، تم إعادة إنتاج تقنيات الورقة من الهيكل الموصوف.

تنص الورقة الجديدة على:

‘نعتقد أن تمثيلات الصورة من مهمة الصورة إلى النص، على سبيل المثال، الكتابة الصورية، تركز على إشارات أكثر شمولاً семантиاً بين أ) كائن إلى كائن و ب) كائن إلى البيئة المحيطة لتوليد وصفات يمكن أن تغطي كلا المعلومات العالمية والتفاصيل المحلية. بالإضافة إلى ذلك، مقارنة بالتعليقات البكسلية الغالية للتلوين، يمكن جمع العلامات النصية بسهولة وبكلفة منخفضة للغاية.’

واستمر:

‘من الواضح أن طريقة SPG-IM تتفوق على جميع الطرق الخالية من الخريطة الثلاثية المتسابقين ([LFM] و [HAttMatting] و [MODNet]) بفارق كبير. في الوقت نفسه، يظهر نموذجنا تفوقًا ملحوظًا على طرق التلوين القائمة على الخريطة الثلاثية والتوجيه القائم على الخريطة فيما يتعلق بجميع أربعة المقاييس عبر مجموعات البيانات العامة (أي Composition-1K و Distinction-646 و Human-2K) وبياناتنا الخاصة Multi-Object-1K.’

واستمر:

‘يمكن ملاحظة بوضوح أن طريقة SPG-IM تحافظ على التفاصيل الدقيقة (مثل مواقع نهاية الشعر، والtextures الشفافة، والحدود) دون توجيه الخريطة الثلاثية. بالإضافة إلى ذلك، مقارنة بالطرق المتسارعة الأخرى الخالية من الخريطة الثلاثية، يمكن ل SPG-IM الاحتفاظ بأكثر اكتمال семантиاً عالمي.’

نشر لأول مرة في 24 أبريل 2022.

Related Topics:image synthesis research transformer