الذكاء الاصطناعي
تحسين إنشاء الشاشة الخضراء للانتشار المستقر

على الرغم من حماس المجتمع والمستثمرين للذكاء الاصطناعي التوليدي البصري، فإن الناتج من هذه الأنظمة ليس جاهزًا دائمًا للاستخدام في العالم الحقيقي؛ ومن الأمثلة على ذلك أن أنظمة الذكاء الاصطناعي التوليدي تميل إلى إنتاج الصور بأكملها (أو سلسلة من الصور، في حالة الفيديو)، بدلاً من عناصر فردية معزولة والتي عادة ما تكون مطلوبة للتطبيقات المتنوعة في الوسائط المتعددة، وللممارسين في مجال التأثيرات البصرية.
ومن الأمثلة البسيطة على ذلك قصاصات فنية مصممة لتطفو فوق أي خلفية مستهدفة حددها المستخدم:

ربما تكون الخلفية ذات المربعات الرمادية الفاتحة، والتي تعد الأكثر شيوعًا بين مستخدمي برنامج فوتوشوب، تمثل قناة ألفا أو قناة الشفافية، حتى في العناصر الاستهلاكية البسيطة مثل صور المخزون.
لقد كانت الشفافية من هذا النوع متاحة على نطاق واسع منذ أكثر من ثلاثين عامًا؛ ومنذ الثورة الرقمية في أوائل تسعينيات القرن العشرين، أصبح المستخدمون قادرين على استخراج عناصر من الفيديو والصور من خلال سلسلة متزايدة التعقيد من مجموعات الأدوات والتقنيات.
على سبيل المثال، كان التحدي المتمثل في "إزالة" الخلفيات ذات الشاشة الزرقاء والشاشة الخضراء في لقطات الفيديو، والتي كانت في السابق من اختصاص شركات الإنتاج باهظة الثمن، هو التحدي الأكبر. العمليات الكيميائية والطابعات البصرية (طالما خامات مصنوعة يدويا)، سيصبح عمل الدقائق في أنظمة مثل تطبيقات Adobe After Effects وPhotoshop (من بين العديد من البرامج والأنظمة المجانية والمملوكة الأخرى).
بمجرد عزل عنصر ما، قناة ألفا (وهو في الواقع قناع يخفي أي محتوى غير ذي صلة) يسمح لأي عنصر في الفيديو بأن يتم فرضه بسهولة على خلفيات جديدة، أو دمجه مع عناصر معزولة أخرى.

أمثلة على قنوات ألفا، مع تأثيراتها الموضحة في الصف السفلي. المصدر: https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html
الانسحاب
في مجال الرؤية الحاسوبية، يقع إنشاء قنوات ألفا ضمن رعاية التجزئة الدلالي، مع مشاريع مفتوحة المصدر مثل مشروع Meta الجزء أي شيء توفير طريقة نصية لعزل/استخراج الكائنات المستهدفة، من خلال التعرف على الكائنات المعزز دلاليًا.
تم استخدام إطار عمل Segment Anything في مجموعة واسعة من عمليات استخراج التأثيرات المرئية وعزلها، مثل مشروع ألفا كليب.

أمثلة على الاستخراج باستخدام Segment Anything، في إطار عمل Alpha-CLIP: المصدر: https://arxiv.org/pdf/2312.03818
هناك العديد من البدائل طرق التجزئة الدلالية التي يمكن تكييفها لمهمة تعيين قنوات ألفا.
ومع ذلك، تعتمد التجزئة الدلالية على البيانات المدربة والتي قد لا تحتوي على جميع فئات الأشياء التي يتعين استخراجها. على الرغم من أن النماذج المدربة على أحجام كبيرة جدًا من البيانات يمكنها تمكين التعرف على مجموعة أوسع من الكائنات (تتحول فعليًا إلى نماذج أساسية، أو نماذج العالم), ومع ذلك فإنهم مقيدون بالفئات التي تم تدريبهم على التعرف عليها بشكل أكثر فعالية.

قد تواجه أنظمة التجزئة الدلالية مثل Segment Anything صعوبة في تحديد كائنات معينة، أو أجزاء من الكائنات، كما هو موضح هنا في الإخراج من المطالبات الغامضة. المصدر: https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html
على أية حال، فإن التجزئة الدلالية هي مجرد بأثر رجعي تعتبر هذه العملية بمثابة إجراء شاشة خضراء، ويجب عزل العناصر دون الاستفادة من وجود شريحة واحدة من لون الخلفية والتي يمكن التعرف عليها وإزالتها بشكل فعال.
لهذا السبب، حدث أحيانًا لمجتمع المستخدمين أنه من الممكن إنشاء صور ومقاطع فيديو والتي تحتوي فعليًا على خلفيات شاشة خضراء والتي يمكن إزالتها على الفور بالطرق التقليدية.
لسوء الحظ، شعبية نماذج الانتشار الكامنة مثل انتشار مستقر غالبًا ما يواجهون صعوبة في عرض شاشة خضراء زاهية. ويرجع ذلك إلى أن بيانات تدريب النماذج لا تحتوي عادةً على أمثلة كثيرة لهذا السيناريو المتخصص. وحتى عندما ينجح النظام، فإن فكرة "الأخضر" تميل إلى الانتشار بشكل غير مرغوب فيه إلى موضوع المقدمة، بسبب المفهوم تشابك:

أعلاه، نرى أن تقنية "الانتشار المستقر" قد أولت أصالة الصورة أولويةً على الحاجة إلى إنشاء شدة لون أخضر واحدة، مما يُحاكي بفعالية مشاكل واقعية تحدث في سيناريوهات الشاشة الخضراء التقليدية. أدناه، نرى أن مفهوم "الأخضر" قد شوّه صورة المقدمة. كلما ركزت الرسالة على مفهوم "الأخضر"، ازدادت هذه المشكلة سوءًا. المصدر: https://stablediffusionweb.com/
وعلى الرغم من الأساليب المتقدمة المستخدمة، فإن فستان المرأة وربطة عنق الرجل (في الصور السفلية أعلاه) يميلان إلى "الاختفاء" مع الخلفية الخضراء - وهي مشكلة تعود إلى أيام إزالة الصبغة المستحلبة الضوئية في السبعينيات والثمانينيات.
كما هو الحال دائمًا، يُمكن التغلب على عيوب أي نموذج من خلال استخدام بيانات محددة لحل مشكلة ما، وتخصيص موارد تدريبية كبيرة. أنظمة مثل عرض ستانفورد لعام ٢٠٢٤ طبقة منتشرة إنشاء صقل نموذج قادر على توليد صور بقنوات ألفا:

تم تدريب مشروع Stanford LayerDiffuse على مليون صورة مناسبة قادرة على منح النموذج قدرات الشفافية. المصدر: https://arxiv.org/pdf/2402.17113
لسوء الحظ، بالإضافة إلى الموارد الكبيرة اللازمة للتنظيم والتدريب لهذا النهج، فإن مجموعة البيانات المستخدمة في LayerDiffuse ليست متاحة للعامة، مما يحد من استخدام النماذج المدربة عليها. وحتى إذا لم يكن هذا العائق موجودًا، فمن الصعب تخصيص هذا النهج أو تطويره لحالات استخدام محددة.
بعد ذلك بقليل في عام 2024، تعاونت Adobe Research مع جامعة Stonybrook لإنتاج ماجيك، وهو نهج استخراج الذكاء الاصطناعي المدرب على صور الانتشار المصممة خصيصًا.

من ورقة عام 2024، مثال على استخراج قناة ألفا الدقيقة في MAGICK. المصدر: https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf
تم استخدام 150,000 كائن مستخرج ومُنشأ بواسطة الذكاء الاصطناعي لتدريب MAGICK، حتى يتمكن النظام من تطوير فهم بديهي للاستخراج:

عينات من مجموعة بيانات تدريب MAGICK.
كما ذكرت الورقة المصدرية، كان من الصعب جدًا إنشاء مجموعة البيانات هذه للسبب المذكور أعلاه - حيث تواجه طرق الانتشار صعوبة في إنشاء مساحات صلبة قابلة للنقر من الألوان. لذلك، كان من الضروري الاختيار اليدوي للألوان غير اللامعة الناتجة.
ويؤدي هذا الاختناق اللوجستي مرة أخرى إلى نظام لا يمكن تطويره أو تخصيصه بسهولة، بل يجب استخدامه ضمن نطاق قدراته المدربة في البداية.
TKG-DM – استخلاص الكروما "الأصلي" لنموذج الانتشار الكامن
اقترحت دراسة تعاونية جديدة بين باحثين ألمان ويابانيين بديلاً لهذه الأساليب المدربة، القادرة -كما جاء في الورقة البحثية- على الحصول على نتائج أفضل من الأساليب المذكورة أعلاه، دون الحاجة إلى التدريب على مجموعات بيانات تم إعدادها خصيصًا.

يقوم TKG-DM بتعديل الضوضاء العشوائية التي تنشئ صورة توليدية بحيث تصبح أكثر قدرة على إنتاج خلفية صلبة وقابلة للمفتاح - بأي لون. المصدر: https://arxiv.org/pdf/2411.15580
تتعامل الطريقة الجديدة مع المشكلة على مستوى الجيل، من خلال تحسين ضوضاء عشوائية والتي يتم من خلالها إنشاء صورة في نموذج الانتشار الكامن (LDM) مثل انتشار مستقر.
ويعتمد النهج على تحقيق سابق في مخطط الألوان لتوزيع الانتشار المستقر، وهو قادر على إنتاج لون الخلفية من أي نوع، مع تشابك أقل (أو بدون) للون الخلفية الرئيسي في محتوى المقدمة، مقارنة بالطرق الأخرى.

يتم التحكم في الضوضاء الأولية من خلال تحول متوسط القناة القادر على التأثير على جوانب عملية إزالة الضوضاء، دون تشابك إشارة اللون في محتوى المقدمة.
تقول الورقة:
"توضح تجاربنا المكثفة أن TKG-DM يحسن درجات FID وMask-FID بنسبة 33.7% و35.9% على التوالي.
"وبالتالي، فإن نموذجنا الخالي من التدريب ينافس النماذج المضبوطة بدقة، مما يوفر حلاً فعالاً ومتعدد الاستخدامات لمهام إنشاء المحتوى المرئي المختلفة التي تتطلب التحكم الدقيق في المقدمة والخلفية."
ال ورقة جديدة بعنوان TKG-DM: نموذج نشر المحتوى Chroma Key الخالي من التدريبويأتي هذا البحث من عمل سبعة باحثين من جامعة هوسي في طوكيو وجامعة RPTU Kaiserslautern-Landau & DFKI GmbH في كايزرسلاوترن.
خدمة التوصيل
يمتد النهج الجديد إلى بنية الانتشار المستقر من خلال تكييف الضوضاء الغوسية الأولية من خلال قناة متوسط التحول (CMS)، الذي ينتج أنماط ضوضاء مصممة لتشجيع الفصل المطلوب بين الخلفية والأمامية في النتيجة الناتجة.

مخطط للنظام المقترح.
يقوم نظام CMS بضبط متوسط كل قناة لون مع الحفاظ على التطوير العام لعملية إزالة الضوضاء.
يشرح المؤلفون:
"لتوليد كائن المقدمة على خلفية مفتاح الكروما، نطبق استراتيجية اختيار ضوضاء البداية التي تجمع بشكل انتقائي بين [الضوضاء] الأولية ولون البداية [الضوضاء] باستخدام [قناع] غاوسي ثنائي الأبعاد.
'يخلق هذا القناع انتقالًا تدريجيًا من خلال الحفاظ على الضوضاء الأصلية في منطقة المقدمة وتطبيق الضوضاء المحولة اللون على منطقة الخلفية.'

يتم إنشاء قناة اللون المطلوبة للون الخلفية باستخدام موجه نص فارغ، بينما يتم إنشاء المحتوى الأمامي الفعلي دلاليًا، من تعليمات النص الخاصة بالمستخدم.
الاهتمام الذاتي و الاهتمام المتبادل تُستخدم هذه العناصر لفصل وجهي الصورة (خلفية اللون ومحتوى المقدمة). يساعد الانتباه الذاتي في تحقيق الاتساق الداخلي لموضوع المقدمة، بينما يحافظ الانتباه المتبادل على دقة النص المطلوب. تشير الورقة إلى أنه نظرًا لأن صور الخلفية عادةً ما تكون أقل تفصيلاً وأكثر تأكيدًا في الأجيال، فإن تأثيرها الأضعف يسهل التغلب عليه نسبيًا واستبداله بمسحة من اللون النقي.

تصور لتأثير الاهتمام الذاتي والانتباه المتبادل في عملية توليد نمط الكروما.
البيانات والاختبارات
تم اختبار TKG-DM باستخدام Stable Diffusion V1.5 وStable Diffusion SDXL. تم إنشاء الصور بدقة 512x512 بكسل و1024x1024 بكسل على التوالي.
تم إنشاء الصور باستخدام جدولة DDIM أصلي في الانتشار المستقر، في مقياس التوجيه 7.5، مع 50 خطوة لإزالة الضوضاء. كان لون الخلفية المستهدف أخضر، والآن طريقة التسرب المهيمنة.
تمت مقارنة النهج الجديد بـ ديب فلويد، وفقًا للإعدادات المستخدمة في MAGICK؛ إلى الإعدادات الدقيقة انتشار منخفض الرتبة نموذج جرين باك لورا؛ وأيضًا إلى LayerDiffuse المذكورة أعلاه.
بالنسبة للبيانات، تم استخدام 3000 صورة من مجموعة بيانات MAGICK.

أمثلة من مجموعة بيانات MAGICK، والتي تم اختيار 3000 صورة منها في اختبارات النظام الجديد. المصدر: https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html
بالنسبة للمقاييس، استخدم المؤلفون مسافة البداية (FID) لتقييم جودة المقدمة. كما قاموا بتطوير مقياس خاص بالمشروع يسمى m-FID، والذي يستخدم بيريفنت نظام لتقييم جودة القناع الناتج.

مقارنات بصرية لنظام BiRefNet مع الطرق السابقة. المصدر: https://arxiv.org/pdf/2401.03407
لاختبار المحاذاة الدلالية مع مطالبات الإدخال، جملة CLIP (CLIP-S) وصورة CLIP (CLIP-I) تم استخدام الأساليب التالية: يقوم CLIP-S بتقييم الدقة الفورية، ويقوم CLIP-I بتقييم التشابه البصري مع الحقيقة الأساسية.

أول مجموعة من النتائج النوعية للطريقة الجديدة، هذه المرة لـ Stable Diffusion V1.5. يُرجى الرجوع إلى ملف PDF المصدر للحصول على دقة أفضل.
يؤكد المؤلفون أن النتائج (الموضحة أعلاه وأسفل، SD1.5 وSDXL، على التوالي) توضح أن TKG-DM يحصل على نتائج متفوقة دون هندسة سريعة أو الحاجة إلى تدريب أو ضبط النموذج.

نتائج SDXL النوعية. يرجى الرجوع إلى ملف PDF المصدر للحصول على دقة أفضل.
لقد لاحظوا أنه مع وجود موجه لتحريض خلفية خضراء في النتائج الناتجة، فإن Stable Diffusion 1.5 يواجه صعوبة في توليد خلفية نظيفة، بينما ينتج SDXL (على الرغم من أدائه الأفضل قليلاً) تدرجات خضراء فاتحة غير مستقرة من شأنها أن تتداخل مع الفصل في عملية الكروما.
لاحظوا أيضًا أنه على الرغم من أن LayerDiffuse يُنتج خلفيات منفصلة جيدًا، إلا أنه يفقد أحيانًا بعض التفاصيل، مثل دقة الأرقام أو الحروف، ويعزو المؤلفون ذلك إلى قيود في مجموعة البيانات. وأضافوا أن توليد الأقنعة يفشل أحيانًا أيضًا، مما يؤدي إلى صور "غير مقطوعة".
بالنسبة للاختبارات الكمية، على الرغم من أن LayerDiffuse يبدو أنه يتمتع بأفضلية في SDXL لـ FID، إلا أن المؤلفين يؤكدون أن هذا ناتج عن مجموعة بيانات متخصصة تُشكل في الواقع منتجًا "مُعدّلًا" وغير مرن. وكما ذُكر سابقًا، فإن أي كائنات أو فئات غير مشمولة في مجموعة البيانات تلك، أو غير مشمولة بشكل كافٍ، قد لا تعمل بنفس الجودة، في حين أن المزيد من الضبط الدقيق لاستيعاب الفئات الجديدة يُحمّل المستخدم عبءً كبيرًا في التنظيم والتدريب.

نتائج كمية للمقارنات. تشير الورقة البحثية إلى أن ميزة LayerDiffuse الواضحة تأتي على حساب المرونة وعبء معالجة البيانات والتدريب.
تقول الورقة:
"تعكس درجات FID وm-FID وCLIP-I العالية التي حصل عليها DeepFloyd تشابهه مع الحقيقة الأساسية استنادًا إلى مخرجات DeepFloyd. ومع ذلك، فإن هذا المحاذاة يمنحها ميزة جوهرية، مما يجعلها غير مناسبة كمعيار عادل لجودة الصورة. كما تشير درجة CLIP-S المنخفضة إلى محاذاة نص أضعف مقارنة بالنماذج الأخرى.
بشكل عام، تؤكد هذه النتائج قدرة نموذجنا على إنشاء خلفيات نصية عالية الجودة دون الحاجة إلى ضبط دقيق، مما يوفر حلاً فعالاً لإنشاء محتوى مفتاح اللون.
وأخيرًا، أجرى الباحثون دراسةً على المستخدمين لتقييم الالتزام السريع بمختلف الطرق. طُلب من مئة مشارك تقييم 30 زوجًا من الصور من كل طريقة، مع استخراج المشاركين باستخدام BiRefNet وإجراء تحسينات يدوية على جميع الأمثلة. وقد رُشِّح في هذه الدراسة نهج المؤلفين الخالي من التدريب.

نتائج دراسة المستخدم.
TKG-DM متوافق مع الإصدارات الشائعة كونترول نت نظام تابع لجهة خارجية للانتشار المستقر، ويزعم المؤلفون أنه ينتج نتائج متفوقة على قدرة ControlNet الأصلية على تحقيق هذا النوع من الفصل.
الخاتمة
ولعل أبرز ما يمكن استخلاصه من هذه الورقة البحثية الجديدة هو مدى تشابك نماذج الانتشار الكامن، على النقيض من التصور العام السائد بأنها قادرة على فصل جوانب الصور ومقاطع الفيديو بسهولة عند إنشاء محتوى جديد.
وتؤكد الدراسة أيضًا على مدى تحول مجتمع البحث والهواة إلى الضبط الدقيق كأداة بأثر رجعي إصلاح عيوب النماذج - حلٌّ يُعالج دائمًا فئاتٍ وأنواعًا مُحددة من الكائنات. في مثل هذه الحالة، سيعمل النموذج المُعدّل بدقةٍ إما بشكلٍ ممتاز على عددٍ محدودٍ من الفئات، أو سيعمل بشكلٍ أفضل. بشكل محتمل حسنًا، على حجم أكبر بكثير من الفئات والكائنات المحتملة، وفقًا لكميات أكبر من البيانات في مجموعات التدريب.
ومن ثم فمن المنعش أن نرى حلاً واحداً على الأقل لا يعتمد على مثل هذه الحلول الشاقة والتي يمكن القول إنها خادعة.
* تصوير فيلم 1978 السيوبرمانكان من المطلوب من الممثل كريستوفر ريف أن يرتدي فيروز زي سوبرمان في لقطات الشاشة الزرقاء، لتجنب مسح الزي الأزرق الشهير. استُعيد لون الزي الأزرق لاحقًا عبر تدرج الألوان.