اتصل بنا للحصول على مزيد من المعلومات

إزالة الكائنات من الفيديو بشكل أكثر كفاءة باستخدام التعلم الآلي

الذكاء الاصطناعي

إزالة الكائنات من الفيديو بشكل أكثر كفاءة باستخدام التعلم الآلي

mm

أفاد بحث جديد من الصين عن أحدث النتائج - بالإضافة إلى تحسن مثير للإعجاب في الكفاءة - لنظام طلاء فيديو جديد يمكنه إزالة الأشياء ببراعة من اللقطات.

يتم رسم أحزمة طائرة شراعية معلقة بواسطة الإجراء الجديد. شاهد الفيديو المصدر (مضمن في الجزء السفلي من هذه المقالة) للحصول على دقة أفضل ومزيد من الأمثلة. المصدر: https://www.youtube.com/watch؟

تم طلاء حزام طائرة شراعية باستخدام الإجراء الجديد. شاهد الفيديو الأصلي للحصول على دقة أفضل وأمثلة إضافية. المصدر: https://www.youtube.com/watch؟

هذه التقنية ، التي تسمى إطار عمل من البداية إلى النهاية للرسومات Inpainting بالفيديو Flow-Guided (E2FGVI) ، قادر أيضًا على إزالة العلامات المائية وأنواع مختلفة من الانسداد من محتوى الفيديو.

يحسب E2FGVI تنبؤات المحتوى الذي يقع وراء الانسدادات ، مما يتيح إزالة حتى العلامات المائية الملحوظة والمستعصية على الحل. المصدر: https://github.com/MCG-NKU/E2FGVI

يحسب E2FGVI تنبؤات المحتوى الذي يقع وراء الانسدادات ، مما يتيح إزالة حتى العلامات المائية البارزة والمستعصية على الحل. المصدر: https://github.com/MCG-NKU/E2FGVI

(لمشاهدة المزيد من الأمثلة بدقة أفضل، راجع الفيديو)

على الرغم من أن النموذج المعروض في الورقة المنشورة قد تم تدريبه على مقاطع فيديو 432 بكسل × 240 بكسل (عادةً ما تكون أحجام الإدخال منخفضة ، مقيدة بمساحة وحدة معالجة الرسومات المتاحة مقابل أحجام الدُفعات المثلى وعوامل أخرى) ، فقد أصدر المؤلفون منذ ذلك الحين E2FGVI-HQ، والتي يمكنها التعامل مع مقاطع الفيديو بدقة عشوائية.

رمز الإصدار الحالي هو متاح في GitHub ، بينما يمكن تنزيل الإصدار HQ ، الذي تم إصداره يوم الأحد الماضي ، من في Google Drive و قرص بايدو.

يبقى الطفل في الصورة.

يبقى الطفل في الصورة.

E2يمكن لـ FGVI معالجة 432 × 240 فيديو بمعدل 0.12 ثانية لكل إطار على وحدة معالجة رسومات Titan XP (ذاكرة فيديو VRAM سعة 12 جيجابايت) ، ويذكر المؤلفون أن النظام يعمل أسرع بخمسة عشر مرة من أحدث الأساليب السابقة استنادًا إلى تدفق البصر.

خروج لاعب تنس غير متوقع.

خروج لاعب تنس غير متوقع.

تم اختبار الطريقة الجديدة على مجموعات البيانات القياسية لهذا القطاع الفرعي من أبحاث تركيب الصور ، وكانت قادرة على التفوق على المنافسين في كل من جولات التقييم النوعي والكمي.

اختبارات مقابل الأساليب السابقة. المصدر: https://arxiv.org/pdf/2204.02663.pdf

اختبارات مقابل الأساليب السابقة. المصدر: https://arxiv.org/pdf/2204.02663.pdf

أكثر من ورقة بعنوان نحو إطار عمل شامل للرسومات بالفيديو الموجه بالانسياب، وهو عبارة عن تعاون بين أربعة باحثين من جامعة Nankai ، جنبًا إلى جنب مع باحث من Hisilicon Technologies.

ما الذي ينقص هذه الصورة؟

إلى جانب تطبيقاتها الواضحة للتأثيرات المرئية ، تم تعيين inpainting عالي الجودة للفيديو ليصبح سمة أساسية محددة لتوليف الصور الجديد القائم على الذكاء الاصطناعي وتقنيات تغيير الصور.

هذا هو الحال بشكل خاص لتطبيقات الأزياء تغيير الجسم ، والأطر الأخرى التي السعي إلى "التنحيف" أو تعديل المشاهد في الصور والفيديوهات. في مثل هذه الحالات، من الضروري ملء الخلفية الإضافية التي تظهرها عملية التوليف بشكل مقنع.

من ورقة بحثية حديثة ، تم تكليف خوارزمية "إعادة تشكيل" الجسم بطلاء الخلفية التي تم الكشف عنها حديثًا عند تغيير حجم الموضوع. هنا ، يتم تمثيل هذا النقص بالخطوط العريضة الحمراء التي كان (الحياة الحقيقية ، انظر الصورة على اليسار) الشخص الأكثر اكتمالا يشغله. استنادًا إلى مصدر المواد من https://arxiv.org/pdf/2203.10496.pdf

في بحثٍ حديث، كُلِّفت خوارزمية "إعادة تشكيل" الجسم برسم الخلفية المكشوفة حديثًا عند تغيير حجم الجسم. هنا، يُمثَّل هذا النقص بالخط الأحمر الذي كان يشغله الشخص ذو البنية الممتلئة (في الحياة الواقعية، انظر الصورة على اليسار). استنادًا إلى مصدر المواد من https://arxiv.org/pdf/2203.10496.pdf

تدفق بصري متماسك

أصبح التدفق البصري (OF) تقنية أساسية في تطوير إزالة كائن الفيديو. مثل أطلسيوفر OF خريطةً للقطة الواحدة لتسلسل زمني. يُستخدم OF عادةً لقياس السرعة في مبادرات الرؤية الحاسوبية، كما يُمكّن من رسمٍ متسقٍ زمنيًا، حيث يُمكن النظر في المجموع الكلي للمهمة في تمريرة واحدة، بدلًا من التركيز على "كل إطار" على طريقة ديزني، مما يؤدي حتمًا إلى انقطاع زمني.

تركزت طرق inpainting بالفيديو حتى الآن على عملية من ثلاث مراحل: اكتمال التدفق، حيث يتم تخطيط الفيديو بشكل أساسي في كيان منفصل وقابل للاستكشاف ؛ انتشار البكسل، حيث يتم ملء الثغرات الموجودة في مقاطع الفيديو "الفاسدة" من خلال وحدات البكسل المنتشرة في الاتجاهين؛ و هلوسة المحتوى (اختراع البكسل المألوف لمعظمنا من الإطارات العميقة وتحويل النص إلى صورة مثل سلسلة DALL-E) حيث يتم اختراع المحتوى "المفقود" المقدر وإدراجه في اللقطات.

الابتكار المركزي لـ E2يقوم FGVI بدمج هذه المراحل الثلاث في نظام شامل ، مما يؤدي إلى تجنب الحاجة إلى إجراء عمليات يدوية على المحتوى أو العملية.

تلاحظ الورقة أن الحاجة إلى التدخل اليدوي تتطلب ألا تستفيد العمليات القديمة من وحدة معالجة الرسومات ، مما يجعلها تستغرق وقتًا طويلاً. من الورق *:

'مع الأخذ دففي كمثال ، إكمال مقطع فيديو واحد بحجم 432 × 240 من ديفيسيحتوي هذا الفيديو على حوالي 70 إطارًا، ويستغرق حوالي 4 دقائق، وهو أمر غير مقبول في معظم التطبيقات العملية. بالإضافة إلى ذلك، وباستثناء العيوب المذكورة أعلاه، فإن استخدام شبكة تلوين صور مُدرَّبة مسبقًا فقط في مرحلة هلوسة المحتوى يتجاهل علاقات المحتوى بين الجيران الزمنيين، مما يؤدي إلى محتوى مُولَّد غير متسق في مقاطع الفيديو.

من خلال توحيد المراحل الثلاث للرسومات بالفيديو ، E2يمكن لـ FGVI استبدال المرحلة الثانية ، انتشار البكسل ، بانتشار الميزة. في العمليات الأكثر تقسيمًا للأعمال السابقة ، لا تتوفر الميزات على نطاق واسع ، لأن كل مرحلة محكم نسبيًا ، وسير العمل شبه آلي فقط.

بالإضافة إلى ذلك ، ابتكر الباحثون أ محول بؤري زمني لمرحلة هلوسة المحتوى ، والتي لا تراعي فقط الجيران المباشرين للبكسل في الإطار الحالي (أي ما يحدث في ذلك الجزء من الإطار في الصورة السابقة أو التالية) ، ولكن أيضًا الجيران البعيدين الذين يبعدون العديد من الإطارات ، و ومع ذلك سيؤثر على التأثير المتماسك لأي عمليات يتم إجراؤها على الفيديو ككل.

هندسة E2FGVI.

هندسة E2FGVI.

يتمكن القسم المركزي الجديد القائم على الميزات في سير العمل من الاستفادة من المزيد من العمليات على مستوى الميزات وإزاحات أخذ العينات القابلة للتعلم، في حين يعمل المحول البؤري الجديد للمشروع، وفقًا للمؤلفين، على توسيع حجم النوافذ البؤرية "من 2D إلى 3D".

الاختبارات والبيانات

لاختبار E.2FGVI ، قام الباحثون بتقييم النظام مقابل مجموعتين شائعتين من بيانات تجزئة كائن الفيديو: يوتيوب- VOSو ديفيس. يتميز YouTube-VOS بـ 3741 مقطع فيديو تدريبيًا و 474 مقطعًا للتحقق من الصحة و 508 مقطع اختبار ، بينما يتميز DAVIS بـ 60 مقطع فيديو تدريبًا و 90 مقطع اختبار.

E2تم تدريب FGVI على YouTube-VOS وتقييمه على كلتا مجموعتي البيانات. أثناء التدريب، تم إخفاء الكائنات (المناطق الخضراء في الصور أعلاه، و فيديو مصاحب على اليوتيوب) تم إنشاؤها لمحاكاة استكمال الفيديو.

بالنسبة للمقاييس ، اعتمد الباحثون نسبة ذروة الإشارة إلى الضوضاء (PSNR) ، والتشابه الهيكلي (SSIM) ، و Fréchet Inception مسافة (VFID) ، وخطأ تزييف التدفق - وهذا الأخير لقياس الاستقرار الزمني في الفيديو المتأثر.

كانت البنيات السابقة التي تم اختبار النظام على أساسها فينيت, دففي, LGTSM, CAP, FGVC, STTNو الصمامات.

من قسم النتائج الكمية للورقة. يشير السهمان لأعلى ولأسفل إلى أن الأرقام الأعلى أو الأدنى هي الأفضل ، على التوالي. يحقق E2FGVI أفضل الدرجات في جميع المجالات. يتم تقييم الطرق وفقًا لـ FuseFormer ، على الرغم من أن DFVI و VINet و FGVC ليست أنظمة شاملة ، مما يجعل من المستحيل تقدير FLOPs الخاصة بهم.

من قسم النتائج الكمية للورقة. يشير السهمان لأعلى ولأسفل إلى أن الأرقام الأعلى أو الأدنى هي الأفضل ، على التوالي. يحقق E2FGVI أفضل الدرجات في جميع المجالات. يتم تقييم الطرق وفقًا لـ FuseFormer ، على الرغم من أن DFVI و VINet و FGVC ليست أنظمة شاملة ، مما يجعل من المستحيل تقدير FLOPs الخاصة بهم.

بالإضافة إلى تحقيق أفضل الدرجات مقابل جميع الأنظمة المنافسة ، أجرى الباحثون دراسة نوعية للمستخدم ، حيث تم عرض مقاطع الفيديو المحولة بخمس طرق تمثيلية بشكل فردي على عشرين متطوعًا ، وطُلب منهم تقييمها من حيث الجودة البصرية.

يمثل المحور الرأسي النسبة المئوية للمشاركين الذين فضلوا إخراج E2FGVI من حيث الجودة المرئية.

يمثل المحور الرأسي النسبة المئوية للمشاركين الذين فضلوا E2إخراج FGVI من حيث الجودة المرئية.

لاحظ المؤلفون أنه على الرغم من التفضيل الجماعي لطريقتهم ، فإن إحدى النتائج ، FGVC ، لا تعكس النتائج الكمية ، ويقترحون أن هذا يشير إلى أن E2من الممكن أن يؤدي FGVI، على نحو زائف، إلى توليد "نتائج أكثر متعة من الناحية البصرية".

فيما يتعلق بالكفاءة ، لاحظ المؤلفون أن نظامهم يقلل بشكل كبير من عمليات النقطة العائمة في الثانية (FLOPs) ووقت الاستدلال على وحدة معالجة رسومات Titan واحدة على مجموعة بيانات DAVIS ، ولاحظوا أن النتائج تظهر E2FGVI يعمل بسرعة x15 أسرع من الطرق القائمة على التدفق.

يعلقون:

[إي2تتمتع طريقة FGVI بأقل نسبة FLOP مقارنةً بجميع الطرق الأخرى. وهذا يشير إلى أن الطريقة المقترحة عالية الكفاءة في تلوين الفيديو.

*تحويلي لاقتباسات المؤلفين المضمنة إلى روابط تشعبية.

 

نُشر لأول مرة في 19 مايو 2022.

تم تعديله يوم الثلاثاء 28 أكتوبر 2025، لإزالة تضمين الفيديو الخاطئ وتعديل الإشارات إلى الفيديو المضمن في نص المقالة.

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai