الذكاء الاصطناعي

إزالة الكائنات من الفيديو بشكل أكثر كفاءة باستخدام التعلم الآلي

تحديث on 9 كانون الأول، 2022

أفاد بحث جديد من الصين عن أحدث النتائج - بالإضافة إلى تحسن مثير للإعجاب في الكفاءة - لنظام طلاء فيديو جديد يمكنه إزالة الأشياء ببراعة من اللقطات.

يتم رسم أحزمة طائرة شراعية معلقة بواسطة الإجراء الجديد. شاهد الفيديو المصدر (مضمن في الجزء السفلي من هذه المقالة) للحصول على دقة أفضل ومزيد من الأمثلة. المصدر: https://www.youtube.com/watch؟

هذه التقنية ، التي تسمى إطار عمل من البداية إلى النهاية للرسومات Inpainting بالفيديو Flow-Guided (E²FGVI) ، قادر أيضًا على إزالة العلامات المائية وأنواع مختلفة من الانسداد من محتوى الفيديو.

يحسب E2FGVI تنبؤات المحتوى الذي يقع وراء الانسدادات ، مما يتيح إزالة حتى العلامات المائية الملحوظة والمستعصية على الحل. المصدر: https://github.com/MCG-NKU/E2FGVI

يحسب E2FGVI تنبؤات المحتوى الذي يقع وراء الانسدادات ، مما يتيح إزالة حتى العلامات المائية البارزة والمستعصية على الحل. المصدر: https://github.com/MCG-NKU/E2FGVI

لمشاهدة المزيد من الأمثلة بدقة أفضل ، تحقق من الفيديو المضمن في نهاية المقالة.

على الرغم من أن النموذج المعروض في الورقة المنشورة قد تم تدريبه على مقاطع فيديو 432 بكسل × 240 بكسل (عادةً ما تكون أحجام الإدخال منخفضة ، مقيدة بمساحة وحدة معالجة الرسومات المتاحة مقابل أحجام الدُفعات المثلى وعوامل أخرى) ، فقد أصدر المؤلفون منذ ذلك الحين E²FGVI-HQ، والتي يمكنها التعامل مع مقاطع الفيديو بدقة عشوائية.

رمز الإصدار الحالي هو متاح في GitHub ، بينما يمكن تنزيل الإصدار HQ ، الذي تم إصداره يوم الأحد الماضي ، من في Google Drive و قرص بايدو.

يبقى الطفل في الصورة.

E²يمكن لـ FGVI معالجة 432 × 240 فيديو بمعدل 0.12 ثانية لكل إطار على وحدة معالجة رسومات Titan XP (ذاكرة فيديو VRAM سعة 12 جيجابايت) ، ويذكر المؤلفون أن النظام يعمل أسرع بخمسة عشر مرة من أحدث الأساليب السابقة استنادًا إلى تدفق البصر.

خروج لاعب تنس غير متوقع.

تم اختبار الطريقة الجديدة على مجموعات البيانات القياسية لهذا القطاع الفرعي من أبحاث تركيب الصور ، وكانت قادرة على التفوق على المنافسين في كل من جولات التقييم النوعي والكمي.

اختبارات مقابل الأساليب السابقة. المصدر: https://arxiv.org/pdf/2204.02663.pdf

• ورقة بعنوان نحو إطار عمل شامل للرسومات بالفيديو الموجه بالانسياب، وهو عبارة عن تعاون بين أربعة باحثين من جامعة Nankai ، جنبًا إلى جنب مع باحث من Hisilicon Technologies.

ما هو مفقود في هذه الصورة

إلى جانب تطبيقاتها الواضحة للتأثيرات المرئية ، تم تعيين inpainting عالي الجودة للفيديو ليصبح سمة أساسية محددة لتوليف الصور الجديد القائم على الذكاء الاصطناعي وتقنيات تغيير الصور.

هذا هو الحال بشكل خاص لتطبيقات الأزياء تغيير الجسم ، والأطر الأخرى التي تسعى لتقليص حجمها أو تغيير المشاهد في الصور والفيديو. في مثل هذه الحالات ، من الضروري أن "تملأ" الخلفية الإضافية التي كشفها التركيب بشكل مقنع.

من ورقة بحثية حديثة ، تم تكليف خوارزمية "إعادة تشكيل" الجسم بطلاء الخلفية التي تم الكشف عنها حديثًا عند تغيير حجم الموضوع. هنا ، يتم تمثيل هذا النقص بالخطوط العريضة الحمراء التي كان (الحياة الحقيقية ، انظر الصورة على اليسار) الشخص الأكثر اكتمالا يشغله. استنادًا إلى مصدر المواد من https://arxiv.org/pdf/2203.10496.pdf

تدفق بصري متماسك

أصبح التدفق البصري (OF) تقنية أساسية في تطوير إزالة كائن الفيديو. مثل أطلسيوفر OF خريطة لقطة واحدة للتسلسل الزمني. غالبًا ما يستخدم OF لقياس السرعة في مبادرات رؤية الكمبيوتر، ويمكنه أيضًا تمكين الرسم المتسق مؤقتًا، حيث يمكن اعتبار المجموع الإجمالي للمهمة في تمريرة واحدة، بدلاً من الاهتمام "لكل إطار" على طراز ديزني، والذي يؤدي حتمًا إلى إلى الانقطاع الزمني.

تركزت طرق inpainting بالفيديو حتى الآن على عملية من ثلاث مراحل: اكتمال التدفق، حيث يتم تخطيط الفيديو بشكل أساسي في كيان منفصل وقابل للاستكشاف ؛ انتشار البكسل، حيث يتم ملء الثغرات الموجودة في مقاطع الفيديو "التالفة" عن طريق نشر بكسلات ثنائية الاتجاه ؛ و هلوسة المحتوى (اختراع البكسل المألوف لدى معظمنا من خلال التزييف العميق وأطر تحويل النص إلى صورة مثل سلسلة DALL-E) حيث يتم اختراع المحتوى "المفقود" المقدر وإدراجه في اللقطات.

الابتكار المركزي لـ E²يقوم FGVI بدمج هذه المراحل الثلاث في نظام شامل ، مما يؤدي إلى تجنب الحاجة إلى إجراء عمليات يدوية على المحتوى أو العملية.

تلاحظ الورقة أن الحاجة إلى التدخل اليدوي تتطلب ألا تستفيد العمليات القديمة من وحدة معالجة الرسومات ، مما يجعلها تستغرق وقتًا طويلاً. من الورق *:

'مع الأخذ دففي كمثال ، إكمال مقطع فيديو واحد بحجم 432 × 240 من ديفيس، الذي يحتوي على حوالي 70 إطارًا ، يحتاج إلى حوالي 4 دقائق ، وهو أمر غير مقبول في معظم تطبيقات العالم الحقيقي. بالإضافة إلى ذلك ، وباستثناء العيوب المذكورة أعلاه ، فإن استخدام شبكة رسم صورة مخططة مسبقًا في مرحلة هلوسة المحتوى يتجاهل علاقات المحتوى عبر الجيران المؤقتين ، مما يؤدي إلى إنشاء محتوى غير متسق في مقاطع الفيديو.

من خلال توحيد المراحل الثلاث للرسومات بالفيديو ، E²يمكن لـ FGVI استبدال المرحلة الثانية ، انتشار البكسل ، بانتشار الميزة. في العمليات الأكثر تقسيمًا للأعمال السابقة ، لا تتوفر الميزات على نطاق واسع ، لأن كل مرحلة محكم نسبيًا ، وسير العمل شبه آلي فقط.

بالإضافة إلى ذلك ، ابتكر الباحثون أ محول بؤري زمني لمرحلة هلوسة المحتوى ، والتي لا تراعي فقط الجيران المباشرين للبكسل في الإطار الحالي (أي ما يحدث في ذلك الجزء من الإطار في الصورة السابقة أو التالية) ، ولكن أيضًا الجيران البعيدين الذين يبعدون العديد من الإطارات ، و ومع ذلك سيؤثر على التأثير المتماسك لأي عمليات يتم إجراؤها على الفيديو ككل.

هندسة E2FGVI.

يمكن للقسم المركزي الجديد القائم على الميزات لسير العمل الاستفادة من المزيد من العمليات على مستوى الميزات وتعويضات أخذ العينات القابلة للتعلم ، بينما يوسع المحول البؤري الجديد للمشروع ، وفقًا للمؤلفين ، حجم النوافذ البؤرية "من ثنائية الأبعاد إلى ثلاثية الأبعاد" .

الاختبارات والبيانات

لاختبار E.²FGVI ، قام الباحثون بتقييم النظام مقابل مجموعتين شائعتين من بيانات تجزئة كائن الفيديو: يوتيوب- VOSو ديفيس. يتميز YouTube-VOS بـ 3741 مقطع فيديو تدريبيًا و 474 مقطعًا للتحقق من الصحة و 508 مقطع اختبار ، بينما يتميز DAVIS بـ 60 مقطع فيديو تدريبًا و 90 مقطع اختبار.

E²تم تدريب FGVI على YouTube-VOS وتم تقييمه على مجموعتي البيانات. أثناء التدريب ، تم إنشاء أقنعة الكائن (المساحات الخضراء في الصور أعلاه ، والفيديو المضمن أدناه) لمحاكاة إكمال الفيديو.

بالنسبة للمقاييس ، اعتمد الباحثون نسبة ذروة الإشارة إلى الضوضاء (PSNR) ، والتشابه الهيكلي (SSIM) ، و Fréchet Inception مسافة (VFID) ، وخطأ تزييف التدفق - وهذا الأخير لقياس الاستقرار الزمني في الفيديو المتأثر.

كانت البنيات السابقة التي تم اختبار النظام على أساسها فينيت, دففي, LGTSM, CAP, FGVC, STTNو الصمامات.

من قسم النتائج الكمية للورقة. يشير السهمان لأعلى ولأسفل إلى أن الأرقام الأعلى أو الأدنى هي الأفضل ، على التوالي. يحقق E2FGVI أفضل الدرجات في جميع المجالات. يتم تقييم الطرق وفقًا لـ FuseFormer ، على الرغم من أن DFVI و VINet و FGVC ليست أنظمة شاملة ، مما يجعل من المستحيل تقدير FLOPs الخاصة بهم.

بالإضافة إلى تحقيق أفضل الدرجات مقابل جميع الأنظمة المنافسة ، أجرى الباحثون دراسة نوعية للمستخدم ، حيث تم عرض مقاطع الفيديو المحولة بخمس طرق تمثيلية بشكل فردي على عشرين متطوعًا ، وطُلب منهم تقييمها من حيث الجودة البصرية.

يمثل المحور الرأسي النسبة المئوية للمشاركين الذين فضلوا إخراج E2FGVI من حيث الجودة المرئية.

يمثل المحور الرأسي النسبة المئوية للمشاركين الذين فضلوا E²إخراج FGVI من حيث الجودة المرئية.

لاحظ المؤلفون أنه على الرغم من التفضيل الجماعي لطريقتهم ، فإن إحدى النتائج ، FGVC ، لا تعكس النتائج الكمية ، ويقترحون أن هذا يشير إلى أن E²قد يكون FGVI ، على نحو خادع ، يولد "نتائج أكثر إمتاعًا بصريًا".

فيما يتعلق بالكفاءة ، لاحظ المؤلفون أن نظامهم يقلل بشكل كبير من عمليات النقطة العائمة في الثانية (FLOPs) ووقت الاستدلال على وحدة معالجة رسومات Titan واحدة على مجموعة بيانات DAVIS ، ولاحظوا أن النتائج تظهر E²FGVI يعمل بسرعة x15 أسرع من الطرق القائمة على التدفق.

يعلقون:

[إي²FGVI] يحمل أدنى FLOPs على عكس جميع الطرق الأخرى. يشير هذا إلى أن الطريقة المقترحة عالية الكفاءة لطلاء الفيديو.

httpv: //www.youtube.com/watch؟ v = N – qC3T2wc4

* تحويل الاقتباسات المضمنة للمؤلفين إلى ارتباطات تشعبية.

نُشر لأول مرة في 19 مايو 2022.