الذكاء الاصطناعي
إزالة الكائنات من الفيديو بشكل أكثر كفاءة باستخدام التعلم الآلي
أفاد بحث جديد من الصين عن أحدث النتائج - بالإضافة إلى تحسن مثير للإعجاب في الكفاءة - لنظام طلاء فيديو جديد يمكنه إزالة الأشياء ببراعة من اللقطات.
هذه التقنية ، التي تسمى إطار عمل من البداية إلى النهاية للرسومات Inpainting بالفيديو Flow-Guided (E2FGVI) ، قادر أيضًا على إزالة العلامات المائية وأنواع مختلفة من الانسداد من محتوى الفيديو.
لمشاهدة المزيد من الأمثلة بدقة أفضل ، تحقق من الفيديو المضمن في نهاية المقالة.
على الرغم من أن النموذج المعروض في الورقة المنشورة قد تم تدريبه على مقاطع فيديو 432 بكسل × 240 بكسل (عادةً ما تكون أحجام الإدخال منخفضة ، مقيدة بمساحة وحدة معالجة الرسومات المتاحة مقابل أحجام الدُفعات المثلى وعوامل أخرى) ، فقد أصدر المؤلفون منذ ذلك الحين E2FGVI-HQ، والتي يمكنها التعامل مع مقاطع الفيديو بدقة عشوائية.
رمز الإصدار الحالي هو متاح في GitHub ، بينما يمكن تنزيل الإصدار HQ ، الذي تم إصداره يوم الأحد الماضي ، من في Google Drive و قرص بايدو.
E2يمكن لـ FGVI معالجة 432 × 240 فيديو بمعدل 0.12 ثانية لكل إطار على وحدة معالجة رسومات Titan XP (ذاكرة فيديو VRAM سعة 12 جيجابايت) ، ويذكر المؤلفون أن النظام يعمل أسرع بخمسة عشر مرة من أحدث الأساليب السابقة استنادًا إلى تدفق البصر.
تم اختبار الطريقة الجديدة على مجموعات البيانات القياسية لهذا القطاع الفرعي من أبحاث تركيب الصور ، وكانت قادرة على التفوق على المنافسين في كل من جولات التقييم النوعي والكمي.
• ورقة بعنوان نحو إطار عمل شامل للرسومات بالفيديو الموجه بالانسياب، وهو عبارة عن تعاون بين أربعة باحثين من جامعة Nankai ، جنبًا إلى جنب مع باحث من Hisilicon Technologies.
ما هو مفقود في هذه الصورة
إلى جانب تطبيقاتها الواضحة للتأثيرات المرئية ، تم تعيين inpainting عالي الجودة للفيديو ليصبح سمة أساسية محددة لتوليف الصور الجديد القائم على الذكاء الاصطناعي وتقنيات تغيير الصور.
هذا هو الحال بشكل خاص لتطبيقات الأزياء تغيير الجسم ، والأطر الأخرى التي تسعى لتقليص حجمها أو تغيير المشاهد في الصور والفيديو. في مثل هذه الحالات ، من الضروري أن "تملأ" الخلفية الإضافية التي كشفها التركيب بشكل مقنع.
تدفق بصري متماسك
أصبح التدفق البصري (OF) تقنية أساسية في تطوير إزالة كائن الفيديو. مثل أطلسيوفر OF خريطة لقطة واحدة للتسلسل الزمني. غالبًا ما يستخدم OF لقياس السرعة في مبادرات رؤية الكمبيوتر، ويمكنه أيضًا تمكين الرسم المتسق مؤقتًا، حيث يمكن اعتبار المجموع الإجمالي للمهمة في تمريرة واحدة، بدلاً من الاهتمام "لكل إطار" على طراز ديزني، والذي يؤدي حتمًا إلى إلى الانقطاع الزمني.
تركزت طرق inpainting بالفيديو حتى الآن على عملية من ثلاث مراحل: اكتمال التدفق، حيث يتم تخطيط الفيديو بشكل أساسي في كيان منفصل وقابل للاستكشاف ؛ انتشار البكسل، حيث يتم ملء الثغرات الموجودة في مقاطع الفيديو "التالفة" عن طريق نشر بكسلات ثنائية الاتجاه ؛ و هلوسة المحتوى (اختراع البكسل المألوف لدى معظمنا من خلال التزييف العميق وأطر تحويل النص إلى صورة مثل سلسلة DALL-E) حيث يتم اختراع المحتوى "المفقود" المقدر وإدراجه في اللقطات.
الابتكار المركزي لـ E2يقوم FGVI بدمج هذه المراحل الثلاث في نظام شامل ، مما يؤدي إلى تجنب الحاجة إلى إجراء عمليات يدوية على المحتوى أو العملية.
تلاحظ الورقة أن الحاجة إلى التدخل اليدوي تتطلب ألا تستفيد العمليات القديمة من وحدة معالجة الرسومات ، مما يجعلها تستغرق وقتًا طويلاً. من الورق *:
'مع الأخذ دففي كمثال ، إكمال مقطع فيديو واحد بحجم 432 × 240 من ديفيس، الذي يحتوي على حوالي 70 إطارًا ، يحتاج إلى حوالي 4 دقائق ، وهو أمر غير مقبول في معظم تطبيقات العالم الحقيقي. بالإضافة إلى ذلك ، وباستثناء العيوب المذكورة أعلاه ، فإن استخدام شبكة رسم صورة مخططة مسبقًا في مرحلة هلوسة المحتوى يتجاهل علاقات المحتوى عبر الجيران المؤقتين ، مما يؤدي إلى إنشاء محتوى غير متسق في مقاطع الفيديو.
من خلال توحيد المراحل الثلاث للرسومات بالفيديو ، E2يمكن لـ FGVI استبدال المرحلة الثانية ، انتشار البكسل ، بانتشار الميزة. في العمليات الأكثر تقسيمًا للأعمال السابقة ، لا تتوفر الميزات على نطاق واسع ، لأن كل مرحلة محكم نسبيًا ، وسير العمل شبه آلي فقط.
بالإضافة إلى ذلك ، ابتكر الباحثون أ محول بؤري زمني لمرحلة هلوسة المحتوى ، والتي لا تراعي فقط الجيران المباشرين للبكسل في الإطار الحالي (أي ما يحدث في ذلك الجزء من الإطار في الصورة السابقة أو التالية) ، ولكن أيضًا الجيران البعيدين الذين يبعدون العديد من الإطارات ، و ومع ذلك سيؤثر على التأثير المتماسك لأي عمليات يتم إجراؤها على الفيديو ككل.
يمكن للقسم المركزي الجديد القائم على الميزات لسير العمل الاستفادة من المزيد من العمليات على مستوى الميزات وتعويضات أخذ العينات القابلة للتعلم ، بينما يوسع المحول البؤري الجديد للمشروع ، وفقًا للمؤلفين ، حجم النوافذ البؤرية "من ثنائية الأبعاد إلى ثلاثية الأبعاد" .
الاختبارات والبيانات
لاختبار E.2FGVI ، قام الباحثون بتقييم النظام مقابل مجموعتين شائعتين من بيانات تجزئة كائن الفيديو: يوتيوب- VOSو ديفيس. يتميز YouTube-VOS بـ 3741 مقطع فيديو تدريبيًا و 474 مقطعًا للتحقق من الصحة و 508 مقطع اختبار ، بينما يتميز DAVIS بـ 60 مقطع فيديو تدريبًا و 90 مقطع اختبار.
E2تم تدريب FGVI على YouTube-VOS وتم تقييمه على مجموعتي البيانات. أثناء التدريب ، تم إنشاء أقنعة الكائن (المساحات الخضراء في الصور أعلاه ، والفيديو المضمن أدناه) لمحاكاة إكمال الفيديو.
بالنسبة للمقاييس ، اعتمد الباحثون نسبة ذروة الإشارة إلى الضوضاء (PSNR) ، والتشابه الهيكلي (SSIM) ، و Fréchet Inception مسافة (VFID) ، وخطأ تزييف التدفق - وهذا الأخير لقياس الاستقرار الزمني في الفيديو المتأثر.
كانت البنيات السابقة التي تم اختبار النظام على أساسها فينيت, دففي, LGTSM, CAP, FGVC, STTNو الصمامات.
بالإضافة إلى تحقيق أفضل الدرجات مقابل جميع الأنظمة المنافسة ، أجرى الباحثون دراسة نوعية للمستخدم ، حيث تم عرض مقاطع الفيديو المحولة بخمس طرق تمثيلية بشكل فردي على عشرين متطوعًا ، وطُلب منهم تقييمها من حيث الجودة البصرية.
لاحظ المؤلفون أنه على الرغم من التفضيل الجماعي لطريقتهم ، فإن إحدى النتائج ، FGVC ، لا تعكس النتائج الكمية ، ويقترحون أن هذا يشير إلى أن E2قد يكون FGVI ، على نحو خادع ، يولد "نتائج أكثر إمتاعًا بصريًا".
فيما يتعلق بالكفاءة ، لاحظ المؤلفون أن نظامهم يقلل بشكل كبير من عمليات النقطة العائمة في الثانية (FLOPs) ووقت الاستدلال على وحدة معالجة رسومات Titan واحدة على مجموعة بيانات DAVIS ، ولاحظوا أن النتائج تظهر E2FGVI يعمل بسرعة x15 أسرع من الطرق القائمة على التدفق.
يعلقون:
[إي2FGVI] يحمل أدنى FLOPs على عكس جميع الطرق الأخرى. يشير هذا إلى أن الطريقة المقترحة عالية الكفاءة لطلاء الفيديو.
httpv: //www.youtube.com/watch؟ v = N – qC3T2wc4
* تحويل الاقتباسات المضمنة للمؤلفين إلى ارتباطات تشعبية.
نُشر لأول مرة في 19 مايو 2022.