الذكاء الاصطناعي
إزالة الكائنات من الفيديو بشكل أكثر كفاءة مع التعلم الآلي

تقارير بحثية جديدة من الصين عن نتائج متقدمة على مستوى الدولة – بالإضافة إلى تحسين كبير في الكفاءة – لنظام جديد للتصحيح الفيديوي يمكنه إزالة الكائنات من اللقطات بمهارة.

تُطلى حزام طائرة الهانغلайдر بواسطة الإجراء الجديد. انظر الفيديو المصدر للحصول على دقة أفضل ومزيد من الأمثلة. مصدر: https://www.youtube.com/watch?v=N–qC3T2wc4
تتمثل التقنية، التي تسمى إطار نهاية إلى نهاية لتصحيح الفيديو بواسطة تدفق موجه (E2FGVI)، في القدرة على إزالة العلامات المائية والأنواع الأخرى من الإغلاق من محتوى الفيديو.

يحسب E2FGVI التنبؤات لمحتوى يقع خلف الإغلاق، مما يتيح إزالة العلامات المائية حتى البارزة والصعبة. مصدر: https://github.com/MCG-NKU/E2FGVI
(للمزيد من الأمثلة بدقة أفضل، انظر الفيديو)
على الرغم من أن النموذج المذكور في الورقة البحثية تم تدريبه على فيديوهات بحجم 432px x 240px (أحجام مدخلات منخفضة الشائعة، مقيدة بمساحة GPU المتاحة مقابل أحجام الدفعة المثالية والعوامل الأخرى)، إلا أن المؤلفين قد أصدروا مؤخرًا E2FGVI-HQ، الذي يمكنه التعامل مع الفيديوهات بدقة تعسفية.
يوجد رمز الإصدار الحالي في GitHub، بينما يمكن تحميل الإصدار HQ، الذي تم إصداره يوم الأحد الماضي، من Google Drive و Baidu Disk.

يبقى الطفل في الصورة.
يمكن لـ E2FGVI معالجة فيديو 432×240 في 0.12 ثانية لكل إطار على جهاز Titan XP GPU (12GB VRAM)، ويبلغ المؤلفون أن النظام يعمل خمسة عشر مرة أسرع من الطرق السابقة على مستوى الدولة القائمة على الflux البصري.

يغادر لاعب التنس بمفاجأة.
تم اختبار الطريقة الجديدة على مجموعات بيانات قياسية لهذا القسم الفرعي من أبحاث合成 الصور، وتمكنت من تجاوز المنافسين في الجولات التقييمية النوعية والكمية.

اختبارات ضد النهج السابقة. مصدر: https://arxiv.org/pdf/2204.02663.pdf
الورقة بعنوان نحو إطار نهاية إلى نهاية لتصحيح الفيديو بواسطة تدفق موجه، وهي تعاون بين أربعة باحثين من جامعة نانكاي، إلى جانب باحث من شركة Hisilicon Technologies.
ما المفقود في هذه الصورة
بصرف النظر عن التطبيقات الواضحة للتأثيرات البصرية، فإن تصحيح الفيديو عالي الجودة سيصبح ميزة أساسية في تقنيات合ث الصور والتعديل على الصور القائمة على الذكاء الاصطناعي.
هذا هو الحال بشكل خاص للتطبيقات عالية الموضة التي ت改变 الجسم، والإطارات الأخرى التي تسعى إلى “تخفيض” أو تعديل المشاهد في الصور والفيديو. في هذه الحالات، من الضروري “ملء” الخلفية الإضافية التي يتم الكشف عنها بواسطة الاصطناع بطريقة مقنعة.

من ورقة حديثة، يتم تعيين خوارزمية “تحويل الجسم” لتصحيح الخلفية الجديدة التي يتم الكشف عنها عند تغيير حجم الموضوع. هنا، يتم تمثيل هذا النقص بواسطة الخط الأحمر الذي كان يشغله الشخص ذو الشكل الأكمل (انظر الصورة على اليسار) في الحياة الواقعية. يستند إلى مواد مصدر من https://arxiv.org/pdf/2203.10496.pdf
الflux البصري المتسق
أصبح Flux البصري تكنولوجيا أساسية في تطوير إزالة كائنات الفيديو. مثل الأطلس، يوفر Flux البصري خريطة واحدة لลำسلسل زمني. غالبًا ما يتم استخدامه لقياس السرعة في مبادرات الرؤية الحاسوبية، ويمكن أن Flux البصري أيضًا تمكين تصحيح داخلي متسق، حيث يمكن اعتبار مجموع المهمة في مرور واحد، بدلاً من الانتباه “لكل إطار” على الطراز ديزني، مما يؤدي في النهاية إلى انقطاع زمني.
تمثلت طرق تصحيح الفيديو حتى الآن في عملية ثلاثية المراحل: استكمال Flux، حيث يتم بالتأكيد خريطة الفيديو إلى كيان منفصل ويمكن استكشافه؛ توسيع البكسل، حيث يتم ملء ثقوب الفيديو “التالفة” عن طريق انتشار البكسل بشكل ثنائي الاتجاه؛ و تخيل المحتوى (اختراع البكسل “المألوف لنا من Deepfakes وإطارات النص إلى الصورة مثل سلسلة DALL-E”) حيث يتم اختراع المحتوى “المفقود” المقدر وادخاله إلى اللقطات.
التكنولوجيا الجديدة في E2FGVI هي دمج هذه المراحل الثلاث في نظام نهاية إلى نهاية، مما يلغي الحاجة إلى إجراء عمليات يدوية على المحتوى أو العملية.

تلاحظ الورقة أن الحاجة إلى التدخل اليدوي تتطلب أن لا تأخذ العمليات القديمة ميزة GPU، مما يجعلها تستغرق وقتًا طويلاً. من الورقة *:
‘إذا اخذنا DFVI كمثال، فإن استكمال فيديو بحجم 432 × 240 من DAVIS، والذي يحتوي على حوالي 70 إطارًا، يحتاج إلى حوالي 4 دقائق، وهو أمر غير مقبول في معظم التطبيقات الواقعية. بالإضافة إلى ذلك، بالإضافة إلى العيوب المذكورة أعلاه، فإن استخدام شبكة تصحيح صورة مسبقة فقط في مرحلة تخيل المحتوى ي忽ن العلاقات بين المحتوى عبر الجيران الزمنية، مما يؤدي إلى محتوى غير متسق في الفيديوهات.’
من خلال توحيد المراحل الثلاث لتصحيح الفيديو، يمكن لـ E2FGVI استبدال المرحلة الثانية، توسيع البكسل، بتوسيع الميزة. في العمليات المقطعة من الأعمال السابقة، لا تكون الميزات متاحة على نطاق واسع، لأن كل مرحلة تكون نصف آلية، والعملية نصف آلية.
بالإضافة إلى ذلك، قام الباحثون بتصميم مُحول焦الزمني لمرحلة تخيل المحتوى، والذي يأخذ في الاعتبار ليس فقط الجيران المباشرين للبكسل في الإطار الحالي (أي ما يحدث في جزء معين من الإطار في الإطار السابق أو التالي)، ولكن أيضًا الجيران البعيدين الذين يؤثرون على التأثير المتسق لأي عمليات يتم إجراؤها على الفيديو ككل.
الجزء المركزي الجديد للمعالجة القائمة على الميزة يمكنه الاستفادة من المزيد من العمليات على مستوى الميزة والعناوين العشوائية القابلة للتعلم، بينما يمدد محول البؤرة الجديد، وفقًا للمؤلفين، حجم النوافذ البؤرية “من 2D إلى 3D”.
الاختبارات والبيانات
لاختبار E2FGVI، قام الباحثون بتقييم النظام ضد مجموعتين شائعتين من مجموعات بيانات فصل كائنات الفيديو: YouTube-VOS و DAVIS. تتميز YouTube-VOS ب 3741 مقطع فيديو للتدريب و 474 مقطعًا للتحقق و 508 مقاطع اختبار، بينما تتميز DAVIS ب 60 مقطعًا للتدريب و 90 مقطعًا اختبارًا.
تم تدريب E2FGVI على YouTube-VOS وتقييمه على كلا المجموعتين. خلال التدريب، تم توليد قناع الكائنات (المناطق الخضراء في الصور أعلاه، والفيديو المصاحب على YouTube) لتحاكي استكمال الفيديو.
للمقاييس، اعتمد الباحثون نسبة الإشارة إلى الضوضاء القصوى (PSNR) ومتسلسلة الشبه (SSIM) ومتسلسلة Fréchet للفيديو (VFID) وخطأ التفاف Flux – الأخير لقياس الاستقرار الزمني في الفيديو المتأثر.
كانت الهياكل السابقة التي تم اختبار النظام ضدها VINet و DFVI و LGTSM و CAP و FGVC و STTN و FuseFormer.

من قسم النتائج الكمية في الورقة. تشير السهم العلوي والسهم السفلي إلى أن الأرقام الأعلى أو الأقل هي أفضل، على التوالي. يحقق E2FGVI أعلى الدرجات عبر اللوحة. يتم تقييم الطرق وفقًا لـ FuseFormer، على الرغم من أن DFVI و VINet و FGVC ليست أنظمة نهاية إلى نهاية، مما يجعل من المستحيل تقدير عملياتهم الفلوربية.
بالإضافة إلى تحقيق أفضل النتائج ضد جميع الأنظمة المنافسة، أجرى الباحثون دراسة استقصائية نوعية للمستخدمين، حيث تم عرض مقاطع الفيديو التي تم تحويلها بطرق ممثلة على عشرين متطوعًا، وتمت مطالبتها بتقديم تقييمات لها من حيث الجودة البصرية.

تمثل المحور العمودي نسبة المشاركين الذين فضلوا إخراج E2FGVI من حيث الجودة البصرية.
يلاحظ المؤلفون أنه على الرغم من التفضيل بالإجماع لطريقتهم، فإن أحد النتائج، FGVC، لا يعكس النتائج الكمية، وهم يشيرون إلى أن هذا قد يشير إلى أن E2FGVI قد يولد “نتائج بصرية أكثر متعة”.
فيما يتعلق بالكفاءة، يلاحظ المؤلفون أن نظامهم يقلل بشكل كبير من عمليات الفلوربية ووقت الاستدلال على جهاز GPU واحد على مجموعة بيانات DAVIS، ويشيرون إلى أن النتائج تظهر أن E2FGVI يعمل بسرعة 15 مرة أكثر من الطرق القائمة على Flux.
هم يعلقون:
‘[E2FGVI] يحمل أقل عمليات فلوربية مقارنة بجميع الطرق الأخرى. هذا يشير إلى أن الطريقة المقترحة كفءة للغاية لتصحيح الفيديو.’
*تحويلي لمراجع المؤلفين الداخلية إلى روابط.
نشر لأول مرة في 19 مايو 2022.
تم تعديله يوم الثلاثاء 28 أكتوبر 2025، لإزالة تضمين الفيديو المعيب وتصحيح المراجع إلى الفيديو المضمن في نص المقال.













