اتصل بنا للحصول على مزيد من المعلومات

الطريق إلى تحرير الفيديو بشكل أفضل باستخدام الذكاء الاصطناعي

زاوية أندرسون

الطريق إلى تحرير الفيديو بشكل أفضل باستخدام الذكاء الاصطناعي

mm
صور من ورقة بحثية بعنوان 'VideoPainter: تلوين وتحرير مقاطع الفيديو بأي طول باستخدام ميزة التحكم في السياق والتوصيل'.

يصدر قطاع أبحاث تركيب الفيديو/الصورة بانتظام هياكل تحرير الفيديو*، وعلى مدار الأشهر التسعة الماضية، أصبحت الرحلات من هذا النوع أكثر تواترًا. ومع ذلك، فإن معظمها لا تمثل سوى تقدم تدريجي في أحدث التقنيات، نظرًا لأن التحديات الأساسية كبيرة.

ومع ذلك، فإن التعاون الجديد بين الصين واليابان هذا الأسبوع قد أنتج بعض الأمثلة التي تستحق فحصًا أكثر دقة للنهج، حتى لو لم يكن بالضرورة عملاً بارزًا.

في مقطع الفيديو أدناه (من موقع المشروع المرتبط بالورقة البحثية، والذي قد يرهق متصفحك) نرى أنه في حين أن قدرات التزييف العميق للنظام غير موجودة في التكوين الحالي، فإن النظام يقوم بعمل جيد في تغيير هوية الشابة في الصورة بشكل معقول وهام، بناءً على قناع فيديو (أسفل اليسار):

انقر للعب. استنادًا إلى قناع التجزئة الدلالية الموضح في الجزء السفلي الأيسر، يتم تحويل المرأة الأصلية (أعلى اليسار) إلى هوية مختلفة بشكل ملحوظ، على الرغم من أن هذه العملية لا تحقق تبادل الهوية المشار إليه في المطالبة. المصدر: https://yxbian23.github.io/project/video-painter/ (يرجى العلم أنه عند كتابة هذا المقال، كان هذا الموقع، الذي يعمل تلقائيًا ويعجّ بالفيديوهات، يُسبب تعطل متصفحي). يُرجى مراجعة مقاطع الفيديو الأصلية، إن أمكن، للحصول على دقة وتفاصيل أفضل، أو الاطلاع على الأمثلة في فيديو نظرة عامة على المشروع على الرابط: https://www.youtube.com/watch?v=HYzNfsD3A0s

إن التحرير القائم على القناع من هذا النوع راسخ في الصور الثابتة نماذج الانتشار الكامنةباستخدام أدوات مثل كونترول نتومع ذلك، فإن الحفاظ على اتساق الخلفية في الفيديو يمثل تحديًا أكبر بكثير، حتى عندما توفر المناطق المقنعة للنموذج مرونة إبداعية، كما هو موضح أدناه:

انقر للعب. تغييرٌ في النوع، باستخدام طريقة VideoPainter الجديدة. يُرجى مراجعة مقاطع الفيديو الأصلية، إن أمكن، للحصول على دقة وتفاصيل أفضل، أو الاطلاع على الأمثلة في فيديو نظرة عامة على المشروع على الرابط: https://www.youtube.com/watch?v=HYzNfsD3A0s

ينظر مؤلفو العمل الجديد إلى طريقتهم فيما يتعلق بكل من Tencent و فرشاة نت الهندسة المعمارية (التي لقد غطينا العام الماضي)، وControlNet، وكلاهما يتعامل مع بنية فرعية مزدوجة قادرة على عزل الجيل الأمامي والخلفي.

ومع ذلك، فإن تطبيق هذه الطريقة مباشرة على نهج المحولات الانتشارية المنتجة للغاية (DiT) المقترح "إن تطوير Sora من OpenAI يجلب تحديات خاصة، كما لاحظ المؤلفون"

"إن تطبيق [هندسة BrushNet و ControlNet] بشكل مباشر على Video DiTs يطرح العديد من التحديات: [أولاً، نظرًا] للأساس التوليدي القوي لـ Video DiT وحجم النموذج الثقيل، فإن تكرار العمود الفقري الكامل/نصف العملاق لـ Video DiT كمشفر للسياق سيكون غير ضروري ومحظورًا من الناحية الحسابية.

'[ثانيًا، على عكس] فرع التحكم التلافيفي الخالص في BrushNet، تحتوي رموز DiT في المناطق المقنعة بطبيعتها على معلومات خلفية بسبب الاهتمام العالمي، مما يعقد التمييز بين المناطق المقنعة وغير المقنعة في هياكل DiT الأساسية.

'[أخيرًا]، يفتقر ControlNet إلى حقن الميزات عبر جميع الطبقات، مما يعيق التحكم الكثيف في الخلفية لمهام الطلاء الداخلي.'

لذلك، قام الباحثون بتطوير نهج التوصيل والتشغيل في شكل إطار عمل مزدوج الفروع بعنوان فيديو باينتر.

يقدم VideoPainter إطار عمل ثنائي الفروع لتلوين الفيديو، يُحسّن أداء DiTs المُدرَّبة مسبقًا باستخدام مُرمِّز سياقي خفيف الوزن. يُمثل هذا المُرمِّز 6% فقط من مُعاملات الهيكل الأساسي، مما يجعل هذا النهج أكثر كفاءةً من الطرق التقليدية، وفقًا للمؤلفين.

يقترح النموذج ثلاثة ابتكارات رئيسية: مشفر سياقي مبسط من طبقتين للتوجيه الخلفي الفعال؛ ونظام تكامل الميزات الانتقائية للقناع الذي يفصل بين الرموز المقنعة وغير المقنعة؛ وتقنية إعادة أخذ عينات من معرف منطقة الطلاء التي تحافظ على اتساق الهوية عبر تسلسلات الفيديو الطويلة.

By تجمد يضمن VideoPainter، من خلال دمج كل من DiT المدرب مسبقًا ومشفر السياق أثناء تقديم ID-Adapter، أن رموز منطقة الطلاء الداخلي من المقاطع السابقة تظل قائمة طوال الفيديو، مما يقلل من الوميض والتناقضات.

تم تصميم الإطار أيضًا ليكون متوافقًا مع ميزة التوصيل والتشغيل، مما يسمح للمستخدمين بدمجه بسلاسة في عمليات إنشاء الفيديو وتحريره الحالية.

لدعم العمل الذي يستخدم كوجفيديو-5B-I2V كمحرك توليدي، قام المؤلفون بتنظيم ما يقولون إنه أكبر مجموعة بيانات لرسم الفيديو حتى الآن. بعنوان بيانات VPDataتتكون المجموعة من أكثر من 390,000 ألف مقطع فيديو، بإجمالي مدة فيديو تزيد عن 886 ساعة. كما قاموا بتطوير إطار عمل معياري ذي صلة بعنوان برنامج VPBench.

انقر للعب. من خلال أمثلة موقع المشروع، نلاحظ إمكانيات التجزئة المدعومة بمجموعة VPData ومجموعة اختبارات VPBench. يُرجى مراجعة مقاطع الفيديو الأصلية، إن أمكن، للحصول على دقة وتفاصيل أفضل، أو الاطلاع على الأمثلة في فيديو نظرة عامة على المشروع على الرابط: https://www.youtube.com/watch?v=HYzNfsD3A0s

ال عمل جديد بعنوان VideoPainter: رسم وتحرير مقاطع الفيديو بأي طول مع التحكم في السياق عند التوصيل والتشغيلويأتي هذا البحث من سبعة مؤلفين من مختبر Tencent ARC، والجامعة الصينية في هونج كونج، وجامعة طوكيو، وجامعة ماكاو.

بالإضافة إلى موقع المشروع المذكور أعلاه، أصدر المؤلفون أيضًا موقعًا أكثر سهولة في الوصول إليه نظرة عامة على اليوتيوب، وكذلك ل صفحة وجه العناق.

خدمة التوصيل

يتكون خط أنابيب جمع البيانات لـ VPData من التجميع والتعليق والتقسيم والاختيار والترجمة:

مخطط لخط أنابيب بناء مجموعة البيانات. المصدر: https://arxiv.org/pdf/2503.05639

مخطط لخط أنابيب إنشاء مجموعة البيانات. المصدر: https://arxiv.org/pdf/2503.05639

جاءت مجموعات المصدر المستخدمة في هذا التجميع من Videvo و Pexels، مع الحصول في البداية على حوالي 450,000 ألف مقطع فيديو.

تتألف مرحلة المعالجة المسبقة من مكتبات وطرق مساهمة متعددة: التعرف على أي شيء تم استخدام الإطار لتوفير علامات الفيديو المفتوحة، والمكلفة بتحديد الكائنات الأساسية؛ تأريض الديناصور تم استخدامه للكشف عن المربعات المحددة حول الكائنات المحددة؛ و نموذج أي شيء الجزء 2 تم استخدام إطار العمل (SAM 2) لتحسين هذه التحديدات الخشنة إلى تقسيمات قناع عالية الجودة.

لإدارة انتقالات المشهد وضمان الاتساق في الرسم الداخلي للفيديو، يستخدم VideoPainter PySceneDetect لتحديد وتقسيم المقاطع عند نقاط توقف طبيعية، وتجنب التحولات المزعجة التي غالبًا ما تحدث بسبب تتبع نفس الكائن من زوايا متعددة. تم تقسيم المقاطع إلى فترات زمنية مدتها 10 ثوانٍ، مع تجاهل أي شيء أقصر من ست ثوانٍ.

لاختيار البيانات، تم تطبيق ثلاثة معايير تصفية: الجودة الجمالية، تم تقييمه مع مؤشر لايون للنتيجة الجمالية; قوة الحركة، تم قياسها عبر تدفق البصر استخدام طوف، و سلامة المحتوى، تم التحقق من ذلك من خلال الانتشار المستقر فاحص السلامة.

أحد القيود الرئيسية في مجموعات بيانات تقسيم الفيديو الحالية هو الافتقار إلى التعليقات النصية التفصيلية، والتي تعد ضرورية لتوجيه النماذج التوليدية:

وأكد الباحثون على عدم وجود ترجمة لمقاطع الفيديو في المجموعات المماثلة.

وأكد الباحثون على عدم وجود ترجمة لمقاطع الفيديو في المجموعات المماثلة.

لذلك، تتضمن عملية معالجة بيانات VideoPainter نماذج رؤية ولغة رائدة متنوعة، بما في ذلك كوجفلم2 و الدردشة GPT-4o لتوليد تعليقات توضيحية تعتمد على الإطارات الرئيسية وأوصاف مفصلة للمناطق المقنعة.

يعمل VideoPainter على تحسين DiTs المدربة مسبقًا من خلال تقديم مشفر سياق خفيف الوزن مخصص يفصل استخراج سياق الخلفية عن إنشاء المقدمة، كما يظهر في الجزء العلوي الأيمن من المخطط التوضيحي أدناه:

مخطط مفاهيمي لبرنامج VideoPainter. يقوم مُشفِّر سياق VideoPainter بمعالجة الكمون المشوش والأقنعة المخفضة العينات والكمون المقنع للفيديو عبر VAE، مع دمج رموز الخلفية فقط في DiT المدربة مسبقًا لتجنب الغموض. يضمن محول إعادة أخذ العينات من الهوية اتساق الهوية من خلال ربط رموز المنطقة المقنعة أثناء التدريب وإعادة أخذ العينات منها من المقاطع السابقة أثناء الاستدلال.

مخطط مفاهيمي لبرنامج VideoPainter. يعالج مُشفِّر سياق VideoPainter الكمونات المُشوَّشة، والأقنعة المُخفَّضة العينات، والكمونات المُقنَّعة للفيديو عبر VAE، مُدمجًا رموز الخلفية فقط في DiT المُدرَّبة مُسبقًا لتجنب أي غموض. يضمن مُحوِّل إعادة أخذ العينات للمُعرِّف اتساق الهوية من خلال ربط رموز المناطق المُقنَّعة أثناء التدريب وإعادة أخذ عينات منها من المقاطع السابقة أثناء الاستدلال.

بدلاً من إثقال العمود الفقري بالمعالجة المكررة، يعمل هذا المشفر على مدخلات مبسطة: مزيج من الفيديو الكامن المشوش والمقنع (المستخرج عبر التشفير التلقائي المتغير، أو VAE)، والأقنعة المخفضة العينة.

يوفر الكمون الصاخب سياق التوليد، ويتوافق الكمون المقنع للفيديو مع توزيع DiT الحالي، بهدف تعزيز التوافق.

بدلاً من تكرار أقسام كبيرة من النموذج، وهو ما ذكره المؤلفون أنه حدث في أعمال سابقة، يدمج VideoPainter الطبقتين الأوليين فقط من DiT. يتم إعادة إدخال هذه الميزات المستخرجة في DiT المجمدة بطريقة منظمة وجماعية - حيث تعمل ميزات الطبقة المبكرة على إعلام النصف الأول من النموذج، بينما تعمل الميزات اللاحقة على تحسين النصف الثاني.

بالإضافة إلى ذلك، تضمن آلية اختيار الرموز إعادة دمج الميزات ذات الصلة بالخلفية فقط، مما يمنع الارتباك بين المناطق المقنعة وغير المقنعة. ويزعم المؤلفون أن هذا النهج يسمح لبرنامج VideoPainter بالحفاظ على دقة عالية في الحفاظ على الخلفية مع تحسين كفاءة طلاء المقدمة.

ويشير المؤلفون إلى أن الطريقة التي يقترحونها تدعم أساليب التصميم المتنوعة، بما في ذلك الأساليب الأكثر شيوعًا، التكيف مع الرتبة المنخفضة (لورا).

البيانات والاختبارات

تم تدريب VideoPainter باستخدام نموذج CogVideo-5B-I2V، إلى جانب نظيره النصي إلى الفيديو. تم استخدام مجموعة VPData المنسقة بدقة 480x720 بكسل، معدل التعليم 1 × 10-5.

تم تدريب محول إعادة أخذ العينات ID على 2,000 خطوة، ومشفر السياق على 80,000 خطوة، وكلاهما باستخدام آدم دبليو تم إجراء التدريب على مرحلتين باستخدام 64 وحدة معالجة رسومية NVIDIA V100 هائلة (على الرغم من أن الورقة البحثية لا تحدد ما إذا كانت تحتوي على 16 جيجابايت أو 32 جيجابايت من ذاكرة VRAM).

للمقارنة المعيارية، ديفيس تم استخدامه للأقنعة العشوائية، وتم استخدام VPBench الخاص بالمؤلفين للأقنعة القائمة على التجزئة.

تتميز مجموعة بيانات VPBench بالأشياء والحيوانات والبشر والمناظر الطبيعية والمهام المتنوعة، وتغطي أربعة إجراءات: تضيف, إزالة, تغييرو مقايضةتتضمن المجموعة 45 مقطع فيديو مدة كل منها 6 ثوان، وتسعة مقاطع فيديو مدتها في المتوسط ​​30 ثانية.

تم استخدام ثمانية مقاييس لهذه العملية. بالنسبة للحفاظ على المنطقة المقنعة، استخدم المؤلفون نسبة الإشارة إلى الضوضاء القصوى (نسبة الخطر إلى الخطر) مقاييس التشابه الإدراكي المكتسبة (LPIPS)؛ مؤشر التشابه البنيوي (SSIM)؛ و يعني الخطأ المطلق (ماي).

لمحاذاة النص، استخدم الباحثون تشابه المقطع لتقييم المسافة الدلالية بين تسمية المقطع ومحتواه الفعلي المدرك، وكذلك لتقييم دقة المناطق المقنعة.

لتقييم الجودة العامة لمقاطع الفيديو الناتجة، مسافة فيديو فريشيت تم استخدام (FVD).

لإجراء جولة مقارنة كمية للرسم على الفيديو، وضع المؤلفون نظامهم في مواجهة الأساليب السابقة برو باينتر, COCOCO و كوج-إنب (CogVideoX). يتكون الاختبار من طلاء الإطار الأول من مقطع باستخدام نماذج طلاء الصورة، ثم استخدام العمود الفقري للصورة إلى الفيديو (I2V) لنشر النتائج في عملية مزج كامن، وفقًا للطريقة التي اقترحها ورقة 2023 من إسرائيل.

بما أن موقع المشروع الإلكتروني غير جاهز للعمل بالكامل وقت كتابة هذا التقرير، ولأن فيديو يوتيوب المرتبط بالمشروع قد لا يتضمن جميع الأمثلة المضمنة فيه، فمن الصعب العثور على أمثلة فيديو مرتبطة ارتباطًا وثيقًا بالنتائج الموضحة في البحث. لذلك، سنعرض نتائج ثابتة جزئيًا، ونختتم المقال ببعض أمثلة الفيديو الإضافية التي تمكنا من استخراجها من موقع المشروع.

مقارنة كمية بين VideoPainter وProPainter وCOCOCO وCog-Inp على VPBench (أقنعة التجزئة) وDavis (الأقنعة العشوائية). تغطي المقاييس الحفاظ على المنطقة المقنعة ومحاذاة النص وجودة الفيديو. الأحمر = الأفضل، والأزرق = ثاني أفضل.

مقارنة كمية بين VideoPainter وProPainter وCOCOCO وCog-Inp على VPBench (أقنعة التجزئة) وDavis (الأقنعة العشوائية). تغطي المقاييس الحفاظ على المنطقة المقنعة ومحاذاة النص وجودة الفيديو. الأحمر = الأفضل، والأزرق = ثاني أفضل.

ومن هذه النتائج النوعية، علق المؤلفون:

"في VPBench القائم على التجزئة، يظهر ProPainter وCOCOCO أسوأ أداء عبر معظم المقاييس، ويرجع ذلك في المقام الأول إلى عدم القدرة على طلاء الكائنات المقنعة بالكامل وصعوبة بنية العمود الفقري المفرد في تحقيق التوازن بين الحفاظ على الخلفية المتنافسة وتوليد المقدمة، على التوالي.

في معيار Davis للأقنعة العشوائية، يُظهر ProPainter تحسنًا من خلال الاستفادة من معلومات الخلفية الجزئية. ومع ذلك، يحقق VideoPainter أداءً مثاليًا عبر التجزئة (الطول القياسي والطويل) والأقنعة العشوائية بفضل بنيته ثنائية الفروع التي تفصل بفعالية بين حفظ الخلفية وتوليد المقدمة.

ثم يقدم المؤلفون أمثلة ثابتة للاختبارات النوعية، والتي نختار منها أدناه مجموعة مختارة. وفي جميع الحالات نحيل القارئ إلى موقع المشروع ومقطع الفيديو على موقع يوتيوب للحصول على دقة أفضل.

مقارنة مع طرق الرسم في الأطر السابقة.

مقارنة مع طرق الرسم في الأطر السابقة.

 

انقر للعب. أمثلة قمنا بجمعها من مقاطع الفيديو الخاصة بالنتائج في موقع المشروع.  

وفيما يتعلق بهذه الجولة النوعية للرسم على الفيديو، علق المؤلفون:

"يظهر VideoPainter باستمرار نتائج استثنائية في تماسك الفيديو وجودته ومحاذاة التعليقات النصية. ومن الجدير بالذكر أن ProPainter يفشل في إنشاء كائنات مقنعة بالكامل لأنه يعتمد فقط على انتشار وحدات البكسل في الخلفية بدلاً من إنشائها.

"في حين يوضح COCOCO الوظائف الأساسية، فإنه يفشل في الحفاظ على هوية ثابتة في المناطق غير المطلية (مظاهر الأوعية غير المتسقة والتغيرات المفاجئة في التضاريس) بسبب بنيته الأساسية الفردية التي تحاول تحقيق التوازن بين الحفاظ على الخلفية وتوليد المقدمة.

'يحقق Cog-Inp نتائج أساسية في الرسم الداخلي؛ ومع ذلك، فإن عدم قدرة عملية المزج الخاصة به على اكتشاف حدود القناع يؤدي إلى حدوث آثار كبيرة.

'وعلاوة على ذلك، يمكن لبرنامج VideoPainter إنشاء مقاطع فيديو متماسكة تتجاوز مدتها دقيقة واحدة مع الحفاظ على اتساق المعرف من خلال إعادة أخذ العينات من المعرف.'

قام الباحثون أيضًا باختبار قدرة VideoPainter على زيادة التسميات التوضيحية والحصول على نتائج محسنة بهذه الطريقة، مما وضع النظام في مواجهة يونييديت, ديتي تي آر إلو إعادة الفيديو.

نتائج تحرير الفيديو مقارنة بالطرق الثلاثة السابقة.

نتائج تحرير الفيديو مقارنة بالطرق الثلاثة السابقة.

تعليق المؤلفين:

في كلٍّ من مقاطع الفيديو القياسية والطويلة في VPBench، يُحقق VideoPainter أداءً فائقًا، متجاوزًا حتى ReVideo الشامل. يُعزى هذا النجاح إلى بنيته ثنائية الفروع، التي تضمن حفظًا ممتازًا للخلفية وقدرات توليد المقدمة، مع الحفاظ على دقة عالية في المناطق غير المُحررة، مع ضمان توافق المناطق المُحررة مع تعليمات التحرير، بالإضافة إلى إعادة أخذ عينات من مُعرّفات مناطق التلوين، مما يحافظ على اتساق المُعرّفات في مقاطع الفيديو الطويلة.

ورغم أن الورقة تتضمن أمثلة نوعية ثابتة لهذا المقياس، إلا أنها غير مستنيرة، ونحن نحيل القارئ بدلاً من ذلك إلى الأمثلة المتنوعة المنتشرة عبر مقاطع الفيديو المختلفة المنشورة لهذا المشروع.

أخيرًا، أجريت دراسة على البشر، حيث طُلب من ثلاثين مستخدمًا تقييم خمسين جيلًا تم اختيارهم عشوائيًا من مجموعات فرعية من VPBench والتحرير. وسلطت الأمثلة الضوء على الحفاظ على الخلفية، والمحاذاة مع المطالبة، وجودة الفيديو العامة.

نتائج دراسة المستخدم لبرنامج VideoPainter.

نتائج دراسة المستخدم لبرنامج VideoPainter.

يذكر المؤلفون:

"تفوق برنامج VideoPainter بشكل كبير على الخطوط الأساسية الموجودة، محققًا معدلات تفضيل أعلى عبر جميع معايير التقييم في كلتا المهمتين."

ومع ذلك، فهم يعترفون بأن جودة أجيال VideoPainter تعتمد على النموذج الأساسي، الذي قد يواجه صعوبة في التعامل مع الحركات والفيزياء المعقدة؛ كما لاحظوا أن أداءه ضعيف أيضًا مع الأقنعة ذات الجودة المنخفضة أو التسميات التوضيحية غير المتوافقة.

الخاتمة

يبدو أن VideoPainter إضافة جديرة بالاهتمام إلى الأدبيات. ومع ذلك، وكما هو الحال مع الحلول الحديثة، فإنه يتطلب قدرًا كبيرًا من الحوسبة. بالإضافة إلى ذلك، فإن العديد من الأمثلة المختارة للعرض في موقع المشروع لا ترقى إلى مستوى أفضل الأمثلة؛ لذا سيكون من المثير للاهتمام أن نرى هذا الإطار يتنافس مع الإصدارات المستقبلية، ومجموعة أوسع من الأساليب السابقة.

 

* ومن الجدير بالذكر أن "تحرير الفيديو" بهذا المعنى لا يعني "تجميع مقاطع متنوعة في تسلسل"، وهو المعنى التقليدي لهذا المصطلح؛ بل يعني تغيير المحتوى الداخلي لمقاطع الفيديو الموجودة بشكل مباشر أو تعديله بطريقة ما، باستخدام تقنيات التعلم الآلي.

نُشرت لأول مرة يوم الاثنين 10 مارس 2025