الذكاء الاصطناعي

جسر الفجوة في مقاطع الفيديو التوليدية

Published December 20, 2024

Updated May 20, 2026

Martin Anderson

Images taken from the FCVG paper and project site, https://arxiv.org/pdf/2412.11755 and https://fcvg-inbetween.github.io/

تقدم الأبحاث الجديدة من الصين طريقة محسنة لتحديد الفجوة بين إطاران فيديويين منفصلين زمنياً – واحدة من التحديات الأكثر أهمية في السباق الحالي نحو الواقعية لمقاطع الفيديو التوليدية ، وكذلك لضغط مقاطع الفيديو.

في مقطع الفيديو أدناه ، نرى في العمود الأيسر إطار “بداية” (أعلى左) وإطار “نهاية” (أسفل左). المهمة التي يجب على الأنظمة المنافسة أن تتولاها هي تخمين كيفية انتقال الموضوع في الصورتين من الإطار أ إلى الإطار ب. في الرسوم المتحركة ، يسمى هذا الإجراء تويينينغ ، ويعود إلى عصر السينما الصامتة.

انقر للعب. في العمود الأول ، نرى الإطاران المقترحان للبداية والنهاية. في العمود الأوسط ، وفي الجزء العلوي من العمود الثالث (الأيمن) ، نرى ثلاثة نهجات سابقة لهذا التحدي. في الأسفل اليمين ، نرى أن الطريقة الجديدة تحقق نتائج أكثر اقناعا في توفير الإطارات الفاصلة. مصدر: https://fcvg-inbetween.github.io/

الطريقة الجديدة التي يقترحها الباحثون الصينيون تسمى توليد فيديو مدفوع بالشروط الإطارية (FCVG) ، ويمكن رؤية نتائجها في الجزء السفلي الأيمن من مقطع الفيديو أعلاه ، مما يوفر انتقالا سلسا ومنطقيا من إطار ثابت إلى آخر.

بالنسبة إلى ذلك ، يمكننا رؤية أن إطار العمل الأكثر شهرة لتوليد الفيديو ، وهو مشروع توليد الإطارات للحركة الكبيرة (FILM) من جوجل ، يعاني ، مثل العديد من المحاولات المماثلة ، في تفسير الحركة الكبيرة والجريئة.

النهجان الآخران المنافسان المُvisualized في مقطع الفيديو ، اندماج العكس الزمني (TRF) و التوليد الفاصل (GI) ، يوفران تفسيرا أقل انحرافا ، ولكنهما يخلقان حركات رقص مثيرة ومرتجلة ، لا يحترمان المنطق الضمني للإطاران المقدمين.

انقر للعب. حلان غير مكتملين لمشكلة التويينينغ. اليسار ، FILM يتعامل مع الإطاران على أنهما هدفان مورفين بسيطان. اليمين ، TRF يعرف أن بعض أشكال الرقص يجب أن تدرج ، ولكن يأتي بحل غير عملي يظهر تشوهات تشريحية.

في الجزء العلوي الأيسر ، يمكننا أن نلقي نظرة أقرب على كيفية تعامل FILM مع هذه المشكلة. على الرغم من أن FILM تم تصميمه للتعامل مع الحركة الكبيرة ، على عكس النهج السابق الذي يعتمد على الflux البصري ، إلا أنه لا يزال يفتقر إلى فهم семанти للحدث بين الإطاران الرئيسيان ، ويتصرف ببساطة كأنه يؤدي عملية مورف بين الإطاران.

في الجانب الأيمن ، في مقطع الفيديو أعلاه ، نرى جهد TRF ، حيث يتم استخدام توليد الفيديو المستقر (SVD) لتحديد حركة الرقص بشكل أكثر ذكاء – ولكنها قدمت تقديرا جريئا وغير معقول.

FCVG ، كما نرى أدناه ، يؤدي مهمة أكثر مصداقية في تحديد الحركة والمحتوى بين الإطاران:

انقر للعب. FCVG يحسن على النهج السابق ، ولكنه بعيد عن الكمال.

هناك لا يزال بعض العيوب ، مثل التغير غير المرغوب فيه في اليدين والهوية الوجهية ، ولكن هذه النسخة هي الأكثر مصداقية على السطح – وأي تحسين على حالة الفن должен أن يؤخذ في الاعتبار ضد صعوبة كبيرة التي تقدمها المهمة ؛ والعائق الكبير الذي تقدمه هذه التحديات لمستقبل مقاطع الفيديو التوليدية.

لماذا يهم التوليد الفاصل

كما لاحظنا من قبل ، القدرة على ملء المحتوى الفيديوي بشكل مقنع بين إطاران مقدمان من قبل المستخدم هو واحد من أفضل الطرق للحفاظ على الاستقرار الزمني في مقاطع الفيديو التوليدية ، منذ صورة حقيقية متتالية لنفس الشخص ستحتوي بشكل طبيعي على عناصر متسقة مثل الملابس والشعر والبيئة.

عندما يتم استخدام إطار بداية واحد فقط ، نافذة الانتباه المحدودة لنظام التوليد ، والتي غالبا ما تأخذ فقط الإطارات القريبة في الاعتبار ، تميل إلى التطور التدريجي لجوانب الموضوع ، حتى (على سبيل المثال) يصبح رجل آخر (أو امرأة) ، أو يثبت أنه يمتلك “ملابس مورفين” – من بين العديد من الانحرافات الأخرى التي يتم توليدها بشكل شائع في أنظمة T2V المفتوحة المصدر ، وفي معظم الحلول المدفوعة ، مثل Kling:

انقر للعب. إطعام إطаран مصدر جديد إلى Kling ، مع التحفيز “رجل يرقص على سقف” ، لم يؤد إلى حل مثالي. على الرغم من أن Kling 1.6 كان متاحًا في وقت الإنشاء ، فإن الإصدار 1.5 هو أحدث إصدار يدعم إطاران بداية ونهاية مقدمة من قبل المستخدم. مصدر: https://klingai.com/

هل تم حل المشكلة بالفعل؟

من ناحية أخرى ، يبدو أن بعض الأنظمة التجارية المغلقة والملكية تفعل بشكل أفضل مع هذه المشكلة – ولا سيما RunwayML ، التي تمكنت من إنشاء تحويلات فاصلة مقنعة للغاية بين الإطاران المقدمان:

انقر للعب. توليد الفيديو القائم على التوليد في RunwayML فعال للغاية. مصدر: https://app.runwayml.com/

تكرار التمرين ، أنتج RunwayML نتائجا ثانية ومقنعة:

انقر للعب. الجولة الثانية من تسلسل RunwayML.

مشكلة واحدة هنا هي أننا لا نستطيع أن نتعلم أي شيء عن التحديات المحدقة ، ولا نتقدم في حالة الفن المفتوح المصدر ، من نظام ملكية. لا نستطيع أن نعرف ما إذا كان هذا التمثيل الأفضل قد تم تحقيقه من خلال نهج معماري فريد ، أو بيانات (أو أساليب ترميز البيانات مثل الترشيح والتعليق) ، أو أي مزيج من هذه والابتكارات البحثية الأخرى.

ثانيا ، لا يمكن للشركات الصغيرة ، مثل شركات التأثيرات البصرية ، أن تعتمد في المدى الطويل على خدمات API مدفوعة التي قد تهدد التخطيط اللوجستي بزيادة أسعار واحدة – خاصة إذا كان أحد الخدمات يسيطر على السوق ، وبالتالي يكون أكثر استعدادا لزيادة الأسعار.

متى تكون الحقوق خاطئة

أهم من ذلك كله ، إذا تم تدريب نموذج تجاري يؤدي أداء جيدا على بيانات غير مرخصة ، كما يبدو أن يكون الحال مع RunwayML ، فإن أي شركة تستخدم هذه الخدمات قد تتعرض لخطر التعرض للتحديات القانونية.

منذ أن تستمر القوانين (وبعض القضايا) لفترة أطول من الرؤساء ، ومنذ أن السوق الأمريكي هو واحد من الأسواق الأكثر تقاضيًا في العالم ، يبدو أن الاتجاه الحالي نحو الرقابة التشريعية الأكثر صرامة لبيانات تدريب الذكاء الاصطناعي من المرجح أن يبقى على قيد الحياة اللمس الخفيف لإدارة دونالد ترامب القادمة.

لذلك ، يجب على قطاع أبحاث الرؤية أن يعالج هذه المشكلة بالطريقة الصعبة ، بحيث قد تثبت أي حلول ناشئة على المدى الطويل.

FCVG

الطريقة الجديدة من الصين يتم تقديمها في ورقة بعنوان التوليد الفاصل من خلال توليد الفيديو الموجه بالشروط الإطارية ، ويأتي من خمسة باحثين عبر معهد هاربن للتكنولوجيا وجامعة تيانجين.

FCVG يحل مشكلة الغموض في مهمة التوليد الفاصل عن طريق استخدام الشروط الإطارية ، إلى جانب إطار يحدد الحواف في الإطاران المقدمان ، مما يساعد العملية على الحفاظ على مسار أكثر استمرارًا للتحولات بين الإطارات الفردية ، وكذلك التأثير العام.

ت涉ل الشروط الإطارية كسر إنشاء الإطارات الفاصلة إلى مهام فرعية ، بدلا من محاولة ملء فراغ семанти كبير بين إطارين (وكلما طالت مدة الفيديو المطلوبة ، زادت المسافة Семантиكية).

في الرسم التالي ، من الورقة ، يقارن المؤلفون الطريقة المذكورة أعلاه (TRF) بطريقتهم. TRF يخلق مساران لتوليد الفيديو باستخدام نموذج مُعد مسبقًا للصورة إلى الفيديو (SVD). واحد هو “مسار إلى الأمام” مشروط على الإطار الأول ، والآخر هو “مسار إلى الخلف” مشروط على الإطار الأخير. كلا المساران يبدأان من الضوضاء العشوائية نفسها. هذا موضح على الجانب الأيسر من الصورة أدناه:

مقارنة بين النهج السابقة و FCVG. مصدر: https://arxiv.org/pdf/2412.11755

يؤكد المؤلفون أن FCVG هو تحسين على أساليب العكس الزمني لأنها تقلل من الغموض في توليد الفيديو ، من خلال إعطاء كل إطار شروطته الصريحة ، مما يؤدي إلى مخرجات أكثر استقرارًا وثباتًا.

أساليب العكس الزمني ، مثل TRF ، يؤدي إلى الغموض ، لأن مسارات التوليد إلى الأمام والخلف يمكن أن تتقارب ، مما يسبب انحرافات أو عدم انتظام.

FCVG يعالج ذلك من خلال استخدام الشروط الإطارية المشتقة من الخطوط المتطابقة بين الإطاران الأول والakhir (الجزء السفلي الأيمن في الصورة أعلاه) ، والتي توجيه عملية التوليد.

انقر للعب. مقارنة أخرى من صفحة مشروع FCVG.

العكس الزمني يسمح باستخدام نماذج توليد الفيديو المُعدة مسبقًا للتوليد الفاصل ، ولكنه يحتوي على بعض العيوب. الحركة التي يتم توليدها بواسطة نماذج I2V هي متنوعة بدلا من الثبات. في حين أن هذا مفيد لمهام الصورة إلى الفيديو (I2V) النقية ، إلا أنه يخلق غموضًا ويؤدي إلى مسارات فيديو غير منتظمة.

العكس الزمني يتطلب أيضًا تعديل متقن لبعض المتغيرات ، مثل معدل الإطار لكل فيديو تم توليده. بالإضافة إلى ذلك ، بعض التقنيات المضمنة في العكس الزمني لتقليل الغموض تبطئ بشكل كبير عملية الاستدلال ، مما يزيد من أوقات المعالجة.

الطريقة

يلاحظ المؤلفون أن إذا تم حل أحد هذه المشاكل (التنوع مقابل الثبات) ، فمن المحتمل أن تحل جميع المشاكل اللاحقة. وقد تم محاولة هذا في العروض السابقة ، مثل GI المذكورة أعلاه ، وأيضًا ViBiDSampler.

تنص الورقة على:

‘مع ذلك ، لا يزال هناك استochasticity كبير بين هذه المسارات ، مما يحد من فعالية هذه الطرق في التعامل مع السيناريوهات التي تتضمن حركات كبيرة مثل التغييرات السريعة في وضع الجسم. الغموض في مسار التوليد الفاصل يأتي في الغالب من شروط غير كافية للإطارات الوسطية ، منذ صورتان فقط توفر شروط للبداية والنهاية.’

‘لذلك نقترح تقديم شرط صريح لكل إطار ، مما يخفف بشكل كبير من غموض مسار التوليد الفاصل.’

نحن نرى المفاهيم الأساسية ل FCVG في العمل في المخطط أدناه. FCVG يولد تسلسلًا من إطارات الفيديو التي تبدأ وتنتهي بشكل متسق مع إطاران إدخال. هذا يضمن أن الإطارات تكون مستقرة زمنياً من خلال تقديم شروط إطارية محددة لعملية توليد الفيديو.

مخطط لاستدلال FCVG.

في هذا إعادة التفكير في نهج العكس الزمني ، ي 结ب النموذج المعلومات من كلا الاتجاهين ، ويتفاوض بينهما لإنشاء انتقالات سلسة. من خلال عملية تكرارية ، يُحسن النموذج تدريجياً الإدخالات الصاخبة حتى يتم إنتاج مجموعة نهائية من الإطارات الفاصلة.

المرحلة التالية تتضمن استخدام نموذج GlueStick المسبق التدريب ، الذي يخلق تطابقات بين الإطاران الأول والakhir المحسابان ، مع استخدام إضافي لاوضع الهيكل العظمي لتحديد النموذج ، من خلال نموذج توليد الفيديو المستقر.

يستمد GlueStick خطوطًا من الأشكال المفسرة. هذه الخطوط توفر مراسي مطابقة بين الإطاران الأول والakhir في FCVG*.

يلاحظ المؤلفون:

‘وجدنا تجريبيا أن التوليد الخطي كافٍ في معظم الحالات لضمان الاستقرار الزمني في مقاطع الفيديو الفاصلة ، وسمح نموذجنا للمستخدمين بتحديد مسارات غير خطية لتوليد مقاطع فيديو مرغوبة.’

سير العمل لتأسيس الشروط الإطارية إلى الأمام والخلف. يمكننا رؤية الألوان المطابقة التي تحتفظ بالمحتويات بشكل متسق أثناء تطور الرسوم المتحركة.

为了 حقن الشروط الإطارية في SVD ، يستخدم FCVG الطريقة التي تم تطويرها لمبادرة ControlNeXt لعام 2024. في هذه العملية ، يتم ترميز الشروط الأولية بواسطة كتلة ResNet متعددة ، قبل التطبيع المتقاطع بين فروع الشروط و SVD في سير العمل.

يتم استخدام مجموعة صغيرة من مقاطع الفيديو لتعديل نموذج SVD ، مع تجميد معظم معاملات النموذج.

‘تم حل [هذه القيود] بشكل كبير في FCVG: (i) من خلال تحديد الشرط لكل إطار بشكل صريح ، يتم تخفيف الغموض بين المسارات إلى الأمام والخلف بشكل كبير؛ (ii) يتم تقديم معامل قابل للتعديل واحد فقط ، مع الحفاظ على معاملات SVD افتراضية ، مما يؤدي إلى نتائج مفضلة في معظم السيناريوهات؛ (iii) التوليف المتوسط البسيط ، بدون إعادة حقن الضوضاء ، كافٍ في FCVG ، ويمكن تقليل خطوات الاستدلال بنسبة 50% مقارنة بـ [GI].’

مخطط عام لتحقين الشروط الإطارية في SVD من أجل FCVG.

البيانات والاختبارات

为了 اختبار النظام ، قام الباحثون بتحضير مجموعة بيانات تضم مشاهد متنوعة ، بما في ذلك بيئات خارجية ، وأوضاع جسم الإنسان ، ومواقع داخلية ، بما في ذلك حركات مثل حركة الكاميرا ، وأفعال الرقص ، وexpressions الوجهية ، من بين أمور أخرى. تم اختيار 524 مقطعًا من مجموعتي DAVIS و RealEstate10k. تم补充 هذه المجموعة بمقاطع فيديو ذات معدل إطار عالٍ من Pexels. تم تقسيم المجموعة إلى 4:1 بين التعديل والتجربة.

تم استخدام مقاييس مثل Learned Perceptual Similarity Metrics (LPIPS)؛ Fréchet Inception Distance (FID)؛ Fréchet Video Distance (FVD)؛ VBench؛ و Fréchet Video Motion Distance.

يلاحظ المؤلفون أن لا واحدة من هذه المقاييس تصلح جيدًا لتقييم الاستقرار الزمني ، ويشيرون إلى مقاطع الفيديو على صفحة مشروع FCVG.

بالإضافة إلى استخدام GlueStick لتحديد الخطوط ، تم استخدام DWPose لتقدير أوضاع الجسم.

تم تعديل أداة SVD لمدة 70,000 تكرار تحت خوارزمية AdamW على جهاز NVIDIA A800 ، بمعدل تعلم 1×10^-6 ، مع إطارات مقطوعة إلى 512×320.

تم اختبار الإطارات النموذجية FILM و GI و TRF و DynamiCrafter.

للتقييم الكمي ، تم تناول فجوات الإطارات بين 12 و 23.

النتائج الكمية ضد الإطارات السابقة.

بخصوص هذه النتائج ، يلاحظ الورقة:

‘طريقة [نا] تحقق أفضل أداء بين أربعة نهج توليدية عبر جميع المقاييس. فيما يتعلق بمقارنة LPIPS مع FILM ، فإن FCVG لدينا هو أقل قليلاً ، بينما يظهر أداءً متفوقًا في المقاييس الأخرى. نظرًا لعدم وجود معلومات زمنية في LPIPS ، قد يكون من الأنسب إعطاء الأولوية للمقاييس الأخرى والمراقبة البصرية.’

‘علاوة على ذلك ، من خلال مقارنة النتائج تحت فجوات إطارات مختلفة ، قد يعمل FILM جيدًا عندما تكون الفجوة صغيرة ، بينما تكون الطرق التوليدية أكثر ملاءمة للفجوات الكبيرة. من بين هذه الطرق التوليدية ، يظهر FCVG لدينا تفوقًا كبيرًا بسبب الشروط الإطارية الصريحة.’

للاختبار النوعي ، أنتج المؤلفون مقاطع الفيديو الموجودة على صفحة المشروع (بعضها مضمّن في هذه المقالة) ، والنتائج الثابتة والمتحركة† في ورقة PDF:

نتائج ثابتة من الورقة. يرجى الرجوع إلى المصدر PDF للحصول على دقة أفضل ، وكن على علم بأن الورقة تحتوي على رسوم متحركة يمكن تشغيلها في التطبيقات التي تدعم هذه الميزة.

يعلق المؤلفون:

‘في حين أن FILM ينتج نتائج تحويل سلسة لسيناريوهات الحركة الصغيرة ، إلا أنه يعاني مع الحركة الكبيرة بسبب القيود المتأصلة في التدفق البصري ، مما يؤدي إلى ظهور أشياء ملحوظة مثل حركة الخلفية وحركة اليد (في الحالة الأولى).’

‘نماذج توليدية مثل TRF و GI تعاني من غموض في مسارات الدمج ، مما يؤدي إلى حركة وسطية غير مستقرة ، و特别 في المشاهد المعقدة التي تتضمن حركة الإنسان والكائنات.’

‘في المقابل ، طريقةنا تؤدي باستمرار نتائج مرضية في مختلف السيناريوهات.’ حتى عندما يكون هناك إغلاق كبير (في الحالة الثانية والخامسة) ، يمكن لطريقتنا التقاط حركة معقولة. بالإضافة إلى ذلك ، يظهر نهجنا متانة ل أفعال الإنسان المعقدة (في الحالة الأخيرة).’

كما وجد المؤلفون أن FCVG يعمم بشكل غير عادي جيدًا إلى مقاطع فيديو الرسوم المتحركة:

انقر للعب. FCVG ينتج نتائج مقنعة جدًا لرسوم المتحركة الكرتونية.

الاستنتاج

FCVG يمثل على الأقل تحسناً تدريجياً لحالة الفن في التوليد الفاصل في سياق غير ملكي. قام المؤلفون بنشر رمز العمل على جيثب، على الرغم من أن المجموعة المرتبطة لم يتم إطلاقها في وقت الكتابة.

إذا كانت الحلول التجارية المغلقة والملكية تتجاوز الجهود المفتوحة المصدر باستخدام بيانات غير مرخصة من الإنترنت ، يبدو أن هناك مستقبلاً محدوداً أو معدوماً لهذا النهج ، على الأقل للاستخدام التجاري؛ المخاطر كبيرة للغاية.

لذلك ، حتى إذا كان المشهد المفتوح المصدر ي tụlخلف عن عروض السوق الرائدة ، فإنه ، بحجة ، هو الحمامة التي قد تهزم الأرنب إلى خط النهاية.

* مصدر: https://openaccess.thecvf.com/content/ICCV2023/papers/Pautrat_GlueStick_Robust_Image_Matching_by_Sticking_Points_and_Lines_Together_ICCV_2023_paper.pdf

^† يتطلب قارئ PDF مثل Adobe Acrobat أو Okular أو أي قارئ PDF آخر يدعم تشغيل الرسوم المتحركة المضمنة.

نشر لأول مرة يوم الجمعة ، 20 ديسمبر 2024

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai