زاوية أندرسون

تحسين إنتاجية الفيديو باستخدام الذكاء الاصطناعي من خلال خلط الإطارات أثناء التدريب

تم النشر 21 آذار، 2025

مارتن أندرسون

Adobe Firefly، العديد من المطالبات والتعديلات.

تتناول ورقة بحثية جديدة صدرت هذا الأسبوع في Arxiv قضية لا يمكن لأي شخص تبنى نظرية النسبية أن يواجهها. فيديو هونيوان or وان 2.1 من المؤكد أن مولدات الفيديو بالذكاء الاصطناعي قد صادفت الآن: الانحرافات الزمنية، حيث تميل العملية التوليدية إلى التسريع المفاجئ، أو الدمج، أو الحذف، أو إفساد اللحظات الحاسمة في مقطع فيديو تم إنشاؤه:

انقر للعببعض الخلل الزمني الذي أصبح مألوفًا لمستخدمي الموجة الجديدة من أنظمة الفيديو التوليدية، كما سُلِّط الضوء عليه في الورقة البحثية الجديدة. على اليمين، التأثير المُحسِّن لنهج FluxFlow الجديد. المصدر: https://haroldchen19.github.io/FluxFlow/

يتضمن الفيديو أعلاه مقتطفات من مقاطع فيديو اختبارية نموذجية في (كن حذرًا: فوضوي إلى حد ما) موقع المشروع للورقة البحثية. يمكننا أن نرى العديد من القضايا المألوفة بشكل متزايد يتم معالجتها من خلال طريقة المؤلفين (الصورة على اليمين في الفيديو)، والتي تعد في الواقع معالجة مسبقة لمجموعة البيانات تقنية قابلة للتطبيق على أي بنية فيديو توليدية.

في المثال الأول، الذي يظهر فيه "طفلان يلعبان بالكرة"، تم إنشاؤه بواسطة كوجفيديو اكسنرى (على اليسار في الفيديو التجميعي أعلاه وفي المثال المحدد أدناه) أن الجيل الأصلي يقفز بسرعة عبر عدة حركات دقيقة أساسية، مما يُسرّع نشاط الأطفال إلى مستوى "رسوم متحركة". على النقيض من ذلك، تُعطي نفس مجموعة البيانات والطريقة نتائج أفضل باستخدام تقنية المعالجة المسبقة الجديدة، المسماة فلوكس فلو (على يمين الصورة في الفيديو أدناه):

انقر للعب.

في المثال الثاني (باستخدام نوفا -0.6 ب) نرى أن الحركة المركزية التي تتضمن قطة قد تعرضت بطريقة ما للفساد أو تم تقليل العينات بشكل كبير في مرحلة التدريب، إلى الحد الذي أصبح فيه النظام التوليدي "مشلولًا" وغير قادر على تحريك الموضوع:

انقر للعب.

هذه المتلازمة، حيث تتوقف الحركة أو الموضوع، هي واحدة من أكثر المشاكل التي يتم الإبلاغ عنها بشكل متكرر في HV و Wan، في مجموعات تركيب الصور والفيديو المختلفة.

ترتبط بعض هذه المشكلات بقضايا ترجمة الفيديو في مجموعة البيانات المصدرية، والتي قمنا بحلها. ألقيت نظرة على هذا الأسبوعولكن مؤلفي العمل الجديد يركزون جهودهم على الصفات الزمنية لبيانات التدريب بدلاً من ذلك، ويقدمون حجة مقنعة مفادها أن معالجة التحديات من هذا المنظور يمكن أن تسفر عن نتائج مفيدة.

كما ذكرنا في المقال السابق حول ترجمة الفيديو، هناك بعض الرياضة من الصعب بشكل خاص تلخيص الأحداث المهمة في لحظات رئيسية، مما يعني أن الأحداث الحاسمة (مثل الضربة القاضية) لا تحظى بالاهتمام الذي تحتاجه في وقت التدريب:

انقر للعب.

في المثال أعلاه، لا يعرف النظام التوليدي كيفية الوصول إلى المرحلة التالية من الحركة، وينتقل بشكل غير منطقي من وضعية إلى أخرى، مما يؤدي إلى تغيير موقف وهندسة اللاعب في هذه العملية.

هذه هي الحركات الكبيرة التي فقدت أثناء التدريب - ولكن هناك حركات أصغر بكثير ولكنها محورية معرضة للخطر بنفس القدر، مثل رفرفة أجنحة الفراشة:

انقر للعب.

على عكس الضربة القاضية، فإن رفرفة الأجنحة ليست حدثًا نادرًا، بل هي حدث مستمر ورتيب. ومع ذلك، يضيع اتساقها في عملية أخذ العينات، لأن الحركة سريعة جدًا بحيث يصعب تحديدها زمنيًا.

لا تعد هذه قضايا جديدة بشكل خاص، ولكنها تحظى باهتمام أكبر الآن بعد أن أصبحت نماذج الفيديو التوليدية القوية متاحة لهواة التثبيت المحلي والتوليد المجاني.

تعاملت مجتمعات Reddit وDiscord في البداية مع هذه المشكلات على أنها "متعلقة بالمستخدم". وهذا افتراض مفهوم، لأن الأنظمة المعنية حديثة العهد جدًا وموثقة بشكل محدود. لذلك، اقترح العديد من الخبراء حلولًا متنوعة (وليس دائمًا فعالة) لبعض الثغرات الموثقة هنا، مثل تغيير إعدادات مكونات مختلفة لأنواع مختلفة من سير عمل ComfyUI لنظامي Hunyuan Video (HV) وWan 2.1.

في بعض الحالات، بدلاً من إنتاج حركة سريعة، سوف ينتج كل من HV وWan بطيء الحركة. تتضمن الاقتراحات من Reddit وChatGPT (الذي يعتمد في الغالب على Reddit) تغيير عدد الإطارات في الجيل المطلوب، أو خفض معدل الإطارات بشكل جذري*.

كل هذا كلام يائس؛ والحقيقة الناشئة هي أننا لا نعرف بعد السبب الدقيق أو العلاج الدقيق لهذه المشكلات؛ ومن الواضح أن تعذيب إعدادات الجيل للعمل حولها (خاصة عندما يؤدي هذا إلى تدهور جودة الإخراج، على سبيل المثال بمعدل إطارات في الثانية منخفض للغاية) ليس سوى توقف قصير، ومن الجيد أن نرى أن مشهد البحث يعالج القضايا الناشئة بهذه السرعة.

لذا، بالإضافة إلى نظرة هذا الأسبوع إلى كيفية تأثير الترجمة التوضيحية على التدريب، دعونا نلقي نظرة على الورقة البحثية الجديدة حول التنظيم الزمني، وما هي التحسينات التي قد تقدمها لمشهد الفيديو التوليدي الحالي.

الفكرة المركزية بسيطة إلى حد ما وطفيفة، ولا تقل سوءًا عن ذلك؛ ومع ذلك فإن الورقة مبطنة إلى حد ما من أجل الوصول إلى الصفحات الثماني المحددة، وسوف نتخطى هذا الحشو حسب الضرورة.

السمكة في الجيل الأصلي من إطار عمل VideoCrafter ثابتة، بينما النسخة المُعدّلة بواسطة FluxFlow تُسجّل التغييرات المطلوبة. المصدر: https://arxiv.org/pdf/2503.15417

إن الأسماك الموجودة في الجيل الأصلي من إطار عمل VideoCrafter ثابتة، في حين أن الإصدار المعدل بواسطة FluxFlow يلتقط التغييرات المطلوبة. المصدر: https://arxiv.org/pdf/2503.15417

استخدم عمل جديد بعنوان التنظيم الزمني يجعل مُولِّد الفيديو الخاص بك أقوىويأتي هذا البحث من ثمانية باحثين من شركة Everlyn AI، وجامعة هونج كونج للعلوم والتكنولوجيا (HKUST)، وجامعة سنترال فلوريدا (UCF)، وجامعة هونج كونج (HKU).

(في وقت كتابة هذا التقرير، كانت هناك بعض المشاكل المتعلقة بالورقة المرفقة. موقع المشروع)

فلوكس فلو

الفكرة المركزية وراء فلوكس فلو، المخطط التدريبي المسبق الجديد للمؤلفين، هو التغلب على المشاكل واسعة النطاق وامض و التناقض الزمني من خلال خلط الكتل ومجموعات الكتل في ترتيب الإطار الزمني أثناء تعرض بيانات المصدر لعملية التدريب:

الفكرة الأساسية وراء FluxFlow هي نقل الكتل ومجموعات الكتل إلى مواضع غير متوقعة وغير زمنية، كشكل من أشكال زيادة البيانات.

تشرح الورقة:

"تنشأ [القطع الأثرية] من قيد أساسي: على الرغم من الاستفادة من مجموعات البيانات واسعة النطاق، فإن النماذج الحالية تعتمد غالبًا على أنماط زمنية مبسطة في بيانات التدريب (على سبيل المثال، اتجاهات المشي الثابتة أو انتقالات الإطارات المتكررة) بدلاً من تعلم ديناميكيات زمنية متنوعة ومعقولة.

"تتفاقم هذه المشكلة بسبب عدم وجود زيادة زمنية صريحة أثناء التدريب، مما يجعل النماذج عرضة للمبالغة في التجهيز لارتباطات زمنية زائفة (على سبيل المثال، "يجب أن يتبع الإطار رقم 5 الإطار رقم 4") بدلاً من التعميم عبر سيناريوهات الحركة المتنوعة."

يوضح المؤلفون أن معظم نماذج توليد الفيديو لا تزال تستعير الكثير من صورة التوليف، مع التركيز على الدقة المكانية مع تجاهل المحور الزمني إلى حد كبير. على الرغم من أن تقنيات مثل القص والتقليب واهتزاز الألوان قد ساعدت في تحسين جودة الصورة الثابتة، إلا أنها لا تُعدّ حلولاً مناسبة عند تطبيقها على مقاطع الفيديو، حيث يعتمد وهم الحركة على انتقالات متسقة عبر الإطارات.

وتتضمن المشكلات الناتجة عن ذلك القوام المتذبذب، والتقطيعات غير المتناسقة بين الإطارات، وأنماط الحركة المتكررة أو البسيطة للغاية.

انقر للعب.

وتزعم الورقة أنه على الرغم من أن بعض النماذج - بما في ذلك نشر الفيديو مستقر و لاماجين - التعويض عن طريق الهندسة المعمارية المعقدة بشكل متزايد أو القيود الهندسية، وهذا يأتي بتكلفة من حيث الحوسبة والمرونة.

نظرًا لأن زيادة البيانات الزمنية أثبتت بالفعل فائدتها في الفيديو فهم المهام (في أطر مثل فاين كليبر, سيفار و SVFormer) ومن المدهش، كما يؤكد المؤلفون، أن هذا التكتيك نادراً ما يتم تطبيقه في سياق توليدي.

السلوك التخريبي

يزعم الباحثون أن الاضطرابات البسيطة والمنظمة في الترتيب الزمني أثناء التدريب تساعد النماذج على التعميم بشكل أفضل للحركة الواقعية والمتنوعة:

من خلال التدريب على تسلسلات غير منظمة، يتعلم المولد استعادة المسارات المعقولة، مما يُنظّم الإنتروبيا الزمنية بفعالية. يُسدّ FLUXFLOW الفجوة بين التعزيز الزمني التمييزي والتوليدي، مُقدّمًا حلاً مُحسّنًا جاهزًا لتوليد فيديو معقول زمنيًا مع تحسين الجودة الشاملة.

'على عكس الطرق الحالية التي تقدم تغييرات معمارية أو تعتمد على المعالجة اللاحقة، تعمل FLUXFLOW مباشرة على مستوى البيانات، مما يؤدي إلى تقديم اضطرابات زمنية محكومة أثناء التدريب.'

انقر للعب.

يذكر المؤلفون أن الاضطرابات على مستوى الإطار تُحدث اختلالات دقيقة في التسلسل. هذا النوع من الاختلال لا يختلف عن تكبير القناع، حيث يتم حظر أقسام البيانات بشكل عشوائي، لمنع النظام المفرط على نقاط البيانات، وتشجيع الأفضل تعميم.

اختبارات

على الرغم من أن الفكرة المركزية هنا لا تصل إلى ورقة بحثية كاملة الطول، بسبب بساطتها، إلا أنه يوجد قسم اختبار يمكننا إلقاء نظرة عليه.

قام المؤلفون باختبار أربعة استفسارات تتعلق بتحسين الجودة الزمنية مع الحفاظ على الدقة المكانية؛ والقدرة على تعلم ديناميكيات الحركة/التدفق البصري؛ والحفاظ على الجودة الزمنية في الجيل الإضافي؛ والحساسية للمعلمات الفائقة الرئيسية.

قام الباحثون بتطبيق FluxFlow على ثلاث هياكل توليدية: تعتمد على U-Net، في شكل فيديوكرافتر2; DIT- على أساس، في شكل CogVideoX-2B؛ و AR-على أساس، في شكل NOVA-0.6B.

من أجل المقارنة العادلة، قاموا بضبط النماذج الأساسية للهندسة المعمارية باستخدام FluxFlow كمرحلة تدريب إضافية، لواحدة عصر، على OpenVidHD-0.4M مجموعة البيانات.

تم تقييم النماذج وفقًا لمعيارين شائعين: يو سي إف-101، و في بينش.

بالنسبة لـ UCF، مسافة فيديو فريشيت (FVD) و نقاط البداية تم استخدام مقاييس (IS). بالنسبة لـ VBench، ركز الباحثون على الجودة الزمنية، والجودة الإطارية، والجودة الشاملة.

التقييم الكمي الأولي لإطار FluxFlow. يشير "+ الأصلي" إلى التدريب بدون FLUXFLOW، بينما يشير "+ رقم × 1" إلى تكوينات مختلفة لإطار FluxFlow. أفضل النتائج مظللة، والثانية مسطرة لكل نموذج.

وفي تعليقه على هذه النتائج، يقول المؤلفون:

"يعمل كل من FLUXFLOW-FRAME وFLUXFLOW-BLOCK على تحسين الجودة الزمنية بشكل كبير، كما يتضح من المقاييس في علامات التبويب 1 و2 (أي FVD، والموضوع، والوميض، والحركة، والديناميكية) والنتائج النوعية في [الصورة أدناه].

على سبيل المثال، حركة السيارة المنجرفة في VC2، والقطة التي تطارد ذيلها في NOVA، وراكب الأمواج الذي يركب الموجة في CVX، أصبحت أكثر سلاسةً بشكل ملحوظ مع FLUXFLOW. والأهم من ذلك، أن هذه التحسينات الزمنية تُحقق دون المساس بالدقة المكانية، كما يتضح من التفاصيل الدقيقة لرذاذ الماء، وآثار الدخان، وقوام الأمواج، إلى جانب مقاييس الدقة المكانية والإجمالية.

فيما يلي نرى مختارات من النتائج النوعية التي يشير إليها المؤلفون (يرجى الاطلاع على الورقة الأصلية للحصول على النتائج الكاملة والدقة الأفضل):

اختيارات من النتائج النوعية.

تشير الورقة البحثية إلى أنه في حين أن كلاً من الاضطرابات على مستوى الإطار ومستوى الكتلة تُحسّن الجودة الزمنية، إلا أن أساليب مستوى الإطار عادةً ما تكون أفضل أداءً. ويُعزى ذلك إلى دقة تفاصيلها، مما يُتيح تعديلات زمنية أكثر دقة. في المقابل، قد تُسبب الاضطرابات على مستوى الكتلة تشويشًا بسبب الترابط الوثيق بين الأنماط المكانية والزمانية داخل الكتل، مما يُقلل من فعاليتها.

خاتمة

هذه الورقة، إلى جانب ورقة بحثية من Bytedance-Tsinghua التعاون في الترجمة التوضيحية وقد أوضحت لي الدراسة التي صدرت هذا الأسبوع أن العيوب الواضحة في الجيل الجديد من نماذج الفيديو التوليدية قد لا تكون ناجمة عن خطأ المستخدم، أو الأخطاء المؤسسية، أو قيود التمويل، بل عن التركيز البحثي الذي أعطى الأولوية بشكل مفهوم للتحديات الأكثر إلحاحًا، مثل التماسك الزمني والاتساق، على هذه المخاوف الأقل أهمية.

حتى وقت قريب، كانت نتائج أنظمة الفيديو التوليدية المتاحة والقابلة للتنزيل مجانًا ضعيفة للغاية لدرجة أنه لم يظهر أي جهد كبير من مجتمع المتحمسين لمعالجة المشكلات (ليس أقلها لأن المشكلات كانت أساسية وغير قابلة للحل بسهولة).

والآن بعد أن أصبحنا أقرب كثيراً إلى العصر الذي تنبأنا به منذ فترة طويلة لإنتاج مقاطع فيديو واقعية تعتمد على الذكاء الاصطناعي فقط، بات من الواضح أن كلاً من مجتمعي البحث والدراسة أصبح لديهما اهتمام أعمق وأكثر إنتاجية بحل القضايا المتبقية؛ ومع أي حظ، لن تكون هذه عقبات مستعصية.

* معدل الإطارات الأصلي في Wan هو 16 إطارًا في الثانية فقط، واستجابةً لمشكلاتي الخاصة، لاحظت أن المنتديات اقترحت خفض معدل الإطارات إلى 12 إطارًا في الثانية، ثم استخدام إطارات التدفق أو أنظمة إعادة التدفق الأخرى المعتمدة على الذكاء الاصطناعي لسد الفجوات بين هذا العدد القليل من الإطارات.

نُشرت لأول مرة يوم الجمعة 21 مارس 2025

مواضيع ذات صلة:فيديو AI زيادة البيانات الفيديو انتشار الفيديو

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai