زاوية Anderson
تحسين الذكاء الاصطناعي التوليدي للفيديو من خلال إعادة ترتيب الإطارات أثناء التدريب

يعالج بحث جديد نشر هذا الأسبوع على Arxiv مشكلة واجهها أي شخص اعتمد نظام Hunyuan Video أو Wan 2.1 لإنشاء فيديوهات ذكاء اصطناعي: الانحرافات الزمنية ، حيث يميل عملية التوليد إلى تسريع أو دمج أو حذف أو إفساد لحظات حاسمة في فيديو تم إنشاؤه:
انقر للعب. بعض العيوب الزمنية التي أصبحت مألوفة لمستخدمي نظام الفيديو التوليدي الجديد، موضحة في البحث الجديد. على اليمين ، تأثير FluxFlow الجيد. مصدر: https://haroldchen19.github.io/FluxFlow/
يتميز الفيديو أعلاه بمقاطع من مقاطع الفيديو التجريبية على موقع المشروع (كن على حذر: قد يكون الموقع مخيفًا) للبحث. يمكننا رؤية عدة مشاكل متزايدة في الإلمام التي يتم تخفيفها بواسطة طريقة المؤلفين (الموضحة على اليمين في الفيديو) ، والتي هي في الأساس تقنية مُسبقة للمعالجة قابلة للتطبيق على أي معمارية فيديو توليدية.
في المثال الأول ، الذي يظهر “طفلين يلعبون بكرة” ، تم إنشاؤه بواسطة CogVideoX ، نرى (على اليسار في الفيديو المجمع أعلاه وفي المثال المحدد أدناه) أن التوليد الأصلي ينتقل بسرعة عبر حركات دقيقة أساسية ، ويزيد من سرعة نشاط الأطفال إلى مستوى “كرتوني”. من خلال المقارنة ، نفس مجموعة البيانات والطريقة تنتج نتائج أفضل مع تقنية المعالجة المسبقة الجديدة ، التي سميت FluxFlow (على يمين الصورة في الفيديو أدناه):
انقر للعب.
في المثال الثاني (باستخدام NOVA-0.6B) نرى أن حركة مركزية تتضمن قطة قد تضررت أو تمت عينة بشكل كبير في مرحلة التدريب ، إلى الحد الذي يصبح نظام التوليد “مُحجما” ويعجز عن جعل الموضوع يتحرك:
انقر للعب.
هذا المرض ، حيث يصبح الحركة أو الموضوع “عالقا” ، هو واحد من أكثر الأخطاء المزعجة ل HV و Wan ، في مجموعات合成 الصور والفيديو.
بعض من هذه المشاكل تتعلق بمشاكل تعليم الفيديو في مجموعة البيانات الأصلية ، والتي نظرنا إليها هذا الأسبوع؛ لكن مؤلفي العمل الجديد يركزون جهودهم على الجوانب الزمنية لمجموعة البيانات بدلاً من ذلك ، ويقدمون حجة مقنعة بأن معالجة التحديات من هذا المنظور يمكن أن يؤدي إلى نتائج مفيدة.
كما ذكرنا في المقال السابق حول تعليم الفيديو ، فإن بعض الرياضات معينة هي صعبة بشكل خاص لتحويلها إلى لحظات رئيسية ، مما يعني أن الأحداث الحاسمة (مثل Dunk) لا تحصل على الاهتمام الذي تحتاجه في وقت التدريب:
انقر للعب.
في المثال أعلاه ، لا يعرف نظام التوليد كيفية الانتقال إلى مرحلة الحركة التالية ، ويتحرك بشكل غير منطقي من وضع إلى آخر ، مما يغير موقف و هندسة اللاعب في العملية.
هذه هي الحركات الكبيرة التي فقدت في التدريب – ولكن بالتأكيد الحركات الصغيرة الحاسمة ، مثل طيران فراشة ، هي أيضًا ضعيفة:
انقر للعب.
على عكس Dunk ، فإن طيران الأجنحة ليس حدثًا “نادرًا” ولكن حدثًا مستمرًا ومتكررًا. ومع ذلك ، فإن استمراريته تُفقد في عملية العينة ، لأن الحركة سريعة جدًا بحيث يصعب تحديدها زمنيًا.
هذه ليست مشاكل جديدة ، ولكنها تحصل على المزيد من الاهتمام الآن أن النماذج التوليدية للفيديو القوية متاحة للمحترفين للتثبيت المحلي والتحليل المجاني.
المجتمعات على Reddit و Discord عالجت هذه القضايا في البداية على أنها “متعلقة بالمستخدم”. هذا هو افتراض مفهوم ، لأن الأنظمة المذكورة هي جديدة جدًا وثمينة بشكل ضعيف. لذلك اقترح بعض الخبراء علاجات متنوعة (وليس دائمًا فعالة) لبعض العيوب الوثائقية هنا ، مثل تغيير الإعدادات في مكونات مختلفة من أنواع مختلفة من ComfyUI ل Hunyuan Video (HV) و Wan 2.1.
في بعض الحالات ، بدلاً من إنتاج حركة سريعة ، سوف ينتج كلا HV و Wan حركة بطيئة. تشمل اقتراحات Reddit و ChatGPT (التي تعتمد في الغالب على Reddit) تغيير عدد الإطارات في التوليد المطلوب ، أو خفض معدل الإطار بشكل كبير.
هذا كل شيء من الأشياء اليائسة ؛ الحقيقة الناشئة هي أننا لا نعرف بعد السبب الدقيق أو العلاج الدقيق لهذه المشاكل ؛ من الواضح أن تعذيب إعدادات التوليد للعمل حولها (特别 عندما يؤدي ذلك إلى تدهور جودة الإخراج ، على سبيل المثال مع معدل إطار منخفض جدًا) هو فقط حل مؤقت ، ومن الجيد رؤية أن المشهد البحثي يعالج المشاكل الناشئة بسرعة.
لذلك ، بالإضافة إلى نظرة هذا الأسبوع إلى كيفية تأثير تعليم الفيديو على التدريب ، دعونا ننظر إلى البحث الجديد حول التنظيم الزمني ، وما الإمكانيات التي قد يقدمها لمشهد الفيديو التوليدي الحالي.
الفكرة المركزية بسيطة وسهلة ، ولا يوجد شيء خاطئ في ذلك ؛ ومع ذلك ، فإن البحث مُكثف إلى حد ما لتحقيق 八 صفحات ، وسنقوم بتجاوز هذا التكثيف حسب الضرورة.

السمكة في التوليد الأصلي لإطار VideoCrafter ثابتة ، بينما يلتقط الإصدار المعدل بواسطة FluxFlow التغييرات المطلوبة. مصدر: https://arxiv.org/pdf/2503.15417
البحث الجديد ، بعنوان التنظيم الزمني يجعل مولد الفيديو الخاص بك أقوى ، يأتي من ثمانية باحثين عبر Everlyn AI ، جامعة العلوم والتكنولوجيا في هونغ كونغ (HKUST) ، جامعة فلوريدا المركزية (UCF) ، وجامعة هونغ كونغ (HKU).
(في وقت الكتابة ، هناك بعض المشاكل مع موقع المشروع المصاحب FluxFlow)
FluxFlow
تتمثل الفكرة المركزية وراء FluxFlow ، مخطط التدريب الجديد للمؤلفين ، في التغلب على المشاكل الشائعة الوميض و عدم الاتساق الزمني من خلال إعادة ترتيب الكتلة والكتلة من الإطارات الزمنية أثناء عملية التدريب:

تتمثل الفكرة المركزية وراء FluxFlow في نقل الكتل والكتلة إلى مواقع غير متوقعة وغير زمنية ، كشكل من أشكال تعزيز البيانات.
يشرح البحث:
‘ينشأ العيوب نتيجة لقيود أساسية: على الرغم من استخدام مجموعات بيانات كبيرة ، فإن النماذج الحالية تعتمد في الغالب على أنماط زمنية مبسطة في بيانات التدريب (على سبيل المثال ، اتجاهات المشي الثابتة أو انتقالات الإطارات المتكررة) بدلاً من تعلم ديناميات زمنية متنوعة ومقبولة.
‘تُشدد هذه القضية بسبب عدم وجود تعزيز زمني صريح خلال التدريب ، مما يترك النماذج عرضة للاستفادة من علاقات زمنية خادعة (على سبيل المثال ، “الإطار #5 يجب أن يتبع #4”) بدلاً من تعميمها عبر سيناريوهات حركة متنوعة.’
معظم نماذج توليد الفيديو ، يشرح المؤلفون ، لا تزال تعتمد بشكل كبير على توليد الصور ، مع التركيز على الإيمان المكاني بينما تتجاهل إلى حد كبير المحور الزمني. على الرغم من أن تقنيات مثل القص والتحويل والتحويل اللوني ساعدت في تحسين جودة الصورة الثابتة ، إلا أنها ليست حلول كافية عند تطبيقها على الفيديوهات ، حيث يعتمد وهم الحركة على انتقالات متسقة عبر الإطارات.
تشمل المشاكل الناتجة عنها ظهور نصوص ووميض ، وقطوع جارحة بين الإطارات ، ونمط حركة متكرر أو بسيط بشكل مبالغ فيه.
انقر للعب.
يجادل البحث بأن хотя بعض النماذج – بما في ذلك Stable Video Diffusion و LlamaGen – تعويضها مع معمارية أكثر تعقيدًا أو قيود محددة ، فإن هذه الحلول تأتي بتكلفة فيما يتعلق بالحوسبة والمرونة.
منذ أن ثبت أن تعزيز البيانات الزمنية مفيدًا في مهام فهم الفيديو (في إطارات مثل FineCliper ، SeFAR و SVFormer) من الم驚 ، يؤكد المؤلفون ، أن هذا التكتيك نادرًا ما يُطبق في سياق توليدي.
السلوك المضطرب
يؤكد الباحثون على أن الانحرافات البسيطة والموضوعة في الترتيب الزمني أثناء التدريب تساعد النماذج على تعميم أفضل لحركة واقعية ومتنوعة:
‘من خلال التدريب على تسلسلات غير منضبطة ، يتعلم المولد استعادة مسارات قابلة للتطبيق ، مما يؤدي إلى تنظيم انتروبي زمني بشكل فعال. FluxFlow يغلق الفجوة بين تعزيز زمني تمييزي وتوليدي ، ويوفر حل تعزيز لتحسين جودة الفيديو الزمنية بينما يحسن الجودة العامة.
‘على عكس الطرق الحالية التي تقدم تغييرات معمارية أو تعتمد على المعالجة بعد الإنتاج ، FluxFlow يعمل مباشرة على مستوى البيانات ، ويقدم انحرافات زمنية خاضعة للسيطرة أثناء التدريب.’
انقر للعب.
الانحرافات على مستوى الإطار ، يذكر المؤلفون ، تقدم انحرافات دقيقة داخل التسلسل. هذا النوع من الانحراف ليس مختلفًا عن تعزيز التخفي ، حيث يتم حظر أقسام من البيانات بشكل عشوائي ، لمنع النظام التعلم الزائد على نقاط البيانات ، وتشجيع تعميم أفضل .
الاختبارات
على الرغم من أن الفكرة المركزية هنا لا تصل إلى بحث كامل ، بسبب بساطتها ، ومع ذلك هناك قسم اختبار يمكننا النظر إليه.
قامت المؤلفون باختبار أربعة استفسارات تتعلق بتحسين الجودة الزمنية مع الحفاظ على الإيمان المكاني ؛ القدرة على تعلم حركة / ديناميكيات التدفق الضوئي ؛ الحفاظ على الجودة الزمنية في التوليد الخارجي ؛ وحساسية للمتغيرات الأساسية.
قام الباحثون بتطبيق FluxFlow على ثلاثة معمارية توليدية: قائم على U-Net ، في شكل VideoCrafter2 ؛ قائم على DiT ، في شكل CogVideoX-2B ؛ وقائم على AR ، في شكل NOVA-0.6B.
من أجل المقارنة العادلة ، قاموا بتعديل نماذج المعمارية الأساسية مع FluxFlow كمرحلة تدريب إضافية ، لمدة دورة ، على مجموعة بيانات OpenVidHD-0.4M.
تم تقييم النماذج ضد两个 معايير شائعين: UCF-101 ؛ و VBench.
对于 UCF ، تم استخدام معايير Fréchet Video Distance (FVD) و Inception Score (IS).对于 VBench ، ركز الباحثون على الجودة الزمنية ، والجودة الإطارية ، والجودة العامة.

التقييم الأولي الكمي ل FluxFlow-Frame. “+ الأصلي” يشير إلى التدريب بدون FLUXFLOW ، بينما “+ Num × 1” يظهر不同的 تكوينات FluxFlow-Frame. أفضل النتائج محددة؛ الثانية أفضل محددة تحتها لكل نموذج.
في تعليقهم على هذه النتائج ، يذكر المؤلفون:
‘كلا FLUXFLOW-FRAME و FLUXFLOW-BLOCK يحسنان الجودة الزمنية بشكل كبير ، كما يتضح من المعايير في الجدول 1 و 2 (أي FVD ، Subject ، Flicker ، Motion ، و Dynamic) والنتائج النوعية في [الصورة أدناه].
‘على سبيل المثال ، حركة السيارة التي تتدحرج في VC2 ، والقطة التي ت追ع ذيلها في NOVA ، والمتسابق الذي يركب موجة في CVX أصبحت أكثر سلاسة مع FLUXFLOW. ومن المهم أن هذه التحسينات الزمنية تتحقق دون التضحية بالوضوح المكاني ، كما يتضح من التفاصيل الحادة للرذاذ ، وخطوط الدخان ، وخطوط الموجات ، بالإضافة إلى معايير الوضوح المكاني والكلي.’
فيما يلي ، نرى مختارات من النتائج النوعية التي يشير إليها المؤلفون (يرجى الرجوع إلى البحث الأصلي للنتائج الكاملة وبدقة أفضل):

مختارات من النتائج النوعية.
يُشير البحث إلى أن كلا الانحرافات على مستوى الإطار والكتلة تحسنان الجودة الزمنية ، ولكن الانحرافات على مستوى الإطار تميل إلى الأداء بشكل أفضل. يُعزى هذا إلى دقتهم الأفضل ، مما يسمح بتعديلات زمنية أكثر دقة. الانحرافات على مستوى الكتلة ، من ناحية أخرى ، قد تقدم ضوضاء بسبب الأنماط المكانية والزمنية المرتبطة ارتباطًا وثيقًا داخل الكتل ، مما يقلل من فعاليتها.
الختام
هذا البحث ، جنبًا إلى جنب مع تعاون التسمية من Bytedance-Tsinghua المنشور هذا الأسبوع ، جعلني أدرك أن العيوب الظاهرة في جيل جديد من نماذج الفيديو التوليدية قد لا تنتج عن خطأ المستخدم أو خطأ مؤسسي أو قيود تمويلية ، ولكن بسبب تركيز بحثي يركز بشكل معقول على تحديات أكثر إلحاحًا ، مثل الاتساق الزمني والاتساق ، على هذه القضايا الأقل أهمية.
حتى وقت قريب ، كانت النتائج من الأنظمة التوليدية للفيديو المتاحة مجانًا ويمكن تحميلها مُromise إلى حد ما ، لذلك لم يظهر جهد كبير من مجتمع المهتمين لتصحيح هذه القضايا (وليس أقلها لأن القضايا كانت أساسية ولا يمكن حلها بسهولة).
الآن ، نحن أقرب إلى العصر المتوقع للفيديو التوليدي الفوتوغرافي الخالص ، من الواضح أن كلا المجتمعات البحثية والهواة يأخذون اهتمامًا أعمق وأكثر إنتاجية في حل القضايا المتبقية ؛ مع الحظ ، هذه ليست عقبات لا يمكن التغلب عليها.
* معدل الإطار الأصلي ل Wan هو 16 إطارًا في الثانية ، وأشير إلى أن مناقشاتي الخاصة مع القضايا اقترحت خفض معدل الإطار إلى 12 إطارًا في الثانية ، ثم استخدام FlowFrames أو أنظمة إعادة تدفق أخرى قائم على الذكاء الاصطناعي لاستيفاء الفجوات بين عدد الإطارات النادر.
نشر لأول مرة يوم الجمعة ، 21 مارس 2025












