الذكاء الاصطناعي

طهي الاستمرارية السردية لجيل الفيديو الطويل

نُشر في 16 يناير 2025

تم التحديث في 19 مايو 2026

بواسطة

Martin Anderson

ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

الإصدار العام الrecent public release من نموذج Hunyuan Video التوليدي للذكاء الاصطناعي قد زادت المناقشات الجارية حول إمكانية نماذج الرؤية واللغة الكبيرة المتعددة النماذج لإنشاء أفلام كاملة في يوم من الأيام.

然而، كما لقد لاحظنا، هذا هو منظور بعيد جدا في الوقت الحالي، لعدد من الأسباب. واحد منهم هو نافذة الانتباه القصيرة جدا لمعظم مولدات الفيديو التوليدية، التي تعاني من الحفاظ على الاستمرارية حتى في لقطة قصيرة، ناهيما عن سلسلة من اللقطات.

وأخرى هي أن المراجع المستمرة للمحتوى الفيديوي (مثل البيئات القابلة للاستكشاف، التي لا يجب أن تتغير عشوائيا إذا عاد تراجع خطواتك من خلالها) يمكن تحقيقها فقط في نماذج الانتشار من خلال تقنيات التخصيص مثل الاضبط منخفض الرتبة (LoRA)، الذي يقيد القدرات الجاهزة لنموذج الأساس.

لذلك يبدو أن تطور الفيديو التوليدي سيتم إيقافه إلا إذا تم تطوير نهج جديد للاستمرارية السردية.

وصفة الاستمرارية

مع هذا في الاعتبار، اقترحت تعاونية جديدة بين الولايات المتحدة والصين استخدام فيديوهات الطهي الإرشادية كقالب ممكن لنظم الاستمرارية السردية في المستقبل.

انقر للعب. يحلل نظام مشروع VideoAuteur أجزاء من عملية الطهي لإنتاج مجموعة جديدة من البيانات ومетод توجيه لإنشاء فيديوهات الطهي. الرجاء الرجوع إلى الموقع المصدر للحصول على دقة أفضل. المصدر: https://videoauteur.github.io/

مصطلح VideoAuteur ، يقترح خط أنابيب من مرحلتين لإنشاء فيديوهات طهي إرشادية باستخدام حالات متوافقة معًا مع الإطارات الرئيسية والتعليقات، وتحقيق نتائج على مستوى الدولة في – بالفعل – مساحة غير مشهورة.

يحتوي صفحة مشروع VideoAuteur أيضًا على عدد من الفيديوهات الأكثر إثارة للانتباه التي تستخدم نفس التقنية، مثل مقترح لمقطع دعائي لفيلم كروس أوفر بين مارفل ودي سي:

انقر للعب. يتقابل بطلان خارقان من عوالم بديلة في مقطع دعائي مزيف من VideoAuteur. الرجاء الرجوع إلى الموقع المصدر للحصول على دقة أفضل.

تتميز الصفحة أيضًا بفيديوهات ترويجية مماثلة لシリーズ حيوانات نيتفليكس و إعلان سيارة تسلا.

في تطوير VideoAuteur، قام المؤلفون بتجربة وظائف خسارة متنوعة، ومنهجية جديدة. لإنشاء تدفق عمل لإنشاء كيفية الطهي، قاموا أيضًا بتحضير CookGen، أكبر مجموعة بيانات مركزة على مجال الطهي، وتضم 200,000 مقطع فيديو مع متوسط مدة 9.5 ثانية.

بمعدل 768.3 كلمة لكل فيديو، CookGen هو بسهولة مجموعة البيانات الأكثر توثيقًا من نوعها. تم استخدام نماذج رؤية ولغة متنوعة، من بين نهج أخرى، لضمان أن تكون الوصفات موثوقة وملائمة ومدقة قدر الإمكان.

تم اختيار فيديوهات الطهي لأنها تعليمية سيرية لها سردية منظمة وواضحة، مما يجعل عملية التعليق والتقييم مهمة أسهل. باستثناء مقاطع الفيديو الإباحية (من المحتمل أن تدخل هذا الفضاء قريبا)، من الصعب التفكير في أي نوع آخر مرئي وسردی كما هو “مثالي”.

يصر المؤلفون على أن:

‘نظامنا المقترح ذو المرحلتين التلقائي، الذي يتضمن مدير سرد طويل وإنشاء فيديو مشروط بالرؤية، يظهر تحسينات واعدة في الاتساق الدلالي والوضوح البصري في مقاطع الفيديو السردية الطويلة.

من خلال التجارب على مجموعة بياناتنا، نلاحظ تحسينات في الاتساق المكاني والزمني عبر تسلسلات الفيديو.

‘نأمل أن يساهم عملنا في تعزيز البحث في إنشاء مقاطع فيديو سردية طويلة.’

العمل الجديد جديد بعنوان VideoAuteur: نحو إنشاء فيديو سردی طويل، ويأتي من ثمانية مؤلفين عبر جامعة جونز هوبكنز، بايت دانس، وبايت دانس سييد.

تحضير مجموعة البيانات

لإنشاء CookGen، التي تزوّد نظامًا توليديًا من مرحلتين لإنشاء مقاطع فيديو طهي، استخدم المؤلفون مواد من YouCook و HowTo100M المجموعات. يقارن المؤلفون حجم CookGen بمجموعات البيانات السابقة المُركزة على التطوير السردي في الفيديو التوليدي، مثل مجموعة Flintstones، و مجموعة Pororo الكرتونية، و StoryGen، و StoryStream لشركة تينسنت، و VIST.

مقارنة بين الصور وطول النص بين CookGen والمجموعات المماثلة الأكثر إشغالًا. المصدر: https://arxiv.org/pdf/2501.06173

CookGen يركز على الروايات العالمية، ولا سيما الأنشطة الإجرائية مثل الطهي، ويوفر قصصًا أوضح وأسهل للتعليل والمقياس. يتجاوز أكبر مجموعة بيانات موجودة، StoryStream، ب 150 مرة أكثر الإطارات و 5 مرات أكثر كثافة في الوصف النصي.

قام الباحثون بتحسين نموذج تعليق باستخدام منهجية LLaVA-NeXT كقاعدة. تم استخدام العلامات الزائفة للتعرف على الكلام التلقائي (ASR) المكتسبة من HowTo100M كـ “إجراءات” لكل فيديو، ثم تم تحسينها بشكل أكبر بواسطة نماذج اللغة الكبيرة (LLMs).

على سبيل المثال، تم استخدام ChatGPT-4o لإنتاج مجموعة تعليقات، وتم طلبه التركيز على التفاعلات بين الموضوع والكائن (مثل اليدين التي تتعامل مع الأدوات والغذاء)، والسمات الكائنية، والديناميات الزمنية.

由于 نصوص ASR قد تحتوي على أخطاء وعدم دقة، تم استخدام تقاطع على الاتحاد (IoU) كعامل لقياس مدى مطابقة التعليقات للقسم من الفيديو الذي كانوا يخاطبونه. يشير المؤلفون إلى أن هذا كان حاسمًا لإنشاء الاستمرارية السردية.

تم تقييم المقاطع المعدلة باستخدام مسافة فيديو Fréchet (FVD)، التي تقيس الفرق بين الأمثلة الحقيقية (العالم الحقيقي) والمولدة، مع وجود إطارات رئيسية حقيقية وبدونها، وصولًا إلى نتيجة أدائية:

استخدام FVD لتقييم المسافة بين مقاطع الفيديو المولدة مع التعليقات الجديدة، مع وجود إطارات رئيسية محددة من مقاطع الفيديو العينة وبدونها.

بالإضافة إلى ذلك، تم تقييم المقاطع من قبل GPT-4o وستة معلمين بشريين، متبعين تعريف LLaVA-Hound ل “هلوسة” (أي، قدرة النموذج على اختراع محتوى زائف).

قام الباحثون بمقارنة جودة التعليقات مع Qwen2-VL-72B المجموعة، وحصلوا على درجة محسنة قليلا.

مقارنة بين درجات FVD والتقييم البشري بين Qwen2-VL-72B ومجموعة المؤلفين.

الطريقة

يتم تقسيم مرحلة التوليد في VideoAuteur بين مدير السرد الطويل (LND) و نموذج توليد الفيديو المشروط بالرؤية (VCVGM).

يولد LND تسلسلًا من التضمينات المرئية أو الإطارات الرئيسية التي تمثل تدفق السرد، مشابهة ل “النقاط الأساسية”. يولد VCVGM مقاطع فيديو بناءً على هذه الاختيارات.

مخطط لخط أنابيب معالجة VideoAuteur. يختار مدير السرد الطويل الاختيارات المناسبة لإطعامها إلى وحدة التوليد القائمة على Seed-X.

يناقش المؤلفون بشكل متعمق الفوائد المختلفة ل مدير الصورة-النص المتشابك ومدير الإطار اللغوي المركزي، ويخلصون إلى أن السابق هو النهج الأكثر فعالية.

يولد مدير الصورة-النص المتشابك تسلسلًا عن طريق دمج رموز النص والتضمينات المرئية، باستخدام نموذج تلقائي لتنبؤ بالرمز التالي بناءً على السياق المشترك للنص والصور. هذا يضمن توافقًا وثيقًا بين الرؤية والنص.

من ناحية أخرى، ي 합ن مدير الإطار اللغوي المركزي الإطارات الرئيسية باستخدام نموذج انتشار مشروط بالنص فقط، دون دمج التضمينات المرئية في عملية التوليد.

وجد الباحثون أن जबकان مدير اللغة يولد إطارات رئيسية جذابة بصريًا، إلا أنه يفتقر إلى الاتساق عبر الإطارات، بحجة أن النهج المتشابك يحقق درجات أعلى في الواقعية والاتساق البصري. كما وجدوا أن هذا النهج كان أفضل في تعلم أسلوب مرئي واقعي من خلال التدريب، أحيانًا مع بعض العناصر المتكررة أو الصاخبة.

على غير العادة، في مجال بحث يهيمن عليه الاستيلاء على Stable Diffusion و Flux في الأنابيب، استخدم المؤلفون نموذج LLM متعدد الوسائط من تينسنت SEED-X 7B-parameter كأساس لأنابيب التوليد (على الرغم من أن هذا النموذج يستخدم إصدار Stability.ai SDXL من Stable Diffusion لجزء محدود من هيكله).

يصر المؤلفون على أن:

‘على عكس خط أنابيب الكلاسيكي Image-to-Video (I2V) الذي يستخدم صورة كإطار بداية، نهجنا يعتمد على [التضمينات المرئية المنظمة] كشروط مستمرة على مدار التسلسل.

‘علاوة على ذلك، نحسن من متانة وجودة مقاطع الفيديو المولدة عن طريق تعديل النموذج لمعالجة التضمينات المرئية الصاخبة، لأن التضمينات المرئية المنظمة قد لا تكون مثالية بسبب أخطاء الانحدار.’

على الرغم من أن الأنابيب التوليدية التقليدية من هذا النوع غالبًا ما تستخدم الإطارات الرئيسية الأولية كنقطة بداية لتوجيه النموذج، يوسع VideoAuteur هذا المنهج من خلال توليد حالات مرئية متعددة في فضاء 潛 متسق، وتجنب انحياز أساس توليد لاحق فقط على “إطارات البداية”.

مخطط لاستخدام التضمينات المرئية كطريقة توجيه أفضل.

الاختبارات

وفقًا لأساليب SeedStory، يستخدم الباحثون SEED-X لتطبيق التخصيص اللوري على مجموعة بياناتهم السردية، واصفًا النتيجة بنموذج “Sora-like”، مدرب مسبقًا على توافقات فيديو-نص كبيرة النطاق، وقادر على قبول كلاً من التوجيهات البصرية والنصية والشروط.

تم استخدام 32,000 مقطع فيديو سردية لتطوير النموذج، مع 1,000 مقطع احتياطي كعينات للتأكيد. تم تقليم مقاطع الفيديو إلى 448 بكسل على الجانب القصير ثم تقليمها إلى 448x448px.

للتدريب، تم تقييم توليد السرد بشكل أساسي على مجموعة التأكيد من YouCook2. تم استخدام مجموعة Howto100M لتقييم جودة البيانات وأيضًا لتوليد الصورة-الفيديو.

للفقدان المشروط بالرؤية، استخدم المؤلفون فقدان الانتشار من DiT و عمل 2024 مبني حول Stable Diffusion.

لإثبات ادعائهم بأن التوليد المتشابك هو نهج أفضل، واجه المؤلفون VideoAuteur بعدد من الأساليب التي تعتمد فقط على الإدخال النصي: EMU-2، و SEED-X، و SDXL، و FLUX.1-schnell (FLUX.1-s).

عندما يتم إعطاء توجيه عالمي، ‘دليل خطوة بخطوة لطهي التوفو مابو’، يولد المدير المتشابك الإجراءات والتعليقات والتضمينات المرئية بشكل متسلسل لوصف العملية. تظهر الصفوف الأولى الإطارات الرئيسية المفسرة من فضاءات EMU-2 و SEED-X. هذه الصور واقعية ومستمرة ولكن أقل جودة من تلك من النماذج المتقدمة مثل SDXL و FLUX.

يصر المؤلفون على أن:

‘نهج اللغة ينتج إطارات رئيسية جذابة بصريًا ولكن يعاني من نقص في الاتساق عبر الإطارات بسبب المعلومات المتبادلة المحدودة. في المقابل، يعتمد نهج التوليد المتشابك على التضمينات المرئية المحددة باللغة، ويحقق أسلوبًا مرئيًا واقعيًا من خلال التدريب.

‘然而، قد يولد أحيانًا صورًا تحتوي على عناصر متكررة أو صاخبة، لأن النموذج التلقائي يجد صعوبة في إنشاء تضمينات دقيقة في ممرة واحدة.’

التقييم البشري يؤكد أيضًا ادعاء المؤلفين حول أداء النهج المتشابك، حيث يحقق النهج المتشابك أعلى الدرجات في استطلاع.

مقارنة بين النهج من دراسة بشرية أجريت للورقة.

然而، نلاحظ أن النهج اللغوي يصل إلى أفضل درجات “الجمال”. يصر المؤلفون على أن هذا ليس هو المهم الرئيسي في توليد مقاطع فيديو سردية طويلة.

انقر للعب. مقاطع أGENERATED لفيديو بناء البيتزا بواسطة VideoAuteur.

الاستنتاج

المسار الأكثر شيوعًا للبحث فيما يتعلق بهذا التحدي، أي الاستمرارية السردية في توليد الفيديو الطويل، يهتم بالصور الفردية. تتضمن مشاريع من هذا القبيل DreamStory، و StoryDiffusion، و TheaterGen، و ConsiStory من نيفيديا.

في أحد الأ nghĩa، يقع VideoAuteur أيضًا في هذه الفئة “الساكنة”، منذ أن يستخدم صور البذور لإنشاء مقاطع فيديو. ومع ذلك، يأتي دمج المحتوى الفيديوي والsemantic بالقرب من خط أنابيب عملي.

نشر لأول مرة يوم الخميس، 16 يناير 2025

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai