زاوية Anderson
إعادة التفكير في تدريب الذكاء الاصطناعي للفيديو مع بيانات محددة من قبل المستخدم

النوع من المحتوى الذي قد يرغب المستخدمون في إنشائه باستخدام نموذج مولد مثل Flux أو Hunyuan Video قد لا يكون دائمًا متاحًا بسهولة ، حتى إذا كان طلب المحتوى معقولًا ، ويمكن للمرء أن يفترض أن المولد يمكنه التعامل معه.
مثال واحد ، موضح في ورقة جديدة سننظر إليها في هذا المقال ، يشير إلى أن نموذج OpenAI Sora المتزايد التعتيم لديه بعض الصعوبة في تقديم فراشة النار بشكل صحيح ، باستخدام التلميح ‘الفراشة تلمع على ورقة العشب في ليلة صيفية هادئة’:

OpenAI’s Sora has a slightly wonky understanding of firefly anatomy. Source: https://arxiv.org/pdf/2503.01739
منذ أن نادرًا ما أعتمد على مطالبات البحث بمواجهة القيمة ، قمت بتحديث نفس التلميح على Sora اليوم وحصلت على نتيجة أفضل قليلاً. ومع ذلك ، فشل Sora في تقديم الإضاءة بشكل صحيح – بدلاً من توجيه الضوء إلى طرف ذيل الفراشة ، حيث تحدث الضوء الحيوي ، وضع الضوء بالقرب من قدم الحشرة:

My own test of the researchers’ prompt in Sora produces a result that shows Sora does not understand where a Firefly’s light actually comes from.
بصورة ساخرة ، لم يكن محرك التبديل التوليدي Adobe Firefly قادرًا على تحقيق معدل نجاح يصل إلى 1 من 3 في هذا الصدد ، عندما حاولت نفس التلميح في ميزة الذكاء الاصطناعي التوليدية في Photoshop:

Only the final of three proposed generations of the researchers’ prompt produces a glow at all in Adobe Firefly (March 2025), though at least the glow is situated in the correct part of the insect’s anatomy.
تم التأكيد على هذا المثال من قبل باحثي الورقة الجديدة لتوضيح أن التوزيع والتركيز والغطاء في مجموعات التدريب المستخدمة لتعريف نماذج الأساس الشائعة قد لا يتوافق مع احتياجات المستخدم ، حتى إذا لم يكن المستخدم يطلب شيئًا معينًا – موضوع يثير التحديات المحدقة في تكييف مجموعات بيانات التدريب على النتائج الأكثر فعالية كأدوات مولدة.
يصرح المؤلفون:
‘[Sora] يفشل في التقاط مفهوم فراشة تلمع بينما ينجح في توليد العشب والليلة الصيفية: من منظور البيانات ، نستدل أن هذا يعود chủ yếu إلى أن [Sora] لم يتم تدريبه على مواضيع متعلقة بالفراشة ، بينما تم تدريبه على العشب والليلة. بالإضافة إلى ذلك ، إذا كان [Sora] قد رأى الفيديو المعروض في [الصورة أعلاه] ، سيفهم ما يجب أن تبدو عليه فراشة تلمع.’
يقدمون مجموعة بيانات منضبطة حديثًا ويشيرون إلى أن منهجيتهم يمكن تحسينها في الأعمال المستقبلية لإنشاء مجموعات بيانات تتوافق بشكل أفضل مع توقعات المستخدم أكثر من العديد من النماذج الحالية.
بيانات للمستخدمين
ببساطة ، تشير مقترحهم إلى نهج منضبط للبيانات يقع بين البيانات المخصصة لنوع نموذج مثل LoRA (وهذا النهج مخصص جدًا للاستخدام العام)؛ ومجموعات عالية الحجم والمتفاوتة مجموعات (مثل مجموعة LAION التي تعمل بالطاقة Stable Diffusion) التي لا يتم تحديدها بشكل محدد لسيناريو استخدام نهاية معين.
النهج الجديد ، كمنهجية ومجموعة بيانات جديدة ، هو (بصورة معقدة) Users’ FOcus in text-to-video ، أو VideoUFO. تتكون مجموعة بيانات VideoUFO من 1.9 مليون مقطع فيديو يغطي 1291 موضوعًا محددًا من قبل المستخدم. تم تطوير المواضيع نفسها بشكل متقن من مجموعة فيديو موجودة ، وتم تحليلها من خلال نماذج لغة متعددة و تقنيات معالجة اللغة الطبيعية:

Samples of the distilled topics presented in the new paper.
تتميز مجموعة بيانات VideoUFO بمقدار كبير من مقاطع الفيديو الجديدة التي تم جمعها من YouTube – “جديدة” في意义 أن مقاطع الفيديو في Frage لا تظهر في مجموعات الفيديو الشائعة في الأدب ، وبالتالي في العديد من المجموعات الفرعية التي تم تحضيرها منها (وكان العديد من مقاطع الفيديو في الواقع تم تحميلها بعد إنشاء مجموعات أقدم).
في الواقع ، يصرح المؤلفون أن هناك فقط 0.29٪ من الت重疊 مع مجموعات الفيديو الحالية – وهو إظهار مثير للإعجاب للجديد.
يمكن أن يكون أحد الأسباب هو أن المؤلفين لن يقبلوا مقاطع فيديو من YouTube إلا تلك التي تحمل ترخيص Creative Commons الذي من شأنه أن يكون أقل احتمالاً لتقيد المستخدمين في المستقبل: من الممكن أن تكون هذه الفئة من مقاطع الفيديو أقل تحديدًا في المسح السابق لمنصات مثل YouTube.
ثانيًا ، تم طلب مقاطع الفيديو بناءً على احتياجات المستخدم المتوقعة (انظر الصورة أعلاه) ، وليس بشكل عشوائي. يمكن أن يؤدي هذا العاملان معًا إلى مجموعة così جديدة.
بالإضافة إلى ذلك ، قام الباحثون بفحص أرقام تعريف YouTube لمقاطع الفيديو المساهمة (أي مقاطع الفيديو التي قد تم تقسيمها وتخيلها لاحقًا لمجموعة VideoUFO) مقابل تلك الموجودة في المجموعات الحالية ، مما يضفي مصداقية على الادعاء.
على الرغم من أن ليس كل شيء في الورقة الجديدة مقنعًا ، إلا أنها قراءة مثيرة للاهتمام تؤكد مدى تعرضنا للاختلافات في توزيع البيانات ، من حيث العقبات التي تواجهها المشهد البحثي غالبًا في تحضير مجموعات البيانات.
العمل الجديد ، بعنوان VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation ، ويأتي من باحثين ، على التوالي ، من جامعة تكنولوجيا سيدني في أستراليا ، و جامعة تشجيانغ في الصين.

Select examples from the final obtained dataset.
‘بائع شخصي’ للبيانات
الموضوعات والمفاهيم الموجودة في مجموعات الصور والفيديو على الإنترنت لا تعكس بالضرورة ما قد يطلبه المستخدم العادي من نظام مولد؛ حتى حيث يتقاطع المحتوى والطلب (كما هو الحال مع البورنو ، الذي هو متاح بكمية وفيرة على الإنترنت و مثير للاهتمام لمستخدمي الذكاء الاصطناعي الجديدة) ، قد لا يتوافق هذا مع نیات المطورين ومعايير النظام المولد الجديد.
إلى جانب كمية كبيرة من المواد غير المناسبة للعرض المتاحة يوميًا ، من المحتمل أن تكون كمية المواد المتاحة على الشبكة غير عادلة ، بسبب الإعلانات وأولئك الذين حاولوا التلاعب بتحسين محركات البحث. يؤدي هذا النوع من المصلحة التجارية إلى جعل توزيع المواضيع بعيدًا عن الحياد؛ أسوأ من ذلك ، من الصعب تطوير أنظمة تصفية قادرة على التعامل مع المشكلة ، لأن الخوارزميات والنماذج المطورة من بيانات كبيرة قد تعكس في حد ذاتها ميول ومقاييس البيانات المصدر.
لذلك ، قام مؤلفو العمل الجديد بطرح المشكلة من خلال عكس المقترح ، من خلال تحديد ما يريده المستخدمون ، والحصول على مقاطع فيديو تتوافق مع هذه الاحتياجات.
على السطح ، يبدو هذا النهج معرضًا للخطر ، حيث قد يؤدي إلى سباق семанти إلى الأسفل ، أو تحقيق توازن وحيادية على نمط ويكيبيديا. تعديل تحضير البيانات حول طلب المستخدم يهدد بتعزيز تفضيلات الأغلبية ، بينما يهمش مستخدمي النيش ، لأن مصالح الأغلبية ستحمل بالتأكيد وزنًا أكبر.
مع ذلك ، دعونا نلقي نظرة على كيفية تعامل الورقة مع التحدي.
استخراج المفاهيم بحرص
استخدم الباحثون مجموعة VidProM لعام 2024 كمنبع لتحليل المواضيع التي ستinform مشروعهم لاحقًا.
تم اختيار هذه المجموعة ، وفقًا للمؤلفين ، لأنها المجموعة العامة الوحيدة التي تضم أكثر من مليون بيانات “مكتوبة من قبل مستخدمين حقيقيين” – وينبغي أن يذكر أن هذه المجموعة تم تحضيرها من قبل مؤلفي الورقة الجديدة.
تشرح الورقة:
‘أولاً ، قمنا بتضمين جميع 1.67 مليون تلميح من VidProM في متجهات 384-الأبعاد باستخدام SentenceTransformers ثم قمنا بتركيب هذه المتجهات باستخدام K-means. لاحظ أننا هنا قمنا بتحديد عدد المجموعات على قيمة كبيرة نسبيًا ، أي 2000 ، ودمجنا المجموعات المماثلة في الخطوة التالية.
‘أخيرًا ،对于 كل مجموعة ، سألنا GPT-4o لاستنتاج موضوع [كلمة أو كلمتين].’
يشير المؤلفون إلى أن بعض المفاهيم متميزة ولكنها ملحوظة ومجاورة ، مثل الكنيسة و الكاتدرائية. معايير quá细ة جدًا في حالات من هذا القبيل ستؤدي إلى تضمين مفاهيم (على سبيل المثال) لكل سلالة من سلالات الكلاب ، بدلاً من مصطلح الكلب؛ في حين أن معايير quá واسعة قد تجمع عددًا كبيرًا من المفاهيم الفرعية في مفهوم واحد مزدحم؛ لذلك تشير الورقة إلى الحاجة إلى توازن ضروري لتقييم حالات من هذا القبيل.
تم دمج الأشكال المفردة والجمع ، وإعادة صياغة الأفعال إلى أشكالها الأساسية (الماضي). تم إزالة المصطلحات الواسعة جدًا – مثل الرسوم المتحركة ، المشهد ، الفيلم و الحركة.
بهذه الطريقة ، تم الحصول على 1,291 موضوعًا (مع توفر القائمة الكاملة في قسم الملاحق للورقة الأصلية).
التحميل الانتقائي
بعد ذلك ، استخدم الباحثون واجهة برمجة تطبيقات YouTube الرسمية للبحث عن مقاطع فيديو بناءً على المعايير المستخلصة من مجموعة 2024 ، سعياً للحصول على 500 مقطع فيديو لكل موضوع. بالإضافة إلى رخصة Creative Commons المطلوبة ، كان كل مقطع فيديو يجب أن يكون له دقة 720p أو أعلى ، ويجب أن يكون أقصر من أربع دقائق.
بهذه الطريقة ، تم جمع 586,490 مقطع فيديو من YouTube.
قارن المؤلفون معرف YouTube لمقاطع الفيديو المحملة بمجموعة من مجموعات البيانات الشائعة: OpenVid-1M؛ HD-VILA-100M؛ Intern-Vid؛ Koala-36M؛ LVD-2M؛ MiraData؛ Panda-70M؛ VidGen-1M؛ و WebVid-10M.
وجدوا أن فقط 1,675 معرفًا (النسبة المئوية المذكورة أعلاه 0.29٪) من مقاطع فيديو VideoUFO ميزة في هذه المجموعات القديمة ، ويتعين الاعتراف بأن قائمة مقارنة المجموعة ليست شاملة ، ولكنها تشمل جميع اللاعبين الكبار والمؤثرين في مشهد الفيديو المولد.
الانقسامات والتقييم
تم تقسيم مقاطع الفيديو المحصل عليها بعد ذلك إلى مقاطع متعددة ، وفقًا للطريقة المحددة في ورقة Panda-70M المذكورة أعلاه. تم تقدير حدود اللقطة ، وتم خياطة التجميعات ، وقسمت مقاطع الفيديو المتواصلة إلى مقاطع فيديو فردية ، مع تقديم تعليقات موجزة ومتفصلة.

Each data entry in the VideoUFO dataset features a clip, an ID, start and end times, and a brief and a detailed caption.
تم التعامل مع التعليقات القصيرة بواسطة طريقة Panda-70M ، والتعليقات التفصيلية لمقاطع الفيديو بواسطة Qwen2-VL-7B ، وفقًا للمعايير التي حددتها Open-Sora-Plan. في الحالات التي لم تنجح فيها مقاطع الفيديو في تجسيد المفاهيم المستهدفة ، تم تغذية التعليقات التفصيلية لكل مقطع فيديو في GPT-4o mini ، من أجل تحديد ما إذا كان مناسبًا حقًا للموضوع. على الرغم من أن المؤلفين كانوا يفضلون التقييم عبر GPT-4o ، إلا أن هذا كان سيكون باهظ التكلفة للغاية لملايين مقاطع الفيديو.
تم التعامل مع تقييم جودة الفيديو بستة طرق من مشروع VBench.
المقارنات
كرر الباحثون عملية استخراج الموضوع من مجموعات البيانات السابقة. لذلك ، كان من الضروري مطابقة الفئات المستخرجة من VideoUFO بشكل семанти إلى الفئات المختلفة في المجموعات الأخرى؛ يجب أن يتم الاعتراف بأن هذه العملية توفر فقط فئات مكافئة تقريبية ، وبالتالي قد تكون quá خاضعة للخضوعية لتوفير مقارنات تجريبية.
مع ذلك ، في الصورة أدناه ، نرى النتائج التي حصل عليها الباحثون بهذه الطريقة:

Comparison of the fundamental attributes derived across VideoUFO and the prior datasets.
يعترف الباحثون بأن تحليلهم اعتمد على التعليقات والوصف الموجود في كل مجموعة بيانات. يقررون بأن إعادة تعليق مجموعات البيانات القديمة باستخدام نفس الطريقة مثل VideoUFO قد قدّم مقارنة أكثر مباشرة. ومع ذلك ، بالنظر إلى حجم كبير من النقاط البيانية ، يبدو أن استنتاجهم بأن هذا النهج سيكون باهظ التكلفة مبررًا.
التوليد
طور المؤلفون معيارًا لتقييم أداء نماذج النص إلى الفيديو على مفاهيم محددة من قبل المستخدم ، بعنوان BenchUFO. هذا يتضمن اختيار 791 اسمًا من 1,291 موضوعًا مستخرجًا من VideoUFO.对于 كل موضوع تم اختياره ، تم اختيار عشرة تلميحات نصية من VidProM بشكل عشوائي.
تم تمرير كل تلميح إلى نموذج نص إلى فيديو ، مع استخدام كاتب التعليقات Qwen2-VL-7B لتقييم النتائج المولدة. مع تم تعليق جميع مقاطع الفيديو المولدة ، تم استخدام SentenceTransformers لحساب تشابه الكوزينوس للنص الإدخال والوصف الإخراجي (المستنبط) في كل حالة.

Schema for the BenchUFO process.
تم تقييم النماذج التوليدية التالية: Mira؛ Show-1؛ LTX-Video؛ Open-Sora-Plan؛ Open Sora؛ TF-T2V؛ Mochi-1؛ HiGen؛ Pika؛ RepVideo؛ T2V-Zero؛ CogVideoX؛ Latte-1؛ Hunyuan Video؛ LaVie؛ و Pyramidal.
بالإضافة إلى VideoUFO ، كانت MVDiT-VidGen و MVDit-OpenVid مجموعات بيانات بديلة للتدريب.
تعتبر النتائج 10th-50th أسوأ وأفضل أداء المواضيع عبر Architectures والمجموعات.

Results for the performance of public T2V models vs. the authors’ trained models, on BenchUFO.
هنا يعلق المؤلفون:
‘نماذج النص إلى الفيديو الحالية لا تؤدي بشكل جيد ومستمر عبر جميع المواضيع المحددة من قبل المستخدم. على وجه التحديد ، هناك فرق في الدرجات يتراوح بين 0.233 و 0.314 بين المواضيع العشر الأولى والأخيرة. هذه النماذج قد لا تفهم بشكل فعال مواضيع مثل “الأنقليس العملاق” ، “الخلية الحيوانية” ، “فان جوخ” ، و “المصري القديم” بسبب نقص التدريب على مقاطع فيديو هذه المواضيع.’
‘نماذج النص إلى الفيديو الحالية تظهر درجة معينة من الاتساق في مواضيعها الأفضل أداء. نكتشف أن معظم نماذج النص إلى الفيديو تتفوق في توليد مقاطع فيديو حول مواضيع متعلقة بالحيوانات ، مثل “النورس” ، “الباندا” ، “الدلفين” ، “الجمل” ، و “البومة”. نستدل أن هذا يعود جزئيًا إلى انحياز نحو الحيوانات في مجموعات الفيديو الحالية.’
الاستنتاج
VideoUFO هو عرض ممتاز إذا كان فقط من منظور بيانات جديدة. إذا لم يكن هناك خطأ في تقييم وإزالة معرّفات YouTube ، وإذا كانت المجموعة تحتوي على كمية كبيرة من المواد الجديدة للمشهد البحثي ، فهي مقترح نادر وقيم.
الجانب السلبي هو أنك تحتاج إلى الإيمان بالمنهجية الأساسية؛ إذا كنت لا تؤمن بأن طلب المستخدم يجب أن يحدد صيغ التحميل ، فستكون تشتري مجموعة بيانات تأتي مع مجموعتها الخاصة من التحيزات المقلقة.
علاوة على ذلك ، يعتمد فائدة المواضيع المستخرجة على موثوقية طريقة التخليص المستخدمة (التي يتم عرقلتها بشكل عام بسبب قيود الميزانية) ، وأساليب التكوين لمجموعة بيانات 2024 التي توفر المواد المصدر.
مع ذلك ، VideoUFO يستحق بالتأكيد مزيدًا من التحقيق – وهو متاح على Hugging Face.
* استبدالي لمراجعات المؤلفين بروابط.
نشر لأول مرة يوم الأربعاء ، 5 مارس 2025












