زاوية Anderson
تحدي وضع التعليقات على الفيديو عند أكثر من 1 إطار في الثانية

القدرة على أنظمة التعلم الآلي على التعرف على الأحداث التي تحدث داخل فيديو هو أمر بالغ الأهمية لمستقبل توليد الفيديو القائم على الذكاء الاصطناعي – لا سيما لأن مجموعات بيانات الفيديو تتطلب تعليقات دقيقة من أجل إنتاج نماذج تتوافق مع طلب المستخدم ، ولا تُخيل بشكل مفرط هلاوس.

مثال على مخطط التعليق من مشروع VidReCap من جوجل. مصدر: https://sites.google.com/view/vidrecap
وضع التعليقات على مقياس الفيديوهات اللازم لتدريب مجموعات البيانات الفعالة هو تصور غير معقول. على الرغم من أنه من الممكن تدريب أنظمة الذكاء الاصطناعي على وضع التعليقات التلقائية على الفيديوهات ، إلا أن هناك حاجة إلى العديد من الأمثلة التي تم إنشاؤها بواسطة الإنسان كحقيقة موثوقة ، من أجل التنوع والغطاء.
ومما يزيد الأمر أهمية ، أن معظم نماذج وضع التعليقات على الفيديو القائمة على الذكاء الاصطناعي تعمل عند 1 إطار في الثانية ، وهو معدل التقاط غير كثيف بما فيه الكفاية لتمييز التباين في العديد من السيناريوهات: التغييرات السريعة في التعبيرات الدقيقة لنظم التعرف على العواطف ؛ الأحداث السريعة في الرياضات عالية السرعة مثل كرة السلة ؛ الحركات العنيفة ؛ القطع السريعة في الأفلام الدرامية ، حيث قد تفشل أنظمة مثل PySceneDetect في تحديدها (أو لا يتم استخدامها) ؛ والعديد من السيناريوهات الأخرى حيث يحتاج نافذة الانتباه明显 إلى أن تكون أكثر كثافة.
انقر للعب. عمل سريع ومهم في ما يمكن أن يكون واحدًا من أبطأ الرياضات في العالم ، حيث يفوز أليكس هيغينز ببطولة العالم ضد راي ريردون في عام 1982. مصدر: https://www.youtube.com/watch?v=_1PuqKno_Ok
تحرك بسرعة واكسر المنطق
هذا المعدل المنخفض هو المعيار للعديد من الأسباب اللوجستية. من بينها أن وضع التعليقات على الفيديو هو نشاط مكثف الموارد ، سواء كانت النظام يدرس إطارًا متتاليًا في كل مرة ، أو باستخدام طرق مختلفة لتحقيق التماسك الدلالي لسلسلة من الإطارات في سلسلة تعليقات قابلة للتفسير. في كلتا الحالتين ، نافذة السياق محدودة بالضرورة بمعوقات الأجهزة.
سبب آخر لكون 1 إطار في الثانية هو المعيار الحالي هو أن الفيديوهات ليست ممتلئة بأحداث سريعة بشكل عام ؛ لذلك من غير الضروري إعطاء 300 إطارًا لمائدة بلياردو ساكنة نفس الانتباه الذي يُمنح لحظة الانقضاض التي تفوز بالبطولة (انظر المثال أعلاه).
من الممكن استخدام إشارات ثانوية أوسع لتحديد اللحظات الحاسمة في فيديو رياضي ، مثل رد فعل الجماهير المستمر لانقضاض سريع في مباراة كرة سلة. ومع ذلك ، قد تحدث هذه الإشارات لأسباب أخرى (مثل إصابات لاعبي غير متوقعين) ، ولا يمكن الاعتماد عليها. هذا هو مثال على كيف يمكن أن يؤدي مجموعة بيانات فيديو تم وضع علامات عليها بشكل خاطئ إلى نموذج فيديو مولد يُخيل أو يفسر الإرشادات بشكل خاطئ ، أي لأن النموذج قد يظهر إصابة لاعب عندما طُلب منه توليد انقضاض سريع (لأن “الإشارة الثانوية” لاضطراب الجماهير لم تكن حصرية لنوع معين من الحدث).
هذا في nhiều طرق هو مشكلة “ميزانية” ، وفي طرق أخرى مشكلة إجرائية. عملت الإطارات حتى الآن على مبدأ أن الإطارات الرئيسية النادرة يمكن أن تقوم بتقديم المعلومات الأساسية بشكل فعال ، ولكن هذا أكثر فعالية في تحديد النوع والجوانب الأخرى لموضوع الفيديو ، منذ أن تظل الأدلة في هذه الحالة على عدة إطارات.
F-16
يقدم ورقة جديدة من الصين حلاً ، في شكل أول نموذج لغة كبير متعدد الوسائط (MLLM ، أو ببساطة LLM) الذي يمكن تحليل الفيديو بسرعة 16 إطار في الثانية بدلاً من المعيار 1 إطار في الثانية ، مع تجنب الفخاخ الرئيسية لزيادة معدل التحليل.
في الاختبارات ، يزعم المؤلفون أن النظام الجديد ، الذي يحمل عنوان F-16 ، يتفوق على نماذج مملوكة مثل GPT-4o و Gemini-1.5 pro. على الرغم من أن النماذج الأخرى الحالية كانت قادرة على مطابقة أو تجاوز نتائج F-16 في التجارب ، كانت النماذج المنافسة أكبر وأكثر صعوبة.
على الرغم من أن F-16 تم تدريبه على بعض الأجهزة الثقيلة (كما سنفحص قريباً) ، فإن الاستدلال عادة ما يكون أقل demande من التدريب. لذلك يمكننا أن نأمل أن يكون الكود (المpromised للصدور في المستقبل القريب) قادرًا على التشغيل على وحدات معالجة الرسومات المنزلية متوسطة أو عالية المستوى.
ما وراء توسيع النطاق
يشير المؤلفون إلى أن هذا النوع من النهج هو بديل عملي لتوسيع مجموعات البيانات. يمكننا أن نستنتج أيضًا أنه إذا كنا سنلقى المزيد من البيانات على المشكلة ، فإن هذا لا يزال النوع من النهج الذي يمكن أن يكون مفضلاً ، لأن النظام الجديد يميز الأحداث بطريقة أكثر دقة.
هم يقولون:
‘يمكن أن يؤدي عينة معدل الإطار المنخفض إلى فقدان المعلومات البصرية الحاسمة ، لا سيما في الفيديوهات التي تحتوي على مشاهد سريعة التغيير أو تفاصيل معقدة أو حركة سريعة. بالإضافة إلى ذلك ، إذا تم bỏ الإطارات الرئيسية ، ومع ذلك ، يتم تدريب النموذج على علامات تعتمد على معلومات الإطار الرئيسي ، فقد يجد صعوبة في محاذاة تنبؤاته مع المحتوى المتوقع ، مما قد يؤدي إلى هلاوس وخفض الأداء…
‘… F-16 يتحقق من أداء SOTA في فهم الفيديو العام بين النماذج من نفس الحجم ويظهر ميزة واضحة في فهم الفيديو عالي الإطار ، متجاوزًا نماذج تجارية مثل GPT-4o. هذا العمل يفتح اتجاهات جديدة لتطوير فهم الفيديو عالي الإطار في أبحاث LLM متعددة الوسائط.’
الورقة الجديدة بعنوان تحسين فهم الفيديو LLM مع 16 إطارًا في الثانية ، ويأتي من ثمانية مؤلفين عبر جامعة تسينغهوا وByteDance.
الطريقة
منذ أن تحتوي الإطارات المتتالية غالبًا على معلومات مكررة ، يطبق F-16 محاذاة معدل الإطار العالي للضغط وتشفير تفاصيل الحركة الرئيسية مع الحفاظ على الدلالات البصرية. يتم معالجة كل إطار أولاً بواسطة محرك تشفير الصور المسبق ، واستخراج تمثيلات الميزات قبل تمريرها إلى محاذٍ يعتمد على وحدات الخطأ الغاوسية الخطية (GELUs).

هيكل F-16 يعالج الفيديو عند 16 إطار في الثانية ، ويتم 捕获 المزيد من الإطارات مقارنة بالنماذج التقليدية منخفضة معدل الإطار ، ومحاذاة معدل الإطار العالي يحافظ على الدلالات البصرية مع تشفير ديناميات الحركة بكفاءة دون إضافة رموز بصرية إضافية. مصدر: https://arxiv.org/pdf/2503.13956
للمعالجة الفعالة للعدد المتزايد من الإطارات ، يتم تجميع الإطارات في نوافذ معالجة صغيرة ، ودمج الميزات البصرية باستخدام شبكة عصبونية متعددة الطبقات (MLP) ثلاثية الطبقات ، مما يساعد في الاحتفاظ بالتفاصيل الحركية الأكثر صلة فقط ، وتقليل التكرار غير الضروري ، مع الحفاظ على تدفق الإجراءات الزمني. طبقة تجميع أقصى مساحة مكاني تقلل بشكل أكبر من عدد الرموز ، مع الحفاظ على التكاليف الحسابية ضمن الحدود.
تتم بعد ذلك تغذية رموز الفيديو المعالجة إلى Qwen2-7B LLM ، الذي يولد استجابات نصية بناءً على الميزات البصرية المستخرجة وطلب المستخدم المعطى.
من خلال هيكلة مدخلات الفيديو بهذه الطريقة ، يسمح F-16 ، كما يؤكد المؤلفون ، بتعرف أكثر دقة على الأحداث في المشاهد الديناميكية ، مع الحفاظ على الكفاءة في نفس الوقت.
النسخة القصيرة
يوسع F-16 محرك LLM المسبق للصور ، LLaVA-OneVision ، لمعالجة الفيديو من خلال تحويل خط أنابيب المدخلات البصرية. في حين أن نماذج LLM للصور المعتادة تتعامل مع الإطارات المنفصلة ، يُشكل محاذٍ F-16 عالي معدل الإطار عدة إطارات في شكل يمكن للنموذج معالجته بكفاءة أكبر ؛ هذا ي evades نظامًا مع情報ات مكررة ، مع الحفاظ على الإشارات الحركية الرئيسية اللازمة لفهم الفيديو الدقيق.
لضمان التوافق مع أساسه القائم على الصور ، يعادة F-16 هيكلة محاذيه إلى المصفوفات الفرعية. هذا النهج يسمح له بدمج المعرفة من نماذج الإطار الفردي ، مع التكيف مع مدخلات الفيديو المتسلسلة.
يضغط محاذٍ F-16 أولاً تسلسلات الإطارات إلى تنسيق محسّن للنموذج LLM ، مع الحفاظ على الميزات الأكثر إعلامية ، وإلغاء التفاصيل غير الضرورية. يسمح تصميم الهيكل للنظام بمعالجة فيديو عالي معدل الإطار ، مع الحفاظ على الطلبات الحسابية تحت السيطرة ، والتي يطرحها المؤلفون كدليل على أن التوسيع ليس الطريق الوحيد (أو الأفضل) لمعالجة وضع التعليقات على الفيديو.
تغير معدل الإطار
منذ معالجة الفيديو عند 16 إطار في الثانية تحسين فهم الحركة ، ولكن زيادة التكلفة الحسابية ، لا سيما خلال الاستدلال ، يقدم F-16 طريقة فك التشفير بمعدل إطار متغير ، مما يسمح له بتعديل معدل الإطار ديناميكيًا دون إعادة التدريب.

المحاذين الفردي والمتسلسل عالي معدل الإطار المتاحان لـ F-16.
تسمح هذه المرونة للنموذج بالعمل بكفاءة عند معدلات إطار أقل عندما لا تكون الدقة العالية مطلوبة ، وتقلل من العبء الحسابي.
عند وقت الاختبار ، عندما يتم اختيار معدل إطار أقل ، يعادة F-16 استخدام معاملات المحاذٍ المُدرَّبة مسبقًا عن طريق تكرار الإطارات لتطابق الأبعاد المتوقعة. هذا يضمن أن النموذج يمكنه معالجة الفيديو بشكل فعال دون تعديل هيكله.
على عكس العينة البسيطة (أي ، ببساطة إزالة الإطارات) ، التي تتهدد بفقدان تفاصيل الحركة الحاسمة ، هذا النهج يحافظ على تمثيلات الحركة المُتعلمة للمحاذٍ ، مع الحفاظ على الدقة حتى عند معدلات إطار مخفضة.对于 فهم الفيديو العام ، يمكن أن يسرع معدل إطار أقل من الاستدلال دون فقدان أداء كبير ، في حين يمكن أن يستفيد تحليل الحركة السريعة من قدرة 16 إطار في الثانية الكاملة.
البيانات والاختبارات
تم بناء F-16 على Qwen2-7B ، وتم تمديد LLaVA-OneVision باستخدام SigLIP كمُشفر للصور. مع عينة إطارات الفيديو عند 16 إطار في الثانية ، يمكن الحصول على ما يصل إلى 1,760 إطارًا من كل فيديو.对于 مقاطع الفيديو الأطول ، تم عينة الإطارات بشكل متساو (أي ، أكثر ندرة).
للتدريب ، استخدم F-16 نفس مجموعات بيانات الفيديو العامة مثل LLaVA-Video ، بما في ذلك LLaVA-Video-178K ، NExT-QA ، ActivityNet-QA ، و PerceptionTest.
تم تعديل F-16 بشكل إضافي على مجموعات بيانات الرياضات عالية السرعة FineGym ، Diving48 ، و SoccerNet. كما قام المؤلفون بإنشاء مجموعة من 276 مباراة في الدوري الأمريكي لكرة السلة ، التي لعبت بين 13 و 25 نوفمبر 2024 ، مع التركيز على ما إذا كان الرمي ناجحًا (مهمة تتطلب معالجة بمعدل إطار عالٍ).تم تقييم النموذج باستخدام مجموعة اختبار NSVA ، وتم قياس الأداء بواسطة نسبة F1.
تم تقييم نماذج الجمباز والغوص بناءً على دقة التعرف على الأحداث ، في حين تتبع نماذج كرة السلة والكرة القدم ممرات ونتائج الرميات.
تم تدريب النموذج لمدة دورة واحدة باستخدام 128 من وحدات معالجة الرسومات NVIDIA H100 (وبالنسبة إلى 80 جيجابايت من VRAM لكل وحدة معالجة رسومات ، هذا يعني استخدام 10,24 تيرابايت من ذاكرة وحدات معالجة الرسومات ؛ حتى بمعايير حديثة ، هذا هو أعلى تكوين لوحدات معالجة الرسومات التي واجهتها في متابعة أدبيات أبحاث الرؤية الحاسوبية). تم استخدام معدل تعلم من 2×10⁻⁵ خلال التدريب.
كما تم تعديل LoRA على بيانات الرياضة باستخدام محولات LoRA مع 64 وحدة معالجة رسومات لمدة 5 دورات. هنا ، تم تدريب النموذج LLM فقط ، مع تجميد مشفر الصور.
تم اختبار الإطارات المنافسة في الجولة الأولية ل “فهم الفيديو العام” GPT-4o ؛ Gemini-1.5-Pro ؛ Qwen2-VL-7B ؛ VideoLLaMA2-7B ؛ VideoChat2-HD-7B ؛ LLaVA-OV-7B ؛ MiniCPM-V2.6-8B ؛ LLaVA-Video-7B ؛ و NVILA-7B؛
تم تقييم النماذج على Video-MME ؛ VideoVista ؛ TemporalBench ؛ MotionBench ؛ Next-QA ؛ MLVU ؛ و LongVideoBench.

مقارنة بين نتائج أسئلة الفيديو عبر النماذج ، مع إظهار حدود معدل الإطار وأداء على عدة معايير. يتحقق F-16 من أداء SOTA بين نماذج 7B على Video-MME و NQA و TPB و MB ، متجاوزًا نماذج مملوكة مثل GPT-4o و Gemini-1.5-Pro.
من بين هذه النتائج ، يقول المؤلفون:
‘على مجموعات بيانات Video-MME القصيرة والمتوسطة و Next-QA – كلها مصممة لفهم الفيديو القصير – نموذجنا يتفوق على نموذج SOTA السابق 7B بنسبة 3.2٪ و 1.0٪ و 0.9٪ في الدقة ، مما يبرز أدائه القوي على الفيديوهات القصيرة. ‘
‘للمعايير التي تقييم فهم الفيديو الطويل ، مثل Video-MME الطويل و LongVideoBench و MLVU ، يكون التحدي أكبر بسبب عينة الإطارات الأقل كثافة ، مما يسبب إطارات داخل نافذة المعالجة لتظهر تباينًا أكبر. ‘
‘هذا يزيد من صعوبة محاذٍ لتحقيق التماسك الفعال للاختلافات الزمنية داخل تمثيل الرمز المحدود. ونتيجة لذلك ، يختبر F-16 انخفاضًا طفيفًا في الأداء مقارنة بـ [LLaVA-Video-7B] ، الذي تم تدريبه على نفس مجموعة بيانات الفيديو.’
يستمر المؤلفون في القول إن معالجة F-16 بمعدل إطار عالٍ أدت أيضًا إلى تحسين 13.5٪ على TemporalBench و 2.5٪ على MotionBench ، مقارنة بنماذج 7B الحالية ، وأداء على مستوى نماذج مملوكة مثل GPT-4o و Gemini-1.5-Pro.
فهم فيديو الرياضة عالية السرعة
تم اختبار F-16 على FineGym و Diving48 و SoccerNet و مجموعات بيانات الدوري الأمريكي لكرة السلة لتقييم قدرته على فهم إجراءات الرياضة عالية السرعة.
استخدم 10,000 مقطع فيديو تم وضع علامات عليه يدوياً ، وتركز التدريب على حركة الكرة وإجراءات اللاعبين ، ومدى khả năng النموذج لتحديد ما إذا كان الرمي ناجحًا ، باستخدام مجموعة اختبار NSVA وتقييمها بنسبة F1.

نتائج تحليل فيديو الرياضة عالية السرعة. أداء F-16 مع محاذٍ بمعدل إطار عالٍ أفضل من نظيره بمعدل إطار منخفض في جميع مهام الرياضة. تم تقييم GPT-4o و Gemini-1.5-Pro أيضًا على أسئلة الدوري الأمريكي لكرة السلة و SoccerNet ، حيث لم تكن المعرفة المسبقة مطلوبة.
على FineGym ، الذي يقيس التعرف على إجراءات الجمباز ، أداء F-16 أفضل بنسبة 13.8٪ من نموذج SOTA السابق 7B ، مما يدل على تحسين فهم الحركة الدقيقة.
أظهر Diving48 تحديدًا لتحويلات الحركة المعقدة مثل الطيران واللف والطيران ، وأظهر F-16 دقة أعلى في التعرف على هذه التحولات.
对于 SoccerNet ، قام النموذج بتحليل مقاطع فيديو مدتها 10 ثوان ، وتحديد ممرات الكرة ، وأظهرت النتائج تحسينًا مقارنة بنماذج 7B الحالية ، مما يشير إلى أن معدل الإطار الأعلى يساهم في تتبع الحركات السريعة.
في مجموعة بيانات الدوري الأمريكي لكرة السلة ، اقترب أداء F-16 من دقة نماذج مملوكة أكبر مثل GPT-4o و Gemini-1.5-Pro ، مما يشير إلى أن معدل الإطار الأعلى يعزز قدرته على معالجة الحركة الديناميكية.
معدلات الإطار المتغيرة
تم اختبار F-16 عند معدلات إطار مختلفة لقياس مرونته. بدلاً من إعادة التدريب ، يعالج معدلات إطار أقل من خلال تكرار الإطارات لتطابق هيكل مدخلات المحاذٍ. هذا النهج يحافظ على الأداء بشكل أكبر من ببساطة إزالة الإطارات (التي قد تؤدي إلى فقدان الدقة).
تظهر النتائج أن تقليل معدل الإطار كان له بعض التأثير على التعرف على الحركة ، ومع ذلك ، لا يزال F-16 يتفوق على نماذج معدل الإطار المنخفض ، ويحافظ على نتائج قوية حتى عند معدلات إطار أقل من 16 إطار في الثانية.

الوقت المستغرق لمكونات F-16 المختلفة خلال الاستدلال ، تم قياسه على 300 فيديو من مجموعة Video-MME Long عند معدلات إطار اختبار مختلفة وأطوال تسلسل. إلى اليمين ، مقارنة بين أداء Video-MME لنموذج تم تدريبه واختباره عند معدلات إطار مختلفة. تمثل الخط المتصل النماذج التي تم تدريبها واختبارها عند نفس معدل الإطار ، في حين يظهر الخط المتقطع الأداء عند اختبار نموذج تم تدريبه عند 16 إطار في الثانية عند معدلات إطار أقل.
زيادة معالجة F-16 بمعدل إطار عالٍ تزيد من المتطلبات الحسابية ، على الرغم من أن محاذٍه يساعد في التحكم في هذه التكاليف عن طريق ضغط الرموز البصرية الزائدة.
تمت مطالبته بمزيد من العمليات الحسابية لكل فيديو مقارنة بنماذج معدل الإطار المنخفض ، ومع ذلك ، حقق أيضًا دقة أفضل لكل رمز ، مما يشير إلى أن استراتيجياته لاختيار الإطار وضغط الرمز ساهمت في تعويض الحسابات الإضافية.
الاستنتاج
من الصعب التأكيد على أهمية هذا الخيط من البحث – لا سيما هذا العام ، الذي من المتوقع أن يكون عام الانطلاقة للفيديو المولّد ، مما يلقي بظلاله على عيوب تحضير مجموعات بيانات الفيديو وجودة وضع التعليقات في وضح النهار.
يجب التأكيد أيضًا على أن التحديات المرتبطة بتحقيق وصفات دقيقة للتفاصيل الداخلية للفيديو لا يمكن حلها حصريًا bằng رمي VRAM أو وقت أو مساحة القرص في المشكلة. سوف يستفيد النهج الدلالي لتحديد الأحداث و استخراجها من فيديو طويل وممل من إعادة التفكير في النهج الدلالي والآليات الحالية التي تسيطر على حلول SOTA – لأن بعض هذه القيود تم تأسيسها في أوقات أكثر فقرًا من حيث الموارد.
(بالمناسبة ، حتى إذا بدا 16 إطارًا في الثانية معدل إطار منخفضًا جدًا لعام 2025 ، فمن المثير للاهتمام أن نلاحظ أن هذا也是 السرعة الأصلية لتدريب مقاطع الفيديو المستخدمة في نموذج الفيديو المولّد الشهير Wan 2.1 ، و السرعة التي يعمل بها بأقل مشاكل. من المفيد أن يبقى المشهد البحثي على بينة من “الاضطراب المعياري” المحتمل هنا ؛ أحيانًا يمكن أن تؤدي القيود القديمة إلى دعم معايير مستقبلية).
نشر لأول مرة يوم الأربعاء ، 19 مارس 2025












