زاوية Anderson
بحثًا عن ذكاء اصطناعي يمكنه متابعة فيلم كامل

لا تزال نماذج الذكاء الاصطناعي تفقد مسار من هو من والذي يحدث في فيلم. نظام جديد يُorchestrates التعرف على الوجه والتلخيص المسرحي ، والحفاظ على الشخصيات مستقيمة ، والقصص متسقة عبر الأفلام الكاملة.
الحصول على ذكاء اصطناعي لمشاهدة وفهم الأفلام على الطراز الهوليوودي قد يبدو مثل مهمة هامشية أو هامشية ؛ ولكن نظام يمكنه مشاهدة فيلم كامل من البداية إلى النهاية ، وتتبع تقدم جميع الشخصيات ، والبقاء على رأس القصة ، قد جعل عددًا من التطبيقات المباشرة التي يمكن أن تستفيد من هذه القدرات ، بالإضافة إلى العديد من التحديات المحيطية أو غير المرتبطة ، عبر مجالات مختلفة.
ثمار سهلة الحصول على نماذج الذكاء الاصطناعي لمشاهدة الأفلام هي نظم التوصية ، في منصات البث مثل نتفليكس وأمازون بريم وأتش بي أو ماكس. فهم دقيق لتطورات القصة وأفعال الشخصيات يسمح بمطابقة أقرب إلى الميول والانفعالات (المتضخمة أحيانًا) للمشاهدين.
علاوة على ذلك ، فإن فهم أعمق للفيلم يسمح بإنشاء كلمات رئيسية وتصنيف أكثر دقة ، بدلاً من نشر وصفات الأفلام التي قد كتبت منذ عقود. يمكن أن تظهر مثل هذه العبارات أيضًا وجود مواضيع “لبالغين” في فيلم قد لا تكون واضحة من الحوار أو من الصور.
إضافة إلى ذلك ، قد تحتوي الأفلام القديمة في كتالوج على تصنيفات قديمة ، بالإضافة إلى نظرات عامة ؛ على سبيل المثال ، اللغة واللهجات التي كانت مُعتمدة في فيلم الخمسينيات قد تحتاج إلى المزيد من الاهتمام الآن. ولكن بدون فهم عام للسياق ، المستفاد من متابعة سردية طويلة ، يمكن أن تكون هذه الحوادث مبالغًا فيها أو منخفضة.
على نطاق أوسع ، يمكن أن تساهم نهج تحليل الفيلم المُحسّن بشكل كبير في مشكلة التعرف على الحدث ، والتي هي ضرورية للابتكارات في مراقبة الأمان والتعليقات الرياضية الآلية والتلخيصات من جميع الأنواع ، عبر مجموعة كبيرة من الوسائط.
لذلك ، “مشاهدة الفيلم بالذكاء الاصطناعي” هو نوع مشترك بشكل مفاجئ في أدب الرؤية الحاسوبية.
رؤية الصورة الكبيرة
المدخل الأخير هو بعنوان MovieTeller – تعاون أكاديمي وصناعي من الصين يحرز تقدمًا جديدًا من خلال تقسيم المهام الفرعية المختلفة في التحدي عبر تطبيقات الذكاء الاصطناعي المختلفة التي تتناسب مع هذه التحديات ، بدلاً من – كما هو الحال غالبًا – محاولة تدريب نماذج منفصلة ومحكمة يمكنها أداء جميع المهام الضرورية من مساحة كامنة واحدة.
يشير المؤلفون إلى أن نماذج الرؤية واللغة السابقة (VLMs) التي واجهت نفس المهمة لم تتمكن من التقدم بعيدًا عن تحليل الإطار الفردي ؛ وأن نقص السياق يجعل من الصعب على مثل هذه النماذج التعرف بشكل متواصل على الشخصيات – ربما أهم特ية لمثل هذا النظام:

النظام الجديد ، MovieTeller ، يمكنه التعرف بشكل متواصل على الأشخاص في المشاهد ، بفضل استخدام نظام التعرف على الوجه المخصص ؛ ولكن إهدافه الأكثر شمولاً للسياق يسمح للإطار بالبقاء على رأس تطورات القصة. مصدر
يشير المؤلفون إلى أن:
‘نماذج VLMs العامة غالبًا ما تعاني من التعرف بشكل متواصل على الشخصيات المحددة في سردية طويلة. قد يصفون بطلًا رئيسيًا بـ “رجل” في مشهد و “شخص” في مشهد آخر ، فشلًا في ربط التمثيل المرئي بهوية متسقة.’
يشير المؤلفون إلى أن نظام Transformer’s self-attention يستخدم تعقيدًا رابعًا ، مما يجعل معالجة كل إطار من فيلم كامل مرة واحدة باهظًا للغاية. ونتيجة لذلك ، تميل النهج التي تعتمد على عينة الإطار الموحدة أو الارتباط البسيط إلى كسر تدفق القصة ، مما ينتج تلخيصات متفرقة بدلاً من سرد متسق.
بدلاً من ذلك ، يتكون النظام الجديد من خط أنابيب تدريبي خالي ، مع أدوات مخصصة لمعالجة التعرف على الوجه وثبات الذاكرة (كما يغادر الشخصيات ويتم إعادة إدخالها في سردية الفيلم).
تم اختبار MovieTeller ضد النهج السابقة باستخدام 60 فيلمًا كاملًا ، tương đương 10,000 دقيقة من الفيديو. في الاختبارات الكمية والدراسات البشرية ، يُبلغ المؤلفون عن تحسين ملحوظ على البيئات والافتراضات الافتراضية المستخدمة في الأنظمة السابقة.
الورقة الجديدة بعنوان MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction ، وتنشر من قبل خمسة مؤلفين عبر جامعة Zhejiang في هانغتشو ، مجموعة China Media الحكومية ، و Watch AI Group* (الأخيرتان مقرهما في بكين).
الطريقة
يتكون مخطط MovieTeller من ثلاث مراحل: قسم المشهد و استخراج الإطار الرئيسي ، والتي تُعالج من خلال مشروع PySceneDetect؛ وصف المشهد المبني على الحقائق عبر تخصيص Qwen2.5-VL-7B-Instruct VLM؛ و التلخيص التقدمي ، الذي يُكثف من وصف المشهد المفصل إلى تلخيص الفصل ، ثم إلى ملخص نهائي متسق – ويُنجز أيضًا بواسطة نموذج Qwen2.5:

نظرة عامة على إطار MovieTeller: يتم تقسيم فيلم كامل أولاً إلى مشاهد وتنقيحها إلى إطارات رئيسية عالية الجودة؛ ثم يتم حقن أداة التعرف على الوجه الخارجية حقائق ، وربط أسماء الشخصيات بالمساحات الحدودية ، والتي توجيه نموذج الرؤية واللغة في إنتاج وصف المشهد المتسق مع الهوية.
تستخدم المرحلة الأولى PySceneDetect لتقسيم الفيلم إلى مشاهد منفصلة ، بناءً على التغييرات البصرية الواضحة ، مع تمثيل كل مشهد بواسطة إطار رئيسي واحد.
然而 ، ليس كل إطار يُشكل صورة ملخص جيدة ، لأن اللحظات الانتقالية والخروج والصور المظلمة يمكن أن ت混ّش التحليل اللاحق. لذلك ، يتم تنفيذ عملية فحص بسيطة على الإطارات المرشحة ، عن طريق قياس Độ sáng والتنوع المرئي ، مما يضمن أن يتم اختيار فقط الصور الغنية بالمعلومات لوصفها.
وضع الوجه
تم بناء قاعدة بيانات للوجوه من المعلومات العامة المتاحة † ، وتخزين اسم كل شخصية رئيسية إلى جانب التضمين العددي للوجه الوجه. عندما يظهر وجه في إطار رئيسي ، يتم مطابقة التضمين مع قاعدة البيانات ، ويتم قبول النتيجة الأقرب إذا تم تخطي عتبة الثقة. هذا يخلق “أساسًا حقيقيًا” ، ويربط الأسماء بالمساحات الحدودية المحددة.
لأغراض ذلك ، يتم استخدام InsightFace ، والذي يستخدم رأس التعرف على الوجه المعتمد على ArcFace:

وجهان مألوفان يتذكران جيدًا بواسطة مبادرة Additive Angular Margin Loss (ArcFace) ، المستخدمة بطريقة مشابهة لمشروع MovieTeller. مصدر
تتم تمرير الإطارات المُشطّبة إلى نموذج Qwen مع سؤال يُدرج الشخصيات المكتشفة وأماكنها:
由于 نماذج الرؤية واللغة لا يمكنها امتصاص فيلم كامل في مرة واحدة ، يُقسم MovieTeller المادة أولاً إلى وصف المشهد. يتم تجميعها في كتل متتالية ، مثل الفصول ، والتي يتم تمريرها بعد ذلك إلى Qwen2.5 ، والتي تلخص كل فصل ، وتضغط تطورات القصة ودوافع الشخصيات ونقاط التحول ، مع الحفاظ على أسماء الشخصيات المُثبتة مسبقًا.
تتم بعد ذلك دمج تلخيصات الفصول المُكثفة وترجيعها إلى النموذج مع سؤال جديد يطلب ملخصًا كاملاً:

قالب سؤال عينة يستخدم لإنشاء وصف المشهد ، ويُدرج أسماء الشخصيات المُثبتة و المساحات الحدودية بشكل صريح ، لتقيد نموذج الرؤية واللغة وتطبيق سرد متسق مع الهوية.
افتراض أن العملية نجحت ، يجب أن يعكس الإخراج النهائي بشكل متسق قوس سردية الفيلم. هذا هو مهمة صعبة بشكل خاص في التعلم الآلي ، لأن تنوع ملخصات القصة الممكنة ، ونمطها ، بالإضافة إلى طول هذه النقاط البيانية ، يجعل من الصعب تبني نهجًا قائمًا على الحقيقة الأرضية.
البيانات والاختبارات
为了 اختبار النظام ، قام المؤلفون بإنشاء مجموعة بيانات مخصصة (غير مُ归صية) من 100 فيلم كامل ، tương đương 166 ساعة من وقت التشغيل. وشملت الأفلام Iron Man 3 و Farewell My Concubine و Eat Drink Man Woman و The Chronicles of Narnia. وطالب الباحثون بتحقيق تقييم أعلى من 5.0 على IMDB:

تركيبة مجموعة البيانات عبر 100 فيلم ، تُظهر تغطية زمنية متوازنة من 1992 إلى 2025 ، وغالبية بسيطة من الأسماء غير الإنجليزية ، وتوزيع واسع من الأنواع بقيادة الدراما والعمل ، مع تمثيل عبر الخيال العلمي والرعب والكوميديا والرومانسية والتاريخ.
تم تصميم مجموعة واسعة من الأنواع المعالجة (انظر الرسم البياني أعلاه) لمنع التحيز تجاه أي نوع معين.
تضمنت قاعدة بيانات الوجه لكل فيلم صورتين للجهات الفاعلة الرئيسية – واحدة من صورة فيلم وواحدة من صورة دعائية متعلقة.
تم تنفيذ الاختبارات باستخدام Python ، وتم تشغيلها عبر أربعة وحدات معالجة رسومات NVIDIA A40 ، كل منها مع 48GB من VRAM ، ونموذج Qwen2.5 المذكور أعلاه كنموذج VLM المركزي. كما تم إجراء دراسات التخفيض مع نماذج أخرى رائدة InternVL3-8B و WeThink-Qwen2.5VL-7B.
تم اختبار الإطار الجديد ضد متغيرين من التخفيض: الأساس بدون تلميح ، حيث يُنتج نموذج الرؤية واللغة وصف المشهد من الإطار الرئيسي فقط ، بدون أي إشارات نصية عن هويات الشخصيات؛ و إعداد التلميح باسم فقط ، حيث يتم إعطاء النموذج أسماء الشخصيات المكتشفة ، ولكن ليس المساحات الحدودية ، مما يسمح للمؤلفين بفصل المساهمة المحددة للترسيم المكاني في الاتساق الهوياتي والقصصي.
فيما يتعلق بالمقياس ، نظرًا لصعوبة تطبيق نهج الحقيقة الأرضية على ملخصات القصة الطويلة ، تم التخلي عن مقاييس ت重疊 مثل ROUGE و BLEU لصالح BERTScore مع F1 score ، لقياس التشابه الدلالي ضد ملخص مرجعي من “موسوعة عامة”.
كما تم استخدام Gemini 2.5 Flash لتحديد كل ملخص لصدق الحقائق؛ الاتساق الهوياتي والكمال؛ الاتساق السردي والتدفق؛ والملاءمة ، مع متوسط الدرجات عبر الأبعاد.
أخيرًا ، تم إجراء تقييم بشري لملخصات 50 عينة عشوائية باستخدام المقارنة الزوجية ، مما يوفر فحصًا عمليًا على التقييمات الآلية.
فيما يلي نتائج BERTScore (F1) للنماذج الثلاثة الأساسية: Qwen2.5-VL و InternVL3 و WeThink. كل نموذج تم اختباره في ثلاثة إعدادات: بدون تلميح و باسم فقط و نظام MovieTeller الكامل:

مقارنة BERTScore (F1) عبر ثلاث نماذج رؤية ولغة أساسية وثلاث إعدادات تجريبية ، تُظهر مكاسب متسقة من إضافة أسماء الشخصيات ومكاسب إضافية عند تضمين الترسيم المكاني ، مع تحقيق نظام MovieTeller أعلى درجات في جميع الحالات.
يشير المؤلفون إلى أن النمط متسق عبر جميع النماذج الثلاثة: استخدام الإطار الرئيسي فقط يُنتج أداءً أضعف؛ إضافة أسماء الشخصيات تُنتج تحسنًا معتدلاً؛ وتضمين أسماء الشخصيات والمساحات الحدودية يُنتج نتائج أقوى. على الرغم من أن المكاسب ليست دراماتيكية ، فإن التكوين المُحسّن بشكل كامل يُحقق أعلى تماثل دلالي مع الملخص المرجعي ، في كل إعداد.
فيما يتعلق بالتقييم القائم على LLM لجودة السرد: كما نرى في النتائج أدناه ، يُكافح الأساس بدون تلميح أكثر مع الاتساق الهوياتي ، مما يؤدي إلى انخفاض درجته العامة. ومع ذلك ، فإن توفير الأسماء فقط يُنتج تحسنًا ملحوظًا ، خاصة على أبعاد متعلقة بالهوية. ومع ذلك ، فإن نظام MovieTeller الكامل يحتل أعلى درجات في جميع النماذج الثلاثة:

تقييم LLM-as-a-Judge (1–5 scale) عبر ثلاث نماذج أساسية ، يُظهر أن إضافة أسماء الشخصيات تُحسّن الاتساق الهوياتي والجودة العامة ، في حين يحقق نظام MovieTeller الكامل أعلى درجات عبر الصدق الحقائق ، والاتساق ، والملاءمة ، والدرجة النهائية.
تظهر المكاسب الأقوى في الاتساق الهوياتي ، وفي الدرجة النهائية المُمتعة ، مما يشير إلى أن الترسيم المكاني يساعد النموذج على الحفاظ على وضوح حول من يقوم بماذا أثناء تطور القصة.
في التقييم البشري لملخصات 50 عينة عشوائية ، تم عرض ثلاث ملخصات للمشاركين في كل مرة ، وطُلب منهم اختيار الأفضل:
<img class=" wp-image-287300" src="https://www.unite.ai/wp-content/uploads/2026/02/table-3-3.jpg" alt="معدلات تفضيل الإنسان في تقييم ثلاثي القوة ، تُظهر أن ملخصات MovieTeller الكاملة تُختار أكثر souvent عبر جميع النماذج الثلاثة ، وتفوق بشكل كبير كل من الأساس بدون تلميح و باسم فقط.” width=”618″ height=”131″ /> معدلات تفضيل الإنسان في تقييم ثلاثي القوة ، تُظهر أن ملخصات MovieTeller الكاملة تُختار أكثر often عبر جميع النماذج الثلاثة ، وتفوق بشكل كبير كل من الأساس بدون تلميح و باسم فقط.
أخيرًا ، تم إجراء اختبار نوعي على فيلم The Bullet Vanishes (2012):

لا يمكننا إعادة إنتاج كامل هذه الشكل من الورقة الأصلية ، لأنها طويلة جدًا وغنية بالنص. يُرجى الرجوع إلى الورقة الأصلية بدلاً من ذلك.
هنا ، يُنتج الأساس بدون تلميح ملخصًا غامضًا يُشير إلى الشخصيات bằng أسماء عامة ، ويمحو أدوارهم ، مما يجعل سلسلة الأحداث أكثر صعوبة في المتابعة. ومع ذلك ، فإن توفير الأسماء فقط يُحسّن التذكر السطحي ، ولكن القصة لا تزال تائهة ، مع علاقات الشخصيات ودوافعهم موصوفة بطريقة “مُسطحة”.
على العكس من ذلك ، يحافظ الإصدار الكامل من MovieTeller على استقرار الهويات طوال الملخص ، ويربط الأفعال بالشخصيات الصحيحة ، مما يسمح بمتابعة تحقيق القصة بتركيب سببي أوضح. يتم الحفاظ على التوترات والديناميات الدورية بدلاً من التخفيض ، مما ينتج ملخصًا يقرأ أقل مثل مخطط غير متصل وأكثر مثل سرد متسق لقوس الفيلم المركزي:

جزء من المقارنة النهائية ، التي لا يمكننا إعادة إنتاجها بالكامل هنا ، تُظهر ملخصًا مُختزلًا وملخصًا كاملًا من MovieTeller. يُرجى الرجوع إلى الورقة الأصلية بدلاً من ذلك.
الخاتمة
على الرغم من أن معظم المشاريع الجديدة من هذا النوع تنتهي في أدب الرؤية الحاسوبية ، فإن تلخيص الفيلم بواسطة الذكاء الاصطناعي يشمل العديد من التخصصات والمجالات الأخرى في أبحاث الذكاء الاصطناعي – ومن الصعب تحديد أي من هذه المجالات سيساهم بشكل غير مقصود في حل القطعة المفقودة من اللغز؛ على الرغم من أن MovieTeller يُحرز خطوة في الاتجاه الصحيح ، من خلال تقسيم المهام عبر الوحدات المناسبة ، بدلاً من محاولة حلها جميعًا بشكل منفصل في الفضاء الكامن ، إلا أنه يحتفظ bằng الشعور “المُخلوط” الذي يسبق عادةً حلًا أكثر أناقة في وقت لاحق.
* لا أستطيع تحديد هذه المؤسسة ، حتى بعد بعض البحث.
† يمكن افتراض شيء مثل IMDB أو OMDB ، ولكن المصدر غير محدد.
†† يرجى الرجوع إلى الورقة الأصلية للحصول على التخفيض الشامل ، حيث نغطي فقط التخفيض الكامل في الحالات الاستثنائية. سأشير إلى أن دراسات التخفيض غير المُعالجة المذكورة هنا لا تُقلل من النتائج العامة للورقة.
نُشر لأول مرة يوم الجمعة ، 27 فبراير 2026












