اتصل بنا للحصول على مزيد من المعلومات

لماذا يخطئ فيديو الذكاء الاصطناعي أحيانًا؟

زاوية أندرسون

لماذا يخطئ فيديو الذكاء الاصطناعي أحيانًا؟

mm
صورة ChatGPT/Firefly تُظهر متزلجًا نفاثًا يترك وراءه أثرًا لا يُصدق.

إذا كان عام 2022 هو العام الذي استحوذ فيه الذكاء الاصطناعي التوليدي على خيال جمهور أوسع، فإن عام 2025 هو العام الذي سيشهد ظهور جيل جديد من الذكاء الاصطناعي التوليدي. الفيديو ويبدو أن الأطر القادمة من الصين عازمة على القيام بالشيء نفسه.

حققت شركة Hunyuan Video التابعة لشركة Tencent نجاحًا كبيرًا تأثير كبير على مجتمع هواة الذكاء الاصطناعي من خلال إصداره مفتوح المصدر لنموذج نشر الفيديو في جميع أنحاء العالم والذي يمكن للمستخدمين مصممة لتناسب احتياجاتهم.

في أعقابها مباشرة، تأتي شركة علي بابا الأحدث وان 2.1، أحد أقوى حلول FOSS لتحويل الصور إلى فيديو في هذه الفترة - وهو يدعم الآن التخصيص من خلال وان لورا.

بالإضافة إلى توافر نموذج الأساس الحديث الذي يركز على الإنسان سكاي ريلزفي وقت كتابة هذا التقرير، ننتظر أيضًا إصدار علي بابا للتقرير الشامل VACE مجموعة إنشاء وتحرير الفيديو:

انقر للعب. أثار الإصدار المرتقب لمجموعة التحرير بالذكاء الاصطناعي متعددة الوظائف VACE من Alibaba حماس مجتمع المستخدمين. المصدر: https://ali-vilab.github.io/VACE-Page/

الأثر المفاجئ

إن مشهد أبحاث الذكاء الاصطناعي في مجال الفيديو التوليدي ليس أقل انفجارًا؛ فما زلنا في النصف الأول من شهر مارس/آذار، ووصل عدد المشاركات في قسم الرؤية الحاسوبية في Arxiv (مركز لأوراق الذكاء الاصطناعي التوليدي) يوم الثلاثاء إلى ما يقرب من 350 مشاركة - وهو رقم يرتبط بشكل أكبر بارتفاع موسم المؤتمرات.

العامان منذ إطلاق من الانتشار المستقر في صيف عام 2022 (والتطور اللاحق لـ دريمبوت و لورا وقد اتسمت التطورات الجديدة (وخاصة في مجال البرمجيات وأساليب التخصيص) بعدم وجود تطورات رئيسية أخرى، حتى الأسابيع القليلة الماضية، حيث كانت الإصدارات والابتكارات الجديدة تتقدم بوتيرة سريعة للغاية لدرجة أنه يكاد يكون من المستحيل مواكبة كل ذلك، ناهيك عن تغطيته بالكامل.

لقد تم حل نماذج انتشار الفيديو مثل Hunyuan و Wan 2.1 أخيرًا، وبعد سنوات من الجهود الفاشلة من مئات المبادرات البحثية، مشكلة of الاتساق الزمني كما يتعلق الأمر بجيل البشر، وبدرجة كبيرة أيضًا بالبيئات والأشياء.

لا شك أن استوديوهات المؤثرات البصرية تعمل حاليًا على توظيف الموظفين والموارد لتكييف نماذج الفيديو الصينية الجديدة لحل التحديات الفورية مثل تبديل الوجوه، على الرغم من الافتقار الحالي إلى كونترول نت- آليات مساعدة لهذه الأنظمة.

لا بد وأن يكون من دواعي الارتياح أن إحدى هذه العقبات الكبيرة قد تم التغلب عليها، وإن لم يكن من خلال الطرق المتوقعة.

ومن بين المشاكل التي لا تزال قائمة، فإن هذه المشكلة ليست غير مهمة:

انقر للعب. استنادًا إلى المطالبة "صخرة صغيرة تتدحرج إلى أسفل منحدر صخري شديد الانحدار، مما يؤدي إلى إزاحة التربة والأحجار الصغيرة"، فإن Wan 2.1، الذي حقق أعلى الدرجات في الورقة الجديدة، يرتكب خطأً بسيطًا واحدًا. المصدر: https://videophy2.github.io/

صعود التل إلى الخلف

جميع أنظمة تحويل النص إلى فيديو والصورة إلى فيديو المتوفرة حاليًا، بما في ذلك النماذج التجارية المغلقة المصدر، تميل إلى إنتاج أخطاء فيزيائية مثل تلك المذكورة أعلاه، حيث يُظهر الفيديو صخرة تتدحرج صعدا، بناءً على المطالبة 'تتساقط صخرة صغيرة أسفل منحدر صخري شديد الانحدار، مما يؤدي إلى إزاحة التربة والأحجار الصغيرة ".

هناك نظرية واحدة حول سبب حدوث ذلك، اقترح مؤخرا في تعاون أكاديمي بين علي بابا والإمارات العربية المتحدة، فإن النماذج تتدرب دائمًا على صور فردية، بمعنى ما، حتى عندما تتدرب على مقاطع فيديو (والتي يتم كتابتها في تسلسلات إطار واحد لأغراض التدريب)؛ وقد لا تتعلم بالضرورة الترتيب الزمني الصحيح لـ 'قبل' و 'بعد' الصور.

ومع ذلك، فإن الحل الأكثر احتمالا هو أن النماذج المعنية قد استخدمت زيادة البيانات الروتينات التي تتضمن تعريض مقطع تدريب المصدر للنموذج للأمام و إلى الوراء، مما يؤدي إلى مضاعفة بيانات التدريب بشكل فعال.

من المعروف منذ فترة طويلة أنه لا ينبغي القيام بذلك بشكل تعسفي، لأن بعض الحركات تعمل في الاتجاه المعاكس، ولكن الكثير منها لا يعمل. 2019 الدراسة من جامعة بريستول بالمملكة المتحدة سعى إلى تطوير طريقة يمكنها التمييز متكافئ, ثابتة و لا رجعة فيه مقاطع فيديو بيانات المصدر التي تتواجد معًا في مجموعة بيانات واحدة (انظر الصورة أدناه)، مع فكرة إمكانية تصفية مقاطع المصدر غير المناسبة من إجراءات زيادة البيانات.

أمثلة على ثلاثة أنواع من الحركة، واحد منها فقط قابل للانعكاس بحرية مع الحفاظ على ديناميكيات فيزيائية معقولة. المصدر: https://arxiv.org/abs/1909.09422

أمثلة على ثلاثة أنواع من الحركة، واحد منها فقط يمكن عكسه بحرية مع الحفاظ على ديناميكيات فيزيائية معقولة. المصدر: https://arxiv.org/abs/1909.09422

وقد صاغ مؤلفو هذا العمل المشكلة بوضوح:

نجد أن واقعية مقاطع الفيديو المعكوسة تُفضح بسبب آثار عكسية، وهي جوانب من المشهد لا يمكن رؤيتها في العالم الطبيعي. بعض الآثار خفية، بينما يسهل رصد بعضها الآخر، مثل حركة "الرمي" المعكوسة حيث يرتفع الجسم الملقى تلقائيًا من الأرض.

نلاحظ نوعين من آثار الانعكاس: مادية، تُظهر انتهاكات لقوانين الطبيعة، وغير محتملة، تُصوّر سيناريو محتملًا ولكنه غير مُرجّح. هذه ليست حصرية، فكثير من الأفعال العكسية تعاني من كلا النوعين من الآثار، كما هو الحال عند فكّ قطعة ورق.

من أمثلة الآثار المادية: الجاذبية المقلوبة (مثل "إسقاط شيء ما")، والنبضات التلقائية على الأجسام (مثل "تدوير قلم")، والتغيرات غير القابلة للعكس في الحالة (مثل "إشعال شمعة"). ومن الأمثلة على الآثار غير المتوقعة: أخذ طبق من الخزانة، وتجفيفه، ووضعه على رف التجفيف.

"يعتبر هذا النوع من إعادة استخدام البيانات شائعًا جدًا في وقت التدريب، ويمكن أن يكون مفيدًا - على سبيل المثال، في التأكد من أن النموذج لا يتعلم عرضًا واحدًا فقط للصورة أو الكائن الذي يمكن قلبه أو تدويره دون فقدان تماسكه المركزي ومنطقه.

"هذا ينطبق فقط على الأشياء المتماثلة حقًا، بطبيعة الحال؛ وتعلم الفيزياء من مقطع فيديو "معكوس" لا يعمل إلا إذا كان الإصدار المعكوس له نفس القدر من المعنى مثل الإصدار الأمامي."

الانعكاسات المؤقتة

ليس لدينا أي دليل على أن أنظمة مثل Hunyuan Video و Wan 2.1 سمحت بتعرض مقاطع "معكوسة" بشكل تعسفي للنموذج أثناء التدريب (لم تكن أي من المجموعتين من الباحثين محددة فيما يتعلق بروتينات زيادة البيانات).

ومع ذلك، فإن البديل المعقول الوحيد، في مواجهة الكثير من التقارير (ومن خلال تجربتي العملية الخاصة)، يبدو أن مجموعات البيانات الضخمة التي تدعم هذه النماذج قد تحتوي على مقاطع في الواقع تتميز الحركات التي تحدث في الاتجاه المعاكس.

تم إنشاء الصخرة الموجودة في مقطع الفيديو المضمن أعلاه باستخدام Wan 2.1، وتظهر في دراسة جديدة تبحث في مدى جودة تعامل نماذج انتشار الفيديو مع الفيزياء.

وفي الاختبارات التي أجريت لهذا المشروع، حصل Wan 2.1 على درجة 22% فقط من حيث قدرته على الالتزام بالقوانين الفيزيائية بشكل ثابت.

ومع ذلك، هذا هو أفضل نتيجة أي نظام تم اختباره للعمل، مما يشير إلى أننا ربما وجدنا حجر العثرة التالي في طريق الذكاء الاصطناعي للفيديو:

النتائج التي حصلت عليها أنظمة مفتوحة المصدر ومغلقة المصدر الرائدة، مع تقييم مخرجات الأطر من قِبل مُعلّقين بشريين. المصدر: https://arxiv.org/pdf/2503.06800

النتائج التي تم الحصول عليها من خلال أنظمة مفتوحة المصدر ومغلقة المصدر الرائدة، مع تقييم مخرجات الأطر بواسطة المعلقين البشريين. المصدر: https://arxiv.org/pdf/2503.06800

قام مؤلفو العمل الجديد بتطوير نظام معياري، وهو الآن في نسخته الثانية، ويسمى فيديو فيزي، مع الكود متاح في جيثب.

ورغم أن نطاق العمل يتجاوز ما يمكننا تغطيته بشكل شامل هنا، دعونا نلقي نظرة عامة على منهجيته وإمكاناته في إنشاء مقياس يمكن أن يساعد في توجيه مسار جلسات تدريب النموذج المستقبلية بعيدًا عن هذه الحالات الغريبة من الانعكاس.

استخدم دراسة، التي أجراها ستة باحثين من جامعة كاليفورنيا في لوس أنجلوس وجوجل للأبحاث، تسمى VideoPhy-2: تقييم منطقي فيزيائي مرتكز على الفعل في توليد الفيديو. مرافقة مزدحمة موقع المشروع متاح أيضًا، إلى جانب التعليمات البرمجية ومجموعات البيانات في جيثب، وعارض مجموعة البيانات في وجه العناق.

انقر للعب. هنا، يفشل نموذج OpenAI Sora المشهور في فهم التفاعلات بين المجاديف والانعكاسات، ولا يتمكن من توفير تدفق مادي منطقي إما للشخص الموجود في القارب أو للطريقة التي يتفاعل بها القارب معها.

الأسلوب

يصف المؤلفون أحدث نسخة من عملهم، فيديو فيزي-2، باعتبارها "مجموعة بيانات تقييمية عملية وتحديات للإجراءات الواقعية". تضم المجموعة 197 إجراءً عبر مجموعة من الأنشطة البدنية المتنوعة مثل الهولا هوب, رياضة بدنية و كرة المضرب، بالإضافة إلى تفاعلات الكائنات، مثل ثني الجسم حتى ينكسر.

يتم استخدام نموذج لغوي كبير (LLM) لتوليد 3840 مطالبة من هذه الإجراءات الأولية، ويتم بعد ذلك استخدام المطالبات لتجميع مقاطع الفيديو عبر الأطر المختلفة التي يتم تجربتها.

طوال العملية، قام المؤلفون بتطوير قائمة من القواعد والقوانين الفيزيائية "المرشحة" التي يجب أن تلبيها مقاطع الفيديو التي يتم إنشاؤها بواسطة الذكاء الاصطناعي، باستخدام نماذج الرؤية واللغة للتقييم.

يذكر المؤلفون:

على سبيل المثال، في فيديو للاعب تنس، تنص القاعدة الفيزيائية على أن كرة التنس يجب أن تتبع مسارًا مكافئًا تحت تأثير الجاذبية. وللحصول على أحكام معيارية، نطلب من المعلقين تقييم كل فيديو بناءً على الالتزام الدلالي العام والحس الفيزيائي السليم، وتحديد مدى امتثاله لقواعد فيزيائية مختلفة.

أعلى: يُولَّد مُوجِّه نصي من إجراء باستخدام برنامج LLM، ويُستخدم لإنشاء فيديو باستخدام مُولِّد نص إلى فيديو. يُضيف نموذج لغة بصرية شرحًا توضيحيًا للفيديو، مُحدِّدًا القواعد المادية المُحتملة المُستخدمة. أسفل: يُقيِّم المُعلِّقون البشريون واقعية الفيديو، ويُؤكِّدون انتهاك القواعد، ويُضيفون القواعد الناقصة، ويتحققون من تطابق الفيديو مع المُوجِّه الأصلي.

أعلى: يُولَّد مُوجِّه نصي من إجراء باستخدام برنامج LLM، ويُستخدم لإنشاء فيديو باستخدام مُولِّد نص إلى فيديو. يُضيف نموذج لغة بصرية شرحًا توضيحيًا للفيديو، مُحدِّدًا القواعد المادية المُحتملة المُستخدمة. أسفل: يُقيِّم المُعلِّقون البشريون واقعية الفيديو، ويُؤكِّدون انتهاك القواعد، ويُضيفون القواعد الناقصة، ويتحققون من تطابق الفيديو مع المُوجِّه الأصلي.

في البداية، قام الباحثون بجمع مجموعة من الإجراءات لتقييم الحس السليم المادي في مقاطع الفيديو المُولّدة بالذكاء الاصطناعي. بدأوا بأكثر من 600 إجراء مُستمد من حركية, يو سي إف-101و SSv2 مجموعات البيانات، مع التركيز على الأنشطة التي تنطوي على الرياضة، وتفاعلات الأشياء، والفيزياء في العالم الحقيقي.

قامت مجموعتان مستقلتان من الطلاب المتدربين في مجالات العلوم والتكنولوجيا والهندسة والرياضيات (مع الحصول على مؤهل جامعي أدنى) بمراجعة القائمة وتصفيتها، واختيار الإجراءات التي اختبرت مبادئ مثل خطورة, زخمو مرونة، مع إزالة المهام منخفضة الحركة مثل كتابة, مداعبة قطة أو مضغ.

بعد مزيد من التحسين مع جيميني-2.0-فلاش-إكسب ولإزالة التكرارات، تضمنت مجموعة البيانات النهائية 197 إجراءً، منها 54 إجراءً يتضمن تفاعلات مع الأشياء و143 إجراءً يركز على الأنشطة البدنية والرياضية:

عينات من الإجراءات المقطرة.

عينات من الإجراءات المقطرة.

في المرحلة الثانية، استخدم الباحثون برنامج Gemini-2.0-Flash-Exp لتوليد 20 دافعًا لكل إجراء في مجموعة البيانات، مما أدى إلى إنتاج 3,940 دافعًا. ركزت عملية التوليد على التفاعلات المادية المرئية التي يمكن تمثيلها بوضوح في فيديو مُولّد. وقد استُبعدت العناصر غير المرئية مثل: العواطف, تفاصيل حسيةو اللغة المجردة، ولكنها تضمنت شخصيات وأشياء متنوعة.

على سبيل المثال، بدلاً من مطالبة بسيطة مثل '"رامي يطلق السهم"تم توجيه النموذج لإنتاج نسخة أكثر تفصيلاً مثل "يسحب الرامي وتر القوس إلى أقصى توتر، ثم يطلق السهم، الذي يطير بشكل مستقيم ويصيب هدفًا ورقيًا في مركز الثور.".

وبما أن نماذج الفيديو الحديثة قادرة على تفسير الأوصاف الأطول، فقد قام الباحثون بتحسين التسميات التوضيحية بشكل أكبر باستخدام ميسترال-نيمو-12بي-إنستراكت أداة رفع العينات السريعة، لإضافة تفاصيل مرئية دون تغيير المعنى الأصلي.

نماذج من أسئلة فيديو فيزي-٢، مُصنّفة حسب الأنشطة البدنية أو التفاعلات مع الأشياء. كل سؤال مُقترن بالنشاط المُقابل له والمبدأ الفيزيائي المُختبر.

نماذج من أسئلة فيديو فيزي-٢، مُصنّفة حسب الأنشطة البدنية أو التفاعلات مع الأشياء. كل سؤال مُقترن بالنشاط المُقابل له والمبدأ الفيزيائي المُختبر.

بالنسبة للمرحلة الثالثة، لم يتم استخلاص القواعد المادية من المطالبات النصية ولكن من مقاطع الفيديو المولدة، نظرًا لأن النماذج التوليدية قد تواجه صعوبة في الالتزام بالمطالبات النصية المشروطة.

أُنشئت مقاطع الفيديو أولًا باستخدام مُحفِّزات VideoPhy-2، ثم أُضيفت إليها ترجمة توضيحية باستخدام Gemini-2.0-Flash-Exp لاستخراج التفاصيل الرئيسية. اقترح النموذج ثلاث قواعد فيزيائية متوقعة لكل مقطع فيديو، قام المُعلِّقون البشريون بمراجعتها وتوسيعها من خلال تحديد أي انتهاكات محتملة إضافية.

أمثلة من التسميات التوضيحية التي تم أخذ عينات منها.

أمثلة من التسميات التوضيحية التي تم أخذ عينات منها.

بعد ذلك، لتحديد الإجراءات الأكثر تحديًا، قام الباحثون بإنشاء مقاطع فيديو باستخدام CogVideoX-5B باستخدام إرشادات من مجموعة بيانات VideoPhy-2. ثم اختاروا 60 إجراءً من أصل 197 إجراءً فشل فيها النموذج باستمرار في اتباع الإرشادات والمنطق الفيزيائي السليم.

تضمنت هذه الأنشطة تفاعلات غنية بالفيزياء، مثل انتقال الزخم في رمي القرص، وتغيرات الحالة مثل ثني جسم حتى ينكسر، ومهام التوازن مثل المشي على الحبل المشدود، وحركات معقدة مثل الشقلبة الخلفية، والقفز بالزانة، ورمي البيتزا، وغيرها. في المجمل، تم اختيار 1,200 سؤال لزيادة صعوبة مجموعة البيانات الفرعية.

تضمنت مجموعة البيانات الناتجة 3,940 تعليقًا، أي أكثر بـ 5.72 مرة من الإصدار السابق من VideoPhy. يبلغ متوسط ​​طول التعليقات الأصلية 16 رمزًا، بينما يصل طول التعليقات المُحسّنة إلى 138 رمزًا، أي أطول بـ 1.88 مرة و16.2 مرة على التوالي.

وتتضمن مجموعة البيانات أيضًا 102,000 تعليقًا بشريًا تغطي الالتزام الدلالي والفطرة السليمة المادية وانتهاكات القواعد عبر نماذج إنشاء الفيديو المتعددة.

التقييم

ثم حدد الباحثون معايير واضحة لتقييم الفيديوهات. وكان الهدف الرئيسي هو تقييم مدى توافق كل فيديو مع متطلباته وتوافقه مع المبادئ الفيزيائية الأساسية.

بدلاً من مجرد تصنيف مقاطع الفيديو حسب التفضيلات، استخدموا التغذية الراجعة القائمة على التصنيف لتسجيل نجاحات وإخفاقات محددة. قيّم المعلّقون البشريون مقاطع الفيديو على مقياس من خمس نقاط، مما يسمح بإصدار أحكام أكثر تفصيلاً، بينما تحقّق التقييم أيضًا من التزام مقاطع الفيديو بقواعد وقوانين فيزيائية مختلفة.

للتقييم البشري، تم اختيار مجموعة من ١٢ مُعلّقًا من تجارب على Amazon Mechanical Turk (AMT)، وقدّموا تقييماتهم بعد تلقي تعليمات مُفصّلة عن بُعد. وللإنصاف، الالتزام الدلالي و الحس السليم الجسدي تم تقييمهم بشكل منفصل (في دراسة VideoPhy الأصلية، تم تقييمهم بشكل مشترك).

قام المُعلِّقون أولًا بتقييم مدى تطابق الفيديوهات مع مُطالباتهم، ثم قاموا بتقييم معقوليتها المادية بشكل منفصل، مُقيِّمين بذلك مخالفات القواعد والواقعية العامة على مقياس من خمس نقاط. عُرضت المُطالبات الأصلية فقط، لضمان مُقارنة عادلة بين النماذج.

الواجهة المقدمة إلى المعلقين AMT.

الواجهة المقدمة إلى المعلقين AMT.

على الرغم من أن الحكم البشري يظل هو المعيار الذهبي، إلا أنه مكلف ويأتي مع عدد التحذيراتلذلك، يعد التقييم الآلي ضروريًا لتقييمات النماذج بشكل أسرع وأكثر قابلية للتطوير.

قام مؤلفو الورقة باختبار العديد من نماذج لغة الفيديو، بما في ذلك Gemini-2.0-Flash-Exp و فيديو سكور، على قدرتهم على تقييم مقاطع الفيديو من حيث الدقة الدلالية و"الفطرة السليمة المادية".

وقد قامت النماذج مرة أخرى بتقييم كل مقطع فيديو على مقياس من خمس نقاط، في حين حددت مهمة تصنيف منفصلة ما إذا كان قد تم اتباع القواعد المادية أو انتهاكها أو عدم وضوحها.

أظهرت التجارب أن نماذج لغة الفيديو الحالية واجهت صعوبة في مطابقة الأحكام البشرية، ويرجع ذلك أساسًا إلى ضعف التفكير المادي وتعقيد المطالبات. ولتحسين التقييم الآلي، طوّر الباحثون فيديوPhy-2-التقييم التلقائي، وهو نموذج مكون من 7B معلمات مصمم لتوفير تنبؤات أكثر دقة عبر ثلاث فئات: الالتزام الدلالي; الحس السليم الجسدي، و الامتثال للقواعد، تم ضبطها بدقة على فيديوكون-فيزياء نموذج يستخدم 50,000 تعليق بشري*.

البيانات والاختبارات

وباستخدام هذه الأدوات، اختبر المؤلفون عددًا من أنظمة الفيديو التوليدية، سواء من خلال التثبيتات المحلية أو، حيثما كان ذلك ضروريًا، عبر واجهات برمجة التطبيقات التجارية: CogVideoX-5B؛ فيديوكرافتر2; هونيوانفيديو-13ب; انتشار الكون؛ وان2.1-14ب؛ أوبن آي سورا، و لوما راي.

تم مطالبة النماذج بتعليقات توضيحية تم أخذ عينات منها حيثما أمكن، باستثناء أن Hunyuan Video وVideoCrafter2 يعملان بموجب رمز 77 CLIP القيود، ولا يمكن قبول المطالبات التي تزيد عن طول معين.

تم الاحتفاظ بمقاطع الفيديو التي تم إنشاؤها بأقل من 6 ثوانٍ، نظرًا لأن الناتج الأقصر يكون أسهل في التقييم.

كانت بيانات القيادة من مجموعة بيانات VideoPhy-2، والتي تم تقسيمها إلى مجموعة معيارية ومجموعة تدريب. تم إنشاء 590 مقطع فيديو لكل نموذج، باستثناء Sora وRay2؛ بسبب عامل التكلفة (تم إنشاء عدد أقل من مقاطع الفيديو لهذه النماذج).

(يرجى الرجوع إلى ورقة المصدر لمزيد من تفاصيل التقييم، والتي تم توثيقها بشكل شامل هناك)

تم التعامل مع التقييم الأولي الأنشطة البدنية/الرياضية (السلطة الفلسطينية) و تفاعلات الكائنات (OI)، واختبر كل من مجموعة البيانات العامة والمجموعة الفرعية "الأكثر صعوبة" المذكورة أعلاه:

نتائج الجولة الأولية.

نتائج الجولة الأولية.

وهنا تعليق المؤلفين:

حتى أفضل نموذج أداءً، Wan2.1-14B، لا يحقق سوى 32.6% و21.9% في التقسيمين الكامل والنهائي لمجموعة بياناتنا، على التوالي. ويُعزى أداءه القوي نسبيًا مقارنةً بالنماذج الأخرى إلى تنوع بيانات التدريب متعدد الوسائط، بالإضافة إلى فلترة الحركة القوية التي تحافظ على جودة مقاطع الفيديو عبر مجموعة واسعة من الحركات.

علاوة على ذلك، نلاحظ أن النماذج المغلقة، مثل Ray2، تُقدم أداءً أسوأ من النماذج المفتوحة مثل Wan2.1-14B وCogVideoX-5B. هذا يشير إلى أن النماذج المغلقة ليست بالضرورة أفضل من النماذج المفتوحة في استيعاب الحس السليم المادي.

'من الجدير بالذكر أن نموذج Cosmos-Diffusion-7B حقق ثاني أفضل نتيجة في الاختبار الصعب، متفوقًا حتى على نموذج HunyuanVideo-13B الأكبر حجمًا. قد يعود ذلك إلى التمثيل العالي للأفعال البشرية في بيانات تدريبه، بالإضافة إلى عمليات المحاكاة المُقدمة صناعيًا.'

أظهرت النتائج أن نماذج الفيديو واجهت صعوبة أكبر في الأنشطة البدنية كالرياضة مقارنةً بالتفاعلات البسيطة مع الأشياء. يشير هذا إلى أن تحسين مقاطع الفيديو المُولّدة بالذكاء الاصطناعي في هذا المجال يتطلب مجموعات بيانات أفضل، وخاصةً لقطات عالية الجودة لرياضات مثل التنس والقرص والبيسبول والكريكيت.

تناولت الدراسة أيضًا مدى ارتباط الملاءمة المادية للنموذج بمقاييس جودة الفيديو الأخرى، مثل الجمالية وسلاسة الحركة. ولم تكشف النتائج عن أي ارتباط قوي، ما يعني أنه لا يمكن للنموذج تحسين أدائه على VideoPhy-2 بمجرد توليد حركة جذابة بصريًا أو سلسة - بل يتطلب فهمًا أعمق للحس السليم المادي.

على الرغم من أن الورقة البحثية تقدم أمثلة نوعية غزيرة، إلا أن القليل من الأمثلة الثابتة الواردة في ملف PDF يبدو أنها مرتبطة بأمثلة الفيديو الشاملة التي يقدمها المؤلفون في موقع المشروع. لذلك، سنتناول مجموعة صغيرة من الأمثلة الثابتة، ثم المزيد من فيديوهات المشروع الفعلية.

يُظهر الصف العلوي مقاطع فيديو تم إنشاؤها بواسطة Wan2.1. (أ) في Ray2، تتخلف الزلاجة النفاثة على اليسار قبل التحرك للخلف. (ب) في Hunyuan-13B، تتشوه المطرقة الثقيلة في منتصف التأرجح، وتظهر لوحة خشبية مكسورة بشكل غير متوقع. (ج) في Cosmos-7B، يطرد الرمح الرمال قبل ملامسته للأرض.

يُظهر الصف العلوي مقاطع فيديو تم إنشاؤها بواسطة Wan2.1. (أ) في Ray2، تتخلف الزلاجة النفاثة على اليسار قبل التحرك للخلف. (ب) في Hunyuan-13B، تتشوه المطرقة الثقيلة في منتصف التأرجح، وتظهر لوحة خشبية مكسورة بشكل غير متوقع. (ج) في Cosmos-7B، يطرد الرمح الرمال قبل ملامسته للأرض.

وفيما يتعلق بالاختبار النوعي المذكور أعلاه، علق المؤلفون:

نلاحظ انتهاكاتٍ للمنطق السليم، مثل حركة الزلاجات المائية بشكل غير طبيعي في الاتجاه المعاكس، وتشوه مطرقة ثقيلة صلبة، مما يخالف مبادئ المرونة. ومع ذلك، حتى وان يعاني من نقصٍ في المنطق السليم، كما هو موضح في [المقطع المرفق في بداية هذه المقالة].

'في هذه الحالة، نسلط الضوء على أن الصخرة تبدأ بالتدحرج والتسارع نحو الأعلى، متحدية قانون الجاذبية الفيزيائي.'

أمثلة أخرى من موقع المشروع:

انقر للعب. كان العنوان هنا "يقوم شخص بلف منشفة مبللة بقوة، فيتناثر الماء للخارج في قوس مرئي" - لكن مصدر الماء الناتج يشبه خرطوم المياه أكثر بكثير من المنشفة.

انقر للعب. كان العنوان هنا هو "يسكب الكيميائي سائلًا شفافًا من الكوب إلى أنبوب اختبار، مع تجنب الانسكابات بعناية"، لكننا نستطيع أن نرى أن حجم الماء المضاف إلى الكوب لا يتوافق مع الكمية الخارجة من الإبريق.

كما ذكرتُ في البداية، فإن حجم المواد المتعلقة بهذا المشروع يفوق بكثير ما يمكن تغطيته هنا. لذا، يُرجى الرجوع إلى الورقة المصدرية وموقع المشروع والمواقع ذات الصلة المذكورة سابقًا، للاطلاع على ملخص شامل لإجراءات المؤلفين، ومزيد من أمثلة الاختبار وتفاصيل الإجراءات.

 

* أما بالنسبة لمصدر التعليقات التوضيحية، فإن الورقة تحدد فقط "تم الحصول عليها لهذه المهام" - ويبدو أن الكثير منها تم إنشاؤه بواسطة 12 عاملاً في AMT.

نُشر لأول مرة يوم الخميس 13 مارس 2025

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai