زاوية Anderson

لماذا قد يفهم الفيديو الذكي بشكل خاطئ الاتجاه

mm
ChatGPT/Firefly image depicting a jet-skier impossibly leaving a wake in front of himself.

إذا كان عام 2022 هو العام الذي استحوذت فيه الذكاء الاصطناعي المتولّد على خيال الجمهور بشكل أوسع، فإن عام 2025 هو العام الذي يبدو فيه أن الجيل الجديد من إطارات الفيديو المتولّدة القادمة من الصين على وشك أن يفعل الشيء نفسه.

لقد أحدث إطار Hunyuan Video التابع لشركة تينسنت تأثيرًا كبيرًا في مجتمع هواة الذكاء الاصطناعي من خلال إطلاق مصدره مفتوح لنموذج انتشار الفيديو الكامل الذي يمكن للمستخدمين تtailorه إلى احتياجاتهم.

يتلوها إطار Wan 2.1 التابع لشركة Alibaba، وهو واحد من أكثر حلول الصورة إلى فيديو مفتوحة المصدر قوة في هذه الفترة – والذي يدعم الآن التخصيص من خلال Wan LoRAs.

بصرف النظر عن توافر نموذج أساسي بشري حديث، SkyReels، في وقت كتابة هذه السطور، نحن بانتظار إطلاق مجموعة Alibaba الشاملة لإنشاء وتحرير الفيديو، VACE.

انقر للعب. الإطلاق القادم لمجموعة تحرير الفيديو متعددة الوظائف VACE التابعة لشركة Alibaba أثار حماس المجتمع المستخدم.

الآثار الفورية

مشهد أبحاث الفيديو الذكي المتولّد نفسه ليس أقل انفجارًا؛ لا يزال我们 في منتصف مارس، وجاءت تقديمات يوم الثلاثاء إلى قسم الرؤية الحاسوبية في Arxiv (مركز لورقة بحثية عن الذكاء الاصطناعي) إلى ما يقرب من 350 إدخالًا – وهو رقم أكثر ارتباطًا بذروة موسم المؤتمر.

السنوات العشر منذ إطلاق انتشار المستقر في صيف عام 2022 (وتطوير Dreambooth و LoRA فيما بعد) تمتيزت بنقص التطورات الكبيرة، حتى الأسابيع القليلة الماضية، حيث تمت إطلاق الإصدارات الجديدة والابتكارات بسرعة كبيرة لدرجة أن من الصعب مواكبة كل شيء، ناهيكم عن تغطيته.

أما نماذج انتشار الفيديو مثل Hunyuan و Wan 2.1، فقد حلّت أخيرًا، بعد سنوات من الجهود الفاشلة من مئات المبادرات البحثية، مشكلة الاتساق الزمني فيما يتعلق بإنشاء البشر، وأيضًا إلى حد كبير البيئات والأجسام.

يمكن أن يكون هناك شك قليل في أن استوديوهات التأثيرات البصرية تطبّق حاليًا الموظفين والموارد لتكيف النماذج الجديدة الصينية مع حل التحديات الفورية مثل تبادل الوجه، على الرغم من عدم وجود آليات مساعدة من نوع ControlNet لهذه الأنظمة.

يجب أن يكون من büyük راحة أن يتم التغلب على أحد العواقب الكبيرة المحتملة.

من بين المشاكل المتبقية، هذه ليست مشكلة غير مهمة:

انقر للعب. استنادًا إلى العبارة ‘تتدحرج صخرة صغيرة xuống منحدر صخري شديد الانحدار، مما يؤدي إلى تفكيك التربة والحجارة الصغيرة’، يرتكب Wan 2.1، الذي حقق أعلى الدرجات في الورقة الجديدة، خطأً بسيطًا. مصدر: https://videophy2.github.io/

صعودًا إلى أعلى التل

جميع أنظمة الفيديو من النص إلى الفيديو والصورة إلى الفيديو المتاحة حاليًا، بما في ذلك النماذج المغلقة المصدرة تجاريًا، تميل إلى إنتاج أخطاء فيزيائية مثل التي تظهر أعلاه، حيث يظهر الفيديو صخرة تتحرك صعودًا، استنادًا إلى العبارة ‘تتدحرج صخرة صغيرة xuống منحدر صخري شديد الانحدار، مما يؤدي إلى تفكيك التربة والحجارة الصغيرة‘.

نظرية واحدة حول سبب حدوث ذلك، مُقترَح недавно في تعاون أكاديمي بين شركة Alibaba والإمارات العربية المتحدة، هي أن النماذج تُدرَّب دائمًا على صور فردية، بمعنى ما، حتى عندما يتم تدريبها على مقاطع فيديو (التي تكتب كتسلسلات إطار فردية لأغراض التدريب)؛ وอาจ لا تتعلم بالضرورة الترتيب الزمني الصحيح لـ ‘قبل’ و ‘بعد’ الصور.

然而، فإن الحل الأكثر احتمالًا هو أن النماذج المذكورة قد استخدمت روتينًا لتعزيز البيانات ي涉ي تعريض مقطع فيديو مصدر إلى النموذج في كلا الاتجاهين، مما يضاعف بشكل فعال بيانات التدريب.

من المعروف منذ فترة طويلة أنه لا ينبغي القيام بذلك بشكل عشوائي، لأن بعض الحركات تعمل بالعكس، بينما لا تعمل أخرى. دراسة عام 2019 من جامعة بريستول في المملكة المتحدة سعت إلى تطوير طريقة يمكنها التمييز بين مقاطع فيديو مصدر متناظرة و غير قابلة للعكس و غير قابلة للعكس التي تتواجد في مجموعة بيانات واحدة (انظر الصورة أدناه)، مع فكرة أن مقاطع الفيديو غير المناسبة قد يتم غربلتها من روتين تعزيز البيانات.

أمثلة على ثلاثة أنواع من الحركة، فقط واحد منها يمكن عكسه بحركة فيزيائية معقولة.

أمثلة على ثلاثة أنواع من الحركة، فقط واحد منها يمكن عكسه بحركة فيزيائية معقولة. مصدر: https://arxiv.org/abs/1909.09422

يُطرح مؤلفو ذلك العمل مشكلة واضحة:

‘نحن نجد أن واقعية مقاطع الفيديو المعكوسة خيانية من قبل آثار العكس، جوانب من المشهد التي لن تكون ممكنة في العالم الطبيعي. بعض الآثار خفية، في حين أن البعض الآخر سهل الرؤية، مثل عمل ‘الرمي’ المعكوس حيث يرتفع الكائن الملقى تلقائيًا من الأرض. ‘

‘نلاحظ نوعين من آثار العكس، فيزيائية، تلك التي تظهر انتهاكات لقوانين الطبيعة، وغير محتملة، تلك التي تصور سيناريو محتمل ولكن غير محتمل. هذه ليست حصرية، ويتعرض العديد من الإجراءات المعكوسة لكلا نوعي الآثار، مثل طي قطعة من الورق. ‘

‘أمثلة على آثار فيزيائية تشمل: الجاذبية المعكوسة (مثل ‘إسقاط شيء ما’), الانفعالات التلقائية على الأجسام (مثل ‘دوران قلم’), والتغيرات غير القابلة للعكس (مثل ‘إحراق شمعة’). مثال على آفة غير محتملة: أخذ طبق من الخزانة، تجفيفه، ووضعه على رف التجفيف. ‘

‘هذا النوع من إعادة استخدام البيانات شائع جدًا في وقت التدريب، ويمكن أن يكون مفيدًا – على سبيل المثال، في ضمان أن النموذج لا يتعلم فقط وجهة نظر واحدة للصورة أو الكائن الذي يمكن翻ته أو تدويره دون فقدان تماسكه المنطقي. ‘

‘هذا يعمل فقط للأجسام التي هي حقًا متناظرة، بالطبع؛ والتعلم من فيزياء ‘معكوسة’ يعمل فقط إذا كان الإصدار المعكوس يبدو منطقيًا مثل الإصدار الأمامي. ‘

اعتبارات مؤقتة

لا توجد لدينا أدلة على أن أنظمة مثل Hunyuan Video و Wan 2.1 سمحت بمقاطع ‘معكوسة’ تعرضها للنموذج خلال التدريب (لم يُحدد أي من مجموعتي البحث روتين تعزيز البيانات).

然而، فإن الاحتمال الوحيد الآخر يبدو أن مجموعات البيانات الهائلة التي تدفع هذه النماذج قد تحتوي على مقاطع تحتوي على حركات تحدث بالفعل في العكس.

النقطة التي تم استخدامها في مقطع الفيديو المضمن أعلاه تم إنشاؤها باستخدام Wan 2.1، وتتميز في دراسة جديدة تبحث في كيفية تعامل نماذج انتشار الفيديو مع الفيزياء.

في الاختبارات لهذا المشروع، حقق Wan 2.1 درجة 22٪ فقط فيما يتعلق بقدرته على الالتزام بثبات القوانين الفيزيائية.

然而، هذا هو أفضل درجة لأي نظام تم اختباره للعمل، مما يشير إلى أننا قد وجدنا عقبة أخرى لمواجهة الذكاء الاصطناعي:

الدرجات التي حصل عليها الأنظمة المفتوحة والمغلقة المصدرة، مع تقييم إخراج الإطارات بواسطة معلمين بشريين.

الدرجات التي حصل عليها الأنظمة المفتوحة والمغلقة المصدرة، مع تقييم إخراج الإطارات بواسطة معلمين بشريين. مصدر: https://arxiv.org/pdf/2503.06800

لقد طور مؤلفو العمل نظامًا لمقارنة الأداء، الآن في نسخته الثانية، يسمى VideoPhy، مع وضع رمز المصدر متاح على GitHub.

على الرغم من أن نطاق العمل يتجاوز ما يمكننا تغطيته بشكل شامل هنا، دعونا نلقي نظرة عامة على منهجيته وإمكاناته في وضع مقياس يمكن أن يساعد في توجيه مسار جلسات التدريب المستقبلية بعيدًا عن هذه الحالات الغريبة من العكس.

الدراسة، التي أجراها ستة باحثين من جامعة كاليفورنيا في لوس أنجلوس وغوغل ريسيرش، تسمى VideoPhy-2: تقييم شجاع للعقل السليم الفيزيائي في إنشاء الفيديو. هناك أيضًا موقع مشروع مزدحم موقع مشروع متاح، إلى جانب رمز وبيانات على GitHub، ومشاهد بيانات على Hugging Face.

انقر للعب. هنا، نموذج OpenAI Sora الشهير يفشل في فهم التفاعلات بين المجداف والانعكاسات، ولا يستطيع تقديم تدفق فيزيائي منطقي للشخص في القارب أو كيفية تفاعل القارب معها.

الطريقة

يصف المؤلفون أحدث إصدار من عملهم، VideoPhy-2، على أنه ‘تقييم شجاع للعقل السليم الفيزيائي للأنشطة في العالم الحقيقي’. يحتوي على 197 إجراءً عبر مجموعة متنوعة من الأنشطة الفيزيائية مثل الهرولة و الجمباز و التنس، بالإضافة إلى تفاعلات الكائنات مثل ثني كائن حتى يكتسح.

يتم استخدام نموذج لغة كبير (LLM) لإنشاء 3840 عبارة من هذه الإجراءات الأساسية، ويتم استخدام العبارات لتحليل مقاطع الفيديو عبر الإطارات المختلفة التي يتم اختبارها.

على مدار العملية، قام المؤلفون بتطوير قائمة من ‘مرشح’ القواعد والقوانين الفيزيائية التي يجب أن تتوافق معها مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي، باستخدام نماذج رؤية لغة لتقييمها.

يقول المؤلفون:

‘على سبيل المثال، في مقطع فيديو لشخص يلعب التنس، قاعدة فيزيائية ستكون أن الكرة يجب أن تتبع مسارًا بيضاويًا تحت الجاذبية. من أجل الأحكام الذهبية، نسأل معلمي اللغة البشرية أن يقيّموا كل مقطع فيديو بناءً على الالتزام العام بالدلالة والمنطق الفيزيائي، ويتحقق من الامتثال للقواعد الفيزيائية المختلفة.’

أعلى: يتم إنشاء عبارة من إجراء باستخدام LLM ويتم استخدامها لإنشاء مقطع فيديو مع مولد نص إلى فيديو. نموذج رؤية لغة يُعنون المقطع فيديو، ويحدد القواعد الفيزيائية المحتملة في اللعبة. أسفل: يقيم معلمو اللغة البشرية واقعية المقطع فيديو، ويؤكدون انتهاكات القواعد، ويزيدون من القواعد المفقودة، ويتحققون من ما إذا كان المقطع فيديو يطابق العبارة الأصلية.

أعلى: يتم إنشاء عبارة من إجراء باستخدام LLM ويتم استخدامها لإنشاء مقطع فيديو مع مولد نص إلى فيديو. نموذج رؤية لغة يُعنون المقطع فيديو، ويحدد القواعد الفيزيائية المحتملة في اللعبة. أسفل: يقيم معلمو اللغة البشرية واقعية المقطع فيديو، ويؤكدون انتهاكات القواعد، ويزيدون من القواعد المفقودة، ويتحققون من ما إذا كان المقطع فيديو يطابق العبارة الأصلية.

أولاً، قام الباحثون بتحديد مجموعة من الإجراءات لتقييم المنطق الفيزيائي في مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي. بدأوا بأكثر من 600 إجراء من مجموعات بيانات Kinetics و UCF-101 و SSv2، مع التركيز على الأنشطة التي تتضمن الرياضة والتفاعلات الكائنات والفيزياء الحقيقية.

تمت مراجعة وتصفية قائمة الإجراءات من قبل مجموعتين مستقلتين من طلاب العلوم مدربين (بحد أدنى من المؤهلات الجامعية) وتم اختيار الإجراءات التي تختبر مبادئ مثل الجاذبية و الزخم و المرنة، مع إزالة المهام منخفضة الحركة مثل الكتابة و لمس القط أو المضغ.

بعد المزيد من التحسين باستخدام Gemini-2.0-Flash-Exp، تمت إزالة المكررات، وتم تضمين 197 إجراءً في مجموعة البيانات النهائية، مع 54 إجراءً يتضمن تفاعلات كائنات و 143 إجراءً مركزًا على الأنشطة الفيزيائية والرياضية:

عينات من الإجراءات المُستخلصة.

عينات من الإجراءات المُستخلصة.

في المرحلة الثانية، تم استخدام Gemini-2.0-Flash-Exp لإنشاء 20 عبارة لكل إجراء في مجموعة البيانات، مما أدى إلى إجمالي 3,940 عبارة. تركز عملية التوليد على التفاعلات الفيزيائية المرئية التي يمكن تمثيلها بوضوح في مقطع فيديو تم إنشاؤه.

على سبيل المثال، بدلاً من عبارة بسيطة مثل ‘رامي السهام يطلق السهم’، تم توجيه النموذج لإنشاء نسخة أكثر تفصيلاً مثل ‘رامي السهام يشد وتر القوس إلى أقصى حد ثم يطلق السهم، والذي يطير بشكل مستقيم وضربة في هدف ورقي‘.

نظرًا لأن نماذج الفيديو الحديثة يمكنها تفسير الوصف الطويل، قام الباحثون بتحسين العبارات باستخدام Mistral-NeMo-12B-Instruct، لإضافة تفاصيل بصرية دون تغيير المعنى الأصلي.

عبارات عينة من VideoPhy-2، مصنفة حسب الأنشطة الفيزيائية أو التفاعلات الكائنات. كل عبارة متوافقة مع إجراءها و المبدأ الفيزيائي ذي الصلة الذي يختبره.

عبارات عينة من VideoPhy-2، مصنفة حسب الأنشطة الفيزيائية أو التفاعلات الكائنات. كل عبارة متوافقة مع إجراءها و المبدأ الفيزيائي ذي الصلة الذي يختبره.

في المرحلة الثالثة، لم تُشتق القواعد الفيزيائية من العبارات النصية ولكن من مقاطع الفيديو التي تم إنشاؤها، لأن النماذج التوليدية يمكن أن ت투ق في الالتزام بالعبارات النصية المشروطة.

تم إنشاء مقاطع الفيديو أولاً باستخدام عبارات VideoPhy-2، ثم تم ‘تحديث العنوان’ باستخدام Gemini-2.0-Flash-Exp لاستخراج التفاصيل الرئيسية. اقترح النموذج ثلاث قواعد فيزيائية متوقعة لكل مقطع فيديو، والتي راجعتها معلمو اللغة البشرية ووسعتها بتحديد انتهاكات إضافية محتملة.

أمثلة من العناوين المُضخمة.

أمثلة من العناوين المُضخمة.

بعد ذلك، لتحديد الإجراءات الأكثر تحديًا، تم استخدام CogVideoX-5B لإنشاء مقاطع فيديو باستخدام عبارات من مجموعة بيانات VideoPhy-2. ثم تم اختيار 60 إجراءً من 197 إجراءً حيث فشل النموذج باستمرار في اتباع كلا العبارة والمنطق الفيزيائي العام.

تضمنت هذه الإجراءات تفاعلات فيزيائية غنية مثل نقل الزخم في رمي القرص، والتغيرات الحالة مثل ثني كائن حتى يكتسح، ومهام التوازن مثل المشي على الحبل، والحركات المعقدة التي تشمل اللفات الخلفية ووثب العصا ورمي البيتزا، من بين آخرين. تم اختيار 1,200 عبارة لزيادة صعوبة مجموعة البيانات الفرعية.

النتيجة هي مجموعة بيانات تتكون من 3,940 عنصرًا، أي 5.72 مرة أكثر من الإصدار السابق من VideoPhy. متوسط طول العناوين الأصلية هو 16 رمزًا، بينما تصل العناوين المُضخمة إلى 138 رمزًا – 1.88 مرة و 16.2 مرة أطول، على التوالي.

تتميز مجموعة البيانات أيضًا بـ 102,000 تعليق بشري تغطي الالتزام الدلالي والمنطق الفيزيائي وانتهاكات القواعد عبر نماذج توليد فيديو متعددة.

التقييم

ثم حدد الباحثون معايير واضحة لتقييم مقاطع الفيديو. الهدف الرئيسي كان تقييم كيفية مطابقة كل مقطع فيديو للعبارة الإدخال واتباعه للقواعد الفيزيائية الأساسية.

بدلاً من مجرد تصنيف مقاطع الفيديو حسب التفضيل، استخدموا تقييمًا قائمًا على التصنيف لالتقاط النجاحات والفشل المحدد. قام معلمو اللغة البشرية بتقييم مقاطع الفيديو على مقياس من خمس نقاط، مما يسمح بآراء أكثر تفصيلاً، بينما تم أيضًا تقييم التقييم لتحقق من ما إذا كانت مقاطع الفيديو تتبع قواعد فيزيائية مختلفة.

للتقييم البشري، تم اختيار مجموعة من 12 معلمًا من خلال تجارب على Amazon Mechanical Turk (AMT)، وقدموا التقييمات بعد تلقي تعليمات مفصلة عن بعد. من أجل العدالة، تم تقييم الالتزام الدلالي و المنطق الفيزيائي بشكل منفصل (في الدراسة الأصلية لفيديوفاي، تم تقييمهما بشكل مشترك).

قيم المعلمون أولاً كيفية مطابقة مقاطع الفيديو للعبارات الإدخال، ثم قيموا بشكل منفصل المصداقية الفيزيائية، وقيّموا انتهاكات القواعد والواقعية العامة على مقياس من خمس نقاط. تم عرض العبارات الأصلية فقط، للحفاظ على تقييم عادل عبر النماذج.

واجهة معروضة على معلمي AMT.

واجهة معروضة على معلمي AMT.

على الرغم من أن الحكم البشري يبقى المعيار الذهبي، إلا أنه مكلف ويأتي مع عدد من الحجج. لذلك، فإن التقييم التلقائي ضروري لتقدير النماذج بشكل أسرع وأكثر قابلية للتوسع.

تم اختبار نماذج لغة فيديو متعددة، بما في ذلك Gemini-2.0-Flash-Exp و VideoScore، على khảيتهم لتقييم مقاطع الفيديو من حيث الدقة الدلالية و ‘المنطق الفيزيائي’.

قيم النماذج كل مقطع فيديو على مقياس من خمس نقاط، بينما حددت مهمة التصنيف بشكل منفصل ما إذا كانت القواعد الفيزيائية تُتبع أو تنتهك أو غير واضحة.

أظهرت التجارب أن نماذج لغة الفيديو الحالية عانت في مطابقة الأحكام البشرية، chủ yếu بسبب التفكير الفيزيائي الضعيف وcomplexity العبارات. لتحسين التقييم التلقائي، طور الباحثون VideoPhy-2-Autoeval، نموذجًا يحتوي على 7B معامل، مصممًا لتقديم تنبؤات أكثر دقة عبر ثلاث فئات: الالتزام الدلالي؛ المنطق الفيزيائي؛ و امتثال القواعد، تم ضبطه على نموذج VideoCon-Physics باستخدام 50,000 تعليق بشري.

البيانات والاختبارات

مع هذه الأدوات في المكان، قام المؤلفون باختبار عدد من أنظمة الفيديو التوليدية، من خلال التثبيتات المحلية، وحيثما لزم الأمر، عبر واجهات برمجة التطبيقات التجارية: CogVideoX-5B؛ VideoCrafter2؛ HunyuanVideo-13B؛ Cosmos-Diffusion؛ Wan2.1-14B؛ OpenAI Sora؛ و Luma Ray.

تم تحفيز النماذج بعبارات مُضخمة حيثما أمكن، باستثناء Hunyuan Video و VideoCrafter2، والتي تعمل تحت قيود CLIP 77 رمزًا، ولا يمكنها قبول عبارات أطول من طول معين.

تم الحفاظ على مقاطع الفيديو التي تم إنشاؤها لأقل من 6 ثوان، لأن الإخراج الأقصر يسهل تقييمه.

تم تقسيم بيانات VideoPhy-2 إلى مجموعة اختبار ومجموعة تدريب. تم إنشاء 590 مقطع فيديو لكل نموذج، باستثناء Sora و Ray2؛ بسبب عامل التكلفة (تم إنشاء أعداد أقل من مقاطع الفيديو لهذين).

(يرجى الرجوع إلى الورقة الأصلية لمزيد من تفاصيل التقييم، والتي يتم توثيقها هناك بشكل شامل)

تناول التقييم الأول الأنشطة الفيزيائية / الرياضية (PA) و تفاعلات الكائنات (OI)، وتم اختبار كلا المجموعة العامة والمجموعة ‘الأكثر صعوبة’ المذكورة:

النتائج من الجولة الأولى.

النتائج من الجولة الأولى.

يعلق المؤلفون على ما يلي:

‘حتى أفضل نموذج أداء، Wan2.1-14B، يحقق 32.6٪ و 21.9٪ على مجموعة البيانات الكاملة والقسم الصعب من مجموعتنا، على التوالي. يمكن أن يعزى أداؤه القوي نسبيًا إلى تنوع بياناته المتعددة وتصفية الحركة القوية التي تحافظ على مقاطع فيديو عالية الجودة عبر مجموعة واسعة من الإجراءات.

‘علاوة على ذلك، نلاحظ أن النماذج المغلقة، مثل Ray2، تؤدي أسوأ من النماذج المفتوحة مثل Wan2.1-14B و CogVideoX-5B. هذا يشير إلى أن النماذج المغلقة ليست بالضرورة أفضل من النماذج المفتوحة في 捕获 المنطق الفيزيائي.

‘يحقق Cosmos-Diffusion-7B ثاني أفضل درجة على الجزء الصعب، حتى يتفوق على نموذج HunyuanVideo-13B الأكبر بكثير. قد يكون هذا بسبب تمثيل الإجراءات البشرية العالي في بياناته التدريبية، جنبًا إلى جنب مع محاكاة الت渲ين المُصطنعة.’

أظهرت النتائج أن نماذج الفيديو عانت أكثر من الأنشطة الفيزيائية مثل الرياضة منها من التفاعلات البسيطة للكائنات. هذا يشير إلى أن تحسين مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي في هذا المجال سيتطلب بيانات أفضل – خاصةً مقاطع فيديو عالية الجودة لرياضة مثل التنس والقرص والبيسبول والكريكيت.

كما فحصت الدراسة ما إذا كان هناك ارتباط قوي بين المصداقية الفيزيائية للنموذج ومتغيرات جودة الفيديو الأخرى، مثل الجمال والسلاسة الحركية. أظهرت النتائج عدم وجود ارتباط قوي، مما يعني أن النموذج لا يمكنه تحسين أدائه على VideoPhy-2 فقط من خلال توليد مقاطع فيديو جذابة بصريًا أو سلاسة الحركة – إنه يحتاج إلى فهم أعمق للمنطق الفيزيائي.

على الرغم من تقديم الدراسة أمثلة كمية، فإن معظم الأمثلة الثابتة المقدمة في ملف PDF لا تظهر علاقة وثيقة بالأمثلة الفيديوية الواسعة التي يقدمها المؤلفون على موقع المشروع. لذلك سننظر إلى بعض الأمثلة الثابتة ثم بعض مقاطع الفيديو الفعلية.

الصف العلوي يظهر مقاطع فيديو تم إنشاؤها بواسطة Wan2.1. (a) في Ray2، يُظهر الجت سكي على اليسار تأخرًا قبل الحركة إلى الوراء. (b) في Hunyuan-13B، يتشوه المطرقة في منتصف السوينغ، ويظهر لوح خشبي مكسور بشكل غير متوقع. (c) في Cosmos-7B، يطرد الرمح الرمال قبل ملامسة الأرض.

الصف العلوي يظهر مقاطع فيديو تم إنشاؤها بواسطة Wan2.1. (a) في Ray2، يُظهر الجت سكي على اليسار تأخرًا قبل الحركة إلى الوراء. (b) في Hunyuan-13B، يتشوه المطرقة في منتصف السوينغ، ويظهر لوح خشبي مكسور بشكل غير متوقع. (c) في Cosmos-7B، يطرد الرمح الرمال قبل ملامسة الأرض.

بخصوص الاختبار النوعي المذكور أعلاه، يعلق المؤلفون:

‘نلاحظ انتهاكات المنطق الفيزيائي، مثل الجت سكي التي تتحرك بشكل غير طبيعي إلى الوراء، وتشوه المطرقة الصلبة، مما ينتهك مبادئ المرنة. ومع ذلك، حتى Wan2.1 يعاني من نقص المنطق الفيزيائي، كما هو موضح في المقطع المضمن في بداية هذه المقالة.’

‘في هذه الحالة، نشير إلى أن الصخرة تبدأ بالدحرجة وتتسارع صعودًا، مما ينتهك قانون الجاذبية.’

أمثلة إضافية من موقع المشروع:

انقر للعب. هنا، كانت العبارة ‘شخص يلفظ منشفة مبللة بقوة، مما يؤدي إلى رش الماء في قوس مرئي’ – لكن مصدر الماء يبدو أكثر مثل خرطوم ماء من منشفة.

انقر للعب.هنا، كانت العبارة ‘كيميائي يسكب سائلًا شفافًا من كوب إلى أنبوب اختبار، وتجنب الانسكاب بعناية’، لكننا نرى أن حجم الماء المضاف إلى الكوب لا يتطابق مع الكمية التي تخرج من الجرّة.

كما ذكرت في البداية، فإن حجم المواد المرتبطة بهذا المشروع يتجاوز ما يمكننا تغطيته هنا. لذلك يرجى الرجوع إلى الورقة الأصلية وموقع المشروع والمواقع ذات الصلة المذكورة أعلاه، للحصول على وصف شامل لإجراءات المؤلفين ومزيد من الأمثلة الاختبارية والتفاصيل الإجرائية.

 

* فيما يتعلق بأصل التعليقات، تشير الورقة فقط إلى ‘المكتسبة لهذه المهام’ – يبدو أنها كمية كبيرة لإنشاؤها بواسطة 12 عاملًا من Mechanical Turk.

نُشر لأول مرة يوم الخميس، 13 مارس 2025

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai