الذكاء الاصطناعي

حتى النماذج اللغوية المتقدمة تعاني من فهم المنطق الزمني

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

التنبؤ بالحالات المستقبلية هو مهمة حرجة في أبحاث الرؤية الحاسوبية – ولا سيما في الروبوتات، حيث يجب مراعاة الحالات في العالم الحقيقي. لذلك، فإن أنظمة التعلم الآلي المكلفة بمهام حرجة تحتاج إلى فهم كافٍ لفهم العالم المادي.

然而، في بعض الحالات، قد يكون المعرفة الواضحة للواقع الزمني مخادعة: لقد وجدت ورقة جديدة من الإمارات العربية المتحدة أن النماذج اللغوية الكبيرة المتعددة الوسائط (MLLMs) ذات المستوى العالمي، بما في ذلك قادة القطاع GPT-4o و Google Gemini، تفشل عندما يتعلق الأمر بفهم كيفية تمثيل الوقت في الصور.

الأسئلة المتسلسلة (انظر الصورة أدناه)، والتي لن تكون محددة للبشر حتى لو وضعوا في الترتيب الخاطئ، يمكن أن تضل النماذج MLLM المتقدمة عندما يتم تقديمها في سياقات غير متوقعة أو تكوينات (مثل صورة ثانية أولاً، متصلة في صورة واحدة، صورة متعددة متسلسلة التي قد تمثل أو لا تمثل الترتيب الزمني الصحيح، وغير ذلك).

عينات من واحدة من مجموعات البيانات المجمعة للدراسة الجديدة، والتي تظهر الأحداث المتسلسلة. وقد جعل الباحثون هذه البيانات متاحة في https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

عينات من واحدة من مجموعات البيانات المجمعة للدراسة الجديدة، والتي تظهر الأحداث المتسلسلة في شكل صور “قبل وبعد”. وقد جعل الباحثون هذه البيانات متاحة في https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

لقد كلف الباحثون النماذج بتحديات منطقية زمنية أساسية، مثل تحديد ترتيب الحدث أو تقدير الفجوات الزمنية، ووجدوا أن النماذج السبعة MLLM التي تم اختبارها أدت أداءً أقل من دقة البشر:

‘بشكل عام، تظهر النتائج أن جميع النماذج MLLM الحالية، بما في ذلك GPT-4o – وهو أكثر النماذج تقدمًا في تقييمنا – يعانون من اختبار المقارنة المقترح. على الرغم من أداء GPT-4o الأفضل نسبيًا مقارنة بالنماذج الأخرى، فإنه يفشل في إظهار استمرار دقيق في التفكير المنطقي الزمني عبر مختلف الإعدادات.

‘درجات الدقة المستمرة منخفضة بشكل ملحوظ لجميع النماذج، مما يشير إلى قيود كبيرة في قدرتهم على فهم وتفسير التسلسلات الزمنية من المدخلات البصرية. هذه النقصيات واضحة حتى عندما يتم تزويد النماذج بمدخلات صورة متعددة أو تحفيزات محسنة، مما يشير إلى أن الهياكل المعمارية الحالية وطرق التدريب غير كافية لتحقيق فهم متين للترتيب الزمني.’

النظم التي تستند إلى التعلم الآلي مصممة لتحقيق نتائج دقيقة وأكثر كفاءة وممتعة للناس*. منذ أن لا تكشف عن منطقها بشكل صريح، يمكن أن يكون من الصعب معرفة متى يكونون يخدعون أو يستخدمون “الطرق القصيرة”.

في مثل هذه الحالة، قد يصل نموذج MLLM إلى الإجابة الصحيحة من خلال الطريقة الخاطئة. يمكن أن يلهم هذا الإجابة الصحيحة ثقة خاطئة في النموذج، مما قد ينتج عنه نتائج خاطئة بنفس الطريقة في المهام اللاحقة التي يتم تقديمها إليه.

الأسوأ من ذلك، يمكن أن يصبح هذا التضليل أكثر ترسيخًا في سلسلة التطوير إذا كان البشر متأثرين به، ويعطون ردود فعل إيجابية في التجارب والدروس التفسيرية التي قد تساهم في اتجاه البيانات و/ أو النموذج قد يتخذه.

في هذه الحالة، يتم اقتراح أن النماذج MLLM “تقلد” فهمًا حقيقيًا للتسلسل الزمني والظواهر الزمنية، من خلال ملاحظة وترسيم المؤشرات الثانوية (مثل العلامات الزمنية، على سبيل المثال، في بيانات الفيديو، أو ترتيب الصور في التخطيط، أو حتى – محتملًا – أسماء الملفات المترقمة بشكل متسلسل).

كما يشير إلى أن النماذج MLLM تفشل حاليًا في إشباع أي تعريف حقيقي لتحقيق تعميم لمفهوم الظواهر الزمنية – على الأقل، إلى الحد الذي يمكن للبشر تحقيقه.

الورقة الجديدة بعنوان هل يمكن للنماذج MLLM المتعددة الوسائط فهم الفهم والمنطق البصري الزمني؟ الإجابة هي لا!، وهي تأتي من ثلاثة باحثين في جامعة محمد بن زايد للذكاء الاصطناعي وألبابا للتجارة الرقمية الدولية.

البيانات والاختبارات

يشير المؤلفون إلى أن المقاييس والدراسات السابقة، مثل MMMU و TemporalBench، تركز على مدخلات صورة واحدة أو صياغة أسئلة للنماذج MLLM قد تكون سهلة جدًا للإجابة، وربما لا تكشف عن ميلًا إلى سلوك القصيرة.

لذلك، يقدم المؤلفون نهجين محدثين: فهم الترتيب الزمني (TOU) و تقدير الفجوة الزمنية (TLE). يختبر نهج TOU قدرة النماذج على تحديد تسلسل الأحداث الصحيح من أزواج إطارات الفيديو؛ يقييم نهج TLE قدرة نموذج MLLM على تقدير الفارق الزمني بين صورتين، يتراوح من ثوان إلى سنوات.

من الورقة، المهمتان الرئيسيتان لمعيار TemporalVQA: في فهم الترتيب الزمني، يقرر النموذج أي صورة تظهر حدثًا حدث أولا؛ في تقدير الفجوة الزمنية، يقدّر النموذج مقدار الوقت الذي مر بين الصورتين، ويختار من خيارات بما في ذلك الثواني، الدقائق، الأيام، أو السنوات. تهدف هذه المهمة إلى اختبار كيفية قدرة النماذج MLLM على التفكير في توقيت وترتيب الأحداث البصرية. مصدر: https://arxiv.org/pdf/2501.10674

قام الباحثون بتحضير 360 زوجًا من الصور للbenchmark TOU، باستخدام فيديوهات مفتوحة المصدر من Pixabay و Pexels، بحيث يمكن جعل مجموعة البيانات متاحة عبر واجهة مستخدم رسومية.

غطت مقاطع الفيديو مجموعة واسعة من الموضوعات، من الناس في الأنشطة اليومية إلى محتوى غير بشري مثل الحيوانات والنباتات. من هذه، تم اختيار أزواج الإطارات لتصوير تسلسل للأحداث مع تباين كافٍ لجعل الإطار الأول “واضحًا”.

استخدم الاختيار البشري لضمان أن الإطارات يمكن أن يتم ترتيبها بشكل قاطع. على سبيل المثال، يظهر أحد الأزواج المحدد كوب شاي جزئيًا ممتلئًا في إطار واحد، والكوب نفسه ممتلئًا بالشاي في الإطار التالي، مما يجعل منطق التسلسل سهلًا للتعرّف.

منطق الصورتين لا يمكن الهروب منه، حيث لا يمكن سحب الشاي مرة أخرى عبر الفوهة.

بهذه الطريقة، تم الحصول على 360 زوجًا من الصور.

لنهج TLE، تم اختيار صور خالية من حقوق النشر من جوجل و فليكر، بالإضافة إلى إطارات محددة من مقاطع فيديو خالية من حقوق النشر على يوتيوب. كان موضوع المحتوى في هذه المقاطع مشاهد أو كائنات تظهر تغير الفاصل الزمني من الثواني إلى الأيام إلى الفصول – على سبيل المثال، الفواكه الناضجة، أو تغير الفصول في المناظر الطبيعية.

بهذه الطريقة، تم تحضير 125 زوجًا من الصور لنهج TLE.

لم تكن جميع النماذج MLLM التي تم اختبارها قادرة على معالجة الصور المتعددة؛ لذلك تختلف الاختبارات لاستيعاب قدرات كل نموذج.

تم توليد نسخ متعددة من مجموعات البيانات المجمعة، حيث تم دمج بعض الأزواج بشكل رأسي، والبعض الآخر بشكل أفقي. تم تبديل بعض التغييرات للترتيب الزمني الصحيح للأزواج.

تم تطوير نوعان من التحفيزات. اتبعت الأولى هذا النموذج:

هل حدث الحدث في الصورة (اليسار / الأعلى / الأول) قبل الحدث في الصورة (اليمين / الأسفل / الثاني)? أجب بالصواب أو الخطأ مع المنطق.

اتبعت الثانية هذا.Schema:

أي الصورتين تظهر الحدث الذي حدث أولاً؟ أجب (اليسار أو اليمين / الأعلى أو الأسفل / الأول أو الثاني) مع المنطق.

لنهج TLE، كانت الأسئلة متعددة الخيارات، حيث طُلب من النماذج تقدير الفجوة الزمنية بين الصورتين المقدمتين، مع ثواني، ساعات، دقائق، أيام، أشهر و سنوات متاحة كوحدات زمنية. في هذه التكوين، تم تقديم الصورة الأكثر حداثة على اليمين.

تم استخدام التحفيز التالي هنا:

في الصورة المعطاة، قم بتقدير الوقت الذي مر بين الصورة الأولى (اليسار) والصورة الثانية (اليمين).

اختر واحدة من الخيارات التالية:

1. أقل من 15 ثانية ب. بين 2 دقيقة إلى 15 دقيقة ج. بين ساعة واحدة إلى 12 ساعة د. بين 2 يوم إلى 30 يوم ه. بين 4 أشهر إلى 12 شهر و. أكثر من 3 سنوات

النماذج MLLM التي تم اختبارها كانت ChatGPT-4o؛ Gemini1.5-Pro؛ LlaVa-NeXT؛ InternVL؛ Qwen-VL؛ Llama-3-vision؛ و LLaVA-CoT.

فهم الترتيب الزمني: النتائج

نتائج فهم الترتيب الزمني عبر نماذج مختلفة وتخطيطات مدخلات، مع دقة وموائمة لتنسيقات وتحفيزات مختلفة.

بخصوص النتائج الموضحة أعلاه، وجد المؤلفون أن جميع النماذج MLLM التي تم اختبارها، بما في ذلك GPT-4o (التي أظهرت الأداء العام الأفضل)، عانت بشكل كبير من معيار TemporalVQA – وحتى GPT-4o فشلت في إظهار استمرار دقيق في التفكير المنطقي الزمني عبر مختلف التكوينات.

يشير المؤلفون إلى أن درجات الدقة المستمرة المنخفضة عبر النماذج MLLM تبرز قيودًا كبيرة في قدرة النماذج على تفسير وتحليل التسلسلات الزمنية من البيانات البصرية. يشير الباحثون إلى أن هذه التحديات تستمر حتى مع استخدام مدخلات صورة متعددة وتحفيزات محسنة، مما يشير إلى قيود أساسية في هياكل النماذج الحالية وطرق التدريب.

أظهرت الاختبارات تباينًا كبيرًا في الأداء عبر استراتيجيات التحفيز. بينما تحسنت GPT-4o مع تحفيزات محسنة (الوصول إلى 4% في إعدادات الصورة الواحدة و 65.3% في إعدادات الصورة المتعددة)، بقي الأداء أقل من المستويات المقبولة.

كانت نماذج مثل LLaVA-NeXT و Qwen-VL أكثر حساسية، مع انخفاض الأداء عند استخدام تحفيزات بديلة، مما يشير إلى أن هندسة التحفيز وحدها لا يمكن أن تتغلب على القيود الأساسية للنماذج MLLM فيما يتعلق بالمنطق الزمني.

كما أشارت الاختبارات إلى أن تخطيط الصورة (أي، رأسي مقابل أفقي) أثر بشكل كبير على أداء النموذج. تحسنت GPT-4o من التماسك مع الترتيبات الرأسية، ترتفع من 39.2% إلى 52.8%؛ ومع ذلك، أظهرت نماذج أخرى، بما في ذلك سلالة LLaVA، تحيزات قوية اتجاهية، وتفوقت في توجيه واحد وفشلت في آخر.

يشير الورقة إلى أن هذه الانقطاعات تشير إلى الاعتماد على الإشارات المكانية، بدلاً من المنطق الزمني الحقيقي، حيث لا تقوم النماذج MLLM بتحليل تسلسل الأحداث أو فهم التقدم مع مرور الوقت. بدلاً من ذلك، يبدو أنها اعتمدت على أنماط أو ميزات بصرية تتعلق بتخطيط الصور، مثل موضعها أو محاذاتها، لاتخاذ القرارات.

الاختبارات النوعية تبرز تنبؤات GPT-4o عند مواجهة أوامر مدخلات مختلفة. في الأمر الأول، يتم تقديم أزواج الصور في تسلسلها الأصلي، بينما في الأمر الثاني، يتم عكس التسلسل. يتم وضع التصنيفات الصحيحة باللون الأخضر، والتصنيفات الخاطئة النقية باللون الأحمر، والمنطق المتخيل باللون البرتقالي، والمنطق غير المنطقي أو “غير صالح” باللون البني، مما يكشف عن عدم الاتساق في النموذج عبر تكوينات مدخلات مختلفة.

أظهرت الاختبارات المقارنة بين مدخلات الصورة الواحدة والصورة المتعددة تحسينًا محدودًا، مع أداء GPT-4o بشكل أفضل قليلاً على مدخلات الصورة المتعددة، يرتفع من 31.0% إلى 43.6% (مع P1) و 46.0% إلى 65.3% (مع P2).

أظهرت نماذج أخرى، مثل InternVL، أداءً مستقرًا ولكن منخفضًا، في حين شهد Qwen-VL مكاسب صغيرة. يخلص المؤلفون إلى أن هذه النتائج تشير إلى أن السياق البصري الإضافي لا يعزز بشكل كبير قدرات المنطق الزمني، حيث تعاني النماذج من دمج المعلومات الزمنية بشكل فعال.

دراسة بشرية

في دراسة بشرية، تم إجراء ثلاث استطلاعات لتقييم كيفية أداء أفضل نموذج MLLM متعدد الوسائط (GPT-4o) مقارنة بالتقديرات البشرية.

حققت البشر 90.3% دقة، متجاوزة أداء GPT-4o البالغ 65.3% بنسبة 25%. أظهرت مجموعة البيانات موثوقية، مع أخطاء بشرية قليلة ووافقة مستمرة على الإجابات الصحيحة.

نتائج دراسة المستخدمين البشرية للجولة الأولى من الاختبارات.

تقدير الفجوة الزمنية: النتائج

نتائج TLE: تقدير الفجوة الزمنية يقيّم دقة النموذج في تحديد الفواصل بين أزواج الصور، عبر مقاييس من الثواني إلى السنوات. تقيّم المهمة khả năng النموذج لاختيار مقياس زمني صحيح للفجوة الزمنية.

في هذه الاختبارات، أدت النماذج MLLM بشكل كافٍ فقط في تقدير الفجوة الزمنية: حقق GPT-4o دقة 70%، ولكن أدت النماذج الأخرى أداءً أسوأ بكثير (انظر الجدول أعلاه)، وأداء متغير بشكل ملحوظ عبر مختلف المقاييس الزمنية.

يشير المؤلفون إلى:

‘مهمة تقدير الفجوة الزمنية تختبر khả năng النماذج MLLM لاستنتاج الفواصل الزمنية بين أزواج الصور. جميع النماذج MLLM، بما في ذلك الأفضل أداءً مثل GPT-4o و Gemini1.5-Pro، تعاني من هذه المهمة، وتحقق مستويات دقة معتدلة تتراوح بين 60-70%. يظهر GPT-4o أداءً غير متسق، مع أداء قوي في الثواني والساعات، ولكن يؤدي أداءً ضعيفًا في الساعات.

كما يظهر LLaVA-CoT أداءً استثنائيًا في فترات زمنية الثواني والأيام، ولكنه يظهر أداءً ضعيفًا بشكل ملحوظ في الفواصل الزمنية الأخرى.’

دراسة بشرية

في دراسة بشرية لتقدير الفجوة الزمنية، تحسنت الأداء البشري المتوسط على GPT-4o (أفضل نموذج أداء في هذه الفئة أيضًا) بنسبة 12.3%.

يشير المؤلفون إلى أن بعض التحديات كانت صعبة بشكل خاص، وأن جميع المشاركين البشر أرجعوا إجابة خاطئة، إلى جانب جميع المشاركين الآليين.

يشير المؤلفون إلى أن GPT-4o يظهر “قابلية منطقية معقولة، على الرغم من ترتيب الصور المقدمة إليه.

الخلاصة

إذا جمعت النماذج MLLM في النهاية كمية كافية من بيانات “الطرق القصيرة” لتغطية حتى التحديات الأكثر حيلولة في نوعها المقدم من المؤلفين في هذه الدراسة، سواء كانوا قد طوروا قدرات تعميم مماثلة للبشر في هذا المجال أم لا، يمكن أن يصبح أمرًا غير ذي صلة.

لا يُعرف أيضًا بالضبط كيف نحصل على قدراتنا الخاصة في المنطق الزمني – هل نخدع أيضًا حتى تكشف كمية الخبرة المكتسبة عن نمط يؤدي إلى أداء “غريزي” فيما يتعلق بهذا النوع من الاختبار؟

* من وجهة النظر التي يتم فيها تحسين النماذج باستخدام دوال خسارة التي ساهمت فيها ردود فعل بشرية، وتحسينها فعليًا من خلال تجارب بشرية وترشيح لاحق.

نشر لأول مرة يوم الإثنين، 27 يناير 2025

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai