اتصل بنا للحصول على مزيد من المعلومات

تتعثر نماذج الذكاء الاصطناعي في قراءة الساعة الأساسية بينما يتفوق البشر

الذكاء الاصطناعي

تتعثر نماذج الذكاء الاصطناعي في قراءة الساعة الأساسية بينما يتفوق البشر

mm

A دراسة شاملة كشف اختبار 11 نموذجًا رائدًا للذكاء الاصطناعي ضد البشر في قراءة الساعات التناظرية عن ثغرة مفاجئة في أنظمة الذكاء الاصطناعي الحالية. فبينما حقق البشر دقة 89.1% في تحديد الوقت، لم يحقق أفضل نموذج أداءً من جوجل سوى دقة 13.3% في الاختبار نفسه.

أظهرت دراسة ClockBench، التي أجراها الباحث أليك سفر، أن حتى أكثر أنظمة الذكاء الاصطناعي تقدمًا تواجه صعوبة في أداء المهام البصرية التي يتقنها معظم الناس في طفولتهم. وقد اختبرتها أنظمة جوجل، OpenAI, أنثروبي، ومختبرات الذكاء الاصطناعي الرئيسية الأخرى التي تستخدم 180 ساعة تناظرية مصممة خصيصًا.

يتجاوز هذا الأمر الساعات. تُبرز النتائج قيودًا جوهرية في كيفية معالجة أنظمة الذكاء الاصطناعي للمعلومات البصرية والتفكير فيها. يُشير سفر في ورقة البحث إلى أن "قراءة الساعات التناظرية تُحدد معايير عالية للتفكير ضمن الفضاء البصري". تتطلب هذه المهمة من النماذج تحديد عقارب الساعة، وفهم علاقاتها، وترجمة الموقع البصري إلى وقت رقمي.

تتفاقم فجوة الأداء عند دراسة أنماط الأخطاء. فعندما يرتكب البشر أخطاءً، كان متوسط ​​الخطأ ثلاث دقائق فقط. في المقابل، أخطأت نماذج الذكاء الاصطناعي بساعة إلى ثلاث ساعات، وهو ما يعادل تقريبًا التخمين العشوائي على مدار الساعة.

نقاط ضعف محددة تم الكشف عنها

واجهت أنظمة الذكاء الاصطناعي صعوبات خاصة فيما يتعلق بما يلي:

  • الأرقام الرومانية (دقة 3.2%)
  • وجوه الساعة المعكوسة أو العكسية
  • خلفيات ملونة أو تصاميم معقدة
  • الساعات ذات عقارب الثواني التي تتطلب قراءات دقيقة

من المثير للاهتمام أنه عندما نجحت نماذج الذكاء الاصطناعي في قراءة الساعة، كان أداؤها جيدًا في المهام اللاحقة، مثل إضافة الوقت أو تحويل المناطق الزمنية. وهذا يشير إلى أن التحدي الأساسي يكمن في التعرّف البصري الأولي، وليس في التفكير الرياضي.

تفاصيل أداء الصناعة

كانت نماذج جوجل في المقدمة، مع الجوزاء 2.5 برو حقق دقة 13.3% ووصلت دقة Gemini 2.5 Flash إلى 10.5%. OpenAI's GPT-5 حصلت على 8.4%، في حين حصلت أنثروبيك على كلود سجلت النماذج أداءً أقل، مع أداء Claude 4 Sonnet بنسبة 4.2% و Claude 4.1 Opus بنسبة 5.6%.

نشرت Grok 4 من xAI نتائج ضعيفة بشكل مفاجئ بدقة 0.7%، على الرغم من أن هذا نبع من قيام النموذج بتمييز 63% من جميع الساعات بشكل غير صحيح على أنها تُظهر أوقاتًا مستحيلة عندما كانت 20.6% فقط هي التي تفعل ذلك بالفعل.

المصدر: أليك سفر

تأثيرات أوسع على تطوير الذكاء الاصطناعي

تعتمد الدراسة على نهج "سهل بالنسبة للبشر، صعب بالنسبة للذكاء الاصطناعي" الذي شوهد في اختبارات مثل ARC-AGI و سيمبل بينشفي حين أن أنظمة الذكاء الاصطناعي قد تغلبت بسرعة على المهام التي تتطلب معرفة مكثفة، بل وتفوقت على الأداء البشري في العديد من الاختبارات المعيارية، إلا أن التفكير البصري الأساسي لا يزال يمثل مشكلة.

يشير البحث إلى أن أساليب القياس الحالية قد لا تحل تحديات التفكير البصري. ويفترض سفر أن الساعات التناظرية قد لا تحظى بالقدر الكافي من التمثيل في بيانات التدريب، وأن ترجمة تمثيلات الساعات البصرية إلى نص لأغراض التفكير تُسبب تعقيدات إضافية.

ينضم ClockBench إلى مجموعة متنامية من معايير الأداء المصممة لتحديد قيود الذكاء الاصطناعي التي لا تظهر فورًا من خلال الأداء في الاختبارات التقليدية. تظل مجموعة البيانات الكاملة سرية لمنع أي تسريبات لتدريبات الذكاء الاصطناعي المستقبلية، مع إتاحة عينات صغيرة فقط للاختبار.

وتثير النتائج تساؤلات حول ما إذا كانت نماذج تطوير الذكاء الاصطناعي الحالية قادرة على معالجة هذه الفجوات في التفكير البصري أو ما إذا كانت هناك حاجة إلى مناهج جديدة كليًا - على غرار الطريقة التي فتحت بها الحوسبة في وقت الاختبار الباب أمام التقدم في مجالات أخرى.

في الوقت الحالي، تقف الساعة التناظرية المتواضعة كحصن غير متوقع ضد الذكاء الاصطناعي، حيث يمكن لأي إنسان قراءتها تقريبًا ولكنها تحير أكثر أنظمة الذكاء الاصطناعي تطوراً في العالم.

أليكس ماكفارلاند صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في مجال الذكاء الاصطناعي. لقد تعاون مع العديد من الشركات الناشئة والمنشورات في مجال الذكاء الاصطناعي في جميع أنحاء العالم.