Connect with us

نماذج الذكاء الاصطناعي تعثرفي قراءة الساعات الأساسية بينما يتفوق البشر

الذكاء الاصطناعي

نماذج الذكاء الاصطناعي تعثرفي قراءة الساعات الأساسية بينما يتفوق البشر

mm

دراسة شاملة قامت باختبار 11 نموذجًا رائدًا للذكاء الاصطناعي مقابل البشر في قراءة الساعات التناظرية قد كشفت عن نقطة ضعف مفاجئة في أنظمة الذكاء الاصطناعي الحالية. بينما حقق البشر دقة 89.1٪ في معرفة الوقت، حقق أفضل نموذج لشركة جوجل دقة 13.3٪ فقط في نفس الاختبار.

دراسة ClockBench، التي أجراها الباحث Alek Safar، تظهر أن حتى الأنظمة الأكثر تطورًا للذكاء الاصطناعي تعاني من مهام بصرية يتقنها معظم الناس في الطفولة. تم اختبار المعايير لأنظمة من جوجل، OpenAI، Anthropic، ومن مختبرات الذكاء الاصطناعي الكبرى الأخرى باستخدام 180 ساعة تناظرية مخصصة.

هذا يمتد إلى ما هو أبعد من الساعات. تبرز النتائج قيودًا أساسية في كيفية معالجة أنظمة الذكاء الاصطناعي للمعلومات البصرية والاستدلال عليها. “قراءة الساعات التناظرية تحدد معيارًا عاليًا للقيام بالاستدلال في الفضاء البصري”، يلاحظ Safar في ورقة البحث. تتطلب المهمة من النماذج تحديد يدي الساعة، وفهم علاقاتها، وترجمة الموضع البصري إلى وقت رقمي.

يتضح الفجوة في الأداء أكثر عند فحص أنماط الأخطاء. عندما يرتكب البشر أخطاءً، كان متوسط الخطأ ثلاث دقائق فقط. من ناحية أخرى، أخطأت نماذج الذكاء الاصطناعي بفارق يتراوح بين ساعة إلى ثلاث ساعات – ما يعادل تقريبًا التخمين العشوائي على ساعة 12 ساعة.

الضعف المحدد الذي تم الكشف عنه

عانت أنظمة الذكاء الاصطناعي بشكل خاص من:

  • الأرقام الرومانية (دقة 3.2٪)
  • وجوه الساعات المرآة أو العكسية
  • خلفيات ملونة أو تصاميم معقدة
  • ساعات تحتوي على يدين دقائق تتطلب قراءات دقيقة

من المثير للاهتمام أن نماذج الذكاء الاصطناعي، عندما قرأت ساعة بنجاح، أدت أداء جيدًا في مهام متابعة مثل إضافة الوقت أو تحويل المناطق الزمنية. هذا يشير إلى أن التحدي الأساسي يكمن في التعرف البصري الأولي وليس في الاستدلال الرياضي.

تحليل أداء الصناعة

تقدمت نماذج جوجل في الصدارة، حيث حقق Gemini 2.5 Pro دقة 13.3٪ و Gemini 2.5 Flash دقة 10.5٪. سجل GPT-5 من OpenAI 8.4٪، بينما حققت نماذج Claude من Anthropic أداءً أقل، حيث سجلت Claude 4 Sonnet 4.2٪ وClaude 4.1 Opus 5.6٪.

سجلت نماذج xAI Grok 4 نتائج سيئة بشكل مفاجئ بنسبة دقة 0.7٪، على الرغم من أن هذا ناتج عن أن النموذج قد أشار بشكل غير صحيح إلى 63٪ من جميع الساعات على أنها تظهر أوقاتًا مستحيلة عندما كانت فقط 20.6٪ تظهر ذلك في الواقع.

مصدر: Alek Safar

الآثار الأوسع للتنمية الاصطناعية

تستند الدراسة إلى نهج “سهل للبشر، صعب للذكاء الاصطناعي” للمعايير كما هو موضح في اختبارات مثل ARC-AGI و SimpleBench. بينما احتلت أنظمة الذكاء الاصطناعي بسرعة مهام كثيرة تعتمد على المعرفة وحتى تفوقت على أداء البشر في العديد من الاختبارات الموحدة، لا يزال الاستدلال البصري الأساسي مشكلة.

تُظهر الأبحاث أن نهج التوسيع الحالي قد لا يحل التحديات المتعلقة بالاستدلال البصري. يفترض Safar أن الساعات التناظرية قد تكون غير ممثلة في بيانات التدريب وأن ترجمة تمثيلات الساعات البصرية إلى نص للreasoning يخلق مشاكل إضافية.

تنضم ClockBench إلى مجموعة متزايدة من المعايير المصممة لتحديد قيود الذكاء الاصطناعي التي ليست واضحة على الفور من الأداء على الاختبارات التقليدية. يبقى مجموعة البيانات الكاملة خاصة لمنع تلوث تدريب الذكاء الاصطناعي في المستقبل، مع إتاحة عينات صغيرة فقط للفحص العام.

ترفع النتائج أسئلة حول ما إذا كانت أنماط التنمية الحالية للذكاء الاصطناعي قادرة على معالجة هذه الفجوات في الاستدلال البصري أو إذا كانت ستكون بحاجة إلى نهج جديد تمامًا – مشابهًا لطريقة الحوسبة في وقت الاختبار التي أطلقت التقدم في مجالات أخرى.

لمدة الآن، تقف الساعة التناظرية المتواضعة كحصن غير متوقع ضد الذكاء الاصطناعي، يمكن قراءتها من قبل أي إنسان تقريبًا ولكنها تعثرفي أنظمة الذكاء الاصطناعي الأكثر تطورًا في العالم.

Alex McFarland هو صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في الذكاء الاصطناعي. وقد تعاون مع العديد من الشركات الناشئة في مجال الذكاء الاصطناعي والمنشورات في جميع أنحاء العالم.