Connect with us

Модели ИИ спотыкаются о базовое чтение часов, в то время как люди отлично справляются

Искусственный интеллект

Модели ИИ спотыкаются о базовое чтение часов, в то время как люди отлично справляются

mm

В комплексном исследовании, проверяющем 11 ведущих моделей ИИ против людей в чтении аналоговых часов, была выявлена удивительная слабость в текущих системах искусственного интеллекта. В то время как люди достигли 89,1% точности в определении времени, лучшая модель Google смогла достичь только 13,3% точности в том же тесте.

Исследование ClockBench, проведенное исследователем Alek Safar, демонстрирует, что даже самые передовые системы ИИ испытывают трудности с визуальными задачами, которые большинство людей осваивают в детстве. Бенчмарк проверил системы от Google, OpenAI, Anthropic и других крупных лабораторий ИИ с помощью 180 специально разработанных аналоговых часов.

Это выходит за рамки часов. Результаты подчеркивают фундаментальные ограничения в том, как системы ИИ обрабатывают и рассуждают о визуальной информации. “Чтение аналоговых часов устанавливает высокую планку для рассуждений в визуальном пространстве”, – отмечает Safar в исследовательской работе. Задача требует от моделей определить часовые стрелки, понять их взаимосвязи и перевести визуальное положение в числовое время.

Разрыв в производительности становится еще более заметным при анализе закономерностей ошибок. Когда люди совершали ошибки, медианная ошибка составляла всего три минуты. Модели ИИ, напротив, промахивались на один до трех часов – примерно эквивалентно случайным угадыванию на 12-часовых часах.

Конкретные слабости

Системы ИИ испытывали особые трудности с:

  • Римскими цифрами (3,2% точности)
  • Зеркальными или перевернутыми циферблатами
  • Цветными фонами или сложными дизайнами
  • Часами со стрелкой секунд, требующими точного чтения

Интересно, что когда модели ИИ успешно читали часы, они хорошо справлялись с последующими задачами, такими как добавление времени или конвертация часовых поясов. Это говорит о том, что основная проблема заключается в начальном визуальном распознавании, а не в математических рассуждениях.

Разбивка производительности отрасли

Модели Google лидировали, с Gemini 2.5 Pro, достигшей 13,3% точности, и Gemini 2.5 Flash, достигшей 10,5%. OpenAI’s GPT-5 набрала 8,4%, в то время как модели Claude от Anthropic показали более низкие результаты, с Claude 4 Sonnet на уровне 4,2% и Claude 4.1 Opus на уровне 5,6%.

Модель xAI Grok 4 показала удивительно плохие результаты с точностью 0,7%, хотя это было вызвано тем, что модель неправильно пометила 63% всех часов как показывающих невозможные времена, когда на самом деле таковых было только 20,6%.

Источник: Alek Safar

Более широкие последствия для разработки ИИ

Исследование основано на подходе “легко для людей, трудно для ИИ”, используемом в тестах, таких как ARC-AGI и SimpleBench. Хотя системы ИИ быстро завоевали задачи, требующие знаний, и даже превзошли производительность человека во многих стандартизированных тестах, базовое визуальное рассуждение остается проблематичным.

Исследование предполагает, что текущие подходы к масштабированию могут не решить проблемы визуального рассуждения. Safar гипотетически предполагает, что аналоговые часы могут быть недопредставлены в обучающих данных и что перевод визуальных представлений часов в текст для рассуждений создает дополнительные осложнения.

ClockBench присоединяется к растущей коллекции бенчмарков, предназначенных для выявления ограничений ИИ, которые не сразу очевидны из результатов традиционных тестов. Полный набор данных остается закрытым, чтобы предотвратить загрязнение будущих обучающих данных ИИ, и только небольшие образцы сделаны публичными для тестирования.

Результаты вызывают вопросы о том, могут ли существующие парадигмы разработки ИИ решить эти пробелы в визуальном рассуждении или потребуются совершенно новые подходы – подобно тому, как тестирование во время выполнения открыло прогресс в других областях.

На данный момент скромные аналоговые часы стоят как неожиданная крепость против искусственного интеллекта, читаемая практически любым человеком, но озадачивающая самые совершенные системы ИИ.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.