Искусственный интеллект
Модели ИИ спотыкаются о базовое чтение часов, в то время как люди отлично справляются

В комплексном исследовании, проверяющем 11 ведущих моделей ИИ против людей в чтении аналоговых часов, была выявлена удивительная слабость в текущих системах искусственного интеллекта. В то время как люди достигли 89,1% точности в определении времени, лучшая модель Google смогла достичь только 13,3% точности в том же тесте.
Исследование ClockBench, проведенное исследователем Alek Safar, демонстрирует, что даже самые передовые системы ИИ испытывают трудности с визуальными задачами, которые большинство людей осваивают в детстве. Бенчмарк проверил системы от Google, OpenAI, Anthropic и других крупных лабораторий ИИ с помощью 180 специально разработанных аналоговых часов.
Это выходит за рамки часов. Результаты подчеркивают фундаментальные ограничения в том, как системы ИИ обрабатывают и рассуждают о визуальной информации. “Чтение аналоговых часов устанавливает высокую планку для рассуждений в визуальном пространстве”, – отмечает Safar в исследовательской работе. Задача требует от моделей определить часовые стрелки, понять их взаимосвязи и перевести визуальное положение в числовое время.
Разрыв в производительности становится еще более заметным при анализе закономерностей ошибок. Когда люди совершали ошибки, медианная ошибка составляла всего три минуты. Модели ИИ, напротив, промахивались на один до трех часов – примерно эквивалентно случайным угадыванию на 12-часовых часах.
Конкретные слабости
Системы ИИ испытывали особые трудности с:
- Римскими цифрами (3,2% точности)
- Зеркальными или перевернутыми циферблатами
- Цветными фонами или сложными дизайнами
- Часами со стрелкой секунд, требующими точного чтения
Интересно, что когда модели ИИ успешно читали часы, они хорошо справлялись с последующими задачами, такими как добавление времени или конвертация часовых поясов. Это говорит о том, что основная проблема заключается в начальном визуальном распознавании, а не в математических рассуждениях.
Разбивка производительности отрасли
Модели Google лидировали, с Gemini 2.5 Pro, достигшей 13,3% точности, и Gemini 2.5 Flash, достигшей 10,5%. OpenAI’s GPT-5 набрала 8,4%, в то время как модели Claude от Anthropic показали более низкие результаты, с Claude 4 Sonnet на уровне 4,2% и Claude 4.1 Opus на уровне 5,6%.
Модель xAI Grok 4 показала удивительно плохие результаты с точностью 0,7%, хотя это было вызвано тем, что модель неправильно пометила 63% всех часов как показывающих невозможные времена, когда на самом деле таковых было только 20,6%.

Источник: Alek Safar
Более широкие последствия для разработки ИИ
Исследование основано на подходе “легко для людей, трудно для ИИ”, используемом в тестах, таких как ARC-AGI и SimpleBench. Хотя системы ИИ быстро завоевали задачи, требующие знаний, и даже превзошли производительность человека во многих стандартизированных тестах, базовое визуальное рассуждение остается проблематичным.
Исследование предполагает, что текущие подходы к масштабированию могут не решить проблемы визуального рассуждения. Safar гипотетически предполагает, что аналоговые часы могут быть недопредставлены в обучающих данных и что перевод визуальных представлений часов в текст для рассуждений создает дополнительные осложнения.
ClockBench присоединяется к растущей коллекции бенчмарков, предназначенных для выявления ограничений ИИ, которые не сразу очевидны из результатов традиционных тестов. Полный набор данных остается закрытым, чтобы предотвратить загрязнение будущих обучающих данных ИИ, и только небольшие образцы сделаны публичными для тестирования.
Результаты вызывают вопросы о том, могут ли существующие парадигмы разработки ИИ решить эти пробелы в визуальном рассуждении или потребуются совершенно новые подходы – подобно тому, как тестирование во время выполнения открыло прогресс в других областях.
На данный момент скромные аналоговые часы стоят как неожиданная крепость против искусственного интеллекта, читаемая практически любым человеком, но озадачивающая самые совершенные системы ИИ.










