Искусственный интеллект
Модели ИИ спотыкаются на простых часах, в то время как люди преуспевают

A всестороннее исследование Тестирование 11 ведущих моделей искусственного интеллекта в сравнении с людьми при считывании показаний аналоговых часов выявило неожиданную слабость современных систем искусственного интеллекта. В то время как люди достигли точности определения времени 89.1%, самая эффективная модель Google продемонстрировала точность всего 13.3% в том же тесте.
Исследование ClockBench, проведённое исследователем Алеком Сафаром, показывает, что даже самые продвинутые системы искусственного интеллекта испытывают трудности с выполнением визуальных задач, которые большинство людей осваивают ещё в детстве. Тестирование систем Google, OpenAI, Антропныйи другие крупные лаборатории искусственного интеллекта, использующие 180 специально разработанных аналоговых часов.
Это выходит за рамки часов. Результаты выявляют фундаментальные ограничения в том, как системы ИИ обрабатывают и анализируют визуальную информацию. «Чтение показаний аналоговых часов устанавливает высокую планку для рассуждений в визуальном пространстве», — отмечает Сафар в исследовательской работе. Для решения этой задачи модели должны уметь распознавать стрелки часов, понимать их взаимосвязь и переводить визуальное положение в числовое время.
Разница в производительности становится ещё более заметной при анализе закономерностей ошибок. Когда люди ошибались, медианная погрешность составляла всего три минуты. Модели ИИ, напротив, не справлялись с задачей на один-три часа, что примерно эквивалентно случайному угадыванию на 12-часовом формате.
Выявлены конкретные слабые стороны
Системы искусственного интеллекта испытывали особые трудности с:
- Римские цифры (точность 3.2%)
- Зеркальные или перевернутые циферблаты часов
- Красочные фоны или сложные дизайны
- Часы с секундной стрелкой, требующие точных показаний
Интересно, что даже когда модели ИИ успешно считывали показания часов, они хорошо справлялись и с последующими задачами, такими как добавление времени или перевод часовых поясов. Это говорит о том, что основная сложность заключается в первоначальном визуальном распознавании, а не в математических рассуждениях.
Анализ показателей отрасли
Модели Google лидировали: Близнецы 2.5 Про Точность достигла 13.3%, а точность Gemini 2.5 Flash — 10.5%. OpenAI GPT-5 набрал 8.4%, в то время как Anthropic Клод Модели показали худшие результаты: Claude 4 Sonnet — 4.2%, а Claude 4.1 Opus — 5.6%.
Grok 4 от xAI продемонстрировал удивительно плохие результаты с точностью 0.7%, хотя это произошло из-за того, что модель ошибочно пометила 63% всех часов как показывающие невозможное время, хотя на самом деле это было только 20.6%.

Источник: Алек Сафар
Более широкие последствия для развития ИИ
Исследование основано на эталонном подходе «легко для людей, сложно для ИИ», который применяется в таких тестах, как ARC-AGI и SimpleBench. Хотя системы искусственного интеллекта быстро справляются с задачами, требующими больших знаний, и даже превосходят человеческие возможности во многих стандартизированных тестах, базовое визуальное мышление остаётся проблематичным.
Исследование предполагает, что существующие подходы к масштабированию могут не решить проблемы визуального мышления. Сафар выдвигает гипотезу, что аналоговые часы могут быть недостаточно представлены в обучающих данных, и что перевод визуальных представлений часов в текст для рассуждений создаёт дополнительные сложности.
ClockBench присоединяется к растущей коллекции бенчмарков, разработанных для выявления ограничений ИИ, которые не сразу проявляются при анализе производительности традиционных тестов. Полный набор данных остаётся конфиденциальным, чтобы предотвратить искажение результатов обучения ИИ в будущем, и только небольшие выборки данных публикуются для тестирования.
Результаты поднимают вопросы о том, способны ли существующие парадигмы разработки ИИ устранить эти пробелы в визуальном мышлении или же потребуются совершенно новые подходы — аналогично тому, как вычисления во время тестирования способствовали прогрессу в других областях.
На данный момент скромные аналоговые часы стали неожиданной крепостью против искусственного интеллекта: их может прочитать практически любой человек, но они ставят в тупик самые сложные в мире системы искусственного интеллекта.












