Искусственный интеллект

Модели ИИ спотыкаются на простых часах, в то время как люди преуспевают

опубликованный 15 сентября, 2025

Алекс МакФарланд

A всестороннее исследование Тестирование 11 ведущих моделей искусственного интеллекта в сравнении с людьми при считывании показаний аналоговых часов выявило неожиданную слабость современных систем искусственного интеллекта. В то время как люди достигли точности определения времени 89.1%, самая эффективная модель Google продемонстрировала точность всего 13.3% в том же тесте.

Исследование ClockBench, проведённое исследователем Алеком Сафаром, показывает, что даже самые продвинутые системы искусственного интеллекта испытывают трудности с выполнением визуальных задач, которые большинство людей осваивают ещё в детстве. Тестирование систем Google, OpenAI, Антропныйи другие крупные лаборатории искусственного интеллекта, использующие 180 специально разработанных аналоговых часов.

Это выходит за рамки часов. Результаты выявляют фундаментальные ограничения в том, как системы ИИ обрабатывают и анализируют визуальную информацию. «Чтение показаний аналоговых часов устанавливает высокую планку для рассуждений в визуальном пространстве», — отмечает Сафар в исследовательской работе. Для решения этой задачи модели должны уметь распознавать стрелки часов, понимать их взаимосвязь и переводить визуальное положение в числовое время.

Разница в производительности становится ещё более заметной при анализе закономерностей ошибок. Когда люди ошибались, медианная погрешность составляла всего три минуты. Модели ИИ, напротив, не справлялись с задачей на один-три часа, что примерно эквивалентно случайному угадыванию на 12-часовом формате.

Выявлены конкретные слабые стороны

Системы искусственного интеллекта испытывали особые трудности с:

Римские цифры (точность 3.2%)
Зеркальные или перевернутые циферблаты часов
Красочные фоны или сложные дизайны
Часы с секундной стрелкой, требующие точных показаний

Интересно, что даже когда модели ИИ успешно считывали показания часов, они хорошо справлялись и с последующими задачами, такими как добавление времени или перевод часовых поясов. Это говорит о том, что основная сложность заключается в первоначальном визуальном распознавании, а не в математических рассуждениях.

Анализ показателей отрасли

Модели Google лидировали: Близнецы 2.5 Про Точность достигла 13.3%, а точность Gemini 2.5 Flash — 10.5%. OpenAI GPT-5 набрал 8.4%, в то время как Anthropic Клод Модели показали худшие результаты: Claude 4 Sonnet — 4.2%, а Claude 4.1 Opus — 5.6%.

Grok 4 от xAI продемонстрировал удивительно плохие результаты с точностью 0.7%, хотя это произошло из-за того, что модель ошибочно пометила 63% всех часов как показывающие невозможное время, хотя на самом деле это было только 20.6%.

Источник: Алек Сафар

Более широкие последствия для развития ИИ

Исследование основано на эталонном подходе «легко для людей, сложно для ИИ», который применяется в таких тестах, как ARC-AGI и SimpleBench. Хотя системы искусственного интеллекта быстро справляются с задачами, требующими больших знаний, и даже превосходят человеческие возможности во многих стандартизированных тестах, базовое визуальное мышление остаётся проблематичным.

Исследование предполагает, что существующие подходы к масштабированию могут не решить проблемы визуального мышления. Сафар выдвигает гипотезу, что аналоговые часы могут быть недостаточно представлены в обучающих данных, и что перевод визуальных представлений часов в текст для рассуждений создаёт дополнительные сложности.

ClockBench присоединяется к растущей коллекции бенчмарков, разработанных для выявления ограничений ИИ, которые не сразу проявляются при анализе производительности традиционных тестов. Полный набор данных остаётся конфиденциальным, чтобы предотвратить искажение результатов обучения ИИ в будущем, и только небольшие выборки данных публикуются для тестирования.

Результаты поднимают вопросы о том, способны ли существующие парадигмы разработки ИИ устранить эти пробелы в визуальном мышлении или же потребуются совершенно новые подходы — аналогично тому, как вычисления во время тестирования способствовали прогрессу в других областях.

На данный момент скромные аналоговые часы стали неожиданной крепостью против искусственного интеллекта: их может прочитать практически любой человек, но они ставят в тупик самые сложные в мире системы искусственного интеллекта.

Похожие темы:AI искусственный интеллект

Алекс МакФарланд

Алекс МакФарланд — журналист и писатель, занимающийся искусственным интеллектом. Он сотрудничал с многочисленными стартапами и публикациями в области искусственного интеллекта по всему миру.

Unite.ИИ

Модели ИИ спотыкаются на простых часах, в то время как люди преуспевают

Выявлены конкретные слабые стороны

Анализ показателей отрасли

Более широкие последствия для развития ИИ

Вам может понравиться