Штучний інтелект
Моделі штучного інтелекту спотикаються про базове читання годинників, тоді як люди успішно виконують цю задачу

Комплексне дослідження, яке тестувало 11 провідних моделей штучного інтелекту проти людей у читанні аналогових годинників, виявило несподівану слабкість у поточних системах штучного інтелекту. Хоча люди досягли 89,1% точності у читанні годин, найкраща модель Google змогла досягти лише 13,3% точності на тому ж тесті.
Дослідження ClockBench, проведене дослідником Алексом Сафаром, демонструє, що навіть найрозвітліші системи штучного інтелекту борються з візуальними завданнями, які більшість людей освоюють у дитинстві. Бенчмарк тестував системи від Google, OpenAI, Anthropic та інших великих лабораторій штучного інтелекту за допомогою 180 спеціально розроблених аналогових годинників.
Це виходить за рамки годинників. Результати підкреслюють фундаментальні обмеження того, як системи штучного інтелекту обробляють і розуміють візуальну інформацію. “Читання аналогових годинників встановлює високий стандарт для виконання розумових операцій у візуальному просторі”, – зазначає Сафар у дослідженні. Це завдання вимагає від моделей ідентифікації годинникових стрілок, розуміння їхніх взаємозв’язків та перекладу візуального положення у числовий час.
Пропуск у виконанні завдань стає ще більш вражаючим, коли розглядаються моделі помилок. Коли люди допускали помилки, медіана помилки становила лише три хвилини. Моделі штучного інтелекту, навпаки, промахувалися на одну-три години – приблизно еквівалентно випадковому вибору на 12-годинному годиннику.
Конкретні слабкості, що були виявлені
Системи штучного інтелекту особливо боролися з:
- Римськими цифрами (3,2% точності)
- Зеркальними або зворотними годинниковими обличчями
- Кольоровими фонами або складними дизайнами
- Годинниками з секундними стрілками, які вимагають точного читання
Цікаво, що коли моделі штучного інтелекту успішно читали годинник, вони добре виконували наступні завдання, такі як додавання часу або конвертування часових зон. Це свідчить про те, що основна проблема полягає у початковому візуальному розпізнаванні, а не у математичному розумінні.
Аналіз промислових результатів
Моделі Google лідирували у списку, з Gemini 2.5 Pro, яка досягла 13,3% точності, та Gemini 2.5 Flash, яка досягла 10,5%. OpenAI’s GPT-5 набрала 8,4%, тоді як моделі Claude від Anthropic показали нижчі результати, з Claude 4 Sonnet на рівні 4,2% та Claude 4.1 Opus на рівні 5,6%.
xAI’s Grok 4 показала несподівано погані результати на рівні 0,7% точності, хоча це було викликано тим, що модель неправильно позначила 63% усіх годинників як годинники, які показують неможливі часи, тоді як насправді таких годинників було лише 20,6%.

Джерело: Алекс Сафар
Ширші наслідки для розвитку штучного інтелекту
Дослідження розширює підхід “легко для людей, складно для штучного інтелекту” у тестах, таких як ARC-AGI та SimpleBench. Хоча системи штучного інтелекту швидко завоювали завдання, пов’язані з знаннями, та навіть перевершували людську продуктивність у багатьох стандартизованих тестах, базове візуальне розуміння залишається проблематичним.
Дослідження свідчить про те, що поточні підходи до масштабування можуть не розв’язувати проблеми візуального розуміння. Сафар гіпотезує, що аналогові годинники можуть бути недостатньо представлені у навчальних даних та що переклад візуальних годинникових представлень у текст для розуміння створює додаткові ускладнення.
Дослідження ClockBench приєднується до зростаючої колекції бенчмарків, розроблених для визначення обмежень штучного інтелекту, які не є одразу очевидними з результатами традиційних тестів. Повний набір даних залишається приватним, щоб запобігти забрудненню майбутніх навчальних даних штучного інтелекту, з лише малими зразками, відкритими для тестування.
Результати викликають питання про те, чи можуть поточні парадигми розвитку штучного інтелекту вирішити ці візуальні завдання з розумінням, чи чи будуть потрібні зовсім нові підходи – подібно до того, як обчислення у час тестування розблокувало прогрес у інших областях.
Наразі скромний аналоговий годинник стоїть як несподівана фортеця проти штучного інтелекту, яку може прочитати майже будь-яка людина, але яка збентежує найрозвітліші системи штучного інтелекту.












