Угол Андерсона
Попытки ИИ считывать показания аналоговых часов могут иметь более глубокое значение

В новой статье исследователей из Китая и Испании говорится, что даже продвинутые мультимодальные модели ИИ, такие как GPT-4.1, испытывают трудности с определением времени по изображениям аналоговых часов. Небольшие визуальные изменения в часах могут привести к серьезным ошибкам интерпретации, а тонкая настройка помогает только со знакомыми примерами. Результаты вызывают опасения относительно надежности этих моделей при столкновении с незнакомыми изображениями в реальных задачах.
Когда люди развивают достаточно глубокое понимание области, например, гравитации или других основных физических принципов, мы выходим за рамки конкретных примеров, чтобы понять базовые абстракции. Это позволяет нам применять эти знания творчески в разных контекстах и распознавать новые примеры, даже те, которые мы никогда раньше не видели, идентифицируя принцип в действии.
Когда домен имеет достаточно большое значение, мы можем даже начать его воспринимать где его неткак с парейдолия, вызванный высокой ценой нераспознавания реального примера. Этот механизм выживания, распознающий шаблоны, настолько силен, что он даже располагает нас чтобы найти более широкий спектр моделей где их нет.
Чем раньше и чаще нам прививается домен, тем более глубокий его основа и пожизненное сохранение; и один из самых ранних визуальных наборов данных, с которым мы сталкиваемся в детстве, имеет форму обучающих часов, где печатные материалы или интерактивные аналоговые часы используются для того, чтобы научить нас определять время:

Учебные пособия, помогающие детям научиться определять время. Источник: https://www.youtube.com/watch?v=IBBQXBhSNUs
Хотя изменение моды в дизайне часов иногда это может вызывать у нас затруднения, но устойчивость этого раннего мастерства в этой области весьма впечатляет, позволяя нам различать аналоговые циферблаты даже среди сложных или «эксцентричных» дизайнерских решений:

Некоторые сложные лица в часах кутюр. Источник: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/
Людей не нужно тысяч примеров изучить, как работают часы; как только основная концепция будет усвоена, мы сможем распознать ее практически в любой форме, даже если она искажена или абстрактна.
Напротив, трудности, с которыми сталкиваются модели ИИ при выполнении этой задачи, подчеркивают более глубокую проблему: их очевидная сила может зависеть больше от широкого распространения, чем от понимания.
За пределами игры в имитацию?
Противоречие между поверхностным уровнем производительности и подлинным «пониманием» неоднократно возникало в недавних исследованиях больших моделей. В прошлом месяце Чжэцзянский университет и Университет Уэстлейк переформулировали этот вопрос. статье титулованный Действительно ли обладатели степени доктора права (LLM) понимают элементарное сложение? (не является предметом данной статьи), в заключение:
«Несмотря на впечатляющие результаты, модели демонстрируют критическую зависимость от сопоставления с образцом, а не от истинного понимания, о чем свидетельствуют сбои в символических представлениях и нарушения базовых свойств.
«Явное предоставление правил, снижающее производительность, указывает на наличие внутренних архитектурных ограничений. Эти выводы выявляют пробелы в оценке и подчёркивают необходимость в архитектурах, способных на подлинные математические рассуждения, выходящие за рамки распознавания образов».
На этой неделе этот вопрос поднимается снова, теперь в рамках сотрудничества Нанкинского университета аэронавтики и астронавтики и Мадридского политехнического университета в Испании. Под названием Действительно ли мультимодальные большие языковые модели (MLLM) научились определять время на аналоговых часах?, Новый документ исследует, насколько хорошо мультимодальные модели понимают измерение времени.
Хотя ход исследования описан в статье лишь в общих чертах, первоначальные тесты исследователей показали, что OpenAI GPT-4.1 Мультимодальная языковая модель испытывала трудности с правильным считыванием времени с помощью разнообразного набора изображений часов, часто давая неверные ответы даже в простых случаях.
Это указывает на возможный пробел в данных обучения модели, что повышает потребность в более сбалансированном наборе данных, чтобы проверить, может ли модель действительно изучить базовую концепцию. Поэтому авторы курировали синтетический набор данных аналоговых часов, равномерно охватывающий все возможные времена и избегающий обычных предубеждений, которые можно найти в интернет-изображениях:

Пример из набора данных синтетических аналоговых часов исследователей, использованный для точной настройки модели GPT в новой работе. Источник: https://huggingface.co/datasets/migonsa/analog_watches_finetune
Перед тем, как тонкая настройка на новом наборе данных GPT-4.1 постоянно не мог прочитать эти часы. Однако после некоторого воздействия новой коллекции его производительность улучшилась – но только когда новые изображения были похожи на те, которые он уже видел.
Когда форма часов или стиль стрелок менялись, точность резко падала; даже небольшие изменения, такие как более тонкие стрелки или наконечники стрелок (крайнее правое изображение ниже), были достаточны, чтобы сбить ее с толку; и GPT-4.1 дополнительно испытывал трудности с интерпретацией произведений Дали «плавящиеся часы»:

Изображения часов со стандартным дизайном (слева), искаженной формой (посередине) и измененными стрелками (справа), а также время, возвращаемое GPT-4.1 до и после тонкой настройки. Источник: https://arxiv.org/pdf/2505.10862
Авторы делают вывод, что современные модели, такие как GPT-4.1, могут, таким образом, обучаться чтению часов в основном посредством визуальное сопоставление с образцом, а не какую-либо более глубокую концепцию времени, утверждая:
'[GPT 4.1] дает сбой, когда часы деформированы или когда стрелки изменены на более тонкие и имеют наконечник стрелы. Средняя абсолютная погрешность (MAE) оценки времени по 150 случайным моментам времени составила 232.48 с для исходных часов, 1380.69 с, когда форма деформирована, и 3726.93 с, когда стрелки изменены.
«Эти результаты говорят о том, что МЛМ не научился определять время, а скорее запомнил закономерности».
Достаточно времени
Большинство обучающих наборов данных основаны на извлеченных из сети изображениях, которые, как правило, повторяют определенное время — особенно 10:10, популярная обстановка в рекламе часов:

В новой статье приведен пример распространенности времени «десять минут одиннадцатого» на изображениях аналоговых часов.
В результате такого ограниченного диапазона отображаемых времен модель может видеть только узкий диапазон возможных конфигураций часов, что ограничивает ее способность делать обобщения за пределами этих повторяющихся шаблонов.
Относительно того, почему модели не могут правильно интерпретировать искаженные часы, в статье говорится:
«Хотя GPT-4.1 исключительно хорошо работает со стандартными изображениями часов, удивительно, что модификация стрелок часов путем их утончения и добавления наконечников стрелок приводит к значительному снижению точности.
«Интуитивно можно было бы ожидать, что визуально более сложное изменение — искаженный циферблат — окажет большее влияние на производительность, однако эта модификация, по-видимому, имеет относительно меньший эффект.
«Это поднимает вопрос: как MLLM интерпретируют часы и почему они терпят неудачу? Одна из возможностей заключается в том, что более тонкие стрелки ухудшают способность модели воспринимать направление, ослабляя ее понимание пространственной ориентации».
«В качестве альтернативы, могут быть и другие факторы, вызывающие путаницу, когда модель пытается объединить часовую, минутную и секундную стрелки для точного показания времени».
Авторы утверждают, что определение первопричины этих сбоев является ключом к развитию мультимодальных моделей: если проблема заключается в том, как модель воспринимает пространственное направление, тонкая настройка может стать простым решением; но если проблема возникает из-за более широкой трудности в интеграции нескольких визуальных сигналов, это указывает на более фундаментальную слабость в том, как эти системы обрабатывают информацию.
Тесты тонкой настройки
Чтобы проверить, можно ли преодолеть сбои модели с помощью экспозиции, GPT-4.1 была настроена на вышеупомянутом и всеобъемлющем синтетическом наборе данных. До настройки ее предсказания были широко разбросаны, со значительными ошибками по всем типам часов. После настройки на коллекции точность резко улучшилась на стандартных циферблатах часов и, в меньшей степени, на искаженных.
Однако часы с измененными стрелками, например, более тонкой формы или со стреловидными наконечниками, продолжали давать большие погрешности.
Возникли два различных вида отказов: на обычных и искаженных часах модель обычно неправильно оценивала направление стрелок; но на часах с измененными стили рук, он часто путал функции каждой руки, ошибочно принимая час для минут or минут для второй.

Сравнение, иллюстрирующее первоначальные недостатки модели и частичный выигрыш, достигнутый благодаря тонкой настройке, показывает прогнозируемое и фактическое время (в секундах) для 150 случайно выбранных часов. Слева, до тонкой настройки, прогнозы GPT-4.1 разбросаны и часто далеки от верных значений, что обозначено красной диагональной линией. Справа, после тонкой настройки на сбалансированном синтетическом наборе данных, прогнозы гораздо лучше соответствуют истинным данным, хотя некоторые ошибки всё ещё присутствуют.
Это говорит о том, что модель научилась связывать визуальные характеристики, такие как толщина руки, с определенными ролями и испытывала трудности, когда эти сигналы менялись.
Ограниченное улучшение незнакомых конструкций порождает дополнительные сомнения относительно того, усваивает ли модель такого рода абстрактную концепцию определения времени или просто совершенствует свое сопоставление с образцом.
Знаки Руки
Таким образом, хотя тонкая настройка улучшила работу GPT-4.1 на обычных аналоговых часах, она оказала гораздо меньшее влияние на часы с более тонкими стрелками или наконечниками стрелок, что повышает вероятность того, что сбои модели были вызваны не столько абстрактными рассуждениями, сколько путаницей в том, какая стрелка какая.
Чтобы проверить, может ли улучшиться точность при устранении этой путаницы, был проведён новый анализ прогнозов модели для набора данных «модифицированная стрелка». Результаты были разделены на две группы: случаи, когда GPT-4.1 правильно распознавала часовую, минутную и секундную стрелки, и случаи, когда это было не так.
Прогнозы были оценены для Средняя абсолютная ошибка (MAE) до и после точной настройки, а также результаты в сравнении с результатами стандартных часов; угловая погрешность также измерялась для каждой стрелки, используя положение циферблата в качестве базовой линии:

Сравнение ошибок для часов с путаницей ролей стрелок и без нее в модифицированном наборе данных стрелок до и после тонкой настройки.
Путаница в ролях стрелок часов приводила к самым большим ошибкам. Когда GPT-4.1 принимал часовую стрелку за минутную или наоборот, полученные оценки времени часто были далеки от истины. Напротив, ошибки, вызванные неверной оценкой направления правильно идентифицированной стрелки, были меньше. Среди трех стрелок часовая стрелка показала самую высокую угловую ошибку до точной настройки, а секундная стрелка — самую низкую.

Угловая ошибка по типу руки для прогнозов с учетом и без учета путаницы ролей рук, до и после тонкой настройки в модифицированном наборе данных руки.
Чтобы сосредоточиться только на ошибках направления, анализ был ограничен случаями, когда модель правильно идентифицировала функцию каждой стрелки. Если бы модель усвоила общую концепцию определения времени, ее производительность на этих примерах должна была бы соответствовать ее точности на стандартных часах. Этого не произошло, и точность осталась заметно хуже.
Чтобы проверить, есть ли рука формировать вмешались в чувство направления модели, был проведен второй эксперимент: были созданы два новых набора данных, каждый из которых содержал шестьдесят синтетических часов только с часовой стрелкой, указывающей на другую минутную отметку. Один набор использовал оригинальный дизайн стрелки, а другой — измененную версию. Модель попросили назвать отметку, на которую указывала стрелка.
Результаты показали небольшое снижение точности с измененными руками, но недостаточное, чтобы объяснить более общие недостатки модели. одиночная незнакомая визуальная особенность оказалось способным нарушить общую интерпретацию модели, даже в тех задачах, с которыми она ранее справлялась хорошо.

Обзор производительности GPT-4.1 до и после тонкой настройки на стандартных, искаженных и модифицированных стрелочных часах, подчеркивающий неравномерный прирост и устойчивые недостатки.
Заключение
Хотя фокус статьи может показаться тривиальным на первый взгляд, не так уж важно, научатся ли модели зрительного языка считывать аналоговые часы со 100% точностью. Вес этой работе придает ее фокус на более глубоком повторяющемся вопросе: может ли насыщение моделей большим количеством (и более разнообразных) данных привести к пониманию предметной области, которое люди приобретают посредством абстракции и обобщения; или же единственный жизнеспособный путь — наполнить предметную область достаточным количеством примеров, чтобы предвидеть все вероятные вариации при выводе.
Любой из этих подходов ставит под сомнение способность современных архитектур к обучению.
Впервые опубликовано Понедельник, 19 мая 2025 г.