Искусственный интеллект
Даже самые современные языковые модели испытывают трудности с пониманием временной логики

Предсказание будущих состояний является критической миссией в исследованиях компьютерного зрения – не в последнюю очередь в робототехнике, где необходимо учитывать реальные ситуации. Системы машинного обучения, которым поручены задачи критической важности, поэтому нуждаются в адекватном понимании физического мира.
Однако в некоторых случаях, казалось бы, впечатляющие знания временной реальности могут быть обманчивыми: новая статья из Объединенных Арабских Эмиратов обнаружила, что самые современные многомодальные большие языковые модели (MLLMs), включая лидеров отрасли GPT-4o и Google Gemini, не справляются, когда речь идет об интерпретации того, как время представлено в изображениях.
Примеры последовательных пар (см. изображение ниже), которые были бы незначительными для людей, даже если они находятся в неправильном порядке, могут обмануть передовые MLLMs, когда они представлены в неожиданных контекстах или конфигурациях (таких как второе-изображение-первое, объединенные в одно изображение, последовательные несколько изображений, которые могут или не могут представлять правильный временной порядок и т. д.).

Примеры из одного из наборов данных, собранных для нового исследования, которые показывают последовательные события в форме ‘до и после’ изображений. Исследователи сделали эти данные доступными по адресу https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer
Исследователи поручили моделям выполнить базовые задачи временного рассуждения, такие как определение порядка событий или оценка временных пробелов, и обнаружили, что семь протестированных MLLMs показали заметно ниже человеческой точности:
«В целом, [результаты] показывают, что все текущие MLLMs, включая GPT-4o – самую продвинутую модель в нашей оценке – испытывают трудности с предложенной оценкой. Несмотря на превосходную производительность GPT-4o по сравнению с другими моделями, она не может последовательно демонстрировать точное временное рассуждение в разных условиях.
«Последовательные показатели точности заметно низкие для всех моделей, указывая на значительные ограничения в их способности понимать и интерпретировать временные последовательности из визуальных входных данных. Эти недостатки очевидны даже тогда, когда модели предоставляются с несколькими изображениями или оптимизированными подсказками, что предполагает, что текущие архитектуры и методы обучения недостаточны для надежного понимания временного порядка.
Системы машинного обучения предназначены для оптимизации наиболее точных, но также наиболее эффективных и приятных результатов*. Поскольку они не раскрывают свое рассуждение явно, может быть трудно определить, когда они «обманывают» или используют «обходные пути».
В таком случае MLLM может прийти к правильному ответу неправильным методом. То, что такой ответ может быть правильным, может вдохновить ложную уверенность в модели, которая может произвести неправильные результаты тем же методом в последующих задачах, представленных ей.
Хуже того, такое заблуждение может стать еще более глубоко укоренившимся в цепочке разработки, если люди впечатлены им и дают положительную обратную связь в испытаниях и сессиях аннотации, которые могут способствовать направлению, которое данные и/или модель могут принять.
В этом случае предполагается, что MLLMs «имитируют» истинное понимание хронологии и временных явлений, наблюдая и фиксируясь на вторичных индикаторах (таких как метки времени, например, в видеоданных, порядок изображений в макете или даже – потенциально – последовательно пронумерованные имена файлов).
Это进一步 указывает на то, что MLLMs в настоящее время не удовлетворяют никакому реальному определению обобщения понятия временных явлений – по крайней мере, в той степени, в которой люди могут.
Новая статья называется Могут ли многомодальные MLLMs выполнять визуальное временное понимание и рассуждение? Ответ – Нет!, и исходит от трех исследователей из Университета искусственного интеллекта имени Мохаммеда бин Зайеда и Alibaba International Digital Commerce.
Данные и испытания
Авторы отмечают, что предыдущие оценки и исследования, такие как MMMU и TemporalBench, сосредоточены на одиночных изображениях или формулируют вопросы для MLLMs, которые могут быть слишком легкими для ответа, и могут не выявить тенденцию к обходному поведению.
Следовательно, авторы предлагают два обновленных подхода: Понимание временного порядка (TOU) и Оценка временного интервала (TLE). Подход TOU тестирует модели на их способность определять правильную последовательность событий из пар видеокадров; метод TLE оценивает способность MLLM оценить временной разрыв между двумя изображениями, варьирующийся от секунд до лет.

Из статьи, два основных задания оценки TemporalVQA: в понимании временного порядка модель решает, какое из двух изображений показывает событие, которое произошло первым; в оценке временного интервала модель оценивает, сколько времени прошло между двумя изображениями, выбирая из вариантов, включая секунды, минуты, дни или годы. Эти задания направлены на то, чтобы проверить, насколько хорошо MLLMs могут рассуждать о временной последовательности визуальных событий. Источник: https://arxiv.org/pdf/2501.10674
Исследователи отобрали 360 пар изображений для оценки TOU, используя открытые видео из Pixabay и Pexels, чтобы сделать возможным предоставление набора данных через GUI.
Видео охватывали широкий спектр предметов, от людей в повседневной деятельности до нечеловеческого контента, такого как животные и растения. Из них были выбраны пары кадров, чтобы показать последовательность событий с достаточным разнообразием, чтобы сделать начальную кадр «очевидным».
Выбор человека использовался для обеспечения того, чтобы кадры могли быть определенно упорядочены. Например, одна из отобранных пар показывает частично наполненную чашку чая в одном кадре и ту же чашку, полностью наполненную чаем, в следующем, что делает логику последовательности легко определяемой.

Временная логика этих двух картинок не может быть избежана, поскольку чай не может быть втянут обратно через носик.
Таким образом, было получено 360 пар изображений.
Для подхода TLE были выбраны изображения без копирайта из Google и Flickr, а также отдельные кадры из видео без копирайта на YouTube. Предметом этих видео были сцены или объекты, чей интервал изменения варьировался от секунд до дней до сезонов – например, созревающий фрукт или изменение сезонов в пейзажах.
Таким образом, было отобрано 125 пар изображений для метода TLE.
Не все протестированные MLLMs могли обрабатывать несколько изображений; поэтому испытания различались, чтобы приспособиться к возможностям каждой модели.
Были сгенерированы несколько версий отобранных наборов данных, в которых некоторые пары были объединены вертикально, а другие – горизонтально. Дальнейшие вариации меняли истинную и правильную временную последовательность пар.
Были разработаны два типа подсказок. Первый следовал этому шаблону:
Произошло ли событие на (левом / верхнем / первом) изображении до события на (правом / нижнем / втором) изображении? Укажите true или false с обоснованием.
Второй следовал этому схеме:
Между этими двумя изображениями, какое из них показывает событие, которое произошло первым? Укажите (левое или правое / верхнее или нижнее / первое или второе) с обоснованием.
Для TLE вопросы были в форме множественного выбора, в которых модели предлагалось оценить временной интервал между двумя представленными изображениями, с секундами, часами, минутами, днями, месяцами и годами в качестве единиц времени. В этой конфигурации самое recentное изображение было представлено справа.
Подсказка, использованная здесь, была:
В данном изображении оцените время, которое прошло между первым изображением (слева) и вторым изображением (справа).
Выберите один из следующих вариантов:
-
Менее 15 секунд
B. Между 2 минутами и 15 минутами
C. Между 1 часом и 12 часами
D. Между 2 днями и 30 днями
E. Между 4 месяцами и 12 месяцами
F. Более 3 лет
Протестированные MLLMs были ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; и LLaVA-CoT.
Понимание временного порядка: результаты

Результаты понимания временного порядка для разных моделей и макетов изображений, показывающие точность и последовательность для различных настроек и подсказок.
Что касается результатов, показанных выше, авторы обнаружили, что все протестированные MLLMs, включая GPT-4o (которая показала лучшую общую производительность), испытывали значительные трудности с оценкой TemporalVQA – и даже GPT-4o не смогла последовательно демонстрировать надежное временное рассуждение в разных конфигурациях.
Авторы утверждают, что последовательно низкие показатели точности по всем LLMs подчеркивают значительные ограничения в способности моделей интерпретировать и рассуждать о временных последовательностях из визуальных данных. Исследователи отмечают, что эти проблемы сохраняются даже при использовании нескольких изображений и оптимизированных подсказок, указывая на фундаментальные ограничения в текущих архитектурах моделей и методах обучения.
Испытания показали значительные вариации в производительности по стратегиям подсказок. Хотя GPT-4o улучшила свою производительность с оптимизированными подсказками (достигнув 4% в одиночных изображениях и 65,3% в многообразных настройках), производительность оставалась ниже приемлемых уровней.
Модели, такие как LLaVA-NeXT и Qwen-VL, были еще более чувствительными, с производительностью, снижающейся при использовании альтернативных подсказок, что предполагает, что инженерия подсказок не может преодолеть фундаментальные ограничения MLLMs в отношении временного рассуждения.
Испытания также показали, что макет изображений (т. е. вертикальный против горизонтального) существенно повлиял на производительность модели. GPT-4o улучшила свою последовательность с вертикальными расположениями, увеличившись с 39,2% до 52,8%; однако другие модели, включая LLaVA-NeXT, показали сильные направленные предубеждения, преуспевая в одном направлении, но терпя неудачу в другом.
Статья указывает на то, что эти несоответствия предполагают зависимость от пространственных подсказок, а не от истинного временного рассуждения, при котором MLLMs не真正 анализируют последовательность событий или не понимают прогресса во времени. Вместо этого они, кажется, полагаются на закономерности или визуальные особенности, связанные с макетом изображений, такие как их положение или выравнивание, чтобы принимать решения.

Качественные испытания подчеркивают прогнозы GPT-4o при столкновении с разными порядками входных данных. В первом порядке пары изображений представлены в их исходной последовательности, в то время как во втором порядке последовательность обратна. Правильные классификации обозначены зеленым, чистые неправильные классификации – красным, воображаемые рассуждения – оранжевым, а иррациональные или «неправильные» рассуждения – коричневым, раскрывая несоответствия модели в разных конфигурациях входных данных.
Сравнительные испытания между одиночными изображениями и многообразными входными данными показали ограниченное общее улучшение, при котором GPT-4o показала немного лучшую производительность на многообразных входных данных, увеличившись с 31,0% до 43,6% (с P1) и с 46,0% до 65,3% (с P2).
Другие модели, такие как InternVL, показали стабильную, но низкую точность, в то время как Qwen-VL увидела незначительные выигрыши. Авторы заключают, что эти результаты указывают на то, что дополнительный визуальный контекст не существенно улучшает возможности временного рассуждения, поскольку модели испытывают трудности с эффективной интеграцией временной информации.
Исследование человека
В исследовании человека три опроса были проведены для оценки того, насколько близко лучшая многомодальная MLLM выполнила задание по сравнению с человеческой оценкой.
Люди достигли 90,3% точности, превысив 65,3% GPT-4o на 25%. Набор данных оказался надежным, с минимальными ошибками человека и последовательным согласием на правильные ответы.

Результаты исследования человека для первого раунда испытаний.
Оценка временного интервала: результаты

Результаты для TLE: оценка временного интервала оценивает точность модели в определении интервалов между парами изображений, по масштабам от секунд до лет. Задание оценивает способность каждой модели выбрать правильный временной масштаб для временного разрыва.
В этих испытаниях MLLMs показали только удовлетворительную производительность на оценке временного интервала: GPT-4o достигла 70% точности, но другие модели показали значительно хуже результаты (см. таблицу выше), и производительность также варьировалась заметно по разным временным масштабам.
Авторы комментируют:
«Задача оценки временного интервала проверяет способность MLLMs выводить временные интервалы между парами изображений. [Все] MLLMs, включая лучшие исполнители, такие как GPT-4o и Gemini1.5-Pro, испытывают трудности с этой задачей, достигая только умеренных уровней точности 60-70%. GPT-4o показывает непоследовательную производительность, с сильной производительностью в секундах и годах, но недооценивает в часах.
«Аналогично, LLaVA-CoT демонстрирует исключительную производительность в временных интервалах секунд и дней, в то время как показывает заметно плохую производительность в других временных интервалах.
Исследование человека
В исследовании человека для TLE средняя человеческая производительность улучшилась по сравнению с GPT-4o (лучшей моделью также в этой категории) на 12,3%.
Авторы отмечают, что некоторые из испытаний были особенно сложными, и что в одном случае все участники человека, а также все участники ИИ, вернули неправильный ответ.
Авторы заключают, что GPT-4o демонстрирует «достаточно прочные возможности рассуждения, несмотря на порядок изображений, представленных ей».
Заключение
Если MLLMs в конечном итоге накопят и впитают достаточно «обходных» данных, чтобы покрыть даже самые сложные задачи, представленные авторами в этом исследовании, то вопрос о том, могут ли они быть признаны разработавшими возможности обобщения в стиле человека в этой области, может стать спорным.
Также неизвестно точно, каким путем мы получаем свои собственные способности к временному рассуждению – используем ли мы также «обман», пока огромное количество полученного опыта не открывает закономерность, которая работает как «инстинкт» в отношении этого типа испытаний?
* С точки зрения того, что модели все чаще оптимизируются с функциями потерь, которые получили вклад от обратной связи человека, и эффективно оптимизируются человеческими испытаниями и последующим триажем.
Опубликовано впервые в понедельник, 27 января 2025 года












