Connect with us

Навіть найновіші моделі мови мають труднощі з розумінням тимчасової логіки

Штучний інтелект

Навіть найновіші моделі мови мають труднощі з розумінням тимчасової логіки

mm
Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

Прогнозування майбутніх станів є критичною місією в дослідженнях комп’ютерного зору – не в останню чергу в робототехніці, де повинні бути враховані реальні ситуації. Системи машинного навчання, яким доручено виконання завдань критичної важливості, тому потребують адекватного розуміння фізичного світу.

Однак у деяких випадках видається, що модель має вражаюче знання тимчасової реальності, але це може бути оманливим: нова робота вчених з ОАЕ виявила, що найновіші багатомодальні великомасштабні моделі мови (MLLMs), включаючи лідерів галузі GPT-4o та Google Gemini, не справляються з інтерпретацією того, як час представлений у зображеннях.

Приклади послідовних пар (див. зображення нижче), які були б нескладними для людей, навіть якщо їх поставити у неправильному порядку, можуть заплутати просунуті MLLM, якщо їх представити у несподіваних контекстах або конфігураціях (наприклад, друге зображення першим, об’єднані в одне зображення, послідовні多 зображення, які можуть або не можуть представляти правильний тимчасовий порядок тощо).

Зразки з одного з наборів даних, складених для нового дослідження, які показують послідовні події. Дослідники зробили ці дані доступними за адресою https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Зразки з одного з наборів даних, складених для нового дослідження, які показують послідовні події у вигляді ‘до та після’ зображень. Дослідники зробили ці дані доступними за адресою https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Дослідники доручили моделям виконання базових тимчасових завдань з розуміння, таких як визначення порядку подій або оцінка тимчасових проміжків, і виявили, що сім протестованих MLLM виконували значно нижче людської точності:

‘Загалом, результати показують, що всі сучасні MLLM, включаючи GPT-4o – найпросунутішу модель у нашій оцінці – мають труднощі з запропонованим бенчмарком. Незважаючи на вищу продуктивність GPT-4o порівняно з іншими моделями, вона не може постійно демонструвати точне тимчасове розуміння у різних умовах.

‘Постійні показники точності є суттєво низькими для всіх моделей, вказуючи на суттєві обмеження їхньої здатності розуміти та інтерпретувати тимчасові послідовності з візуальних даних. Ці недоліки очевидні навіть тоді, коли моделям надаються багатозображенні входи або оптимізовані підказки, що свідчить про те, що сучасні архітектури та методи навчання є недостатніми для надійного розуміння тимчасового порядку.’

Системи машинного навчання розроблені для оптимізації найбільш точних, але також найбільш ефективних і прийнятних результатів*. Оскільки вони не розкривають свою логіку явно, може бути складно визначити, коли вони обманюють або використовують «швидкі шляхи».

У такому випадку MLLM може прийти до правильної відповіді неправильним методом. Те, що така відповідь може бути правильною, може надихнути помилкову впевненість у моделі, яка може виробляти неправильні результати тим самим методом у пізніших завданнях, представлених їй.

Гірше того, така неправильна інформація може стати ще глибше вкоріненою в ланцюзі розробки, якщо люди вражені нею та дають позитивний відгук у випробуваннях та сесіях анотації, які можуть сприяти напрямку, яким можуть рухатися дані та/або модель.

У цьому випадку припускається, що MLLM «імітує» справжнє розуміння хронології та тимчасових явищ, спостерігаючи та закріплюючи вторинні індикатори (наприклад, часові мітки у відеоданих, порядок зображень у макеті або навіть – потенційно – послідовні номери файлів).

Це далі свідчить про те, що MLLM зараз не задовольняють жодному справжньому визначенню узагальнення концепції тимчасових явищ –至少 не в такій мірі, як це можуть люди.

Нова робота називається Чи можуть багатомодальні MLLM виконувати візуальне тимчасове розуміння та логіку? Відповідь – Ні!, і походять від трьох дослідників університету Мохамеда бін Заєда штучного інтелекту та Alibaba International Digital Commerce.

Дані та тести

Автори відзначають, що попередні бенчмарки та дослідження, такі як MMMU та TemporalBench, зосереджуються на одиночних зображеннях або формулюють питання для MLLM, які можуть бути досить легкими для відповіді, і можуть не розкривати тенденцію до поведінки «швидкого шляху».

Отже автори пропонують два оновлені підходи: Розуміння тимчасового порядку (TOU) та Оцінка тимчасового проміжку (TLE). Підхід TOU перевіряє здатність моделей визначати правильну послідовність подій з пар відеокадрів; метод TLE оцінює здатність MLLM оцінювати тимчасовий проміжок між двома зображеннями, який варіюється від секунд до років.

З роботи, два основних завдання бенчмарку TemporalVQA: у розумінні тимчасового порядку модель визначає, яке з двох зображень показує подію, яка відбулася першою; у оцінці тимчасового проміжку модель оцінює, скільки часу минуло між двома зображеннями, вибравши з варіантів, включаючи секунди, хвилини, дні чи роки. Ці завдання спрямовані на перевірку здатності MLLM розуміти тимчасовий порядок та послідовність візуальних подій. Джерело: https://arxiv.org/pdf/2501.10674

З роботи, два основних завдання бенчмарку TemporalVQA: у розумінні тимчасового порядку модель визначає, яке з двох зображень показує подію, яка відбулася першою; у оцінці тимчасового проміжку модель оцінює, скільки часу минуло між двома зображеннями, вибравши з варіантів, включаючи секунди, хвилини, дні чи роки. Ці завдання спрямовані на перевірку здатності MLLM розуміти тимчасовий порядок та послідовність візуальних подій. Джерело: https://arxiv.org/pdf/2501.10674

Дослідники підготували 360 пар зображень для бенчмарку TOU, використовуючи відкриті відео з Pixabay та Pexels, щоб зробити набір даних доступним через графічний інтерфейс.

Відео охоплювали широкий спектр предметів, від людей у повсякденних заняттях до нелюдських об’єктів, таких як тварини та рослини. З них були вибрані пари кадрів, які зображували послідовність подій з достатньою варіативністю, щоб зробити початковий кадр «очевидним».

Людське відбору було використано для забезпечення того, щоб кадри могли бути чітко впорядковані. Наприклад, одна з вибраних пар показує частково наповнений чайний келих у одному кадрі, а той самий келих повністю наповнений чаєм у наступному, роблячи логіку послідовності легко ідентифікованою.

Тимчасова логіка цих двох зображень не може бути уникнена, оскільки чай не може бути всмоктаний назад через насадку.

Тимчасова логіка цих двох зображень не може бути уникнена, оскільки чай не може бути всмоктаний назад через насадку.

Цим чином було отримано 360 пар зображень.

Для підходу TLE були вибрані зображення без авторських прав з Google та Flickr, а також вибрані кадри з відео без авторських прав на YouTube. Предметом цих відео були сцени чи об’єкти, чиї інтервали зміни варіювалися від секунд до днів до сезонів – наприклад, дозрівання фруктів чи зміна сезонів у ландшафтах.

Таким чином було підготовано 125 пар зображень для методу TLE.

Не всі протестовані MLLM могли обробляти кілька зображень; тому тести відрізнялися для кожної моделі.

Було сгенеровано кілька версій підготовлених наборів даних, у яких деякі пари були об’єднані вертикально, а інші – горизонтально. Додаткові варіації міняли справжню та правильну тимчасову послідовність пар.

Було розроблено два типи підказок. Перший слідував цьому шаблону:

Чи відбулася подія на (лівому / верхньому / першому) зображенні до події на (правому / нижньому / другому) зображенні? Відповісті true або false з логікою.

Другий слідував цьому схемі:

Яке з цих двох зображень показує подію, яка відбулася першою? Відповісті (ліве або праве / верхнє або нижнє / перше або друге) з логікою.

Для TLE питання були вибірними, запитуючи моделі оцінити тимчасовий проміжок між двома представленими зображеннями, з секундами, годинами, хвилинами, днями, місяцями та роками як варіантами тимчасових одиниць. У цій конфігурації найновіше зображення було представлено справа.

Підказка, використана тут, була:

У даному зображенні оцініть час, який минув між першим зображенням (лівим) та другим зображенням (правим).

Виберіть одну з наступних варіантів:

    1. Менше 15 секунд
      B. Між 2 хвилинами та 15 хвилинами
      C. Між 1 годinou та 12 годинами
      D. Між 2 днями та 30 днями
      E. Між 4 місяцями та 12 місяцями
      F. Більше 3 років

Моделі MLLM, які були протестовані, були ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; і LLaVA-CoT.

Розуміння тимчасового порядку: результати

Результати розуміння тимчасового порядку для різних моделей та макетів входу, показуючи точність та послідовність для різних налаштувань та підказок.

Результати розуміння тимчасового порядку для різних моделей та макетів входу, показуючи точність та послідовність для різних налаштувань та підказок.

Відносно результатів, показаних вище, автори виявили, що всі протестовані MLLM, включаючи GPT-4o (яка показала найкращу загальну продуктивність), суттєво мали труднощі з бенчмарком TemporalVQA – і навіть GPT-4o не змогла постійно демонструвати надійне тимчасове розуміння у різних конфігураціях.

Автори стверджують, що постійно низькі показники точності серед LLM свідчать про суттєві недоліки у здатності моделей інтерпретувати та розуміти тимчасові послідовності з візуальних даних. Дослідники відзначають, що ці труднощі зберігаються навіть при використанні багатозображених входів та оптимізованих підказок, вказуючи на фундаментальні обмеження у сучасних архітектурах моделей та методах навчання.

Тести показали суттєві варіації продуктивності серед стратегій підказок. Хоча GPT-4o покращила свою продуктивність з оптимізованими підказками (досягаючи 4% у одиночному зображенні та 65,3% у багатозображенні), продуктивність залишилася нижче прийнятних рівнів.

Моделі, такі як LLaVA-NeXT та Qwen-VL, були ще більш чутливими, з продуктивністю, яка знижувалася, коли використовувалися альтернативні підказки, що свідчить про те, що інженерія підказок сама по собі не може подолати фундаментальні обмеження MLLM щодо тимчасового розуміння.

Тести також показали, що макет зображення (тобто вертикальний проти горизонтального) суттєво впливає на продуктивність моделі. GPT-4o покращила свою послідовність з вертикальними композиціями, зростаючи з 39,2% до 52,8%; однак інші моделі, включаючи ряд LLaVA, показали сильні напрямні упередження, успішно виконуючи одну орієнтацію, але провалюючись в іншій.

Папера вказує на те, що ці несумісності свідчать про залежність від просторових сигналів, а не справжнє тимчасове розуміння, оскільки MLLM не аналізують справжню послідовність подій чи розуміють розвиток у часі. Натомість вони, здається, покладаються на закономірності чи візуальні ознаки, пов’язані з макетом зображень, такі як їхнє положення чи вирівнювання, для прийняття рішень.

Кваліфікаційні тести підкреслюють передбачення GPT-4o при зустрічі з різними порядками входу. У першому порядку пари зображень представлені у своєму оригінальному порядку, тоді як у другому порядку послідовність зворотна. Правильні класифікації позначені зеленим, чисті неправильні класифікації - червоним, галюцинована логіка - оранжевим, а нелогічна чи «недійсна» логіка - коричневим, показуючи несумісності моделі у різних конфігураціях входу.

Кваліфікаційні тести підкреслюють передбачення GPT-4o при зустрічі з різними порядками входу. У першому порядку пари зображень представлені у своєму оригінальному порядку, тоді як у другому порядку послідовність зворотна. Правильні класифікації позначені зеленим, чисті неправильні класифікації – червоним, галюцинована логіка – оранжевим, а нелогічна чи «недійсна» логіка – коричневим, показуючи несумісності моделі у різних конфігураціях входу.

Порівняльні тести між одиночними та багатозображними входами показали обмежене загальне покращення, з GPT-4o, яка показала трохи кращу продуктивність на багатозображеному вході, зростаючи з 31,0% до 43,6% (з P1) та 46,0% до 65,3% (з P2).

Інші моделі, такі як InternVL, показали стабільну, але низьку точність, тоді як Qwen-VL спостерігала незначні здобутки. Автори висновують, що ці результати свідчать про те, що додатковий візуальний контекст не суттєво покращує тимчасове розуміння, оскільки моделі мають труднощі з ефективною інтеграцією тимчасової інформації.

Людське дослідження

У людському дослідженні три опитування були проведені для оцінки того, наскільки добре найкраща багатомодальна MLLM виконує порівняно з людською оцінкою.

Люди досягли 90,3% точності, перевершуючи 65,3% GPT-4o на 25%. Набір даних виявився надійним, з мінімальними людськими помилками та послідовною згодою щодо правильних відповідей.

Результати людського дослідження для першого раунду тестів.

Результати людського дослідження для першого раунду тестів.

Оцінка тимчасового проміжку: результати

Результати для TLE: оцінка тимчасового проміжку оцінює точність моделі у визначенні інтервалів між парами зображень, у масштабах від секунд до років. Завдання оцінює здатність кожної моделі вибрати правильний тимчасовий масштаб для тимчасового проміжку.

Результати для TLE: оцінка тимчасового проміжку оцінює точність моделі у визначенні інтервалів між парами зображень, у масштабах від секунд до років. Завдання оцінює здатність кожної моделі вибрати правильний тимчасовий масштаб для тимчасового проміжку.

У цих тестах MLLM показали лише достатню продуктивність на оцінці тимчасового проміжку: GPT-4o досягла 70% точності, але інші моделі показали суттєво гіршу продуктивність (див. таблицю вище), а продуктивність також варіювалася суттєво серед різних тимчасових масштабів.

Автори коментують:

‘Завдання оцінки тимчасового проміжку перевіряє здатність MLLM витягувати тимчасові інтервали між парами зображень. [Усі] MLLM, включаючи топ-виконавців, таких як GPT-4o та Gemini1.5-Pro, мають труднощі з цим завданням, досягнувши лише помірних рівнів точності 60-70%. GPT-4o показує несумісну продуктивність, з сильною продуктивністю у секундах та роках, але підперіжуючи в годинах.

Аналогічно, LLaVA-CoT демонструє виняткову продуктивність у часових масштабах секунд та днів, тоді як показує суттєво низьку продуктивність у інших тимчасових інтервалах.’

Людське дослідження

У людському дослідженні для TLE середня людська продуктивність покращила порівняно з GPT-4o (найкращою моделлю також у цій категорії) на 12,3%.

Автори відзначають, що деякі з завдань були особливо складними, і що в одному випадку всі людські учасники повернули неправильну відповідь, разом з усіма учасниками штучного інтелекту.

Автори висновують, що GPT-4o демонструє «розумну надійність у розумінні, незважаючи на порядок представлених зображень».

Висновок

Якщо MLLM в кінцевому підсумку накопичать достатньо «швидких шляхів», щоб покрити навіть найскладніші завдання типу тих, які представлені авторами в цьому дослідженні, питання про те, чи розвинули вони людські можливості з тимчасового розуміння, може стати безпідставним.

Також невідомо, яким шляхом ми здобуємо власні можливості у тимчасовому розумінні – чи ми також «обманюємо», поки величезна кількість здобутого досвіду не розкриє закономірність, яка діє як «інстинкт» щодо цього типу тесту?

 

* З точки зору того, що моделі все частіше оптимізуються з функціями втрат, до яких внесли свій внесок людські відгуки, і ефективно оптимізуються людськими випробуваннями та подальшим тріажем.

Перша публікація понеділка, 27 січня 2025

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]