Sztuczna inteligencja

Nawet najnowocześniejsze modele językowe mają trudności z zrozumieniem logiki czasowej

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

Przewidywanie przyszłych stanów jest krytyczną misją w badaniach nad widzeniem komputerowym – nie tylko w robotyce, gdzie muszą być brane pod uwagę sytuacje rzeczywiste. Systemy machine learning, którym powierzono zadania krytyczne dla misji, wymagają odpowiedniej zrozumienia świata fizycznego.

Jednak w niektórych przypadkach pozornie imponująca wiedza o rzeczywistości czasowej może być myląca: nowy artykuł z Zjednoczonych Emiratów Arabskich wykazał, że najnowocześniejsze wielomodalne duże modele językowe (MLLM), w tym liderzy branży GPT-4o i Google Gemini, nie radzą sobie, gdy chodzi o interpretowanie tego, jak czas jest reprezentowany w obrazach.

Przykłady sekwencji par (patrz poniżej), które byłyby niezwykle łatwe dla ludzi, nawet gdy umieszczone w niewłaściwej kolejności, mogą być trudne dla zaawansowanych MLLM, gdy są przedstawiane w nieoczekiwanych kontekstach lub konfiguracjach (takich jak drugi obraz jako pierwszy, połączone w jeden obraz, sekwencje wielu obrazów, które mogą lub nie mogą reprezentować prawidłowej kolejności czasowej itd.).

Przykłady z jednego z zestawów danych skompilowanych dla nowego badania, które pokazują sekwencje zdarzeń. Badacze udostępnili te dane pod adresem https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Przykłady z jednego z zestawów danych skompilowanych dla nowego badania, które pokazują sekwencje zdarzeń w postaci ‘przed i po’ obrazów. Badacze udostępnili te dane pod adresem https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Badacze poprosili modele o wykonanie podstawowych zadań związanych z rozumowaniem czasowym, takich jak określenie kolejności zdarzeń lub oszacowanie luk czasowych, i stwierdzili, że siedem przetestowanych MLLM osiągnęło wyniki znacznie poniżej ludzkiej dokładności:

‘Ogólnie, wyniki ujawniają, że wszystkie obecne MLLM, w tym GPT-4o – najbardziej zaawansowany model w naszej ocenie – mają trudności z proponowanym benchmarkiem. Pomimo wyższej wydajności GPT-4o w porównaniu z innymi modelami, nie jest w stanie konsekwentnie wykazywać dokładnego rozumowania czasowego w różnych ustawieniach.

‘Wyniki są znacznie niskie dla wszystkich modeli, co wskazuje na znaczne ograniczenia w ich zdolności do zrozumienia i interpretacji sekwencji czasowych z danych wizualnych. Te niedociągnięcia są widoczne nawet wtedy, gdy modele są dostarczane z wieloobrazowymi danymi wejściowymi lub zoptymalizowanymi podpowiedziami, co sugeruje, że obecne architektury i metody szkoleniowe są niewystarczające do solidnego zrozumienia kolejności czasowej.’

Systemy machine learning są zaprojektowane tak, aby optymalizować najdokładniejsze, ale także najbardziej efektywne i przyjazne dla ludzi wyniki*. Ponieważ nie ujawniają swojego rozumowania w sposób jawny, może być trudno powiedzieć, kiedy oszukują lub używają ‘skrótów’.

W takim przypadku MLLM może dojść do poprawnej odpowiedzi przez niewłaściwą metodę. Fakt, że taka odpowiedź może być poprawna, może inspirująć fałszywą pewność w modelu, który może produkować niepoprawne wyniki tą samą metodą w późniejszych zadaniach przedstawionych mu.

Co gorsza, taki błąd może stać się jeszcze bardziej zakorzeniony w łańcuchu rozwoju, jeśli ludzie są imponowani tym i dają pozytywną informację zwrotną w testach i sesjach adnotacji, które mogą przyczynić się do kierunku, w jakim mogą się rozwijać dane i/lub model.

W tym przypadku sugeruje się, że MLLM ‘udaje’ prawdziwe zrozumienie chronologii i zjawisk czasowych, obserwując i kotwicząc w wtórnych wskaźnikach (takich jak znaczniki czasu, na przykład, w danych wideo, kolejność obrazów w układzie, lub nawet – potencjalnie – sekwencyjnie ponumerowane nazwy plików).

To również wskazuje, że MLLM obecnie nie spełniają żadnej prawdziwej definicji uogólnienia pojęcia zjawisk czasowych – przynajmniej w takim stopniu, w jakim ludzie są w stanie.

Nowy artykuł nosi tytuł Czy wielomodalne MLLM mogą wykonywać wizualne zrozumienie i rozumowanie czasowe? Odpowiedź to Nie!, i pochodzi od trzech badaczy z Mohamed bin Zayed University of Artificial Intelligence i Alibaba International Digital Commerce.

Dane i testy

Autorzy zauważają, że poprzednie benchmarki i badania, takie jak MMMU i TemporalBench, koncentrują się na danych wejściowych jednego obrazu lub sformułowują pytania dla MLLM, które mogą być zbyt łatwe do odpowiedzi i mogą nie ujawniać tendencji do zachowania skrótowego.

Dlatego autorzy proponują dwie zaktualizowane podejścia: Zrozumienie kolejności czasowej (TOU) i Estymacja czasowa (TLE). Podejście TOU testuje zdolność modeli do określenia prawidłowej sekwencji zdarzeń z par obrazów; metoda TLE ocenia zdolność MLLM do oszacowania różnicy czasowej między dwoma obrazami, od sekund do lat.

Z artykułu, dwa główne zadania benchmarku TemporalVQA: w Zrozumieniu kolejności czasowej model decyduje, który z dwóch obrazów pokazuje zdarzenie, które wystąpiło najpierw; w Estymacji czasowej model szacuje, ile czasu upłynęło między dwoma obrazami, wybierając spośród opcji, w tym sekund, minut, dni lub lat. Te zadania mają na celu przetestowanie, jak dobrze MLLM mogą rozumować o czasie i sekwencji zdarzeń wizualnych. Source: https://arxiv.org/pdf/2501.10674

Badacze skompilowali 360 par obrazów dla benchmarku TOU, używając otwartych źródeł wideo z Pixabay i Pexels, aby umożliwić udostępnienie zestawu danych za pomocą interfejsu GUI.

Wideo obejmowało szeroki zakres tematów, od ludzi w codziennych działaniach po treści nie-ludzkie, takie jak zwierzęta i rośliny. Z tych, pary klatek zostały wybrane, aby przedstawić sekwencję zdarzeń z wystarczającą zmiennością, aby uczynić klatkę początkową ‘oczywistą’.

Wybór ludzki został użyty, aby upewnić się, że klatki mogą być definitywnie uporządkowane. Na przykład, jedna z skompilowanych par pokazuje częściowo wypełnioną filiżankę herbaty w jednej klatce, a tę samą filiżankę całkowicie wypełnioną herbatą w następnej, co sprawia, że logika sekwencji jest łatwa do zidentyfikowania.

Logika czasowa tych dwóch obrazów nie może być uniknięta, ponieważ herbata nie może być ssana z powrotem przez dyszę.

W ten sposób uzyskano 360 par obrazów.

Dla podejścia TLE wybrano obrazy bez ograniczeń autorskich z Google i Flickr, a także wybrane klatki z wideo bez ograniczeń autorskich na YouTube. Tematyka tych wideo obejmowała sceny lub obiekty, których interwał zmiany wahał się od sekund do dni do sezonów – na przykład, dojrzewające owoce lub zmiana pór roku w krajobrazach.

Tak więc skompilowano 125 par obrazów dla metody TLE.

Nie wszystkie przetestowane MLLM były w stanie przetwarzać wiele obrazów; dlatego testy różniły się, aby dostosować się do możliwości każdego modelu.

Wydano wiele wersji skompilowanych zestawów danych, w których niektóre pary były łączone pionowo, a inne poziomo. Dalsze wariacje zamieniły prawidłową sekwencję czasową par.

Dwa typy podpowiedzi zostały opracowane. Pierwszy podążał za tym szablonem:

Czy zdarzenie na (lewy / górny / pierwszy) obrazie wystąpiło przed zdarzeniem na (prawy / dolny / drugi) obrazie? Stwierdź prawdę lub fałsz z powodami.

Drugi podążał za tym schematem:

Który z dwóch obrazów przedstawia zdarzenie, które wystąpiło najpierw? Stwierdź (lewy lub prawy / górny lub dolny / pierwszy lub drugi) z powodami.

Dla TLE pytania były wielokrotnego wyboru, prosząc modele o ocenę przerwy czasowej między dwoma przedstawionymi obrazami, z sekundami, godzinami, minutami, dniami, miesiącami i latami dostępnymi jako jednostki czasu. W tej konfiguracji najnowszy obraz był przedstawiony po prawej stronie.

Podpowiedź użyta tutaj była:

W danym obrazie oszacuj czas, jaki upłynął między pierwszym obrazem (lewy) a drugim obrazem (prawy).

Wybierz jedną z następujących opcji:

1. Mniej niż 15 sekund B. Między 2 minutami a 15 minutami C. Między 1 godziną a 12 godzinami D. Między 2 dniami a 30 dniami E. Między 4 miesiącami a 12 miesiącami F. Więcej niż 3 lata

Przetestowane MLLM to ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; i LLaVA-CoT.

Zrozumienie kolejności czasowej: wyniki

Wyniki Zrozumienia kolejności czasowej w różnych modelach i układach wejściowych, pokazując dokładność i spójność dla różnych ustawień i podpowiedzi.

Co się tyczy wyników przedstawionych powyżej, autorzy stwierdzili, że wszystkie przetestowane MLLM, w tym GPT-4o (który wykazał najlepszą ogólną wydajność), miały znaczne trudności z benchmarkiem TemporalVQA – i nawet GPT-4o nie był w stanie konsekwentnie wykazywać niezawodnego rozumowania czasowego w różnych konfiguracjach.

Autorzy twierdzą, że stale niskie wyniki we wszystkich MLLM podkreślają znaczne niedociągnięcia w zdolności modeli do interpretowania i rozumienia sekwencji czasowych z danych wizualnych. Badacze zauważają, że te wyzwania utrzymują się nawet przy użyciu danych wejściowych wielu obrazów i zoptymalizowanych podpowiedzi, co wskazuje na podstawowe ograniczenia w obecnych architekturach modeli i metodach szkolenia.

Testy wykazały znaczne wahania w wydajności w różnych strategiach podpowiedzi. Podczas gdy GPT-4o poprawił się z zoptymalizowanymi podpowiedziami (osiągając 4% w ustawieniach jednego obrazu i 65,3% w ustawieniach wielu obrazów), wydajność pozostała poniżej akceptowalnych poziomów.

Modele takie jak LLaVA-NeXT i Qwen-VL były jeszcze bardziej wrażliwe, z wydajnością spadającą, gdy używano alternatywnych podpowiedzi, co sugeruje, że inżynieria podpowiedzi sama w sobie nie może pokonać podstawowych ograniczeń MLLM w odniesieniu do rozumowania czasowego.

Testy również wskazały, że układ obrazu (tj. pionowy vs. poziomy) znacznie wpłynął na wydajność modelu. GPT-4o poprawił swoją spójność z układami pionowymi, wzrastając z 39,2% do 52,8%; jednak inne modele, w tym odmiany LLaVA, wykazały silne skłonności kierunkowe, wyróżniając się w jednym układzie, ale zawodząc w innym.

Artykuł wskazuje, że te niekonsekwencje sugerują zależność od wskazówek przestrzennych, a nie prawdziwego rozumowania czasowego, z MLLM nie analizującymi naprawdę sekwencji zdarzeń ani nie rozumiejąc postępu w czasie. Zamiast tego wydają się polegać na wzorcach lub cechach wizualnych związanych z układem obrazu, takich jak ich położenie lub wyrównanie, aby podejmować decyzje.

Testy jakościowe podkreślają przewidywania GPT-4o, gdy jest konfrontowany z różnymi kolejnościami wejściowymi. W pierwszej kolejności pary obrazów są przedstawione w ich oryginalnej sekwencji, podczas gdy w drugiej kolejności sekwencja jest odwrócona. Poprawne klasyfikacje są oznaczone na zielono, czyste błędne klasyfikacje na czerwono, wyobrażone powody na pomarańczowo, a niewłaściwe lub ‘nieprawidłowe’ powody na brązowo, ujawniając niekonsekwencje modelu w różnych konfiguracjach wejściowych.

Porównanie testów między danymi wejściowymi jednego a wielu obrazów wykazało ograniczoną ogólną poprawę, z GPT-4o wykonującym nieco lepiej na danych wejściowych wielu obrazów, wzrastając z 31,0% do 43,6% (z P1) i 46,0% do 65,3% (z P2).

Inne modele, takie jak InternVL, wykazały stabilną, ale niską dokładność, podczas gdy Qwen-VL odnotował niewielkie zyski. Autorzy wnioskują, że te wyniki wskazują, że dodatkowy kontekst wizualny nie znacznie poprawia zdolności rozumowania czasowego, ponieważ modele mają trudności z efektywną integracją informacji czasowych.

Badanie ludzkie

W badaniu ludzkim przeprowadzono trzy ankiety, aby ocenić, jak ściśle najlepszy wielomodalny MLLM wykonywał się w porównaniu z ludzkimi oszacowaniami.

Ludzie osiągnęli 90,3% dokładności, przewyższając GPT-4o o 25%. Zestaw danych okazał się niezawodny, z minimalnymi błędami ludzkimi i spójnym porozumieniem co do poprawnych odpowiedzi.

Wyniki z badania ludzkiego dla pierwszej rundy testów.

Estymacja czasowa: wyniki

Wyniki dla TLE: estymacja czasowa ocenia dokładność modelu w identyfikowaniu interwałów między parami obrazów, w skalach od sekund do lat. Zadanie ocenia zdolność każdego modelu do wyboru prawidłowej skali czasowej dla przerwy czasowej.

W tych testach MLLM wykonały zadanie estymacji czasowej tylko w przyzwoitym stopniu: GPT-4o osiągnęło 70% dokładności, ale inne modele wykonały znacznie gorzej (patrz tabela powyżej), a wydajność również znacznie różniła się w różnych skalach czasowych.

Autorzy komentują:

‘Zadanie estymacji czasowej testuje zdolność MLLM do wnioskowania o interwałach czasowych między parami obrazów. [Wszystkie] MLLM, w tym najlepsi wykonawcy, tacy jak GPT-4o i Gemini1.5-Pro, mają trudności z tym zadaniem, osiągając tylko umiarkowane poziomy dokładności, od 60 do 70%. GPT-4o wykazuje niekonsekwentną wydajność, z silną wydajnością w sekundach i latach, ale słabą w godzinach.

Podobnie, LLaVA-CoT wykazuje wyjątkową wydajność w czasie trwania sekund i dni, ale wykazuje zauważalnie słabą wydajność w innych interwałach czasowych.’

Badanie ludzkie

W badaniu ludzkim dla TLE średnia wydajność ludzka poprawiła się w porównaniu z GPT-4o (najlepszym modelem również w tej kategorii) o 12,3%.

Autorzy zauważają, że niektóre z wyzwań były szczególnie wymagające, i że w jednym przypadku wszyscy uczestnicy ludzcy zwrócili błędną odpowiedź, wraz z wszystkimi uczestnikami AI.

Autorzy wnioskują, że GPT-4o wykazuje ‘rozważne zdolności rozumowania, niezależnie od kolejności obrazów przedstawionych mu.

Wnioski

Jeśli MLLM w końcu zgromadzą i wchłoną wystarczającą ilość ‘skrótów’, aby pokryć nawet najtrudniejsze wyzwania przedstawione przez autorów w tym badaniu, czy mogą być uważane za rozwinięte zdolności generalizacji w tym zakresie, stanie się kwestią sporną.

Nie jest również znane, jakim dokładnie sposobem uzyskujemy własne zdolności w rozumowaniu czasowym – czy również ‘oszukujemy’, aż masa doświadczeń ujawnia wzorzec, który działa jako ‘instynkt’ w odniesieniu do tego rodzaju testu?

* Z punktu widzenia, w którym modele są coraz bardziej optymalizowane z funkcjami strat, do których przyczyniła się informacja zwrotna ludzka, i efektywnie zoptymalizowane przez ludzkie testy i późniejsze triage.

Po raz pierwszy opublikowane w poniedziałek, 27 stycznia 2025