Sztuczna inteligencja
Nawet najnowocześniejsze modele językowe mają trudności z zrozumieniem logiki czasowej

Przewidywanie przyszłych stanów jest krytyczną misją w badaniach nad widzeniem komputerowym – nie tylko w robotyce, gdzie muszą być brane pod uwagę sytuacje rzeczywiste. Systemy machine learning, którym powierzono zadania krytyczne dla misji, wymagają odpowiedniej zrozumienia świata fizycznego.
Jednak w niektórych przypadkach pozornie imponująca wiedza o rzeczywistości czasowej może być myląca: nowy artykuł z Zjednoczonych Emiratów Arabskich wykazał, że najnowocześniejsze wielomodalne duże modele językowe (MLLM), w tym liderzy branży GPT-4o i Google Gemini, nie radzą sobie, gdy chodzi o interpretowanie tego, jak czas jest reprezentowany w obrazach.
Przykłady sekwencji par (patrz poniżej), które byłyby niezwykle łatwe dla ludzi, nawet gdy umieszczone w niewłaściwej kolejności, mogą być trudne dla zaawansowanych MLLM, gdy są przedstawiane w nieoczekiwanych kontekstach lub konfiguracjach (takich jak drugi obraz jako pierwszy, połączone w jeden obraz, sekwencje wielu obrazów, które mogą lub nie mogą reprezentować prawidłowej kolejności czasowej itd.).

Przykłady z jednego z zestawów danych skompilowanych dla nowego badania, które pokazują sekwencje zdarzeń w postaci ‘przed i po’ obrazów. Badacze udostępnili te dane pod adresem https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer
Badacze poprosili modele o wykonanie podstawowych zadań związanych z rozumowaniem czasowym, takich jak określenie kolejności zdarzeń lub oszacowanie luk czasowych, i stwierdzili, że siedem przetestowanych MLLM osiągnęło wyniki znacznie poniżej ludzkiej dokładności:
‘Ogólnie, wyniki ujawniają, że wszystkie obecne MLLM, w tym GPT-4o – najbardziej zaawansowany model w naszej ocenie – mają trudności z proponowanym benchmarkiem. Pomimo wyższej wydajności GPT-4o w porównaniu z innymi modelami, nie jest w stanie konsekwentnie wykazywać dokładnego rozumowania czasowego w różnych ustawieniach.
‘Wyniki są znacznie niskie dla wszystkich modeli, co wskazuje na znaczne ograniczenia w ich zdolności do zrozumienia i interpretacji sekwencji czasowych z danych wizualnych. Te niedociągnięcia są widoczne nawet wtedy, gdy modele są dostarczane z wieloobrazowymi danymi wejściowymi lub zoptymalizowanymi podpowiedziami, co sugeruje, że obecne architektury i metody szkoleniowe są niewystarczające do solidnego zrozumienia kolejności czasowej.’
Systemy machine learning są zaprojektowane tak, aby optymalizować najdokładniejsze, ale także najbardziej efektywne i przyjazne dla ludzi wyniki*. Ponieważ nie ujawniają swojego rozumowania w sposób jawny, może być trudno powiedzieć, kiedy oszukują lub używają ‘skrótów’.
W takim przypadku MLLM może dojść do poprawnej odpowiedzi przez niewłaściwą metodę. Fakt, że taka odpowiedź może być poprawna, może inspirująć fałszywą pewność w modelu, który może produkować niepoprawne wyniki tą samą metodą w późniejszych zadaniach przedstawionych mu.
Co gorsza, taki błąd może stać się jeszcze bardziej zakorzeniony w łańcuchu rozwoju, jeśli ludzie są imponowani tym i dają pozytywną informację zwrotną w testach i sesjach adnotacji, które mogą przyczynić się do kierunku, w jakim mogą się rozwijać dane i/lub model.
W tym przypadku sugeruje się, że MLLM ‘udaje’ prawdziwe zrozumienie chronologii i zjawisk czasowych, obserwując i kotwicząc w wtórnych wskaźnikach (takich jak znaczniki czasu, na przykład, w danych wideo, kolejność obrazów w układzie, lub nawet – potencjalnie – sekwencyjnie ponumerowane nazwy plików).
To również wskazuje, że MLLM obecnie nie spełniają żadnej prawdziwej definicji uogólnienia pojęcia zjawisk czasowych – przynajmniej w takim stopniu, w jakim ludzie są w stanie.
Nowy artykuł nosi tytuł Czy wielomodalne MLLM mogą wykonywać wizualne zrozumienie i rozumowanie czasowe? Odpowiedź to Nie!, i pochodzi od trzech badaczy z Mohamed bin Zayed University of Artificial Intelligence i Alibaba International Digital Commerce.
Dane i testy
Autorzy zauważają, że poprzednie benchmarki i badania, takie jak MMMU i TemporalBench, koncentrują się na danych wejściowych jednego obrazu lub sformułowują pytania dla MLLM, które mogą być zbyt łatwe do odpowiedzi i mogą nie ujawniać tendencji do zachowania skrótowego.
Dlatego autorzy proponują dwie zaktualizowane podejścia: Zrozumienie kolejności czasowej (TOU) i Estymacja czasowa (TLE). Podejście TOU testuje zdolność modeli do określenia prawidłowej sekwencji zdarzeń z par obrazów; metoda TLE ocenia zdolność MLLM do oszacowania różnicy czasowej między dwoma obrazami, od sekund do lat.

Z artykułu, dwa główne zadania benchmarku TemporalVQA: w Zrozumieniu kolejności czasowej model decyduje, który z dwóch obrazów pokazuje zdarzenie, które wystąpiło najpierw; w Estymacji czasowej model szacuje, ile czasu upłynęło między dwoma obrazami, wybierając spośród opcji, w tym sekund, minut, dni lub lat. Te zadania mają na celu przetestowanie, jak dobrze MLLM mogą rozumować o czasie i sekwencji zdarzeń wizualnych. Source: https://arxiv.org/pdf/2501.10674
Badacze skompilowali 360 par obrazów dla benchmarku TOU, używając otwartych źródeł wideo z Pixabay i Pexels, aby umożliwić udostępnienie zestawu danych za pomocą interfejsu GUI.
Wideo obejmowało szeroki zakres tematów, od ludzi w codziennych działaniach po treści nie-ludzkie, takie jak zwierzęta i rośliny. Z tych, pary klatek zostały wybrane, aby przedstawić sekwencję zdarzeń z wystarczającą zmiennością, aby uczynić klatkę początkową ‘oczywistą’.
Wybór ludzki został użyty, aby upewnić się, że klatki mogą być definitywnie uporządkowane. Na przykład, jedna z skompilowanych par pokazuje częściowo wypełnioną filiżankę herbaty w jednej klatce, a tę samą filiżankę całkowicie wypełnioną herbatą w następnej, co sprawia, że logika sekwencji jest łatwa do zidentyfikowania.

Logika czasowa tych dwóch obrazów nie może być uniknięta, ponieważ herbata nie może być ssana z powrotem przez dyszę.
W ten sposób uzyskano 360 par obrazów.
Dla podejścia TLE wybrano obrazy bez ograniczeń autorskich z Google i Flickr, a także wybrane klatki z wideo bez ograniczeń autorskich na YouTube. Tematyka tych wideo obejmowała sceny lub obiekty, których interwał zmiany wahał się od sekund do dni do sezonów – na przykład, dojrzewające owoce lub zmiana pór roku w krajobrazach.
Tak więc skompilowano 125 par obrazów dla metody TLE.
Nie wszystkie przetestowane MLLM były w stanie przetwarzać wiele obrazów; dlatego testy różniły się, aby dostosować się do możliwości każdego modelu.
Wydano wiele wersji skompilowanych zestawów danych, w których niektóre pary były łączone pionowo, a inne poziomo. Dalsze wariacje zamieniły prawidłową sekwencję czasową par.
Dwa typy podpowiedzi zostały opracowane. Pierwszy podążał za tym szablonem:
Czy zdarzenie na (lewy / górny / pierwszy) obrazie wystąpiło przed zdarzeniem na (prawy / dolny / drugi) obrazie? Stwierdź prawdę lub fałsz z powodami.
Drugi podążał za tym schematem:
Który z dwóch obrazów przedstawia zdarzenie, które wystąpiło najpierw? Stwierdź (lewy lub prawy / górny lub dolny / pierwszy lub drugi) z powodami.
Dla TLE pytania były wielokrotnego wyboru, prosząc modele o ocenę przerwy czasowej między dwoma przedstawionymi obrazami, z sekundami, godzinami, minutami, dniami, miesiącami i latami dostępnymi jako jednostki czasu. W tej konfiguracji najnowszy obraz był przedstawiony po prawej stronie.
Podpowiedź użyta tutaj była:
W danym obrazie oszacuj czas, jaki upłynął między pierwszym obrazem (lewy) a drugim obrazem (prawy).
Wybierz jedną z następujących opcji:
-
Mniej niż 15 sekund
B. Między 2 minutami a 15 minutami
C. Między 1 godziną a 12 godzinami
D. Między 2 dniami a 30 dniami
E. Między 4 miesiącami a 12 miesiącami
F. Więcej niż 3 lata
Przetestowane MLLM to ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; i LLaVA-CoT.
Zrozumienie kolejności czasowej: wyniki

Wyniki Zrozumienia kolejności czasowej w różnych modelach i układach wejściowych, pokazując dokładność i spójność dla różnych ustawień i podpowiedzi.
Co się tyczy wyników przedstawionych powyżej, autorzy stwierdzili, że wszystkie przetestowane MLLM, w tym GPT-4o (który wykazał najlepszą ogólną wydajność), miały znaczne trudności z benchmarkiem TemporalVQA – i nawet GPT-4o nie był w stanie konsekwentnie wykazywać niezawodnego rozumowania czasowego w różnych konfiguracjach.
Autorzy twierdzą, że stale niskie wyniki we wszystkich MLLM podkreślają znaczne niedociągnięcia w zdolności modeli do interpretowania i rozumienia sekwencji czasowych z danych wizualnych. Badacze zauważają, że te wyzwania utrzymują się nawet przy użyciu danych wejściowych wielu obrazów i zoptymalizowanych podpowiedzi, co wskazuje na podstawowe ograniczenia w obecnych architekturach modeli i metodach szkolenia.
Testy wykazały znaczne wahania w wydajności w różnych strategiach podpowiedzi. Podczas gdy GPT-4o poprawił się z zoptymalizowanymi podpowiedziami (osiągając 4% w ustawieniach jednego obrazu i 65,3% w ustawieniach wielu obrazów), wydajność pozostała poniżej akceptowalnych poziomów.
Modele takie jak LLaVA-NeXT i Qwen-VL były jeszcze bardziej wrażliwe, z wydajnością spadającą, gdy używano alternatywnych podpowiedzi, co sugeruje, że inżynieria podpowiedzi sama w sobie nie może pokonać podstawowych ograniczeń MLLM w odniesieniu do rozumowania czasowego.
Testy również wskazały, że układ obrazu (tj. pionowy vs. poziomy) znacznie wpłynął na wydajność modelu. GPT-4o poprawił swoją spójność z układami pionowymi, wzrastając z 39,2% do 52,8%; jednak inne modele, w tym odmiany LLaVA, wykazały silne skłonności kierunkowe, wyróżniając się w jednym układzie, ale zawodząc w innym.
Artykuł wskazuje, że te niekonsekwencje sugerują zależność od wskazówek przestrzennych, a nie prawdziwego rozumowania czasowego, z MLLM nie analizującymi naprawdę sekwencji zdarzeń ani nie rozumiejąc postępu w czasie. Zamiast tego wydają się polegać na wzorcach lub cechach wizualnych związanych z układem obrazu, takich jak ich położenie lub wyrównanie, aby podejmować decyzje.

Testy jakościowe podkreślają przewidywania GPT-4o, gdy jest konfrontowany z różnymi kolejnościami wejściowymi. W pierwszej kolejności pary obrazów są przedstawione w ich oryginalnej sekwencji, podczas gdy w drugiej kolejności sekwencja jest odwrócona. Poprawne klasyfikacje są oznaczone na zielono, czyste błędne klasyfikacje na czerwono, wyobrażone powody na pomarańczowo, a niewłaściwe lub ‘nieprawidłowe’ powody na brązowo, ujawniając niekonsekwencje modelu w różnych konfiguracjach wejściowych.
Porównanie testów między danymi wejściowymi jednego a wielu obrazów wykazało ograniczoną ogólną poprawę, z GPT-4o wykonującym nieco lepiej na danych wejściowych wielu obrazów, wzrastając z 31,0% do 43,6% (z P1) i 46,0% do 65,3% (z P2).
Inne modele, takie jak InternVL, wykazały stabilną, ale niską dokładność, podczas gdy Qwen-VL odnotował niewielkie zyski. Autorzy wnioskują, że te wyniki wskazują, że dodatkowy kontekst wizualny nie znacznie poprawia zdolności rozumowania czasowego, ponieważ modele mają trudności z efektywną integracją informacji czasowych.
Badanie ludzkie
W badaniu ludzkim przeprowadzono trzy ankiety, aby ocenić, jak ściśle najlepszy wielomodalny MLLM wykonywał się w porównaniu z ludzkimi oszacowaniami.
Ludzie osiągnęli 90,3% dokładności, przewyższając GPT-4o o 25%. Zestaw danych okazał się niezawodny, z minimalnymi błędami ludzkimi i spójnym porozumieniem co do poprawnych odpowiedzi.

Wyniki z badania ludzkiego dla pierwszej rundy testów.
Estymacja czasowa: wyniki

Wyniki dla TLE: estymacja czasowa ocenia dokładność modelu w identyfikowaniu interwałów między parami obrazów, w skalach od sekund do lat. Zadanie ocenia zdolność każdego modelu do wyboru prawidłowej skali czasowej dla przerwy czasowej.
W tych testach MLLM wykonały zadanie estymacji czasowej tylko w przyzwoitym stopniu: GPT-4o osiągnęło 70% dokładności, ale inne modele wykonały znacznie gorzej (patrz tabela powyżej), a wydajność również znacznie różniła się w różnych skalach czasowych.
Autorzy komentują:
‘Zadanie estymacji czasowej testuje zdolność MLLM do wnioskowania o interwałach czasowych między parami obrazów. [Wszystkie] MLLM, w tym najlepsi wykonawcy, tacy jak GPT-4o i Gemini1.5-Pro, mają trudności z tym zadaniem, osiągając tylko umiarkowane poziomy dokładności, od 60 do 70%. GPT-4o wykazuje niekonsekwentną wydajność, z silną wydajnością w sekundach i latach, ale słabą w godzinach.
Podobnie, LLaVA-CoT wykazuje wyjątkową wydajność w czasie trwania sekund i dni, ale wykazuje zauważalnie słabą wydajność w innych interwałach czasowych.’
Badanie ludzkie
W badaniu ludzkim dla TLE średnia wydajność ludzka poprawiła się w porównaniu z GPT-4o (najlepszym modelem również w tej kategorii) o 12,3%.
Autorzy zauważają, że niektóre z wyzwań były szczególnie wymagające, i że w jednym przypadku wszyscy uczestnicy ludzcy zwrócili błędną odpowiedź, wraz z wszystkimi uczestnikami AI.
Autorzy wnioskują, że GPT-4o wykazuje ‘rozważne zdolności rozumowania, niezależnie od kolejności obrazów przedstawionych mu.
Wnioski
Jeśli MLLM w końcu zgromadzą i wchłoną wystarczającą ilość ‘skrótów’, aby pokryć nawet najtrudniejsze wyzwania przedstawione przez autorów w tym badaniu, czy mogą być uważane za rozwinięte zdolności generalizacji w tym zakresie, stanie się kwestią sporną.
Nie jest również znane, jakim dokładnie sposobem uzyskujemy własne zdolności w rozumowaniu czasowym – czy również ‘oszukujemy’, aż masa doświadczeń ujawnia wzorzec, który działa jako ‘instynkt’ w odniesieniu do tego rodzaju testu?
* Z punktu widzenia, w którym modele są coraz bardziej optymalizowane z funkcjami strat, do których przyczyniła się informacja zwrotna ludzka, i efektywnie zoptymalizowane przez ludzkie testy i późniejsze triage.
Po raz pierwszy opublikowane w poniedziałek, 27 stycznia 2025












