Umělá inteligence
I když i ty nejmodernější jazykové modely mají problémy s pochopením temporální logiky

Předpovídání budoucích stavů je kritickou misí ve výzkumu počítačového vidění – zejména v robotice, kde je třeba brát v úvahu reálné situace. Systémy strojového učení, kterým jsou svěřeny úkoly kritické pro misi, proto potřebují dostatečné porozumění fyzickému světu.
Nicméně, v některých případech může zdánlivě působivá znalost temporální reality být klamná: nová studie z Spojených arabských emirátů zjistila, že i ty nejmodernější multimodální velké jazykové modely (MLLMs), včetně lídrů v tomto odvětví GPT-4o a Google Gemini, selhávají, když jde o interpretaci, jak je čas reprezentován v obrazech.
Příklad sekvenčních párů (viz obrázek níže), který by pro lidi nebyl výzvou ani když jsou seřazeny v opačném pořadí, může zmást pokročilé MLLMs, když jsou prezentovány v neočekávaných kontextech nebo konfiguracích (jako například druhý obrázek první, sloučené do jediného obrázku, sekvenční multiple obrázky, které mohou nebo nemusí reprezentovat správné temporální pořadí a podobně.).

Ukázky z jednoho z datasetů, které byly zkompilovány pro novou studii, ukazující sekvenční události v podobě ‘před a po’ obrazech. Výzkumníci zpřístupnili tato data na adrese https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer
Výzkumníci zadali modelům základní temporální úkoly, jako je určení pořadí událostí nebo odhad časových mezer, a zjistili, že sedm testovaných MLLMs dosáhlo výrazně nižší přesnosti než lidé:
‘Celkově výsledky ukazují, že všechny současné MLLMs, včetně GPT-4o – nejmodernějšího modelu v naší evaluaci – mají problémy s navrhovaným benchmarkem. Přes superioritní výkon GPT-4o v porovnání s ostatními modely, selhává při konzistentním prokázání přesného temporálního uvažování napříč různými nastaveními.
‘Konzistentní přesnost skóre je pozoruhodně nízká pro všechny modely, ukazující významné nedostatky ve jejich schopnosti pochopit a interpretovat temporální sekvence z vizuálních vstupů. Tyto nedostatky jsou zjevné i když jsou modelům poskytnuty multi-obrázkové vstupy nebo optimalizované výzvy, naznačující, že současné architektury a tréninkové metody jsou nedostatečné pro robustní porozumění temporálnímu pořadí.’
Systémy strojového učení jsou navrženy tak, aby optimalizovaly nejpreciznější, ale také nejefektivnější a lidem příjemné výsledky*. Protože nevyjevují své uvažování explicitně, může být obtížné určit, kdy podvádějí nebo používají ‘zkratky’.
V takovém případě může MLLM dospět k správné odpovědi špatnou metodou. Skutečnost, že taková odpověď může být správná, může inspirovat falešnou důvěru v model, který by mohl produkovat nesprávné výsledky stejnou metodou v pozdějších úkolech, které mu budou předloženy.
Horší je, že tato dezorientace se může stát ještě více zakořeněnou v řetězci vývoje, pokud lidé jsou ohromeni jím a poskytují pozitivní zpětnou vazbu v testech a anotačních relacích, které mohou přispět k směru, kterým se data a/nebo model mohou vyvíjet.
V tomto případě je navržen návrh, že MLLMs ‘předstírají’ skutečné porozumění chronologii a temporálním jevům, pozorováním a ukotvením sekundárních indikátorů (jako například časových razítek, v případě video dat, pořadí obrázků v rozložení, nebo dokonce – potenciálně – sekvenčně-číslovaných názvů souborů).
To dále naznačuje, že MLLMs目前 nesplňují žádnou skutečnou definici zobecnění konceptu temporálních jevů – alespoň do té míry, do které jsou lidé schopni.
Nová studie se jmenuje Mohou Multimodální MLLMs dělat vizuální temporální porozumění a uvažování? Odpověď je Ne! a pochází od tří výzkumníků z Mohamed bin Zayed University of Artificial Intelligence a Alibaba International Digital Commerce.
Data a testy
Autoři studie uvádějí, že předchozí benchmarky a studie, jako například MMMU a TemporalBench, se soustředí na jediné obrázky nebo formuluje otázky pro MLLMs, které mohou být příliš snadné na odpověď, a nemusí odhalit tendenci k zkratkovému chování.
Proto autoři nabízejí dvě aktualizované přístupy: Temporální pořadí porozumění (TOU) a Časové odhadování (TLE). Přístup TOU testuje modely na jejich schopnost určit správnou sekvenci událostí z párů video snímků; metoda TLE hodnotí schopnost MLLM odhadnout časovou mezeru mezi dvěma obrázky, sahající od sekund až po roky.

Z studie, dvě hlavní úkoly TemporalVQA benchmarku: v Temporálním pořadí porozumění, model rozhoduje, který z dvou obrázků ukazuje událost, která se stala první; v Časovém odhadování, model odhaduje, kolik času uplynulo mezi dvěma obrázky, vybírající z možností včetně sekund, minut, dní nebo roků. Tyto úkoly mají za cíl testovat, jak dobře MLLMs mohou uvažovat o časování a sekvenci vizuálních událostí. Zdroj: https://arxiv.org/pdf/2501.10674
Výzkumníci připravili 360 párů obrázků pro benchmark TOU, využívajících otevřené zdroje videí z Pixabay a Pexels, aby bylo možné dataset zpřístupnit prostřednictvím GUI.
Videa pokrývala širokou škálu předmětů, od lidí v každodenních aktivitách až po ne-lidský obsah, jako jsou zvířata a rostliny. Z nich byly vybrány páry snímků, které ukazují sekvenci událostí s dostatečnou variací, aby bylo možné určit počáteční snímek ‘zjevný’.
Lidský výběr byl použit k zajištění, že snímky mohly být definitivně seřazeny. Například jeden z kurátorovaných párů ukazuje částečně naplněný šálek v jednom snímku a stejný šálek plný čaje v dalším, což činí sekvenci logiku snadno identifikovatelnou.

Temporální logika těchto dvou obrázků nemůže být uniknuta, protože čaj nemůže být vysát zpět do trychtýře.
Tímto způsobem bylo získáno 360 párů obrázků.
Pro přístup TLE byly vybrány autorská práva-free obrázky z Google a Flickr, stejně jako vybrané snímky z autorská práva-free videí na YouTube. Předmět videí zahrnoval scény nebo objekty, jejichž změna interval sahala od sekund až po dny až po sezóny – například zrající ovoce nebo změna sezón v krajinách.
Tímto způsobem bylo kurátorováno 125 párů obrázků pro metodu TLE.
Ne všechny testované MLLMs byly schopny zpracovat multiple obrázky; proto se testy lišily, aby akomodovaly každému modelu jeho schopnosti.
Byly vygenerovány multiple verze kurátorovaných datasetů, ve kterých byly některé páry svisle a jiné vodorovně. Další variace vyměnily skutečné a správné temporální pořadí párů.
Byly vyvinuty dva typy výzev. První následoval tento šablon:
Stalo se událost v (levém / horním / prvním) obrázku před událostí v (pravém / dolním / druhém) obrázku? Řekněte pravdu nebo lež s odůvodněním.
Druhý následoval tento schema:
Mezi těmito dvěma obrázky, který z nich ukazuje událost, která se stala první? Řekněte (levý nebo pravý / horní nebo dolní / první nebo druhý) s odůvodněním.
Pro TLE byly otázky multiple-choice, které žádaly modely, aby vyhodnotily časovou mezeru mezi dvěma prezentovanými obrázky, s sekundami, hodinami, minutami, dnem, měsíci a roky jako časovými jednotkami. V této konfiguraci byl nejnovější obrázek prezentován vpravo.
Výzva použitá zde byla:
V daném obrázku, odhadněte čas, který uplynul mezi prvním obrázkem (vlevo) a druhým obrázkem (vpravo).
Vyberte jednu z následujících možností:
-
Méně než 15 sekund
B. Mezi 2 minutami a 15 minutami
C. Mezi 1 hodinou a 12 hodinami
D. Mezi 2 dny a 30 dny
E. Mezi 4 měsíci a 12 měsíci
F. Více než 3 roky
Testované MLLMs byly ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; a LLaVA-CoT.
Temporální pořadí porozumění: Výsledky

Výsledky Temporálního pořadí porozumění napříč různými modely a vstupními rozloženími, ukazující přesnost a konzistenci pro různé nastavení a výzvy.
Pokud jde o výsledky uvedené výše, autoři zjistili, že všechny testované MLLMs, včetně GPT-4o (který ukázal nejlepší celkový výkon), měly významné problémy s TemporalVQA benchmarkem – a dokonce i GPT-4o selhalo při konzistentním prokázání spolehlivého temporálního uvažování napříč různými konfiguracemi.
Autoři tvrdí, že konzistentně nízká přesnost napříč LLMs zdůrazňuje významné nedostatky ve schopnosti modelů interpretovat a uvažovat o temporálních sekvencích z vizuálních dat. Výzkumníci poznamenávají, že tyto výzvy přetrvávají i při použití multi-obrázkových vstupů a optimalizovaných výzev, což naznačuje fundamentální omezení současných modelových architektur a tréninkových metod.
Testy ukázaly významné variace ve výkonu napříč strategiemi výzev. Zatímco GPT-4o se zlepšil s optimalizovanými výzvami (dosáhl 4% v single-obrázkovém a 65,3% v multi-obrázkovém nastavení), výkon zůstal pod přijatelnou úrovní.
Modely, jako je LLaVA-NeXT a Qwen-VL, byly ještě více citlivé, s výkonem, který klesal, když se používaly alternativní výzvy, což naznačuje, že pouze inženýrství výzev nemůže překonat fundamentální omezení MLLMs v ohledu temporálního uvažování.
Testy také ukázaly, že rozložení obrázků (tj. svislé vs. vodorovné) mělo významný dopad na výkon modelu. GPT-4o zlepšil svou konzistenci se svislými uspořádáními, stoupající z 39,2% na 52,8%; nicméně, ostatní modely, včetně LLaVA kmenů, ukázaly silné směrové偏見, vynikající v jednom směru, ale selhávající v jiném.
Studie naznačuje, že tyto nekonzistence naznačují závislost na prostorových nápovědách, spíše než skutečné temporální uvažování, s MLLMs, které neanalyzují skutečnou sekvenci událostí nebo nerozumí pokroku v čase. Místo toho se zdá, že spoléhají na vzory nebo vizuální funkce související s rozložením obrázků, jako je jejich pozice nebo zarovnání, aby učinit rozhodnutí.

Kvalitativní testy zdůrazňují předpovědi GPT-4o, když čelí různým vstupním pořadím. V prvním pořadí jsou obrázky prezentovány ve svém původním pořadí, zatímco ve druhém pořadí je pořadí obrátků. Správné klasifikace jsou označeny zeleně, čisté nesprávné klasifikace červeně, halucinované uvažování oranžově a nelogické nebo ‘neplatné’ uvažování hnědě, ukazující nekonzistence modelu napříč různými vstupními konfiguracemi.
Srovnávací testy mezi single-obrázkovými a multi-obrázkovými vstupy prokázaly omezenou celkovou zlepšení, s GPT-4o, který vykázal mírně lepší výkon na multi-obrázkovém vstupu, stoupající z 31,0% na 43,6% (s P1) a 46,0% na 65,3% (s P2).
Jiné modely, jako je InternVL, prokázaly stabilní, ale nízkou přesnost, zatímco Qwen-VL zaznamenala malé zisky. Autoři uzavírají, že tyto výsledky naznačují, že další vizuální kontext nezpůsobuje podstatné zlepšení temporálního uvažování, protože modely mají problémy s efektivní integrací temporálních informací.
Lidská studie
V lidské studii byly provedeny tři průzkumy, aby se vyhodnotila, jak blízko se nejlepším multimodálním MLLM přiblížila k lidskému odhadu.
Lidé dosáhli 90,3% přesnosti, překonávají GPT-4o o 25%. Dataset se ukázal jako spolehlivý, s minimálními lidskými chybami a konzistentní shodou na správných odpovědích.

Výsledky z lidské uživatelské studie pro první kolo testů.
Časové odhadování: Výsledky

Výsledky pro TLE: časové odhadování vyhodnocuje modelovou přesnost při identifikaci intervalů mezi páry obrázků, napříč škálami od sekund až po roky. Úkol vyhodnocuje schopnost každého modelu vybrat správnou časovou škálu pro temporální mezeru.
V těchto testech MLLMs prokázaly pouze dostatečné výsledky na časovém odhadování: GPT-4o dosáhl 70% přesnosti, ale ostatní modely prokázaly výrazně horší výsledky (viz tabulku výše), a výkon se také lišil významně napříč různými časovými škálami.
Autoři komentují:
‘Úkol časového odhadování testuje schopnost MLLMs inferovat temporální intervaly mezi páry obrázků. [Vše] MLLMs, včetně top performerů jako GPT-4o a Gemini1.5-Pro, mají problémy s tímto úkolem, dosahují pouze průměrné úrovně přesnosti 60-70%. GPT-4o prokázalo nekonzistentní výkon, s silným výkonem v Sekundách a Roků, ale podprůměrným výkonem v Hodinách.
‘Podobně LLaVA-CoT prokázala výjimečný výkon v časových intervalech Sekund a Dnů, zatímco prokázala pozoruhodně špatný výkon v ostatních časových intervalech.’
Lidská studie
V lidské studii pro TLE se průměrný lidský výkon zlepšil o 12,3% ve srovnání s GPT-4o (nejlepším modelovým výkonem v této kategorii).
Autoři poznamenávají, že některé z výzev byly besonders náročné, a že v jednom případě všichni lidské účastníci vrátili nesprávnou odpověď, stejně jako všichni AI účastníci.
Autoři uzavírají, že GPT-4o prokázalo ‘rozumně robustní uvažovací schopnosti, navzdory pořadí obrázků prezentovaných jemu.
Závěr
Pokud MLLMs nakonec nasbírají a vstřebají dostatek ‘zkratkových’ dat, aby pokryly i ty nejsložitější výzvy, zda mohou být považovány za vývoj lidského stylu generalizace v tomto doméně, se může stát irelevantním.
Není ani známo, jakým způsobem získáváme naše vlastní schopnosti v temporálním uvažování – zda také ‘podvádíme’, dokud obrovské množství naučených zkušeností neodhalí vzorec, který funguje jako ‘instinkt’ v tomto typu testu?
* Z pohledu, že modely jsou stále optimalizovány s funkcemi ztrát, které přispěly k lidské zpětné vazbě, a efektivní optimalizací lidských testů a následné triáže.
Poprvé publikováno v pondělí, 27. ledna 2025












