Kunstig intelligens
Even State-Of-The-Art Language Models Struggle to Understand Temporal Logic

Å kunne forutsie fremtidige tilstander er en kritisk oppgave i forskning på datavisualisering – ikke minst i robotikk, der man må ta hensyn til virkelige situasjoner. Maskinlæringsystemer som er betrodd med oppgaver som er kritiske for oppdragene, trenger derfor en tilstrekkelig forståelse av den fysiske verden.
Men i noen tilfeller kan en tilsynelatende imponerende kunnskap om temporalt virkelighet være bedrageri: en ny rapport fra De forente arabiske emirater har funnet ut at state-of-the-art Multimodal Large Language Models (MLLMs), inkludert bransjeledere GPT-4o og Google Gemini, har vanskelig for å tolke hvordan tid er representert i bilder.
Eksempler på sekvensielle par (se bildet under), som ville være uten utfordring for mennesker selv om de ble satt i feil rekkefølge, kan forvirre avanserte MLLMs når de presenteres i uventede kontekster eller konfigurasjoner (slik som andre-bilde-først, sammenføyd til enkeltbilder, sekvensielle multiple bilder som kan eller ikke kan representere riktig temporalt rekkefølge, og så videre.).

Eksempler fra en av datasettene som er samlet inn for den nye studien, som viser sekvensielle hendelser i form av ‘før og etter’ bilder. Forskerne har gjort denne data tilgjengelig på https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer
Forskerne ga modellene enkle temporale resonneringsutfordringer, som å bestemme hendelsesrekkefølge eller anslå tidsgapper, og fant at de syv MLLMs som ble testet hadde en merkbar lavere nøyaktighet enn mennesker:
‘Overall, resultatene avslører at alle nåværende MLLMs, inkludert GPT-4o – den mest avanserte modellen i vår evaluering – har vanskelig for å håndtere den foreslåtte benchmarken. Til tross for GPT-4os overlegne ytelse i forhold til andre modeller, klarer den ikke å konsistent vise nøyaktig temporalt resonnering over forskjellige innstillinger.
‘De konsistente nøyaktighetspoengene er merkbar lavt for alle modellene, og indikerer betydelige begrensninger i deres evne til å forstå og tolke temporale sekvenser fra visuelle data. Disse manglene er tydelige selv når modellene får multi-bilde-inndata eller optimerte promter, og antyder at nåværende arkitekturer og treningsmetoder er utilstrekkelige for robust temporalt rekkefølgeforståelse.’
Maskinlæringsystemer er designet for å optimere til de mest nøyaktige, men også de mest effektive og menneske-vennlige resultater*. Ettersom de ikke avslører sin resonnering eksplisitt, kan det være vanskelig å si når de jukser eller bruker ‘gjennomskåring’.
I et slikt tilfelle kan MLLM nå riktig svar ved feil metode. Det faktum at et slikt svar kan være riktig, kan inspirere falsk tillit til modellen, som kan produsere feil resultater ved samme metode i senere oppgaver som presenteres for den.
Verre enn det, denne feilretningen kan bli enda mer dypt innarbeidet i utviklingskjeden hvis mennesker blir imponert over det og gir positiv tilbakemelding i tester og annoteringsøkter som kan bidra til retningen som dataene og/eller modellen kan ta.
I dette tilfelle er forslaget at MLLMs ‘fører’ en sann forståelse av kronologi og temporale fenomener, ved å observere og feste på sekundære indikatorer (slik som tidsstempel, for eksempel, i video-data, rekkefølge av bilder i en layout, eller selv – potensielt – sekvens-nummererte filnavn).
Det antyder videre at MLLMs for tiden ikke tilfredsstiller noen virkelig definisjon av å ha generalisert et konsept av temporale fenomener – i det minste, i den utstrekning som mennesker kan.
Den nye rapporten har tittelen Can Multimodal MLLMs do Visual Temporal Understanding and Reasoning? Svaret er Nei!, og kommer fra tre forskere ved Mohamed bin Zayed University of Artificial Intelligence og Alibaba International Digital Commerce.
Data og tester
Forskerne merket seg at tidligere benchmark- og studier, som MMMU og TemporalBench, konsentrerer seg om enkelt-bilde-inndata eller formulerer spørsmål for MLLMs som kan være for enkle å svare, og kan ikke avsløre en tendens til gjennomskåring.
Derfor tilbyr forfatterne to oppdaterte tilnærminger: Temporalt rekkefølgeforståelse (TOU) og Tids-løps-estimering (TLE). TOU-metoden tester modellene på deres evne til å bestemme riktig rekkefølge av hendelser fra par av video-rammer; TLE-metoden evaluerer MLLMs evne til å anslå tidsforskjellen mellom to bilder, fra sekunder til år.

Fra rapporten, de to hovedoppgavene i TemporalVQA-benchmarken: i Temporalt rekkefølgeforståelse bestemmer modellen hvilket av to bilder som viser en hendelse som skjedde først; i Tids-løps-estimering anslår modellen hvor mye tid som har gått mellom to bilder, og velger fra alternativer som inkluderer sekunder, minutter, dager eller år. Disse oppgavene har til hensikt å teste hvordan godt MLLMs kan resonere om tid og sekvens av visuelle hendelser. Kilde: https://arxiv.org/pdf/2501.10674
Forskerne kuraterte 360 biletpar for TOU-benchmarken, ved å bruke åpne kildevideoer fra Pixabay og Pexels, så det ville være mulig å gjøre datasettet tilgjengelig via en GUI.
Videoene dekket et bredt spekter av emner, fra mennesker i hverdagsaktiviteter til ikke-menneskelige innhold som dyr og planter. Fra disse ble par av rammer valgt for å avbilde en sekvens av hendelser med tilstrekkelig variasjon til å gjøre start-rammen ‘åpenbar’.
Menneskelig utvalg ble brukt for å sikre at rammene kunne bestemmes på en definitiv måte. For eksempel viser ett av de kuraterte parene en delvis fylt te-kopp i ett bilde, og samme kopp fullt av te i neste, og gjør sekvens-logikken lett å identifisere.

Den temporale logikken i disse to bildene kan ikke unngås, siden teet ikke kan suge tilbake opp i tuten.
På denne måten ble 360 biletpar oppnådd.
For TLE-metoden ble opphavsrettsfrie bilder valgt fra Google og Flickr, samt utvalgte rammer fra opphavsrettsfrie videoer på YouTube. Emnet i disse videoene viste scener eller objekter hvis endringsintervall varierte fra sekunder til dager til årstider – for eksempel, modnende frukt, eller endring av årstider i landskap.
Slik ble 125 biletpar kuratert for TLE-metoden.
Ikke alle MLLMs som ble testet kunne håndtere multiple bilder; derfor varierte testene for å tilpasse hver modells evner.
Flere versjoner av de kuraterte datasettene ble generert, hvor noen av parene var sammenføyd vertikalt, og andre horisontalt. Ytterligere variasjoner byttet den sanne og riktige temporale sekvensen av parene.
To prompt-typer ble utviklet. Den første fulgte denne malen:
Skjedde hendelsen i (venstre / topp / først)-bildet før hendelsen i (høyre / bunn / andre)-bildet? Angi sann eller usann med begrunnelse.
Den andre fulgte denne skjema:
Hvilket av disse to bildene viser hendelsen som skjedde først? Angi (venstre eller høyre / topp eller bunn / først eller andre) med begrunnelse.
For TLE var spørsmålene flervalg, og spurte modellene om å vurdere tidsforskjellen mellom de to presenterte bildene, med sekunder, minutter, timer, dager, måneder og år som tilgjengelige tidsskalaer. I denne konfigurasjonen ble det siste bildet presentert på høyre side.
Promten som ble brukt her var:
Estimer tiden som har gått mellom det første bildet (venstre) og det andre bildet (høyre).
Velg en av følgende alternativer:
-
Mindre enn 15 sekunder
B. Mellom 2 minutter til 15 minutter
C. Mellom 1 time til 12 timer
D. Mellom 2 dager til 30 dager
E. Mellom 4 måneder til 12 måneder
F. Mer enn 3 år
De MLLMs som ble testet var ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; og LLaVA-CoT.
Temporalt rekkefølgeforståelse: Resultater

Resultater fra Temporalt rekkefølgeforståelse over forskjellige modeller og bilde-layouter, som viser nøyaktighet og konsistens for forskjellige innstillinger og promter.
Med hensyn til resultater ovenfor, fant forfatterne at alle testede MLLMs, inkludert GPT-4o (som viste den beste totale ytelsen), hadde betydelige vanskeligheter med TemporalVQA-benchmarken – og selv GPT-4o klarte ikke å konsistent vise pålitelig temporalt resonnering over forskjellige konfigurasjoner.
Forfatterne hevder at de konsistente lavt nøyaktighetspoengene over LLMs understreker betydelige mangler i modellenes evne til å tolke og resonere om temporale sekvenser fra visuelle data. Forskerne merker seg at disse utfordringene varer ved selv med bruk av multi-bilde-inndata og optimerte promter, og peker på grunnleggende begrensninger i nåværende modellarkitekturer og treningsmetoder.
Testene viste betydelige variasjoner i ytelse over prompt-strategier. Mens GPT-4o forbedret seg med optimerte promter (nådde 4% i enkelt-bilde og 65,3% i multi-bilde-innstilling), forblev ytelsen under akseptable nivåer.
Modeller som LLaVA-NeXT og Qwen-VL var enda mer følsomme, med ytelse som sank når alternativ promter ble brukt, og antyder at prompt-ingeniørkunst alene ikke kan overvinne MLLMs’ grunnleggende begrensninger i forhold til temporalt resonnering.
Testene indikerte også at bilde-layouthet (dvs. vertikal vs. horisontal) hadde en betydelig innvirkning på modell-ytelse. GPT-4o forbedret sin konsistens med vertikale arrangeringer, og steg fra 39,2% til 52,8%; imidlertid viste andre modeller, inkludert LLaVA-variantene, sterke retninger-bias, og utmerket seg i en retning men feilet i en annen.
Rapporten indikerer at disse inkonsistensene antyder avhengighet av romlige hint, fremfor ekte temporalt resonnering, og at MLLMs ikke analyserer sekvensen av hendelser eller forstår fremdrift over tid. I stedet ser det ut til at de har avhengighet av mønster eller visuelle egenskaper relatert til bilde-layouthet, som posisjon eller justering, for å fatte beslutninger.

Kvalitative tester fremhever GPT-4os prediksjoner når de møter forskjellige inndata-ordrer. I den første rekkefølgen presenteres bilde-parene i deres opprinnelige sekvens, mens i den andre rekkefølgen er sekvensen reversert. Riktige klassifiseringer er merket i grønt, rene mis-klassifiseringer i rødt, hallusinatorisk begrunnelse i oransje, og illogisk eller ‘ugyldig’ begrunnelse i brunt, og avslører modellens inkonsistens over forskjellige inndata-konfigurasjoner.
Sammenligningstester mellom enkelt-bilde og multi-bilde-inndata viste begrensede forbedringer totalt sett, og GPT-4o presterte litt bedre på multi-bilde-inndata, og steg fra 31,0% til 43,6% (med P1) og 46,0% til 65,3% (med P2).
Andre modeller, som InternVL, viste stabile men lave nøyaktighetspoeng. Qwen-VL så små forbedringer. Forfatterne konkluderer at disse resultater indikerer at ekstra visuell kontekst ikke vesentlig forbedrer temporalt resonneringsevne, ettersom modellene sliter med å integrere temporale informasjon effektivt.
Menneske-studie
I en menneske-studie ble tre undersøkelser gjennomført for å vurdere hvor nært den beste MLLM (GPT-4o) presterte i forhold til menneskelig estimat.
Mennesker oppnådde 90,3% nøyaktighet, og overgikk GPT-4os 65,3% med 25%. Datasettet viste seg å være pålitelig, med minimale menneskelige feil og konsistent enighet om riktige svar.

Resultater fra menneske-brukerstudien for den første runden av tester.
Tids-løps-estimering: Resultater

Resultater for TLE: tids-løps-estimering vurderer modell-nøyaktighet i å identifisere intervaller mellom bilde-par, over skalaer fra sekunder til år. Oppgaven vurderer hver modells evne til å velge riktig tidsskala for den temporale gapen.
I disse testene presterte MLLMs bare tilfredsstillende på tids-løps-estimering: GPT-4o oppnådde 70% nøyaktighet, men andre modeller presterte betydelig dårligere (se tabell ovenfor), og ytelse varierte også betydelig over de forskjellige tidsskalaene.
Forfatterne kommenterer:
‘Oppgaven med tids-løps-estimering tester MLLMs evne til å inferere temporale intervaller mellom bilde-par. [Alle] MLLMs, inkludert topp-prestasjonene som GPT-4o og Gemini1.5-Pro, har vanskelig for å håndtere denne oppgaven, og oppnår bare moderate nøyaktighetsnivåer på 60-70%. GPT-4o viser inkonsistent ytelse, med sterk prestasjon i Sekunder og År, men underpresterer i Timer.
Liknende viser LLaVA-CoT eksepsjonell prestasjon i tids-intervallene Sekunder og Dager, mens den viser betydelig dårlig prestasjon i andre tid-intervaller.’
Menneske-studie
I menneske-studien for TLE forbedret gjennomsnittlig menneskelig prestasjon seg over GPT-4o (den beste modellen også i denne kategorien) med 12,3%.
Forfatterne merker seg at noen av utfordringene var spesielt krevende, og at i ett tilfelle returnerte alle menneskelige deltakere et feil svar, sammen med alle AI-deltakerne.
Forfatterne konkluderer at GPT-4o utviser ‘rimelig robust resonneringsevne, til tross for rekkefølgen av bilder som presenteres for den.
Konklusjon
Hvis MLLMs til slutt samler og absorberer nok ‘gjennomskåring’-data for å dekke selv de mest utfordrende utfordringene av typen presentert av forfatterne i denne studien, kan det bli et punkt hvor det ikke lenger er relevant å spørre om de kan utvikle menneske-lignende generaliserings-evner i dette domenet.
Det er heller ikke kjent nøyaktig hvordan vi selv tilegner oss evner i temporalt resonnering – gjør vi også ‘jukser’ til vi har lært nok erfaring som avslører et mønster som fungerer som ‘instinkt’ i forhold til denne type test?
* Fra synspunktet at modellene stadig optimaliseres med tap-funksjoner som menneskelig tilbakemelding har bidratt til, og effektivt optimaliseres av menneskelige tester og påfølgende triage.
Først publisert mandag, 27. januar 2025












