Kunstmatige intelligentie

Zelfs state-of-the-art-taalkundige modellen hebben moeite met het begrijpen van temporele logica

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

Het voorspellen van toekomstige staten is een kritische missie in onderzoek naar computerzien – niet in de laatste plaats in robotica, waar reële situaties moeten worden overwogen. Machine learning-systemen die zijn belast met missie-kritieke taken, hebben daarom een adequate begrip van de fysieke wereld nodig.

Hoe dan ook, in sommige gevallen kan een ogenschijnlijk indrukwekkende kennis van temporele realiteit misleidend zijn: een nieuw artikel uit de Verenigde Arabische Emiraten heeft ontdekt dat state-of-the-art Multimodal Large Language Models (MLLM’s), waaronder sectorleiders GPT-4o en Google Gemini, tekortschieten als het gaat om het interpreteren van hoe tijd wordt weergegeven in afbeeldingen.

Voorbeelden van sequentiële paren (zie afbeelding hieronder), die voor mensen geen uitdaging zouden vormen, zelfs als ze in de verkeerde volgorde worden geplaatst, kunnen geavanceerde MLLM’s voor de gek houden als ze in onverwachte contexten of configuraties worden gepresenteerd (zoals tweede-afbeelding-eerst, samengevoegd tot één afbeelding, meerdere sequentiële afbeeldingen die wel of niet de correcte temporele volgorde kunnen vertegenwoordigen, enz.).

Voorbeelden uit een van de datasets die zijn samengesteld voor de nieuwe studie, die sequentiële gebeurtenissen laten zien. De onderzoekers hebben deze gegevens beschikbaar gemaakt op https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Voorbeelden uit een van de datasets die zijn samengesteld voor de nieuwe studie, die sequentiële gebeurtenissen laten zien in de vorm van ‘voor en na’ afbeeldingen. De onderzoekers hebben deze gegevens beschikbaar gemaakt op https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

De onderzoekers gaven de modellen basistaken voor temporele redenering, zoals het bepalen van de volgorde van gebeurtenissen of het schatten van tijdsintervallen, en ontdekten dat de zeven geteste MLLM’s aanzienlijk minder nauwkeurig waren dan de menselijke nauwkeurigheid:

‘Over het algemeen onthullen de [resultaten] dat alle huidige MLLM’s, inclusief GPT-4o – het meest geavanceerde model in onze evaluatie – worstelen met de voorgestelde benchmark. Ondanks de superieure prestaties van GPT-4o ten opzichte van andere modellen, faalt het om consistent accurate temporele redenering te demonstreren in verschillende instellingen.

‘De consistentie van de nauwkeurigheidsscores is opvallend laag voor alle modellen, wat aangeeft dat er significante beperkingen zijn in hun vermogen om temporele sequenties uit visuele invoer te begrijpen en interpreteren. Deze tekortkomingen zijn zelfs zichtbaar wanneer modellen meerdere afbeeldingen of geoptimaliseerde prompts krijgen, wat suggereert dat de huidige architectuur en trainingsmethoden onvoldoende zijn voor robuust temporeel begrip.’

Machine learning-systemen zijn ontworpen om te optimaliseren naar de meest nauwkeurige, maar ook de meest efficiënte en mensen-vriendelijke resultaten*. Aangezien ze hun redenering niet expliciet onthullen, kan het moeilijk zijn om te bepalen wanneer ze vals spelen of ‘shortcuts’ gebruiken.

In een dergelijk geval kan de MLLM het juiste antwoord bereiken via de verkeerde methode. Het feit dat een dergelijk antwoord correct kan zijn, kan vals vertrouwen in het model inspireren, wat onjuiste resultaten kan produceren met dezelfde methode in latere taken die aan het model worden gepresenteerd.

Erger nog, deze misleiding kan dieper worden ingebed in de ontwikkelingsketen als mensen onder de indruk zijn van het resultaat en positieve feedback geven in trials en annotatiesessies, die kunnen bijdragen aan de richting die de gegevens en/of het model kunnen nemen.

In dit geval wordt gesuggereerd dat MLLM’s ‘faken’ een echt begrip van chronologie en temporele fenomenen, door te observeren en te ankeren op secundaire indicatoren (zoals tijdstempels, bijvoorbeeld, in videogegevens, de volgorde van afbeeldingen in een lay-out, of zelfs – potentieel – opeenvolgend genummerde bestandsnamen).

Het geeft verder aan dat MLLM’s momenteel niet voldoen aan enige echte definitie van het generaliseren van een concept van temporele fenomenen – tenminste, tot het niveau dat mensen kunnen.

Het nieuwe artikel heeft als titel Kunnen Multimodal MLLM’s Visuele Temporele Begrip en Redenering doen? Het antwoord is Nee!, en komt van drie onderzoekers aan de Mohamed bin Zayed Universiteit van Kunstmatige Intelligentie en Alibaba International Digital Commerce.

Gegevens en Tests

De auteurs merken op dat eerdere benchmarks en studies, zoals MMMU en TemporalBench, zich concentreren op enkele afbeeldingen of formuleren vragen voor de MLLM’s die te gemakkelijk kunnen zijn om te beantwoorden, en mogelijk geen neiging tot shortcut-gedrag onthullen.

Daarom bieden de auteurs twee bijgewerkte benaderingen: Temporele Volgorde Begrip (TOU) en Tijdsverloop Schatting (TLE). De TOU-benadering test de modellen op hun vermogen om de correcte volgorde van gebeurtenissen te bepalen uit paren van videoframes; de TLE-methode evalueert het vermogen van de MLLM om de tijdsverschil tussen twee afbeeldingen te schatten, variërend van seconden tot jaren.

Uit het artikel, de twee hoofdtaken van de TemporalVQA-benchmark: in Temporele Volgorde Begrip, beslist het model welke van de twee afbeeldingen een gebeurtenis laat zien die het eerst plaatsvond; in Tijdsverloop Schatting, schat het model hoeveel tijd is verstreken tussen de twee afbeeldingen, met opties zoals seconden, minuten, dagen of jaren. Deze taken zijn bedoeld om te testen hoe goed de MLLM’s temporele gebeurtenissen kunnen redeneren. Bron: https://arxiv.org/pdf/2501.10674

De onderzoekers hebben 360 afbeeldingsparen geselecteerd voor de TOU-benchmark, met behulp van open source-videos van Pixabay en Pexels, zodat het mogelijk was om de dataset beschikbaar te maken via een GUI.

De videos omvatten een reeks onderwerpen, van mensen in alledaagse activiteiten tot niet-menselijke inhoud zoals dieren en planten. Van deze werden paren van frames geselecteerd om een sequentie van gebeurtenissen weer te geven met voldoende variatie om de startframe ‘duidelijk’ te maken.

Menselijke selectie werd gebruikt om ervoor te zorgen dat de frames definitief konden worden besteld. Bijvoorbeeld, een van de gecureerde paren toont een gedeeltelijk gevulde theekop in één frame, en dezelfde kop volledig gevuld met thee in het volgende, waardoor de sequentie logica gemakkelijk te identificeren is.

De temporele logica van deze twee afbeeldingen kan niet worden ontsnapt, omdat de thee niet mogelijk terug kan worden gezogen via de tuit.

Op deze manier werden 360 afbeeldingsparen verkregen.

Voor de TLE-benadering werden copyright-vrije afbeeldingen geselecteerd van Google en Flickr, evenals geselecteerde frames uit copyright-vrije videos op YouTube. Het onderwerp van deze videos omvatte scènes of objecten waarvan de veranderingstijd variëerde van seconden tot dagen tot seizoenen – bijvoorbeeld, rijpend fruit, of de verandering van seizoenen in landschappen.

Daarom werden 125 afbeeldingsparen geselecteerd voor de TLE-methode.

Niet alle geteste MLLM’s konden meerdere afbeeldingen verwerken; daarom verschilden de tests om elk model aan te passen.

Meerdere versies van de gecureerde datasets werden gegenereerd, waarin sommige paren verticaal waren samengevoegd, en anderen horizontaal. Verdere variaties wisselden de ware en correcte temporele sequentie van de paren.

Twee prompt-typen werden ontwikkeld. De eerste volgde dit sjabloon:

Gebeurde de gebeurtenis in de (links / boven / eerste) afbeelding voordat de gebeurtenis in de (rechts / onder / tweede) afbeelding? Geef waar of onwaar met reden.

De tweede volgde dit schema:

Welke van de twee afbeeldingen toont de gebeurtenis die het eerst plaatsvond? Geef (links of rechts / boven of onder / eerste of tweede) met reden.

Voor TLE waren de vragen multiple-choice, waarbij de modellen werden gevraagd om de tijdsverloop tussen de twee gepresenteerde afbeeldingen te evalueren, met seconden, uren, minuten, dagen, maanden en jaren als beschikbare tijdseenheden. In deze configuratie werd de meest recente afbeelding op de rechterkant gepresenteerd.

De prompt die hier werd gebruikt, was:

In de gegeven afbeelding, schat de tijd die is verstreken tussen de eerste afbeelding (links) en de tweede afbeelding (rechts).

Kies een van de volgende opties:

1. Minder dan 15 seconden B. Tussen 2 minuten en 15 minuten C. Tussen 1 uur en 12 uur D. Tussen 2 dagen en 30 dagen E. Tussen 4 maanden en 12 maanden F. Meer dan 3 jaar

De geteste MLLM’s waren ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; en LLaVA-CoT.

Temporele Volgorde Begrip: Resultaten

Resultaten van Temporele Volgorde Begrip over verschillende modellen en invoerlay-outs, met nauwkeurigheid en consistentie voor verschillende instellingen en prompts.

Met betrekking tot de hierboven weergegeven resultaten, ontdekten de auteurs dat alle geteste MLLM’s, inclusief GPT-4o (die de beste algehele prestatie liet zien), aanzienlijk worstelden met de TemporalVQA-benchmark – en zelfs GPT-4o faalde om consistent betrouwbare temporele redenering te demonstreren in verschillende configuraties.

De auteurs beweren dat de consistent lage nauwkeurigheid over LLM’s wijst op significante tekortkomingen in het vermogen van de modellen om temporele sequenties uit visuele gegevens te interpreteren en te redeneren. De onderzoekers merken op dat deze uitdagingen aanhouden, zelfs met het gebruik van meerdere afbeeldingen en geoptimaliseerde prompts, wat wijst op fundamentele beperkingen in de huidige modelarchitectuur en trainingsmethoden.

De tests toonden significante variaties in prestaties over promptstrategieën. Terwijl GPT-4o verbeterde met geoptimaliseerde prompts (bereikte 4% in enkele afbeeldingen en 65,3% in meerdere afbeeldingen), bleef de prestatie onder aanvaardbare niveaus.

Modellen zoals LLaVA-NeXT en Qwen-VL waren nog gevoeliger, met prestaties die daalden toen alternatieve prompts werden gebruikt, wat suggereert dat prompt-engineering alleen de fundamentele beperkingen van de MLLM’s in temporele redenering niet kan overwinnen.

Tests gaven ook aan dat de afbeeldingslay-out (d.w.z. verticaal versus horizontaal) de modelprestatie aanzienlijk beïnvloedde. GPT-4o verbeterde zijn consistentie met verticale arrangementen, stijgend van 39,2% tot 52,8%; echter, andere modellen, waaronder de LLaVA-stammen, toonden sterke richtingsvoorkeuren, uitmuntend in één oriëntatie maar falend in een andere.

Het artikel geeft aan dat deze inconsistenties suggereren dat de MLLM’s afhankelijk zijn van ruimtelijke hints, in plaats van echte temporele redenering, en dat de MLLM’s niet echt de sequentie van gebeurtenissen of de voortgang in de tijd analyseren. In plaats daarvan lijken ze te vertrouwen op patronen of visuele kenmerken die verband houden met de lay-out van afbeeldingen, zoals hun positie of uitlijning, om beslissingen te nemen.

Kwalitatieve tests benadrukken GPT-4o’s voorspellingen wanneer deze worden geconfronteerd met verschillende invoerorders. In de eerste orde worden afbeeldingsparen in hun oorspronkelijke sequentie gepresenteerd, terwijl in de tweede orde de sequentie omgekeerd is. Correcte classificaties zijn gemarkeerd in groen, zuivere misclassificaties in rood, gehallucineerde redenering in oranje, en illogische of ‘ongeldige’ redenering in bruin, waardoor de inconsistenties van het model over verschillende invoerconfiguraties worden onthuld.

Vergelijkingstests tussen enkele afbeeldingen en meerdere afbeeldingen toonden beperkte algehele verbetering, met GPT-4o die iets beter presteerde op meerdere afbeeldingen, stijgend van 31,0% tot 43,6% (met P1) en 46,0% tot 65,3% (met P2).

Andere modellen, zoals InternVL, toonden stabiele maar lage nauwkeurigheid, terwijl Qwen-VL kleine winsten liet zien. De auteurs concluderen dat deze resultaten aangeven dat extra visuele context de temporele redeneringscapaciteiten niet aanzienlijk verbetert, aangezien modellen worstelen om temporele informatie effectief te integreren.

Menselijke Studie

In een menselijke studie werden drie enquêtes uitgevoerd om te beoordelen hoe dicht de best presterende multimodale MLLM bij de menselijke schatting zat.

Mensen bereikten 90,3% nauwkeurigheid, overtreffend GPT-4o’s 65,3% met 25%. De dataset bleek betrouwbaar, met minimale menselijke fouten en consistente overeenstemming over correcte antwoorden.

Resultaten van de menselijke gebruikersstudie voor de eerste ronde van tests.

Tijdsverloop Schatting: Resultaten

Resultaten voor TLE: tijdsverloop schatting evalueert modelnauwkeurigheid bij het identificeren van intervallen tussen afbeeldingsparen, over schalen van seconden tot jaren. De taak evalueert elk model’s vermogen om de correcte tijdschaal voor het temporele gat te selecteren.

In deze tests presteerden de MLLM’s alleen redelijk op tijdsverloop schatting: GPT-4o bereikte 70% nauwkeurigheid, maar de andere modellen presteerden aanzienlijk slechter (zie bovenstaande tabel), en de prestatie varieerde ook aanzienlijk over de verschillende tijdschalen.

De auteurs merken op:

‘De taak van tijdsverloop schatting test het vermogen van MLLM’s om temporele intervallen tussen afbeeldingsparen te achterhalen. [Alle] MLLM’s, inclusief top-presterende modellen zoals GPT-4o en Gemini1.5-Pro, worstelen met deze taak, en bereiken alleen matige nauwkeurigheidsniveaus van 60-70%. GPT-4o toont inconsistentie in de prestatie, met sterke prestatie in seconden en jaren, maar onderpresteert in uren.

Eveneens toont LLaVA-CoT uitzonderlijke prestatie in de tijdsverloop van seconden en dagen, maar toont opvallend slechte prestatie in de andere tijdsintervallen.’

Menselijke Studie

In de menselijke studie voor TLE, verbeterde de gemiddelde menselijke prestatie de prestatie van GPT-4o (het best presterende model in deze categorie) met 12,3%.

De auteurs merken op dat sommige van de uitdagingen bijzonder veeleisend waren, en dat in één geval alle menselijke deelnemers een verkeerd antwoord gaven, evenals alle AI-deelnemers.

De auteurs concluderen dat GPT-4o ‘redelijk robuuste redeneringscapaciteiten’ toont, ondanks de volgorde van afbeeldingen die aan het model worden gepresenteerd.

Conclusie

Als MLLM’s uiteindelijk genoeg ‘shortcut’-gegevens verzamelen en absorberen om zelfs de moeilijkste uitdagingen van het type dat door de auteurs in deze studie wordt gepresenteerd, te dekken, kan het een punt van discussie worden of ze humanoïde generalisatiecapaciteiten in dit domein hebben ontwikkeld.

Evenmin is het bekend via welke route we onze eigen capaciteiten in temporele redenering verkrijgen – doen we ook ‘vals spelen’ totdat de pure hoeveelheid geleerde ervaring een patroon onthult dat werkt als ‘intuïtie’ in verband met dit type test?

* Vanuit het perspectief dat modellen steeds vaker worden geoptimaliseerd met verliesfuncties waarop menselijke feedback heeft bijgedragen, en effectief geoptimaliseerd door menselijke tests en daaropvolgende triage.

Eerst gepubliceerd op maandag 27 januari 2025