Connect with us

Selv de mest avancerede sprogmodeller har svært ved at forstå temporal logik

Kunstig intelligens

Selv de mest avancerede sprogmodeller har svært ved at forstå temporal logik

mm
Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

At forudsige fremtidige tilstande er en kritisk mission i computer vision-forskning – ikke mindst i robotteknologi, hvor virkelige situationer skal tages i betragtning. Maskinelæringsystemer, der er betroet med kritiske opgaver, har derfor brug for en tilstrækkelig forståelse af den fysiske verden.

Men i visse tilfælde kan en tilsyneladende imponerende viden om temporal virkelighed være bedragerisk: En ny artikel fra De Forenede Arabiske Emirater har fundet, at selv de mest avancerede Multimodal Large Language Models (MLLMs), herunder branchens ledere GPT-4o og Google Gemini, ikke kan fortolke, hvordan tid er repræsenteret i billeder.

Eksempler på sekventielle par (se billedet nedenfor), som ville være uden udfordring for mennesker, selv hvis de var i forkert rækkefølge, kan forvirre avancerede MLLMs, når de præsenteres i uventede sammenhænge eller konfigurationer (såsom anden-billede-først, samlet til enkelt billeder, sekventielle multiple billeder, der måske eller måske ikke repræsenterer den korrekte temporale rækkefølge, og så videre.).

Eksempler fra en af de datasets, der er samlet til den nye studie, som viser sekventielle begivenheder. Forskerne har gjort denne data tilgængelig på https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Eksempler fra en af de datasets, der er samlet til den nye studie, som viser sekventielle begivenheder i form af ‘før og efter’ billeder. Forskerne har gjort denne data tilgængelig på https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Forskerne gav modellerne grundlæggende temporale resonemence-udfordringer, såsom at bestemme begivenhedsrækkefølge eller estimere tidsintervaller, og fandt, at de syv MLLMs, der blev testet, opnåede bemærkelsesværdigt lavere nøjagtighed end mennesker:

‘Samlet set afslører resultaterne, at alle nuværende MLLMs, herunder GPT-4o – den mest avancerede model i vores evaluering – kæmper med den foreslåede benchmark. Trods GPT-4os overlegne præstation i forhold til andre modeller, kan den ikke konsekvent demonstrere præcis temporal resonemence på tværs af forskellige indstillinger.

‘De konsekvente nøjagtighedsscores er bemærkelsesværdigt lave for alle modeller, hvilket indikerer betydelige begrænsninger i deres evne til at forstå og fortolke temporale sekvenser fra visuelle input. Disse mangler er tydelige, selv når modellerne får multi-billede-input eller optimerede prompts, hvilket antyder, at nuværende arkitekturer og træningsmetoder er utilstrækkelige til robust temporal rækkefølge-forståelse.’

Maskinelæringsystemer er designede til at optimere til den mest nøjagtige, men også den mest effektive og menneske-tilfredsstillende resultater*. Da de ikke afslører deres resonemence eksplicit, kan det være svært at se, når de laver kort eller bruger ‘genveje’.

I sådanne tilfælde kan MLLM nå det rette svar ved den forkerte metode. Det faktum, at sådant et svar kan være korrekt, kan inspirere falsk tillid til modellen, som kan producere forkerte resultater ved samme metode i senere opgaver, der præsenteres for den.

Værre endnu, denne misledning kan blive endnu mere dybt indlejret i udviklingskæden, hvis mennesker er imponerede over det og giver positiv feedback i tests og annoteringsessioner, som kan bidrage til den retning, data og/eller modellen måtte tage.

I dette tilfælde antyder det, at MLLMs ‘falsk’ en sand forståelse af kronologi og temporale fænomener ved at observere og fastgøre sekundære indikatorer (såsom tidsstempel, for eksempel, i video-data, billedes rækkefølge i en layout eller endda – potentelt – sekventielt-nummererede filnavne).

Det antyder yderligere, at MLLMs i øjeblikket ikke opfylder nogen reel definition af at have generaliseret en begreb om temporale fænomener – i hvert fald, til den udstrækning, som mennesker kan.

Den nye artikel har titlen Can Multimodal MLLMs do Visual Temporal Understanding and Reasoning? Svaret er Nej! og kommer fra tre forskere ved Mohamed bin Zayed University of Artificial Intelligence og Alibaba International Digital Commerce.

Data og tests

Forskerne bemærker, at tidligere benchmarks og studier, såsom MMMU og TemporalBench, koncentrerer sig om enkelt-billede-input eller formulerer spørgsmål til MLLMs, der kan være for lette at besvare, og kan ikke afsløre en tendens til shortcut-adfærd.

Derfor tilbyder forfatterne to opdaterede tilgange: Temporal Order Understanding (TOU) og Time-lapse Estimation (TLE). TOU-tilgangen tester modellerne på deres evne til at bestemme den korrekte sekvens af begivenheder fra par af video-frames; TLE-metoden evaluerer MLLMs evne til at estimere tidsdifferencen mellem to billeder, der varierer fra sekunder til år.

Fra artiklen, de to hovedopgaver i TemporalVQA-benchmark: i Temporal Order Understanding, beslutter modellen, hvilket af to billeder viser en begivenhed, der fandt sted først; i Time-lapse Estimation, estimerer modellen, hvor meget tid der er gået mellem to billeder, og vælger mellem muligheder, herunder sekunder, minutter, dage eller år. Disse opgaver sigter på at teste, hvor godt MLLMs kan resonere om timing og sekvens af visuelle begivenheder. Kilde: https://arxiv.org/pdf/2501.10674

Fra artiklen, de to hovedopgaver i TemporalVQA-benchmark: i Temporal Order Understanding, beslutter modellen, hvilket af to billeder viser en begivenhed, der fandt sted først; i Time-lapse Estimation, estimerer modellen, hvor meget tid der er gået mellem to billeder, og vælger mellem muligheder, herunder sekunder, minutter, dage eller år. Disse opgaver sigter på at teste, hvor godt MLLMs kan resonere om timing og sekvens af visuelle begivenheder. Kilde: https://arxiv.org/pdf/2501.10674

Forskerne kuraterede 360 billedpar til TOU-benchmark, ved hjælp af åbne kilder videoer fra Pixabay og Pexels, så det ville være muligt at gøre datasettet tilgængeligt via en GUI.

Videoerne dækkede et bredt udvalg af emner, fra mennesker i hverdagsaktiviteter til ikke-menneskelige indhold som dyr og planter. Fra disse blev par af frames valgt til at afbilde en sekvens af begivenheder med tilstrækkelig variation til at gøre start-rammen ‘åbenlys’.

Menneskelig udvælgelse blev brugt til at sikre, at rammerne kunne defineres bestemt. For eksempel viser et af de kuraterede par et delvist fyldt tekrus i den ene ramme, og samme krus fuldt fyldt med te i den næste, hvilket gør sekvenslogikken let at identificere.

Den temporale logik i disse to billeder kan ikke undgås, da teen ikke muligt kan suges tilbage op gennem spuyten.

Den temporale logik i disse to billeder kan ikke undgås, da teen ikke muligt kan suges tilbage op gennem spuyten.

På denne måde blev 360 billedpar opnået.

Til TLE-tilgangen blev ophavsretsfrie billeder valgt fra Google og Flickr, samt udvalgte frames fra ophavsretsfrie videoer på YouTube. Emneområdet for disse videoer omfattede scener eller objekter, hvis ændringsinterval strakte sig fra sekunder til dage til sæsoner – for eksempel, modnende frugt eller ændring af sæsoner i landskaber.

Derfor blev 125 billedpar kurateret til TLE-metoden.

Ikke alle de testede MLLMs kunne behandle multiple billeder; derfor var tests forskellige for at tilpasse hver models kapaciteter.

Multiple versioner af de kuraterede datasets blev genereret, hvoraf nogle af billedparrene var samlet vertikalt, og andre horisontalt. Yderligere variationer byttede den sande og korrekte temporale sekvens af parrene.

To prompt-typer blev udviklet. Den første fulgte denne skabelon:

Skete begivenheden i (venstre / top / først) billedet før begivenheden i (højre / bund / andet) billedet? Angiv sandt eller falsk med begrundelse.

Den anden fulgte denne skema:

Mellem disse to billeder, hvilket afbilder begivenheden, der skete først? Angiv (venstre eller højre / top eller bund / først eller andet) med begrundelse.

Til TLE var spørgsmål multiple-choice, der bad modellerne om at evaluere tidsintervallet mellem de to præsenterede billeder, med sekunder, minutter, timer, dage, måneder og år som muligheder for tidsenheder. I denne konfiguration var det mest nylige billede præsenteret til højre.

Prompten, der blev brugt her, var:

Estimer tiden, der er gået mellem det første billede (venstre) og det andet billede (højre).

Vælg en af følgende muligheder:

    1. Under 15 sekunder
      B. Mellem 2 minutter til 15 minutter
      C. Mellem 1 time til 12 timer
      D. Mellem 2 dage til 30 dage
      E. Mellem 4 måneder til 12 måneder
      F. Over 3 år

De MLLMs, der blev testet, var ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; og LLaVA-CoT.

Temporale Orden Forståelse: Resultater

Resultater af Temporal Order Understanding på tværs af forskellige modeller og input-layout, der viser nøjagtighed og konsistens for forskellige indstillinger og prompts.

Resultater af Temporal Order Understanding på tværs af forskellige modeller og input-layout, der viser nøjagtighed og konsistens for forskellige indstillinger og prompts.

Med hensyn til resultaterne ovenfor fandt forfatterne, at alle testede MLLMs, herunder GPT-4o (der viste den bedste samlepræstation), kæmpede betydeligt med TemporalVQA-benchmark – og selv GPT-4o kunne ikke konsekvent demonstrere pålidelig temporal resonemence på tværs af forskellige konfigurationer.

Forfatterne fastslår, at de konsekvent lave nøjagtighedsscores på tværs af LLMs understreger betydelige begrænsninger i modellernes evne til at fortolke og resonere om temporale sekvenser fra visuelle data. Forskerne bemærker, at disse udfordringer består, selv med brug af multi-billede-input og optimerede prompts, hvilket peger på grundlæggende begrænsninger i nuværende modelarkitekturer og træningsmetoder.

Testene viste betydelige variationer i præstation på tværs af prompt-strategier. Mens GPT-4o forbedrede sig med optimerede prompts (nåede 4% i enkelt-billede og 65,3% i multi-billede-indstillinger), forblev præstationen under acceptabelt niveau.

Modeller som LLaVA-NeXT og Qwen-VL var endnu mere følsomme, med præstation, der faldt, når alternativ prompts blev brugt, hvilket antyder, at prompt-ingeniørkunst alene ikke kan overvinde MLLMs grundlæggende begrænsninger i forhold til temporal resonemence.

Testene indikerede også, at billed-layout (dvs. vertikal vs. horisontal) havde en betydelig indvirkning på modelpræstation. GPT-4o forbedrede sin konsistens med vertikale arrangementer, stigende fra 39,2% til 52,8%; dog viste andre modeller, herunder LLaVA-strain, stærke retningsskævheder, excellerende i en retning, men fejlende i en anden.

Artiklen indikerer, at disse inkonsistenser antyder afhængighed af rumlige hints, snarere end sand temporal resonemence, med MLLMs, der ikke analyserer sekvensen af begivenheder eller forstår udviklingen over tid. I stedet synes de at have afhængt af mønstre eller visuelle funktioner relateret til billedernes layout, såsom deres position eller alignment, for at træffe beslutninger.

Kvalitative tests fremhæver GPT-4os forudsigelser, når de står over for forskellige input-rækkefølger. I den første rækkefølge præsenteres billedpar i deres originale sekvens, mens i den anden rækkefølge er sekvensen omvendt. Korrekte klassificeringer er markeret med grøn, rene misclassificeringer med rød, hallucineret resonemence med orange, og illogisk eller ‘ugyldig’ resonemence med brun, hvilket afslører modellens inkonsistenser på tværs af forskellige input-konfigurationer.

Kvalitative tests fremhæver GPT-4os forudsigelser, når de står over for forskellige input-rækkefølger. I den første rækkefølge præsenteres billedpar i deres originale sekvens, mens i den anden rækkefølge er sekvensen omvendt. Korrekte klassificeringer er markeret med grøn, rene misclassificeringer med rød, hallucineret resonemence med orange, og illogisk eller ‘ugyldig’ resonemence med brun, hvilket afslører modellens inkonsistenser på tværs af forskellige input-konfigurationer.

Sammenligningstests mellem enkelt-billede- og multi-billede-input demonstrerede begrænset samlet forbedring, med GPT-4o, der opnåede lidt bedre resultater på multi-billede-input, stigende fra 31,0% til 43,6% (med P1) og 46,0% til 65,3% (med P2).

Andre modeller, såsom InternVL, demonstrerede stabil, men lav nøjagtighed, mens Qwen-VL så mindre gevinster. Forfatterne konkluderer, at disse resultater indikerer, at yderligere visuel kontekst ikke væsentligt forbedrer temporale resonemence-evner, da modellerne kæmper med at integrere temporale oplysninger effektivt.

Menneskestudie

I en menneskestudie blev tre undersøgelser gennemført for at evaluere, hvor tæt den bedst præsterende multimodale MLLM (GPT-4o) opnåede i forhold til menneskelig estimation.

Mennesker opnåede 90,3% nøjagtighed, overgående GPT-4os 65,3% med 25%. Datasettet viste sig at være pålideligt, med minimale menneskelige fejl og konsekvent enighed om korrekte svar.

Resultater fra menneskestudiet for den første runde af tests.

Resultater fra menneskestudiet for den første runde af tests.

TidsintervallEstimering: Resultater

Resultater for TLE: tidsintervallEstimering evaluerer modellens nøjagtighed i at identificere intervaller mellem billedpar, på tværs af skalaer fra sekunder til år. Opgaven evaluerer hver models evne til at vælge den korrekte tidsenhed for det temporale gap.

Resultater for TLE: tidsintervallEstimering evaluerer modellens nøjagtighed i at identificere intervaller mellem billedpar, på tværs af skalaer fra sekunder til år. Opgaven evaluerer hver models evne til at vælge den korrekte tidsenhed for det temporale gap.

I disse tests opnåede MLLMs kun tilfredsstillende resultater på tidsintervallEstimering: GPT-4o opnåede 70% nøjagtighed, men de andre modeller opnåede væsentligt dårligere resultater (se tabel ovenfor), og præstationen varierede også betydeligt på tværs af de forskellige tidsenheder.

Forfatterne bemærker:

‘Opgaven med tidsintervallEstimering tester MLLMs evne til at slutte temporale intervaller mellem billedpar. [Alle] MLLMs, herunder top-præsterende som GPT-4o og Gemini1.5-Pro, kæmper med denne opgave, og opnår kun moderate nøjagtighedsniveauer på 60-70%. GPT-4o viser inkonsistent præstation, med stærk præstation i sekunder og år, men underpræsterer i timer.

Ligeledes viser LLaVA-CoT exceptionel præstation i tidsinterval på sekunder og dage, mens den viser bemærkelsesværdigt dårlig præstation i de andre tidsintervaller.’

Menneskestudie

I menneskestudiet for TLE forbedrede den gennemsnitlige menneskelige præstation GPT-4o (den bedst præsterende model også i denne kategori) med 12,3%.

Forfatterne bemærker, at nogle af udfordringerne var særligt krævende, og at i ét tilfælde returnerede alle menneskelige deltagere et forkert svar, sammen med alle AI-deltagerne.

Forfatterne konkluderer, at GPT-4o viser ‘rimeligt robuste resonemence-evner, trods den rækkefølge, billederne præsenteres i.

Konklusion

Hvis MLLMs til sidst opsamler og absorberer tilstrækkelig ‘genvej’-data til at dække selv de sværeste udfordringer af den type, der præsenteres af forfatterne i denne studie, kan det blive et spørgsmål, om de kan siges at have udviklet menneske-lignende generaliserings-evner i dette domæne.

Det er heller ikke kendt præcis, hvormed vi opnår vores egne evner i temporal resonemence – gør vi ligeså ‘kort’ indtil den rene mængde af lært erfaring afslører et mønster, der fungerer som ‘instinkt’ i forhold til denne type test?

 

* Set fra synspunktet, at modellerne i stigende grad optimeres med tab-funktioner, som menneskelig feedback har bidraget til, og effektivt optimeres af menneskelige tests og efterfølgende triage.

Først publiceret mandag, 27. januar 2025

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.