Connect with us

Även de mest avancerade språkmodellerna har svårt att förstå temporallogik

Artificiell intelligens

Även de mest avancerade språkmodellerna har svårt att förstå temporallogik

mm
Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

Att förutsäga framtida tillstånd är en kritisk uppgift inom datorseende-forskning – inte minst inom robotik, där verkliga situationer måste beaktas. Maskinlärningssystem som har fått i uppdrag att utföra uppdrag som är kritiska för uppdraget måste därför ha tillräcklig förståelse för den fysiska världen.

Men i vissa fall kan en tydligen imponerande kunskap om temporell verklighet vara bedräglig: en ny rapport från Förenade Arabemiraten har funnit att de mest avancerade multimodala storskaliga språkmodellerna (MLLM), inklusive branschledare som GPT-4o och Google Gemini, har svårt att tolka hur tiden representeras i bilder.

Exempel på sekventiella par (se bild nedan), som skulle vara enkla för människor även om de presenteras i fel ordning, kan förvirra avancerade MLLM när de presenteras i oväntade sammanhang eller konfigurationer (såsom andra-bilden-först, sammanfogade till enstaka bilder, sekventiella flera bilder som kan eller inte kan representera den korrekta temporala ordningen, och så vidare.).

Exempel från en av datamängderna som sammanställdes för den nya studien, som visar sekventiella händelser. Forskarna har gjort denna data tillgänglig på https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Exempel från en av datamängderna som sammanställdes för den nya studien, som visar sekventiella händelser i form av ‘före och efter’-bilder. Forskarna har gjort denna data tillgänglig på https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Forskarna gav modellerna grundläggande temporala resonemangsutmaningar, såsom att bestämma händelseordning eller uppskatta tidsintervall, och fann att de sju MLLM som testades presterade betydligt under mänsklig noggrannhet:

‘Sammanfattningsvis visar [resultaten] att alla nuvarande MLLM, inklusive GPT-4o – den mest avancerade modellen i vår utvärdering – har svårt med den föreslagna benchmarken. Trots GPT-4o:s överlägsna prestanda i förhållande till andra modeller, misslyckas den med att konsekvent visa tillförlitlig temporalt resonemang över olika inställningar.

‘De konsekventa noggrannhetspoängen är betydligt låga för alla modeller, vilket indikerar betydande begränsningar i deras förmåga att förstå och tolka temporala sekvenser från visuella indata. Dessa brister är uppenbara även när modellerna tillhandahålls med multi-bildinmatning eller optimerade prompter, vilket tyder på att nuvarande arkitekturer och utbildningsmetoder är otillräckliga för robust temporalt ordningsförståelse.’

Maskinlärningssystem är utformade för att optimera till de mest precisa, men också de mest effektiva och människovänliga resultaten*. Eftersom de inte avslöjar sin resonemang explicit kan det vara svårt att avgöra när de fuskar eller använder ‘genvägar’.

I ett sådant fall kan MLLM nå rätt svar med fel metoder. Det faktum att ett sådant svar kan vara korrekt kan inspirera falskt förtroende för modellen, som kan producera felaktiga resultat med samma metod i senare uppgifter som presenteras för den.

Värre ännu, sådan vilseledning kan bli ännu mer djupt rotad i utvecklingskedjan om människor blir imponerade av det och ger positiv återkoppling i tester och annoteringssessioner som kan bidra till den riktning som data och/eller modellen kan ta.

I detta fall är förslaget att MLLM ‘förfalskar’ en sann förståelse av kronologi och temporala fenomen, genom att observera och ankra till sekundära indikatorer (såsom tidsstämplar, till exempel, i videodata, ordningen på bilder i en layout, eller till och med – potentiellt – sekventiellt numrerade filnamn).

Det indikerar vidare att MLLM för närvarande inte uppfyller någon verklig definition av att ha generaliserat ett begrepp om temporala fenomen – åtminstone, i den utsträckning som människor kan.

Den nya rapporten heter Kan multimodala MLLM göra visuell temporalt förståelse och resonemang? Svaret är Nej!, och kommer från tre forskare vid Mohamed bin Zayed University of Artificial Intelligence och Alibaba International Digital Commerce.

Data och tester

Forskarna noterar att tidigare benchmark-tester och studier, såsom MMMU och TemporalBench, fokuserar på enstaka bildinmatningar eller formulerar frågor för MLLM som kan vara alltför lätta att besvara, och kanske inte avslöjar en tendens till genvägsbeteende.

Därför erbjuder författarna två uppdaterade tillvägagångssätt: Temporalt ordningsförståelse (TOU) och Tidsintervallsskattning (TLE). TOU-metoden testar modellernas förmåga att bestämma den korrekta sekvensen av händelser från par av videofrimer; TLE-metoden utvärderar MLLM:s förmåga att skatta tidsintervallet mellan två bilder, som sträcker sig från sekunder till år.

Från rapporten, de två huvudsakliga uppgifterna i TemporalVQA-benchmarken: i Temporalt ordningsförståelse, bestämmer modellen vilken av de två bilderna som visar en händelse som inträffade först; i Tidsintervallsskattning, skattar modellen hur mycket tid som har passerat mellan de två bilderna, med alternativ som inkluderar sekunder, minuter, dagar eller år. Dessa uppgifter syftar till att testa hur väl MLLM kan resonera om tid och sekvens av visuella händelser. Källa: https://arxiv.org/pdf/2501.10674

Från rapporten, de två huvudsakliga uppgifterna i TemporalVQA-benchmarken: i Temporalt ordningsförståelse, bestämmer modellen vilken av de två bilderna som visar en händelse som inträffade först; i Tidsintervallsskattning, skattar modellen hur mycket tid som har passerat mellan de två bilderna, med alternativ som inkluderar sekunder, minuter, dagar eller år. Dessa uppgifter syftar till att testa hur väl MLLM kan resonera om tid och sekvens av visuella händelser. Källa: https://arxiv.org/pdf/2501.10674

Forskarna sammanställde 360 bildpar för TOU-benchmarken, med hjälp av öppen källkod-videor från Pixabay och Pexels, så att det skulle vara möjligt att göra datamängden tillgänglig via en grafisk användargränssnitt.

Videorna täckte ett brett spektrum av ämnen, från människor i vardagliga aktiviteter till icke-mänskligt innehåll som djur och växter. Från dessa valdes par av ramar ut för att visa en sekvens av händelser med tillräcklig variation för att göra start ramen ‘uppenbar’.

Mänsklig urval användes för att säkerställa att ramarna kunde bestämt ordnas. Till exempel visar ett av de sammanställda paren en delvis fylld tekopp i en ram, och samma kopp helt fylld med te i nästa, vilket gör sekvenslogiken lätt att identifiera.

Den temporala logiken i dessa två bilder kan inte undvikas, eftersom teet inte kan sugas tillbaka upp genom pipen.

Den temporala logiken i dessa två bilder kan inte undvikas, eftersom teet inte kan sugas tillbaka upp genom pipen.

På detta sätt erhölls 360 bildpar.

För TLE-metoden valdes upphovsrättsfria bilder från Google och Flickr, samt utvalda ramar från upphovsrättsfria videor på YouTube. Ämnesområdet för dessa videor visade scener eller föremål vars förändringsintervall sträckte sig från sekunder till dagar till säsonger – till exempel, mogna frukter, eller förändringen av säsonger i landskap.

Således sammanställdes 125 bildpar för TLE-metoden.

Inte alla MLLM som testades kunde bearbeta flera bilder; därför skilde testerna sig för att anpassa sig till varje modells förmåga.

Flera versioner av de sammanställda datamängderna genererades, där vissa av paren var sammanfogade vertikalt, och andra horisontellt. Ytterligare varianter bytte den sanna och korrekta temporala sekvensen av paren.

Två prompt-typer utvecklades. Den första följde denna mall:

Skedde händelsen i (vänster / topp / första)-bilden före händelsen i (höger / botten / andra)-bilden? Ange sant eller falskt med resonemang.

Den andra följde detta schema:

Mellan dessa två bilder, vilken visar händelsen som inträffade först? Ange (vänster eller höger / topp eller botten / första eller andra) med resonemang.

För TLE var frågorna flervalsfrågor, som bad modellerna att utvärdera tidsintervallet mellan de två presenterade bilderna, med sekunder, timmar, minuter, dagar, månader och år som tillgängliga tidsenheter. I denna konfiguration presenterades den senaste bilden på höger sida.

Prompten som användes här var:

I den givna bilden, skatta tiden som har passerat mellan den första bilden (vänster) och den andra bilden (höger).

Välj ett av följande alternativ:

    1. Mindre än 15 sekunder
      B. Mellan 2 minuter till 15 minuter
      C. Mellan 1 timme till 12 timmar
      D. Mellan 2 dagar till 30 dagar
      E. Mellan 4 månader till 12 månader
      F. Mer än 3 år

De MLLM som testades var ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; och LLaVA-CoT.

Temporalt ordningsförståelse: Resultat

Resultat från Temporalt ordningsförståelse över olika modeller och inmatningslayouter, som visar noggrannhet och konsekvens för olika inställningar och prompter.

Resultat från Temporalt ordningsförståelse över olika modeller och inmatningslayouter, som visar noggrannhet och konsekvens för olika inställningar och prompter.

Med avseende på resultaten ovan fann författarna att alla testade MLLM, inklusive GPT-4o (som visade den bästa övergripande prestandan), hade betydande svårigheter med TemporalVQA-benchmarken – och till och med GPT-4o misslyckades med att konsekvent visa tillförlitlig temporalt resonemang över olika konfigurationer.

Författarna hävdar att de konsekventa noggrannhetspoängen över LLM är betydligt låga, vilket indikerar betydande begränsningar i modellernas förmåga att tolka och resonera om temporala sekvenser från visuella data. Forskarna noterar att dessa utmaningar kvarstår även med användning av multi-bildinmatning och optimerade prompter, vilket tyder på grundläggande begränsningar i nuvarande modellarkitekturer och utbildningsmetoder.

Testerna visade betydande variationer i prestanda över promptstrategier. Medan GPT-4o förbättrades med optimerade prompter (nådde 4% i enstaka bild och 65,3% i multi-bildinställningar), förblev prestandan under acceptabla nivåer.

Modeller som LLaVA-NeXT och Qwen-VL var ännu mer känsliga, med prestanda som minskade när alternativa prompter användes, vilket tyder på att prompt-engineering ensam inte kan övervinna MLLM:s grundläggande begränsningar i fråga om temporalt resonemang.

Testerna indikerade också att bildlayouten (dvs. vertikal kontra horisontell) hade en betydande inverkan på modellprestanda. GPT-4o förbättrade sin konsekvens med vertikala arrangement, stigande från 39,2% till 52,8%; dock visade andra modeller, inklusive LLaVA-strain, starka riktningsbias, excellerande i en orientering men misslyckande i en annan.

Rapporten indikerar att dessa inkonsekvenser tyder på beroende av spatiala ledtrådar, snarare än verkligt temporalt resonemang, med MLLM som inte genuint analyserar sekvensen av händelser eller förstår progressionen över tid. Istället verkar de ha förlitat sig på mönster eller visuella funktioner relaterade till bildernas layout, såsom deras position eller justering, för att fatta beslut.

Kvalitativa tester som belyser GPT-4o:s förutsägelser när de möter olika inmatningsordningar. I den första ordningen presenteras bildparen i deras ursprungliga sekvens, medan i den andra ordningen är sekvensen omvänd. Korrekta klassificeringar markeras i grönt, rena missklassificeringar i rött, hallucinerat resonemang i orange, och illogiskt eller ‘ogiltigt’ resonemang i brunt, vilket avslöjar modellens inkonsekvenser över olika inmatningskonfigurationer.

Kvalitativa tester som belyser GPT-4o:s förutsägelser när de möter olika inmatningsordningar. I den första ordningen presenteras bildparen i deras ursprungliga sekvens, medan i den andra ordningen är sekvensen omvänd. Korrekta klassificeringar markeras i grönt, rena missklassificeringar i rött, hallucinerat resonemang i orange, och illogiskt eller ‘ogiltigt’ resonemang i brunt, vilket avslöjar modellens inkonsekvenser över olika inmatningskonfigurationer.

Jämförelse tester mellan enstaka bildinmatningar och multi-bildinmatningar visade begränsad övergripande förbättring, med GPT-4o som presterade något bättre på multi-bildinmatning, stigande från 31,0% till 43,6% (med P1) och 46,0% till 65,3% (med P2).

Andra modeller, såsom InternVL, visade stabil men låg noggrannhet, medan Qwen-VL såg små vinster. Författarna slutsats är att dessa resultat indikerar att ytterligare visuell kontext inte väsentligt förbättrar temporalt resonemangsförmåga, eftersom modeller kämpar för att integrera temporala information effektivt.

Mänsklig studie

I en mänsklig studie genomfördes tre undersökningar för att bedöma hur nära den bäst presterande multimodala MLLM presterade i jämförelse med mänskliga skattningar.

Människor uppnådde 90,3% noggrannhet, överträffande GPT-4o:s 65,3% med 25%. Datamängden visade sig vara tillförlitlig, med minimala mänskliga fel och konsekvent överensstämmelse om korrekta svar.

Resultat från den mänskliga användarstudien för den första omgången tester.

Resultat från den mänskliga användarstudien för den första omgången tester.

Tidsintervallsskattning: Resultat

Resultat för TLE: tidsintervallsskattning utvärderar modellens noggrannhet i att identifiera intervall mellan bildpar, över skalor från sekunder till år. Uppgiften utvärderar varje modells förmåga att välja den korrekta tids-skalan för det temporala gapet.

Resultat för TLE: tidsintervallsskattning utvärderar modellens noggrannhet i att identifiera intervall mellan bildpar, över skalor från sekunder till år. Uppgiften utvärderar varje modells förmåga att välja den korrekta tids-skalan för det temporala gapet.

I dessa tester presterade MLLM bara tillfredsställande på tidsintervallsskattning: GPT-4o uppnådde 70% noggrannhet, men de andra modellerna presterade betydligt sämre (se tabell ovan), och prestanda varierade också betydligt över de olika tids skalorna.

Författarna kommenterar:

‘Uppgiften tidsintervallsskattning testar MLLM:s förmåga att inferera temporala intervall mellan bildpar. [Alla] MLLM, inklusive topppresterare som GPT-4o och Gemini1.5-Pro, kämpar med denna uppgift, och uppnår endast måttliga noggrannhetsnivåer på 60-70%. GPT-4o visar inkonsekvent prestanda, med stark prestanda i sekunder och år men underpresterar i timmar.

‘På samma sätt visar LLaVA-CoT exceptionell prestanda i tidsintervallet sekunder och dagar, medan den visar betydligt dålig prestanda i de andra tidsintervallet.’

Mänsklig studie

I den mänskliga studien för TLE förbättrades den genomsnittliga mänskliga prestandan jämfört med GPT-4o (den bäst presterande modellen även i denna kategori) med 12,3%.

Författarna noterar att vissa av utmaningarna var särskilt krävande, och att i ett fall returnerade alla mänskliga deltagare ett felaktigt svar, tillsammans med alla AI-deltagare.

Författarna slutsats är att GPT-4o visar ‘tillräckligt robusta resonemangsförmågor, trots den ordning som bilderna presenteras i.

Slutsats

Om MLLM till slut samlar och absorberar tillräckligt med ‘genvägsdata’ för att täcka även de mest krävande utmaningarna av det slag som presenteras av författarna i denna studie, kan det bli en öppen fråga om de kan sägas ha utvecklat mänsklig stil generaliseringsförmåga i detta område.

Inte heller är det känt exakt vilken väg vi tar för att få vår egen förmåga i temporalt resonemang – fuskar vi likaså tills den rena mängden av lärd erfarenhet avslöjar ett mönster som fungerar som ‘instinkt’ i förhållande till denna typ av test?

 

* Från synvinkeln att modeller är alltmer optimerade med förlustfunktioner som mänsklig återkoppling har bidragit till, och effektivt optimerats av mänskliga tester och efterföljande triage.

Publicerad första gången måndag, 27 januari 2025

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.