Intelligenza artificiale

Anche i modelli linguistici di stato dell’arte lottano per comprendere la logica temporale

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

Prevedere gli stati futuri è una missione critica nella ricerca di visione computerizzata – non meno in robotica, dove le situazioni del mondo reale devono essere considerate. I sistemi di apprendimento automatico affidati con compiti di missione critica hanno quindi bisogno di una comprensione adeguata del mondo fisico.

Tuttavia, in alcuni casi, una conoscenza apparentemente impressionante della realtà temporale potrebbe essere ingannevole: un nuovo articolo degli Emirati Arabi Uniti ha scoperto che i modelli linguistici multimodali di stato dell’arte (MLLMs), inclusi i leader di settore GPT-4o e Google Gemini, non riescono quando si tratta di interpretare come il tempo è rappresentato nelle immagini.

Esempi di paia sequenziali (vedi immagine sotto), che sarebbero facili per gli esseri umani anche quando messi in ordine sbagliato, possono ingannare i MLLMs avanzati quando presentati in contesti o configurazioni inaspettati (come seconda immagine-prima, concatenate in immagini singole, immagini multiple sequenziali che possono o non possono rappresentare l’ordine temporale corretto, e così via.).

Esempi da uno dei set di dati compilati per il nuovo studio, che mostrano eventi sequenziali. I ricercatori hanno reso disponibili questi dati all'indirizzo https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Esempi da uno dei set di dati compilati per il nuovo studio, che mostrano eventi sequenziali nella forma di ‘prima e dopo’ immagini. I ricercatori hanno reso disponibili questi dati all’indirizzo https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

I ricercatori hanno affidato ai modelli sfide di ragionamento temporale di base, come determinare l’ordine degli eventi o stimare i gap temporali, e hanno scoperto che i sette MLLMs testati hanno eseguito in modo notevole al di sotto dell’accuratezza umana:

‘Complessivamente, i [risultati] rivelano che tutti i MLLMs attuali, inclusi GPT-4o – il modello più avanzato nella nostra valutazione – lottano con il benchmark proposto. Nonostante le prestazioni superiori di GPT-4o rispetto ad altri modelli, non riesce a dimostrare in modo coerente un ragionamento temporale accurato in diversi ambienti.

‘I punteggi di accuratezza coerenti sono notevolmente bassi per tutti i modelli, indicando limitazioni significative nella loro capacità di comprendere e interpretare sequenze temporali da input visivi. Queste carenze sono evidenti anche quando i modelli sono forniti di input multi-immagine o prompt ottimizzati, suggerendo che le architetture e le metodologie di formazione attuali sono insufficienti per una comprensione robusta dell’ordine temporale.’

I sistemi di apprendimento automatico sono progettati per ottimizzare i risultati più precisi, ma anche i più efficienti e graditi alle persone*. Dal momento che non rivelano il loro ragionamento in modo esplicito, può essere difficile capire quando imbrogliano, o usano ‘scorciatoie’.

In tal caso, il MLLM può arrivare alla risposta giusta con il metodo sbagliato. Il fatto che una tale risposta possa essere corretta può ispirare una falsa fiducia nel modello, che potrebbe produrre risultati errati con lo stesso metodo in compiti successivi presentati.

Peggio ancora, questa deviazione può diventare ancora più radicata nella catena di sviluppo se gli esseri umani sono impressionati da essa e forniscono un feedback positivo nelle prove e nelle sessioni di annotazione che possono contribuire alla direzione che i dati e/o il modello potrebbero prendere.

In questo caso, la suggestione è che i MLLMs stanno ‘fingendo’ una vera comprensione della cronologia e dei fenomeni temporali, osservando e ancorandosi a indicatori secondari (come ad esempio i timestamp, nel caso dei dati video, l’ordine delle immagini in un layout, o anche – potenzialmente – i nomi dei file numerati in sequenza).

Ciò indica inoltre che i MLLMs attualmente non soddisfano alcuna definizione reale di aver generalizzato un concetto di fenomeni temporali – almeno, nella misura in cui gli esseri umani possono.

Il nuovo articolo è intitolato Possono i MLLMs multimodali fare comprensione e ragionamento visivo temporale? La risposta è No!, e proviene da tre ricercatori dell’Università di Intelligenza Artificiale Mohamed bin Zayed e di Alibaba International Digital Commerce.

Dati e Test

Gli autori notano che precedenti benchmark e studi, come MMMU e TemporalBench, si concentrano su input di immagini singole o formano domande per i MLLMs che possono essere troppo facili da rispondere, e possono non rivelare una tendenza verso un comportamento di scorciatoia.

Pertanto, gli autori offrono due approcci aggiornati: Comprensione dell’ordine temporale (TOU) e Stima del tempo trascorso (TLE). L’approccio TOU testa la capacità dei modelli di determinare la sequenza corretta degli eventi da paia di frame video; il metodo TLE valuta la capacità del MLLM di stimare la differenza di tempo tra due immagini, che va da secondi a anni.

Dal paper, i due compiti principali del benchmark TemporalVQA: in Comprensione dell’ordine temporale, il modello decide quale delle due immagini mostra un evento che si è verificato per primo; in Stima del tempo trascorso, il modello stima quanto tempo è passato tra le due immagini, selezionando tra opzioni che includono secondi, minuti, giorni o anni. Questi compiti hanno lo scopo di testare come i MLLMs possano ragionare sul timing e la sequenza di eventi visivi. Fonte: https://arxiv.org/pdf/2501.10674

I ricercatori hanno curato 360 paia di immagini per il benchmark TOU, utilizzando video open source da Pixabay e Pexels, in modo che fosse possibile rendere il set di dati disponibile tramite un’interfaccia grafica.

I video coprivano una gamma di soggetti, dalle persone in attività quotidiane a contenuti non umani come animali e piante. Da questi, paia di frame sono stati selezionati per rappresentare una sequenza di eventi con sufficiente varietà per rendere la cornice iniziale ‘ovvia’.

La selezione umana è stata utilizzata per garantire che i frame potessero essere definitivamente ordinati. Ad esempio, una delle paia curate mostra una tazza di tè parzialmente piena in un frame e la stessa tazza piena di tè nel frame successivo, rendendo la logica della sequenza facile da identificare.

La logica temporale di queste due immagini non può essere sfuggita, poiché il tè non può essere risucchiato indietro dal beccuccio.

In questo modo, 360 paia di immagini sono state ottenute.

Per l’approccio TLE, immagini gratuite da copyright sono state scelte da Google e Flickr, nonché frame selezionati da video senza copyright su YouTube. Il soggetto dei video presentava scene o oggetti il cui intervallo di cambiamento andava da secondi a giorni a stagioni – ad esempio, frutta che matura, o il cambiamento delle stagioni in paesaggi.

Così 125 paia di immagini sono state curate per il metodo TLE.

Non tutti i MLLMs testati potevano elaborare più immagini; pertanto, i test differivano per adattarsi alle capacità di ciascun modello.

Sono state generate molteplici versioni dei set di dati curati, in cui alcune delle paia sono state concatenate verticalmente e altre orizzontalmente. Ulteriori variazioni hanno scambiato la sequenza temporale corretta delle paia.

Due tipi di prompt sono stati sviluppati. Il primo ha seguito questo modello:

È successo l'evento nell'immagine (sinistra / superiore / prima) prima dell'evento nell'immagine (destra / inferiore / seconda) ? Stato vero o falso con ragionamento.

Il secondo ha seguito questo schema:

Tra queste due immagini, quale rappresenta l'evento che si è verificato per primo? Stato (sinistra o destra / superiore o inferiore / prima o seconda) con ragionamento.

Per TLE, le domande sono state a scelta multipla, chiedendo ai modelli di valutare il tempo trascorso tra le due immagini presentate, con secondi, ore, minuti, giorni, mesi e anni disponibili come unità di tempo. In questa configurazione, l’immagine più recente è stata presentata a destra.

Il prompt utilizzato qui è stato:

Nell'immagine data, stima il tempo trascorso tra la prima immagine (sinistra) e la seconda immagine (destra).

Scegli una delle seguenti opzioni:

1. Meno di 15 secondi B. Tra 2 minuti e 15 minuti C. Tra 1 ora e 12 ore D. Tra 2 giorni e 30 giorni E. Tra 4 mesi e 12 mesi F. Più di 3 anni

I MLLMs testati sono stati ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; e LLaVA-CoT.

Comprensione dell’ordine temporale: Risultati

Risultati della Comprensione dell’ordine temporale tra diversi modelli e layout di input, che mostrano accuratezza e coerenza per vari setup e prompt.

Riguardo ai risultati mostrati sopra, gli autori hanno scoperto che tutti i MLLMs testati, inclusi GPT-4o (che ha mostrato le prestazioni generali migliori), hanno lottato in modo significativo con il benchmark TemporalVQA – e anche GPT-4o non è riuscito a esibire in modo coerente un ragionamento temporale affidabile in diversi ambienti.

Gli autori sostengono che le prestazioni coerenti a basso livello attraverso i LLMs evidenziano carenze significative nella capacità dei modelli di interpretare e ragionare su sequenze temporali da dati visivi. I ricercatori notano che queste sfide persistono anche con l’uso di input multi-immagine e prompt ottimizzati, puntando a limitazioni fondamentali nelle architetture e nei metodi di formazione attuali.

I test hanno mostrato variazioni significative nelle prestazioni attraverso strategie di prompt. Mentre GPT-4o è migliorato con prompt ottimizzati (raggiungendo il 4% in singola immagine e il 65,3% in multi-immagine), le prestazioni sono rimaste al di sotto dei livelli accettabili.

Modelli come LLaVA-NeXT e Qwen-VL sono stati ancora più sensibili, con prestazioni in declino quando sono stati utilizzati prompt alternativi, suggerendo che l’ingegneria dei prompt da sola non può superare le limitazioni fondamentali dei MLLMs in relazione al ragionamento temporale.

I test hanno anche indicato che il layout dell’immagine (ad esempio, verticale vs orizzontale) ha avuto un impatto significativo sulle prestazioni del modello. GPT-4o ha migliorato la sua coerenza con disposizioni verticali, passando dal 39,2% al 52,8%; tuttavia, altri modelli, inclusi i ceppi LLaVA, hanno mostrato forti pregiudizi direzionali, eccellendo in un orientamento ma fallendo in un altro.

Il paper indica che queste incoerenze suggeriscono una dipendenza da indizi spaziali, piuttosto che un vero ragionamento temporale, con i MLLMs che non analizzano effettivamente la sequenza degli eventi o comprendono il progresso nel tempo. Invece, sembrano aver fatto affidamento su modelli o caratteristiche visive relative al layout delle immagini, come la loro posizione o allineamento, per prendere decisioni.

Test qualitativi che evidenziano le previsioni di GPT-4o quando si confronta con ordini di input diversi. Nel primo ordine, le paia di immagini sono presentate nella loro sequenza originale, mentre nel secondo ordine, la sequenza è invertita. Le classificazioni corrette sono segnate in verde, le classificazioni puramente errate in rosso, il ragionamento allucinato in arancione e il ragionamento illogico o ‘non valido’ in marrone, rivelando le incoerenze del modello in diversi layout di input.

Confronti tra input di singola immagine e multi-immagine hanno dimostrato un miglioramento limitato, con GPT-4o che ha eseguito leggermente meglio con input multi-immagine, passando dal 31,0% al 43,6% (con P1) e dal 46,0% al 65,3% (con P2).

Altri modelli, come InternVL, hanno dimostrato una stabilità ma un’accuratezza bassa, mentre Qwen-VL ha visto guadagni minori. Gli autori concludono che questi risultati indicano che l’aggiunta di contesto visivo non migliora sostanzialmente le capacità di ragionamento temporale, poiché i modelli lottano per integrare efficacemente le informazioni temporali.

Studio umano

In uno studio umano, tre sondaggi sono stati condotti per valutare quanto il MLLM multimodale con le prestazioni migliori abbia eseguito rispetto alla stima umana.

Gli esseri umani hanno raggiunto il 90,3% di accuratezza, superando il 65,3% di GPT-4o del 25%. Il set di dati si è rivelato affidabile, con errori umani minimi e un accordo coerente sulle risposte corrette.

Risultati dello studio sugli utenti umani per il primo round di test.

Stima del tempo trascorso: Risultati

Risultati per TLE: la stima del tempo trascorso valuta l’accuratezza del modello nell’identificare gli intervalli tra paia di immagini, su scale da secondi a anni. Il compito valuta la capacità di ogni modello di selezionare la scala di tempo corretta per il divario temporale.

In questi test, i MLLMs hanno eseguito solo in modo adeguato la stima del tempo trascorso: GPT-4o ha raggiunto il 70% di accuratezza, ma gli altri modelli hanno eseguito in modo significativamente peggiore (vedi tabella sopra), e le prestazioni sono variate notevolmente attraverso le diverse scale di tempo.

Gli autori commentano:

‘Il compito di stima del tempo trascorso testa la capacità dei MLLMs di inferire intervalli temporali tra paia di immagini. [Tutti] i MLLMs, inclusi i migliori performer come GPT-4o e Gemini1.5-Pro, lottano con questo compito, raggiungendo solo livelli di accuratezza moderati del 60-70%. GPT-4o mostra prestazioni inconsistenti, con prestazioni forti nei secondi e negli anni ma sottoprestazioni nelle ore.

Allo stesso modo, LLaVA-CoT dimostra prestazioni eccezionali negli intervalli di tempo di secondi e giorni, mentre mostra prestazioni notevolmente scarse negli altri intervalli di tempo.’

Studio umano

Nello studio umano per TLE, la prestazione media umana è migliorata rispetto a GPT-4o (il modello con le migliori prestazioni anche in questa categoria) del 12,3%.

Gli autori notano che alcune delle sfide sono state particolarmente impegnative e che in un caso tutti i partecipanti umani hanno restituito una risposta errata, insieme a tutti i partecipanti AI.

Gli autori concludono che GPT-4o esibisce ‘capacità di ragionamento ragionevolmente robuste, nonostante l’ordine delle immagini presentate.

Conclusione

Se i MLLMs alla fine accumulano e assorbono abbastanza ‘scorciatoie’ per coprire anche le sfide più difficili del tipo presentato dagli autori in questo studio, se possono essere considerati come aver sviluppato capacità di generalizzazione umana in questo dominio potrebbe diventare un punto irrilevante.

Né è noto esattamente come otteniamo le nostre capacità di ragionamento temporale – facciamo anche noi ‘imbrogliare’ fino a quando la quantità di esperienza appresa non rivela un modello che funziona come ‘istinto’ per questo tipo di testo?

* Dal punto di vista che i modelli sono sempre più ottimizzati con funzioni di perdita che il feedback umano ha contribuito a creare e ottimizzato efficacemente da prove e triage umane successive.

Pubblicato per la prima volta lunedì, 27 gennaio 2025