Künstliche Intelligenz

Selbst State-of-the-Art-Sprachmodelle haben Schwierigkeiten, temporale Logik zu verstehen

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

Die Vorhersage zukünftiger Zustände ist eine kritische Mission in der Forschung im Bereich Computer Vision – nicht zuletzt in der Robotik, wo reale Situationen berücksichtigt werden müssen. Machine-Learning-Systeme, die mit mission-kritischen Aufgaben betraut sind, benötigen daher ein angemessenes Verständnis der physischen Welt.

Allerdings kann in einigen Fällen ein scheinbar beeindruckendes Wissen über temporale Realität täuschen: Eine neue Studie aus den Vereinigten Arabischen Emiraten hat herausgefunden, dass State-of-the-Art-Multimodale Large Language Modelle (MLLMs), einschließlich der Branchenführer GPT-4o und Google Gemini, bei der Interpretation, wie Zeit in Bildern dargestellt wird, versagen.

Beispielhafte sequenzielle Paare (siehe Bild unten), die für Menschen auch dann nicht herausfordernd wären, wenn sie in der falschen Reihenfolge präsentiert werden, können fortschrittliche MLLMs verwirren, wenn sie in unerwarteten Kontexten oder Konfigurationen präsentiert werden (wie z.B. zweites Bild zuerst, zu einem einzigen Bild zusammengefügt, sequenzielle multiple Bilder, die möglicherweise die korrekte temporale Reihenfolge darstellen oder nicht).

Beispiele aus einem der Datensätze, die für die neue Studie zusammengestellt wurden, die sequenzielle Ereignisse zeigen. Die Forscher haben diese Daten unter https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer verfügbar gemacht

Beispiele aus einem der Datensätze, die für die neue Studie zusammengestellt wurden, die sequenzielle Ereignisse in der Form von ‘vorher’ und ‘nachher’-Bildern zeigen. Die Forscher haben diese Daten unter https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer verfügbar gemacht

Die Forscher beauftragten die Modelle mit grundlegenden temporalen Denkaufgaben, wie der Bestimmung der Ereignisreihenfolge oder der Schätzung von Zeitspannen, und fanden heraus, dass die sieben getesteten MLLMs deutlich unter der menschlichen Genauigkeit lagen:

‘Insgesamt zeigen die [Ergebnisse], dass alle aktuellen MLLMs, einschließlich GPT-4o – dem leistungsstärksten Modell in unserer Bewertung – mit dem vorgeschlagenen Benchmark Schwierigkeiten haben. Trotz GPT-4os überlegener Leistung im Vergleich zu anderen Modellen kann es nicht konsistent genaue temporale Denkfähigkeiten in verschiedenen Settings demonstrieren.

‘Die konsistenten Genauigkeitswerte sind für alle Modelle auffallend niedrig, was auf erhebliche Einschränkungen in ihrer Fähigkeit hinweist, temporale Sequenzen aus visuellen Eingaben zu verstehen und zu interpretieren. Diese Mängel sind selbst dann offensichtlich, wenn den Modellen multi-Bild-Eingaben oder optimierte Prompts zur Verfügung gestellt werden, was darauf hindeutet, dass die aktuellen Architekturen und Trainingsmethoden für ein robustes Verständnis der temporalen Reihenfolge unzureichend sind.’

Machine-Learning-Systeme sind darauf ausgelegt, die genauesten, effizientesten und menschenfreundlichsten Ergebnisse zu optimieren*. Da sie ihre Denkprozesse nicht explizit offenlegen, kann es schwierig sein, zu erkennen, wenn sie betrügen oder ‘Abkürzungen’ verwenden.

In einem solchen Fall kann das MLLM durch die richtige Methode zur falschen Antwort gelangen. Die Tatsache, dass eine solche Antwort korrekt sein kann, kann zu falscher Zuversicht in das Modell führen, das möglicherweise durch die gleiche Methode in späteren Aufgaben, die es zu lösen hat, falsche Ergebnisse produziert.

Schlimmer noch, diese Fehlleitung kann sich noch tiefer in die Entwicklungskette einnisten, wenn Menschen davon beeindruckt sind und positive Rückmeldungen in Tests und Annotationssitzungen geben, die zur Richtung beitragen können, die die Daten und/oder das Modell nehmen.

In diesem Fall deutet darauf hin, dass MLLMs eine wahre Verständnis von Chronologie und temporalen Phänomenen ‘vortäuschen’, indem sie sekundäre Indikatoren beobachten und verankern (wie z.B. Zeitstempel in Video-Daten, die Reihenfolge von Bildern in einer Layout oder sogar – potenziell – sequenziell nummerierte Dateinamen).

Es zeigt auch, dass MLLMs derzeit keine echte Verallgemeinerung eines Konzepts temporaler Phänomene erfüllen – zumindest nicht in dem Maße, wie Menschen es können.

Die neue Studie trägt den Titel Können Multimodale MLLMs visuelles temporales Verständnis und Denken durchführen? Die Antwort ist Nein! und stammt von drei Forschern der Mohamed bin Zayed University of Artificial Intelligence und Alibaba International Digital Commerce.

Daten und Tests

Die Autoren bemerken, dass vorherige Benchmarks und Studien, wie z.B. MMMU und TemporalBench, sich auf einzelne Bild-Eingaben konzentrieren oder Fragen für die MLLMs formulieren, die möglicherweise zu einfach zu beantworten sind und möglicherweise nicht die Neigung zu Abkürzungsverhalten aufdecken.

Daher bieten die Autoren zwei aktualisierte Ansätze: Temporale Reihenfolge-Verständnis (TOU) und Zeitverzögerungs-Schätzung (TLE). Der TOU-Ansatz testet die Fähigkeit der Modelle, die korrekte Reihenfolge von Ereignissen aus Bildpaaren zu bestimmen; die TLE-Methode bewertet die Fähigkeit des MLLMs, die Zeitdifferenz zwischen zwei Bildern zu schätzen, von Sekunden bis hin zu Jahren.

Aus der Studie, die beiden Hauptaufgaben des TemporalVQA-Benchmarks: Im Temporal Order Understanding entscheidet das Modell, welches von zwei Bildern ein Ereignis zeigt, das zuerst aufgetreten ist; in der Time-lapse-Estimation schätzt das Modell, wie viel Zeit zwischen zwei Bildern vergangen ist, wobei Optionen wie Sekunden, Minuten, Tage oder Jahre zur Verfügung stehen. Diese Aufgaben zielen darauf ab, zu testen, wie gut die MLLMs über die Zeit und die Reihenfolge visueller Ereignisse nachdenken können. Quelle: https://arxiv.org/pdf/2501.10674

Die Forscher haben 360 Bildpaare für den TOU-Benchmark zusammengestellt, indem sie Open-Source-Videos von Pixabay und Pexels verwendeten, damit es möglich war, den Datensatz über eine Benutzeroberfläche verfügbar zu machen.

Die Videos deckten eine Vielzahl von Themen ab, von Menschen in alltäglichen Aktivitäten bis hin zu nicht-menschlichen Inhalten wie Tieren und Pflanzen. Aus diesen wurden Bildpaare ausgewählt, um eine Sequenz von Ereignissen mit ausreichender Variation darzustellen, um den Startframe ‘offensichtlich’ zu machen.

Menschliche Auswahl wurde verwendet, um sicherzustellen, dass die Frames definitiv geordnet werden konnten. Zum Beispiel zeigt eines der kuratierten Paare einen teilweise gefüllten Teetasse in einem Frame und den gleichen Becher voller Tee im nächsten, was die Sequenzlogik leicht zu identifizieren macht.

Die temporale Logik dieser beiden Bilder kann nicht entgangen sein, da der Tee nicht möglicherweise durch den Ausguss zurückgesaugt werden kann.

Auf diese Weise wurden 360 Bildpaare erhalten.

Für den TLE-Ansatz wurden urheberrechtsfreie Bilder von Google und Flickr sowie ausgewählte Frames aus urheberrechtsfreien Videos auf YouTube ausgewählt. Die Themen der Videos umfassten Szenen oder Objekte, deren Änderungsintervall von Sekunden bis Tage oder Jahreszeiten reichte – zum Beispiel reifendes Obst oder die Änderung der Jahreszeiten in Landschaften.

So wurden 125 Bildpaare für den TLE-Ansatz kuratiert.

Nicht alle der getesteten MLLMs konnten multiple Bilder verarbeiten; daher unterschieden sich die Tests, um die Fähigkeiten jedes Modells zu berücksichtigen.

Mehrere Versionen der kuratierten Datensätze wurden generiert, bei denen einige der Paare vertikal und andere horizontal verkettet wurden. Weitere Variationen tauschten die wahre und korrekte temporale Reihenfolge der Paare aus.

Zwei Prompt-Typen wurden entwickelt. Der erste folgte diesem Template:

Trat das Ereignis im (links / oben / erstes) Bild vor dem Ereignis im (rechts / unten / zweites) Bild ein? Geben Sie wahr oder falsch mit Begründung an.

Der zweite folgte diesem Schema:

Zwischen diesen beiden Bildern, welches zeigt das Ereignis, das zuerst auftrat? Geben Sie (links oder rechts / oben oder unten / erstes oder zweites) mit Begründung an.

Für TLE waren die Fragen multiple Choice, die die Modelle aufforderten, die Zeitverzögerung zwischen den beiden präsentierten Bildern zu bewerten, wobei Sekunden, Stunden, Minuten, Tage, Monate und Jahre als Zeitmaße zur Verfügung standen. In dieser Konfiguration wurde das aktuellste Bild rechts präsentiert.

Der Prompt, der hier verwendet wurde, lautete:

Im gegebenen Bild schätzen Sie die Zeit, die zwischen dem ersten Bild (links) und dem zweiten Bild (rechts) vergangen ist.

Wählen Sie eine der folgenden Optionen:

1. Weniger als 15 Sekunden B. Zwischen 2 Minuten und 15 Minuten C. Zwischen 1 Stunde und 12 Stunden D. Zwischen 2 Tagen und 30 Tagen E. Zwischen 4 Monaten und 12 Monaten F. Mehr als 3 Jahre

Die getesteten MLLMs waren ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; und LLaVA-CoT.

Temporale Reihenfolge-Verständnis: Ergebnisse

Ergebnisse des Temporal Order Understanding bei verschiedenen Modellen und Bildlayouts, die Genauigkeit und Konsistenz für verschiedene Einrichtungen und Prompts zeigen.

In Bezug auf die oben gezeigten Ergebnisse fanden die Autoren heraus, dass alle getesteten MLLMs, einschließlich GPT-4o (das die beste Gesamtleistung zeigte), erhebliche Schwierigkeiten mit dem TemporalVQA-Benchmark hatten – und sogar GPT-4o konnte nicht konsistent zuverlässige temporale Denkfähigkeiten in verschiedenen Konfigurationen demonstrieren.

Die Autoren behaupten, dass die konsistent niedrigen Genauigkeitswerte bei LLMs erhebliche Mängel in der Fähigkeit der Modelle aufzeigen, temporale Sequenzen aus visuellen Daten zu interpretieren und zu verstehen. Die Forscher bemerken, dass diese Herausforderungen auch bei der Verwendung von multi-Bild-Eingaben und optimierten Prompts bestehen bleiben, was auf grundlegende Einschränkungen in den aktuellen Modellarchitekturen und Trainingsmethoden hinweist.

Die Tests zeigten erhebliche Variationen in der Leistung bei verschiedenen Prompt-Strategien. Während GPT-4o mit optimierten Prompts verbessert wurde (und 4% bei einzelnen Bildern und 65,3% bei multi-Bild-Einstellungen erreichte), blieb die Leistung unter akzeptablen Niveaus.

Modelle wie LLaVA-NeXT und Qwen-VL waren sogar empfindlicher, mit abnehmender Leistung, wenn alternative Prompts verwendet wurden, was darauf hindeutet, dass Prompt-Engineering allein die grundlegenden Einschränkungen der MLLMs in Bezug auf temporale Denkfähigkeiten nicht überwinden kann.

Tests wiesen auch darauf hin, dass die Bildanordnung (d.h. vertikal vs. horizontal) die Modellleistung erheblich beeinflusste. GPT-4o verbesserte seine Konsistenz bei vertikalen Anordnungen, von 39,2% auf 52,8% steigend; jedoch zeigten andere Modelle, einschließlich der LLaVA-Strains, starke Richtungsverzerrungen, indem sie in einer Orientierung exzellierten, aber in einer anderen versagten.

Die Studie zeigt, dass diese Inkonsistenzen auf eine Abhängigkeit von räumlichen Hinweisen und nicht auf echtes temporales Denken hinweisen, da die MLLMs nicht wirklich die Sequenz von Ereignissen oder das Fortschreiten über die Zeit analysieren, sondern sich auf Muster oder visuelle Merkmale stützen, die mit der Bildanordnung zusammenhängen, wie z.B. deren Position oder Ausrichtung, um Entscheidungen zu treffen.

Qualitative Tests heben GPT-4os Vorhersagen bei verschiedenen Eingabereihenfolgen hervor. In der ersten Reihenfolge werden Bildpaare in ihrer ursprünglichen Reihenfolge präsentiert, während in der zweiten Reihenfolge die Reihenfolge umgekehrt ist. Korrekte Klassifizierungen sind grün markiert, reine Fehlklassifizierungen rot, halluzinierte Begründungen orange und illogische oder ‘ungültige’ Begründungen braun, was die Inkonsistenzen des Modells bei verschiedenen Eingabekonfigurationen aufzeigt.

Vergleicht man die Ergebnisse zwischen einzelnen Bild-Eingaben und multi-Bild-Eingaben, zeigt sich, dass die Gesamtleistung nur geringfügig verbessert wurde, wobei GPT-4o bei multi-Bild-Eingaben leicht besser abschnitt, von 31,0% auf 43,6% (mit P1) und von 46,0% auf 65,3% (mit P2) ansteigend.

Andere Modelle, wie InternVL, zeigten stabile, aber niedrige Genauigkeit, während Qwen-VL geringe Gewinne verzeichnete. Die Autoren kommen zu dem Schluss, dass diese Ergebnisse darauf hindeuten, dass zusätzlicher visueller Kontext die Fähigkeiten zum temporalen Denken nicht wesentlich verbessert, da die Modelle Schwierigkeiten haben, temporale Informationen effektiv zu integrieren.

Menschliche Studie

In einer menschlichen Studie wurden drei Umfragen durchgeführt, um zu bewerten, wie nahe die beste multimodale MLLM an menschliche Schätzungen herankam.

Menschen erreichten 90,3% Genauigkeit, was GPT-4os 65,3% um 25% übertraf. Der Datensatz erwies sich als zuverlässig, mit minimalen menschlichen Fehlern und konsistenter Übereinstimmung bei korrekten Antworten.

Ergebnisse der menschlichen Benutzerstudie für die erste Runde der Tests.

Zeitverzögerungs-Schätzung: Ergebnisse

Ergebnisse für TLE: Zeitverzögerungs-Schätzung bewertet die Modellgenauigkeit bei der Identifizierung von Zeitspannen zwischen Bildpaaren, von Sekunden bis hin zu Jahren. Die Aufgabe bewertet die Fähigkeit jedes Modells, die korrekte Zeitmaßeinheit für die temporale Lücke zu wählen.

In diesen Tests schnitten die MLLMs nur ausreichend bei der Zeitverzögerungs-Schätzung ab: GPT-4o erreichte 70% Genauigkeit, aber die anderen Modelle schnitten deutlich schlechter ab (siehe Tabelle oben), und die Leistung variierte auch erheblich bei den verschiedenen Zeitmaßstäben.

Die Autoren bemerken:

‘Die Aufgabe der Zeitverzögerungs-Schätzung testet die Fähigkeit von MLLMs, temporale Intervalle zwischen Bildpaaren abzuleiten. [Alle] MLLMs, einschließlich der Top-Performer wie GPT-4o und Gemini1.5-Pro, haben Schwierigkeiten mit dieser Aufgabe und erreichen nur moderate Genauigkeitsniveaus von 60-70%. GPT-4o zeigt inkonsistente Leistung, mit starker Leistung bei Sekunden und Jahren, aber unterdurchschnittlicher Leistung bei Stunden.

Ähnlich zeigt LLaVA-CoT außergewöhnliche Leistung bei Zeitspannen von Sekunden und Tagen, während es bei anderen Zeitintervallen deutlich schlechter abschneidet.’

Menschliche Studie

In der menschlichen Studie für TLE verbesserte sich die durchschnittliche menschliche Leistung um 12,3% gegenüber GPT-4o (dem besten Modell in dieser Kategorie).

Die Autoren bemerken, dass einige der Herausforderungen besonders anspruchsvoll waren und dass in einem Fall alle menschlichen Teilnehmer eine falsche Antwort gaben, zusammen mit allen AI-Teilnehmern.

Die Autoren kommen zu dem Schluss, dass GPT-4o ‘robuste Denkfähigkeiten’ zeigt, trotz der Reihenfolge der präsentierten Bilder.

Schlussfolgerung

Wenn MLLMs schließlich genug ‘Abkürzungsdaten’ sammeln und absorbieren, um auch die trickreichsten Herausforderungen des Typs, der von den Autoren in dieser Studie präsentiert wird, zu bewältigen, kann es zu einer Nebensache werden, ob sie als menschliche Verallgemeinerungsfähigkeiten in diesem Bereich gelten können.

Es ist auch nicht bekannt, auf welchem Weg wir unsere eigenen Fähigkeiten im temporalen Denken erwerben – betrügen wir ebenfalls, bis die reine Menge an erlernten Erfahrungen ein Muster offenbart, das wie ‘Instinkt’ in Bezug auf diesen Test funktioniert?

* Aus der Sicht, dass Modelle zunehmend mit Verlustfunktionen optimiert werden, die von menschlicher Rückmeldung profitieren, und effektiv durch menschliche Tests und anschließende Triagerie optimiert werden.

Erstveröffentlichung am Montag, den 27. Januar 2025