Künstliche Intelligenz
KI-Modelle stolpern über die grundlegende Uhrzeitablesung, während Menschen exzellieren

Eine umfassende Studie, die 11 führende KI-Modelle gegen Menschen im Lesen von analogen Uhren getestet hat, hat eine überraschende Schwäche in aktuellen künstlichen Intelligenzsystemen aufgedeckt. Während Menschen eine Genauigkeit von 89,1 % bei der Angabe der Uhrzeit erreichten, erreichte das beste Modell von Google nur 13,3 % Genauigkeit im selben Test.
Die ClockBench-Studie, die von dem Forscher Alek Safar durchgeführt wurde, zeigt, dass sogar die fortschrittlichsten KI-Systeme mit visuellen Aufgaben zu kämpfen haben, die die meisten Menschen bereits als Kinder meistern. Der Benchmark testete Systeme von Google, OpenAI, Anthropic und anderen großen KI-Labors mit 180 benutzerdefinierten analogen Uhren.
Dies geht über Uhren hinaus. Die Ergebnisse heben fundamentale Einschränkungen in der Verarbeitung und Argumentation von visueller Information durch KI-Systeme hervor. “Das Lesen von analogen Uhren setzt eine hohe Latte für die Argumentation im visuellen Raum”, bemerkt Safar in der Forschungsarbeit. Die Aufgabe erfordert, dass Modelle Uhrzeiger identifizieren, ihre Beziehungen verstehen und die visuelle Positionierung in numerische Zeit übersetzen.
Die Leistungslücke wird noch deutlicher, wenn man die Fehlermuster untersucht. Wenn Menschen Fehler machten, betrug der Medianfehler nur drei Minuten. KI-Modelle verfehlten dagegen die Markierung um eine bis drei Stunden – was in etwa dem zufälligen Raten auf einer 12-Stunden-Uhr entspricht.
Spezifische Schwächen aufgedeckt
KI-Systeme hatten besonders Schwierigkeiten mit:
- Römischen Zahlen (3,2 % Genauigkeit)
- Spiegelverkehrten oder rückwärts laufenden Uhren
- Bunten Hintergründen oder komplexen Designs
- Uhren mit Sekundenzeigern, die präzise Ablesungen erfordern
Interessanterweise funktionierten KI-Modelle, wenn sie eine Uhr erfolgreich lasen, gut bei Folgeaufgaben wie der Addition von Zeit oder der Umrechnung von Zeitzonen. Dies deutet darauf hin, dass die Kernherausforderung in der anfänglichen visuellen Erkennung und nicht in der mathematischen Argumentation liegt.
Branchenleistungszusammenfassung
Googles Modelle führten das Feld an, wobei Gemini 2.5 Pro 13,3 % Genauigkeit erreichte und Gemini 2.5 Flash 10,5 % erreichte. OpenAI’s GPT-5 erzielte 8,4 %, während Anthropics Claude-Modelle schlechter abschnitten, wobei Claude 4 Sonett 4,2 % und Claude 4.1 Opus 5,6 % erreichten.
xAI’s Grok 4 erzielte überraschend schlechte Ergebnisse mit 0,7 % Genauigkeit, obwohl dies darauf zurückzuführen war, dass das Modell 63 % aller Uhren fälschlicherweise als Uhren mit unmöglichen Zeiten markierte, obwohl tatsächlich nur 20,6 % unmögliche Zeiten anzeigten.

Quelle: Alek Safar
Weitere Auswirkungen auf die KI-Entwicklung
Die Studie baut auf dem “leicht für Menschen, schwer für KI”-Benchmark-Ansatz auf, wie er in Tests wie ARC-AGI und SimpleBench zu sehen ist. Während KI-Systeme viele wissensintensive Aufgaben schnell erobert und sogar die menschliche Leistung auf vielen standardisierten Tests übertroffen haben, bleibt die grundlegende visuelle Argumentation problematisch.
Die Forschung legt nahe, dass aktuelle Skalierungsansätze möglicherweise nicht in der Lage sind, visuelle Argumentationsherausforderungen zu lösen. Safar vermutet, dass analoge Uhren möglicherweise in den Trainingsdaten unterrepräsentiert sind und dass die Übersetzung visueller Uhrenrepräsentationen in Text für die Argumentation zusätzliche Komplikationen schafft.
ClockBench ist Teil einer wachsenden Sammlung von Benchmarks, die darauf abzielen, KI-Einschränkungen zu identifizieren, die nicht sofort offensichtlich sind, wenn man die Leistung in traditionellen Tests betrachtet. Der vollständige Datensatz bleibt privat, um eine Kontamination zukünftiger KI-Trainings zu vermeiden, und nur kleine Stichproben werden öffentlich für Tests bereitgestellt.
Die Ergebnisse werfen Fragen auf, ob bestehende KI-Entwicklungsparadigmen in der Lage sind, diese visuellen Argumentationslücken zu schließen, oder ob ganz neue Ansätze erforderlich sind – ähnlich wie die Testzeit-Computing die Fortschritte in anderen Bereichen freigeschaltet hat.
Für den Moment steht die bescheidene analoge Uhr als unerwartete Festung gegen die künstliche Intelligenz da, die von fast jedem Menschen gelesen werden kann, aber die weltweit fortschrittlichsten KI-Systeme verwirrt.










