Künstliche Intelligenz

KI-Modelle stolpern über die grundlegende Uhrzeitablesung, während Menschen exzellieren

mm

Eine umfassende Studie, die 11 führende KI-Modelle gegen Menschen im Lesen von analogen Uhren getestet hat, hat eine überraschende Schwäche in den aktuellen künstlichen Intelligenzsystemen aufgedeckt. Während Menschen eine Genauigkeit von 89,1% bei der Angabe der Uhrzeit erreichten, erreichte das beste Modell von Google nur 13,3% Genauigkeit im selben Test.

Die ClockBench-Studie, die von dem Forscher Alek Safar durchgeführt wurde, zeigt, dass sogar die fortschrittlichsten KI-Systeme mit visuellen Aufgaben zu kämpfen haben, die die meisten Menschen als Kinder meistern. Der Benchmark testete Systeme von Google, OpenAI, Anthropic und anderen großen KI-Labors mit 180 benutzerdefinierten analogen Uhren.

Dies geht über Uhren hinaus. Die Ergebnisse heben fundamentale Einschränkungen in der Verarbeitung und Argumentation von visueller Information durch KI-Systeme hervor. “Das Lesen von analogen Uhren setzt eine hohe Latte für die Argumentation im visuellen Raum”, bemerkt Safar in der Forschungsarbeit. Die Aufgabe erfordert, dass Modelle Uhrenzeiger identifizieren, ihre Beziehungen verstehen und die visuelle Positionierung in numerische Zeit übersetzen.

Die Leistungslücke wird noch deutlicher, wenn man die Fehlermuster untersucht. Wenn Menschen Fehler machten, betrug der Medianfehler nur drei Minuten. KI-Modelle verfehlten dagegen die Marke um eine bis drei Stunden – etwa äquivalent zu zufälligem Raten auf einer 12-Stunden-Uhr.

Spezifische Schwächen aufgedeckt

KI-Systeme hatten insbesondere Schwierigkeiten mit:

  • Römischen Zahlen (3,2% Genauigkeit)
  • Spiegelbildlichen oder rückwärts laufenden Uhren
  • Bunten Hintergründen oder komplexen Designs
  • Uhren mit Sekundenzeigern, die präzise Ablesungen erfordern

Interessanterweise funktionierten KI-Modelle, wenn sie eine Uhr erfolgreich lasen, gut bei Folgeaufgaben wie der Addition von Zeit oder der Umrechnung von Zeitzonen. Dies deutet darauf hin, dass die Kernherausforderung in der anfänglichen visuellen Erkennung und nicht in der mathematischen Argumentation liegt.

Branchenleistungsvergleich

Googles Modelle führten das Feld an, wobei Gemini 2.5 Pro 13,3% Genauigkeit erreichte und Gemini 2.5 Flash 10,5% erreichte. OpenAIs GPT-5 erreichte 8,4%, während Anthropics Claude-Modelle schlechter abschnitten, wobei Claude 4 Sonett 4,2% und Claude 4.1 Opus 5,6% erreichte.

xAIs Grok 4 zeigte überraschend schlechte Ergebnisse mit 0,7% Genauigkeit, obwohl dies darauf zurückzuführen war, dass das Modell 63% aller Uhren fälschlicherweise als zeigend auf unmögliche Zeiten markierte, obwohl tatsächlich nur 20,6% davon unmögliche Zeiten anzeigten.

Quelle: Alek Safar

Weitere Auswirkungen auf die KI-Entwicklung

Die Studie baut auf dem “leicht für Menschen, schwer für KI”-Benchmark-Ansatz auf, wie er in Tests wie ARC-AGI und SimpleBench zu sehen ist. Während KI-Systeme Aufgaben mit hohem Wissensanteil schnell erobert und sogar die menschliche Leistung auf vielen standardisierten Tests übertroffen haben, bleibt die grundlegende visuelle Argumentation problematisch.

Die Forschung legt nahe, dass die aktuellen Skalierungsansätze möglicherweise nicht in der Lage sind, visuelle Argumentationsherausforderungen zu lösen. Safar vermutet, dass analoge Uhren in den Trainingsdaten unterrepräsentiert sein könnten und dass die Übersetzung von visuellen Uhrenrepräsentationen in Text für die Argumentation zusätzliche Komplikationen schafft.

Die ClockBench-Studie gehört zu einer wachsenden Sammlung von Benchmarks, die darauf abzielen, KI-Einschränkungen zu identifizieren, die nicht sofort offensichtlich sind, wenn man die Leistung in traditionellen Tests betrachtet. Die vollständige Datensatz bleibt privat, um eine Kontamination zukünftiger KI-Schulungen zu vermeiden, und nur kleine Stichproben werden öffentlich für Tests zur Verfügung gestellt.

Die Ergebnisse werfen Fragen auf, ob die bestehenden KI-Entwicklungsparadigmen in der Lage sind, diese visuellen Argumentationslücken zu schließen, oder ob völlig neue Ansätze erforderlich sind – ähnlich wie die Testzeit-Computing die Fortschritte in anderen Bereichen ermöglichte.

Zum jetzigen Zeitpunkt steht die bescheidene analoge Uhr als unerwartete Festung gegen die künstliche Intelligenz da, die von fast jedem Menschen gelesen werden kann, aber die weltweit fortschrittlichsten KI-Systeme verwirrt.

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.