人工知能

AIモデルは基本的な時計読みに苦戦する一方で、人間は優秀である

Published September 15, 2025

Updated May 15, 2026

Alex McFarland

11の先端的なAIモデルを人間と比較してアナログ時計を読む能力をテストした包括的な研究により、現在の人工知能システムには驚くべき弱点があることが明らかになった。人間は89.1%の精度で時計を読むことができたのに対し、Googleの最も優れたモデルは13.3%の精度しか出なかった。

ClockBench研究は、研究者Alek Safarによって行われ、Google、OpenAI、Anthropicなどの主要なAI研究所からのシステムを、180個のカスタム設計されたアナログ時計でテストした。

これは時計を読むことだけに止まらない。結果は、AIシステムが視覚情報を処理して推論する際の基本的な限界を浮き彫りにした。「アナログ時計を読むことは、視覚空間内での推論を行うための高い基準を設定する」とSafarは研究論文で述べている。このタスクでは、モデルが時計の針を識別し、その関係を理解し、視覚的な位置を数字の時間に変換する必要がある。

エラーのパターンを調べると、パフォーマンスのギャップはさらに際立つ。人間が間違いを犯した場合、中央値のエラーはわずか3分だった。一方、AIモデルは1〜3時間の範囲で目標を外していた。これは、12時間の時計でランダムに推測するのとほぼ同等である。

特定の弱点の暴露

AIシステムは特に以下の点で苦戦した：

ローマ数字（3.2％の精度）
ミラーまたは逆の時計の顔
カラフルな背景または複雑なデザイン
秒針が必要な時計

興味深いのは、AIモデルが時計を読むことに成功した場合、時間の追加や時間帯の変換などの後続タスクで優秀に実行されたことである。これは、根本的な課題が初期の視覚認識にあるということを示唆している。

業界のパフォーマンスの分解

Googleのモデルがトップで、Gemini 2.5 Proは13.3％の精度を達成し、Gemini 2.5 Flashは10.5％の精度を達成した。OpenAIのGPT-5は8.4％の精度を達成し、AnthropicのClaudeモデルは、Claude 4 Sonnetが4.2％、Claude 4.1 Opusが5.6％の精度を達成した。

xAIのGrok 4は0.7％の精度で意外に悪い結果を出しましたが、これはモデルが63％の時計を不可能な時間を表示していると誤ってフラグを立てたためで、実際には20.6％だけが不可能な時間を表示していた。

出典：Alek Safar

AI開発のより広い意味

この研究は、ARC-AGIやSimpleBenchなどのテストで見られる「人間にとっては簡単だが、AIにとっては難しい」ベンチマークアプローチに基づいている。AIシステムは知識を必要とするタスクを急速に征服し、多くの標準テストで人間のパフォーマンスを上回ったが、基本的な視覚的推論は依然として問題である。

研究結果は、現在のスケーリングアプローチでは視覚的推論の課題を解決できない可能性があることを示唆している。Safarは、アナログ時計がトレーニングデータに十分に表現されていない可能性があり、視覚的な時計表現をテキストに変換して推論することが追加の複雑さを生み出すと仮説を立てている。

ClockBenchは、従来のテストで明らかでないAIの限界を特定するために設計されたベンチマークの集まりに加わった。フルデータセットは将来のAIトレーニングの汚染を防ぐために非公開となっており、テスト用にのみ小さなサンプルが公開されている。

結果は、既存のAI開発パラダイムがこれらの視覚的推論のギャップを解決できるか、またはまったく新しいアプローチが必要かについて疑問を提起している。

現在、謙虚なアナログ時計は、人間にとっては読みやすいが、世界で最も洗練されたAIシステムにとっては難しいものとなっている。