人工知能7 months ago
AIモデルは基本的な時計の読み取りでつまずく一方、人間は優れた能力を発揮
11の主要なAIモデルと人間をアナログ時計の読み取りで比較した包括的な研究により、現在の人工知能システムに驚くべき弱点が露呈した。人間は時刻を89.1%の精度で読み取った一方、Googleの最高性能モデルは同じテストでわずか13.3%の精度しか達成できなかった。研究者Alek Safar氏によって実施されたClockBench研究は、最も先進的なAIシステムでさえ、ほとんどの人が子供の頃に習得する視覚的タスクに苦戦することを示している。このベンチマークでは、Google、OpenAI、Anthropic、その他の主要AI研究所のシステムを、180個のカスタム設計されたアナログ時計を用いてテストした。これは時計の問題にとどまらない。結果は、AIシステムが視覚情報を処理し、推論する方法における根本的な限界を浮き彫りにしている。「アナログ時計を読むことは、視覚空間内で推論を行うための高いハードルを設定します」と、Safar氏は研究論文で指摘している。このタスクには、時計の針を識別し、それらの関係を理解し、視覚的な位置を数値的な時刻に変換することがモデルに要求される。誤りのパターンを検証すると、性能差はさらに顕著になる。人間が間違いを犯した場合、誤差の中央値はわずか3分だった。対照的に、AIモデルの誤差は1時間から3時間に及び、これは12時間時計でのランダムな推測とほぼ同等である。明らかになった特定の弱点AIシステムは特に以下の点で苦戦した: ローマ数字 (3.2%の精度) 鏡像または反転した文字盤 カラフルな背景や複雑なデザイン 正確な読み取りを必要とする秒針付き時計 興味深いことに、AIモデルが時計を正しく読み取れた場合、時間の加算やタイムゾーンの変換といった後続のタスクでは良好な性能を発揮した。これは、中核的な課題が数学的推論ではなく、初期の視覚的認識にあることを示唆している。業界別性能内訳Googleのモデルが群を抜き、Gemini 2.5 Proは13.3%、Gemini 2.5 Flashは10.5%の精度を達成した。OpenAIのGPT-5は8.4%を記録し、AnthropicのClaudeモデルはより低い性能で、Claude 4 Sonnetが4.2%、Claude 4.1 Opusが5.6%だった。xAIのGrok 4は驚くほど低い結果である0.7%の精度を記録したが、これは実際には20.6%しか存在しない「不可能な時刻」を、モデルが全時計の63%に対して誤ってフラグ付けしたことに起因している。AI開発への広範な示唆この研究は、ARC-AGIやSimpleBenchなどのテストに見られる「人間には簡単、AIには難しい」ベンチマーク手法を発展させたものである。AIシステムは知識集約型タスクを急速に征服し、多くの標準化テストで人間の性能を凌駕するまでになったが、基本的な視覚的推論は依然として問題を抱えている。この研究は、現在のスケーリング手法では視覚的推論の課題を解決できない可能性を示唆している。Safar氏は、アナログ時計が学習データ内で十分に表現されていない可能性、および視覚的な時計の表現を推論のためにテキストに変換することが追加の複雑さを生み出している可能性を仮説として提示している。ClockBenchは、従来のテストでの性能からは直ちに明らかにならないAIの限界を特定するために設計された、増え続けるベンチマーク群に加わるものである。将来のAI学習の汚染を防ぐため、完全なデータセットは非公開のままであり、テスト用には小さなサンプルのみが公開されている。この結果は、既存のAI開発パラダイムがこれらの視覚的推論のギャップに対処できるのか、あるいは他の分野で進歩をもたらしたテスト時計算のように、全く新しいアプローチが必要となるのか、という疑問を提起している。今のところ、謙虚なアナログ時計は、事実上あらゆる人間には読めるが、世界で最も洗練されたAIシステムを困惑させる、予想外の要塞として立ちはだかっている。