์ธ๊ณต์ง๋ฅ
์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๊ธฐ๋ณธ ์๊ณ ์ฝ๊ธฐ์์ ์ด๋ ค์์ ๊ฒช๋ ๋ฐ๋ฉด ์ธ๊ฐ์ ์ฐ์ํจ์ ๋ณด์ฌ์ค

인공지능 모델 11개를 인간과 비교하여 아날로그 시계를 읽는 테스트를 진행한 종합적인 연구에서 인공지능 시스템의 놀라운 약점이 드러났다. 인간은 89.1%의 정확도로 시간을 알려줄 수 있었지만, 구글의 최고 성능 모델은 같은 테스트에서 13.3%의 정확도만을 달성했다.
ClockBench 연구는 연구자 Alek Safar에 의해 수행되었으며, 가장 진보된 인공지능 시스템도 대부분의 사람들이 아이로 마스터하는 시각적 과제에서 어려움을 겪는다는 것을 보여준다. 벤치마크는 180개의 커스텀 설계된 아날로그 시계를 사용하여 구글, OpenAI, Anthropic 등의 주요 인공지능 연구소의 시스템을 테스트했다.
이것은 시계를 넘어서는 문제이다. 결과는 인공지능 시스템이 시각적 정보를 처리하고推論하는 데에 근본적인 제한이 있음을 강조한다. “아날로그 시계를 읽는 것은 시각적 공간 내에서 推論을 하는데 높은 기준을 설정한다”고 Safar는 연구 논문에서 언급했다. 이 작업은 모델이 시계 바늘을 식별하고, 그 관계를 이해하며, 시각적 위치를 숫자 시간으로 변환하는 것을 요구한다.
성능 격차는 오류 패턴을 조사할 때 더욱 두드러진다. 인간이 실수를 할 때, 중간 오류는 단지 3분이었다. 반면에, 인공지능 모델은 1~3시간 정도의 오차를 보였다. 이는 12시간 시계에서 무작위로 추측하는 것과 거의 동일하다.
특정 약점 공개
인공지능 시스템은 특히 다음에 어려움을 겪었다:
- 로마 숫자 (3.2% 정확도)
- 거울이나 뒤집어진 시계 얼굴
- 색색의 배경이나 복잡한 디자인
- 초침이 필요한 정확한 시간 읽기
인терес로, 인공지능 모델이 시계를 읽을 때 성공적으로 하면, 시간을 추가하거나 시간대를 변환하는 후속 작업에서 잘 수행했다. 이것은 초기 시각적 인식이 아니라 수학적 推論에서 핵심 도전이 있음을 시사한다.
산업 성능 분석
구글의 모델이 선두를 지켰으며, Gemini 2.5 Pro는 13.3%의 정확도를 달성했고, Gemini 2.5 Flash는 10.5%의 정확도를 달성했다. OpenAI의 GPT-5는 8.4%의 정확도를 달성했고, Anthropic의 Claude 모델은 더 낮은 정확도를 보였다. Claude 4 Sonnet은 4.2%의 정확도를 달성했고, Claude 4.1 Opus는 5.6%의 정확도를 달성했다.
xAI의 Grok 4는 0.7%의 정확도를 달성했지만, 이는 모델이 63%의 모든 시계를 불가능한 시간으로 표시했다는 事実에 기인했다. 실제로 불가능한 시간은 20.6%에 불과했다.

출처: Alek Safar
인공지능 개발의 더广い 의미
이 연구는 ARC-AGI 및 SimpleBench와 같은 테스트에서 볼 수 있는 “인간에게 쉽지만 인공지능에게 어려운” 벤치마크 접근 방식을 따른다. 인공지능 시스템은 지식 집약적인 작업과 많은 표준 테스트에서 인간의 성능을 능가했지만, 기본적인 시각적 推論은 여전히 문제가 된다.
연구는 현재의 확장 접근 방식이 시각적 推論의 도전을 해결하지 못할 수 있음을 시사한다. Safar는 아날로그 시계가 훈련 데이터에 충분히 표현되지 않았으며, 시각적 시계 표현을 텍스트로 변환하여 推論하는 것이 추가적인 복잡성을 초래할 수 있다고 가정한다.
ClockBench는 인공지능의 한계를 식별하기 위한 벤치마크의 증가하는 컬렉션에 합류했다. 전체 데이터셋은 미래의 인공지능 훈련을 방해하지 않도록 사적이다. 공개된 샘플은 테스트를 위해만 제공된다.
결과는 기존의 인공지능 개발 패러다임이 이러한 시각적 推論의 격차를 해결할 수 있는지, 또는 완전히 새로운 접근 방식이 필요한지에 대한 질문을 제기한다. 이는 테스트 시간 컴퓨팅이 다른 도메인에서 진보를解鎖한 것과 유사하다.
현재, 아날로그 시계는 인공지능에 대한 예상치 못한 요새로 남아 있다. 거의 모든 인간이 읽을 수 있지만, 세계에서 가장 복잡한 인공지능 시스템은 읽을 수 없다.












