Trí tuệ nhân tạo
Các mô hình AI gặp khó khăn khi đọc đồng hồ cơ bản trong khi con người lại xuất sắc

A Nghiên cứu toàn diện Việc thử nghiệm 11 mô hình AI hàng đầu so với con người trong việc đọc đồng hồ analog đã phơi bày một điểm yếu đáng ngạc nhiên trong các hệ thống trí tuệ nhân tạo hiện tại. Trong khi con người đạt độ chính xác 89.1% khi đọc giờ, mô hình hiệu suất cao nhất của Google chỉ đạt độ chính xác 13.3% trong cùng bài kiểm tra.
Nghiên cứu ClockBench, do nhà nghiên cứu Alek Safar thực hiện, chứng minh rằng ngay cả những hệ thống AI tiên tiến nhất cũng gặp khó khăn với các nhiệm vụ thị giác mà hầu hết mọi người đều thành thạo khi còn nhỏ. Các hệ thống được thử nghiệm chuẩn từ Google, OpenAI, nhân loạivà các phòng thí nghiệm AI lớn khác sử dụng 180 đồng hồ analog được thiết kế riêng.
Điều này vượt ra ngoài phạm vi đồng hồ. Kết quả nghiên cứu làm nổi bật những hạn chế cơ bản trong cách các hệ thống AI xử lý và suy luận thông tin thị giác. "Việc đọc đồng hồ analog đặt ra một tiêu chuẩn cao cho việc suy luận trong không gian thị giác", Safar lưu ý trong bài nghiên cứu. Nhiệm vụ này yêu cầu các mô hình phải xác định kim đồng hồ, hiểu mối quan hệ giữa chúng và chuyển đổi vị trí thị giác thành thời gian số.
Khoảng cách hiệu suất càng trở nên rõ rệt hơn khi xem xét các mẫu lỗi. Khi con người mắc lỗi, sai số trung bình chỉ là ba phút. Ngược lại, các mô hình AI lại sai lệch từ một đến ba giờ - tương đương với việc đoán ngẫu nhiên trên đồng hồ 12 giờ.
Điểm yếu cụ thể được tiết lộ
Các hệ thống AI đặc biệt gặp khó khăn với:
- Số La Mã (độ chính xác 3.2%)
- Mặt đồng hồ phản chiếu hoặc ngược
- Nền nhiều màu sắc hoặc thiết kế phức tạp
- Đồng hồ có kim giây cần đọc chính xác
Điều thú vị là khi các mô hình AI đọc đồng hồ thành công, chúng thực hiện tốt các tác vụ tiếp theo như thêm giờ hoặc chuyển đổi múi giờ. Điều này cho thấy thách thức cốt lõi nằm ở khả năng nhận dạng hình ảnh ban đầu hơn là suy luận toán học.
Phân tích hiệu suất ngành
Các mô hình của Google dẫn đầu, với Song Tử 2.5 Pro đạt độ chính xác 13.3% và Gemini 2.5 Flash đạt 10.5%. GPT-5 của OpenAI đạt 8.4%, trong khi Anthropic Claude các mô hình có hiệu suất thấp hơn, với Claude 4 Sonnet ở mức 4.2% và Claude 4.1 Opus ở mức 5.6%.
Grok 4 của xAI đã công bố kết quả đáng ngạc nhiên là kém chính xác ở mức 0.7%, mặc dù điều này bắt nguồn từ việc mô hình đánh dấu sai 63% tất cả các đồng hồ là hiển thị thời gian không thể trong khi thực tế chỉ có 20.6% hiển thị.

Nguồn: Alek Safar
Ý nghĩa rộng hơn cho sự phát triển AI
Nghiên cứu này dựa trên phương pháp tiếp cận chuẩn mực "dễ với con người, khó với AI" được thấy trong các thử nghiệm như ARC-AGI và SimpleBench. Trong khi các hệ thống AI đã nhanh chóng chinh phục các nhiệm vụ đòi hỏi nhiều kiến thức và thậm chí vượt qua hiệu suất của con người trong nhiều bài kiểm tra tiêu chuẩn, thì khả năng suy luận trực quan cơ bản vẫn còn nhiều vấn đề.
Nghiên cứu cho thấy các phương pháp mở rộng quy mô hiện tại có thể không giải quyết được những thách thức về tư duy trực quan. Safar đưa ra giả thuyết rằng đồng hồ analog có thể không được thể hiện đầy đủ trong dữ liệu huấn luyện, và việc dịch biểu diễn đồng hồ trực quan sang văn bản để suy luận sẽ tạo ra thêm những phức tạp.
ClockBench gia nhập một bộ sưu tập ngày càng mở rộng các công cụ đánh giá chuẩn mực được thiết kế để xác định những hạn chế của AI mà hiệu suất của các bài kiểm tra truyền thống không thể nhận thấy ngay lập tức. Toàn bộ tập dữ liệu được giữ bí mật để tránh làm ảnh hưởng đến quá trình đào tạo AI trong tương lai, chỉ một số ít mẫu được công khai để thử nghiệm.
Kết quả này đặt ra câu hỏi liệu các mô hình phát triển AI hiện tại có thể giải quyết được những khoảng trống về lý luận trực quan này hay không hoặc liệu có cần những cách tiếp cận hoàn toàn mới hay không - tương tự như cách điện toán thời gian thử nghiệm đã mở ra sự tiến bộ trong các lĩnh vực khác.
Hiện tại, đồng hồ analog khiêm tốn được coi là pháo đài bất ngờ chống lại trí tuệ nhân tạo, có thể được hầu hết mọi người đọc được nhưng lại làm khó các hệ thống AI tinh vi nhất thế giới.












