Kecerdasan buatan

Model AI Mengalami Kegagalan dalam Membaca Jam Analog Sementara Manusia Berhasil

Published September 15, 2025

Updated May 15, 2026

Alex McFarland

Sebuah studi komprehensif yang menguji 11 model AI terkemuka melawan manusia dalam membaca jam analog telah mengungkap kelemahan yang mengejutkan dalam sistem kecerdasan buatan saat ini. Sementara manusia mencapai akurasi 89,1% dalam mengatakan waktu, model terbaik Google hanya mencapai akurasi 13,3% pada tes yang sama.

Studi ClockBench, yang dilakukan oleh peneliti Alek Safar, menunjukkan bahwa bahkan sistem AI yang paling canggih mengalami kesulitan dengan tugas visual yang sebagian besar orang kuasai sejak kecil. Benchmark ini menguji sistem dari Google, OpenAI, Anthropic, dan laboratorium AI lainnya menggunakan 180 jam analog khusus.

Hal ini melampaui jam. Hasilnya menyoroti keterbatasan fundamental dalam cara sistem AI memproses dan menalar informasi visual. “Membaca jam analog menetapkan standar yang tinggi untuk melakukan penalaran dalam ruang visual,” kata Safar dalam makalah penelitian. Tugas ini memerlukan model untuk mengidentifikasi tangan jam, memahami hubungan mereka, dan menerjemahkan posisi visual menjadi waktu numerik.

Selisih kinerja menjadi lebih mencolok ketika memeriksa pola kesalahan. Ketika manusia membuat kesalahan, rata-rata kesalahan hanya tiga menit. Model AI, di sisi lain, melewatkan tanda dengan satu hingga tiga jam – sebanding dengan menebak secara acak pada jam 12 jam.

Kelemahan Spesifik yang Terungkap

Sistem AI khususnya mengalami kesulitan dengan:

Angka Romawi (akurasi 3,2%)
Wajah jam yang dicerminkan atau terbalik
Latar belakang berwarna atau desain kompleks
Jam dengan tangan detik yang memerlukan pembacaan presisi

Menariknya, ketika model AI berhasil membaca jam, mereka berkinerja baik pada tugas lanjutan seperti menambah waktu atau mengonversi zona waktu. Ini menunjukkan bahwa tantangan inti terletak pada pengenalan visual awal daripada penalaran matematika.

Breakdown Kinerja Industri

Model Google memimpin, dengan Gemini 2.5 Pro mencapai akurasi 13,3% dan Gemini 2.5 Flash mencapai 10,5%. GPT-5 dari OpenAI mencapai skor 8,4%, sementara model Claude dari Anthropic mencapai skor yang lebih rendah, dengan Claude 4 Sonnet mencapai 4,2% dan Claude 4.1 Opus mencapai 5,6%.

xAI’s Grok 4 memposting hasil yang mengejutkan buruk dengan akurasi 0,7%, meskipun ini disebabkan oleh model yang salah mengidentifikasi 63% dari semua jam sebagai menunjukkan waktu yang tidak mungkin ketika hanya 20,6% sebenarnya melakukannya.

Sumber: Alek Safar

Implikasi yang Lebih Luas untuk Pengembangan AI

Studi ini membangun pada pendekatan “mudah untuk manusia, sulit untuk AI” yang terlihat pada tes seperti ARC-AGI dan SimpleBench. Sementara sistem AI telah dengan cepat menguasai tugas yang intensif pengetahuan dan bahkan melampaui kinerja manusia pada banyak tes standar, penalaran visual dasar tetap menjadi masalah.

Penelitian ini menunjukkan bahwa pendekatan penskalaan saat ini mungkin tidak dapat menyelesaikan tantangan penalaran visual. Safar menghipotesiskan bahwa jam analog mungkin kurang direpresentasikan dalam data pelatihan dan bahwa menerjemahkan representasi visual jam menjadi teks untuk penalaran menciptakan komplikasi tambahan.

ClockBench bergabung dengan koleksi benchmark yang dirancang untuk mengidentifikasi keterbatasan AI yang tidak segera jelas dari kinerja pada tes tradisional. Dataset lengkap tetap privat untuk mencegah pencemaran data pelatihan AI di masa depan, dengan hanya sampel kecil yang dibuat publik untuk pengujian.

Hasilnya mengangkat pertanyaan tentang apakah paradigma pengembangan AI yang ada dapat menangani kesenjangan penalaran visual ini atau apakah pendekatan baru sepenuhnya akan diperlukan – mirip dengan bagaimana komputasi waktu pengujian membuka kemajuan di domain lain.

Untuk saat ini, jam analog yang sederhana berdiri sebagai benteng yang tidak terduga melawan kecerdasan buatan, dapat dibaca oleh hampir semua manusia tetapi membingungkan sistem AI yang paling canggih di dunia.

Alex McFarland

Alex McFarland adalah seorang jurnalis dan penulis AI yang menjelajahi perkembangan terbaru dalam kecerdasan buatan. Ia telah berkolaborasi dengan berbagai startup dan publikasi AI di seluruh dunia.

Unite.AI

Model AI Mengalami Kegagalan dalam Membaca Jam Analog Sementara Manusia Berhasil

Kelemahan Spesifik yang Terungkap

Breakdown Kinerja Industri

Implikasi yang Lebih Luas untuk Pengembangan AI

You may like