Sudut Pandang Anderson
Perjuangan AI untuk Membaca Jam Analog Mungkin Memiliki Makna yang Lebih Dalam

Sebuah makalah baru dari para peneliti di Tiongkok dan Spanyol menemukan bahwa bahkan model AI multimoda tingkat lanjut seperti GPT-4.1 kesulitan untuk menentukan waktu dari gambar jam analog. Perubahan visual kecil pada jam dapat menyebabkan kesalahan interpretasi yang besar, dan penyempurnaan hanya membantu dengan contoh-contoh yang sudah dikenal. Hasil tersebut menimbulkan kekhawatiran tentang keandalan model-model ini ketika dihadapkan dengan gambar-gambar yang tidak dikenal dalam tugas-tugas di dunia nyata.
Ketika manusia mengembangkan pemahaman yang cukup mendalam tentang suatu domain, seperti gravitasi atau prinsip-prinsip fisika dasar lainnya, kita bergerak melampaui contoh-contoh spesifik untuk memahami abstraksi yang mendasarinya. Hal ini memungkinkan kita untuk menerapkan pengetahuan itu secara kreatif di berbagai konteks dan mengenali contoh-contoh baru, bahkan yang belum pernah kita lihat sebelumnya, dengan mengidentifikasi prinsip tersebut dalam tindakan.
Ketika sebuah domain memiliki kepentingan yang cukup, kita bahkan mungkin mulai menganggapnya di mana itu tidak ada, seperti pareidolia, didorong oleh tingginya biaya kegagalan mengenali contoh nyata. Mekanisme bertahan hidup pengenalan pola ini begitu kuat sehingga bahkan menyingkirkan kita untuk menemukan pola yang lebih luas di mana tidak ada.
Semakin awal dan berulang kali suatu domain ditanamkan pada diri kita, semakin lebih dalam landasan dan ketahanannya sepanjang hayat; dan salah satu kumpulan data visual paling awal yang kita lihat sebagai anak-anak hadir dalam bentuk jam pengajaran, di mana materi cetak atau jam analog interaktif digunakan untuk mengajarkan kita cara memberi tahu waktu:

Alat bantu pengajaran untuk membantu anak-anak belajar memberi tahu waktu. Sumber: https://www.youtube.com/watch?v=IBBQXBhSNUs
Meskipun Perubahan mode dalam desain jam tangan mungkin terkadang menantang kita, ketahanan penguasaan domain awal ini cukup mengesankan, memungkinkan kita untuk mengenali tampilan jam analog bahkan dalam menghadapi pilihan desain yang rumit atau 'eksentrik':

Beberapa wajah yang menantang dalam pengawasan couture. Sumber: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/
Manusia tidak perlu ribuan contoh untuk mempelajari cara kerja jam; setelah konsep dasarnya dipahami, kita dapat mengenalinya dalam hampir semua bentuk, bahkan ketika terdistorsi atau abstrak.
Kesulitan yang dihadapi model AI dalam tugas ini, sebaliknya, menyoroti masalah yang lebih dalam: kekuatannya yang nyata mungkin lebih bergantung pada paparan volume tinggi daripada pemahaman.
Melampaui Permainan Imitasi?
Ketegangan antara kinerja tingkat permukaan dan 'pemahaman' yang sesungguhnya telah muncul berulang kali dalam penyelidikan model-model besar baru-baru ini. Bulan lalu Universitas Zhejiang dan Universitas Westlake merumuskan kembali pertanyaan tersebut dalam kertas berjudul Apakah Gelar LLM Tingkat PhD Benar-Benar Memahami Penjumlahan Dasar? (bukan fokus artikel ini), menyimpulkan:
'Meskipun tolok ukurnya mengesankan, model menunjukkan ketergantungan kritis pada pencocokan pola daripada pemahaman sejati, dibuktikan dengan kegagalan representasi simbolis dan pelanggaran sifat dasar.
'Penyediaan aturan eksplisit yang mengganggu kinerja menunjukkan adanya kendala arsitektur yang melekat. Wawasan ini mengungkap kesenjangan evaluasi dan menyoroti perlunya arsitektur yang mampu melakukan penalaran matematika yang sesungguhnya di luar pengenalan pola.'
Minggu ini pertanyaan tersebut muncul lagi, sekarang dalam sebuah kolaborasi antara Universitas Aeronautika dan Astronautika Nanjing dan Universidad Politécnica de Madrid di Spanyol. Berjudul Apakah Model Bahasa Besar Multimodal (MLLM) Benar-benar Belajar Memberitahu Waktu pada Jam Analog?, yang kertas baru mengeksplorasi seberapa baik model multimoda memahami penunjuk waktu.
Meskipun kemajuan penelitian hanya dibahas secara rinci dalam makalah ini, pengujian awal yang dilakukan oleh para peneliti menunjukkan bahwa GPT-4.1 model bahasa multimoda kesulitan membaca waktu dengan benar dari serangkaian gambar jam yang beragam, sering kali memberikan jawaban yang salah bahkan pada kasus yang sederhana.
Hal ini menunjukkan adanya kemungkinan kesenjangan dalam data pelatihan model, yang meningkatkan kebutuhan akan kumpulan data yang lebih seimbang, untuk menguji apakah model benar-benar dapat mempelajari konsep yang mendasarinya. Oleh karena itu, penulis menyusun kumpulan data sintetis jam analog, yang mencakup setiap waktu yang memungkinkan secara merata, dan menghindari bias yang biasa ditemukan dalam gambar internet:

Sebuah contoh dari kumpulan data jam analog sintetis para peneliti, digunakan untuk menyempurnakan model GPT dalam karya baru. Sumber: https://huggingface.co/datasets/migonsa/analog_watches_finetune
Sebelum mencari setelan pada kumpulan data baru, GPT-4.1 secara konsisten gagal membaca jam-jam ini. Namun, setelah beberapa kali terpapar pada kumpulan data baru, kinerjanya membaik – tetapi hanya ketika gambar-gambar baru tersebut tampak seperti gambar-gambar yang telah dilihatnya sebelumnya.
Ketika bentuk jam atau gaya jarum jam berubah, akurasinya menurun drastis; bahkan perubahan kecil, seperti jarum jam atau mata panah yang lebih tipis (gambar paling kanan di bawah), sudah cukup untuk mengganggunya; dan GPT-4.1 juga kesulitan untuk menafsirkan karya-karya Dali. 'jam yang mencair':

Gambar jam dengan desain standar (kiri), bentuk terdistorsi (tengah), dan jarum yang dimodifikasi (kanan), di samping waktu yang dikembalikan oleh GPT-4.1 sebelum dan sesudah penyetelan halus. Sumber: https://arxiv.org/pdf/2505.10862
Para penulis menyimpulkan bahwa model saat ini seperti GPT-4.1 mungkin mempelajari pembacaan jam terutama melalui pencocokan pola visual, daripada konsep waktu yang lebih dalam, menegaskan:
'[GPT 4.1] gagal saat jam berubah bentuk atau saat jarum jam diubah menjadi lebih tipis dan memiliki kepala panah. Mean Absolute Error (MAE) dalam estimasi waktu selama 150 waktu acak adalah 232.48 detik untuk jam awal, 1380.69 detik saat bentuknya berubah bentuk, dan 3726.93 detik saat jarum jam diubah.
Hasil ini menunjukkan bahwa MLLM tidak belajar memberi tahu waktu melainkan menghafal pola.
Waktu yang Cukup
Sebagian besar kumpulan data pelatihan bergantung pada gambar web yang diambil, yang cenderung mengulang waktu tertentu – khususnya 10:10, pengaturan populer dalam iklan jam tangan:

Dari makalah baru, contoh prevalensi waktu 'sepuluh lewat sepuluh' pada gambar jam analog.
Akibat terbatasnya rentang waktu yang digambarkan, model mungkin hanya melihat rentang sempit konfigurasi jam yang memungkinkan, sehingga membatasi kemampuannya untuk menggeneralisasi di luar pola berulang tersebut.
Mengenai mengapa model gagal menafsirkan jam yang terdistorsi dengan benar, makalah tersebut menyatakan:
'Meskipun GPT-4.1 berkinerja sangat baik dengan gambar jam standar, sungguh mengejutkan bahwa memodifikasi jarum jam dengan membuatnya lebih tipis dan menambahkan mata panah menyebabkan penurunan akurasi yang signifikan.
'Secara intuitif, seseorang mungkin berharap bahwa perubahan yang lebih rumit secara visual – dial yang terdistorsi – akan memiliki dampak yang lebih besar pada kinerja, namun modifikasi ini tampaknya memiliki dampak yang relatif lebih kecil.
"Hal ini menimbulkan pertanyaan: bagaimana MLLM menginterpretasikan jam, dan mengapa mereka gagal? Salah satu kemungkinannya adalah tangan yang lebih tipis mengganggu kemampuan model untuk memahami arah, sehingga melemahkan pemahamannya tentang orientasi spasial.
'Alternatifnya, mungkin ada faktor lain yang menyebabkan kebingungan saat model mencoba menggabungkan jarum jam, menit, dan detik menjadi pembacaan waktu yang akurat.'
Para penulis berpendapat bahwa mengidentifikasi akar penyebab kegagalan ini adalah kunci untuk memajukan model multimoda: jika masalahnya terletak pada bagaimana model mempersepsi arah spasial, penyempurnaan mungkin menawarkan perbaikan sederhana; tetapi jika masalahnya berasal dari kesulitan yang lebih luas dalam mengintegrasikan beberapa isyarat visual, hal itu menunjukkan kelemahan yang lebih mendasar dalam cara sistem ini memproses informasi.
Uji Penyetelan Halus
Untuk menguji apakah kegagalan model dapat diatasi dengan paparan, GPT-4.1 disempurnakan pada kumpulan data sintetis yang disebutkan sebelumnya dan komprehensif. Sebelum disempurnakan, prediksinya tersebar luas, dengan kesalahan signifikan di semua jenis jam. Setelah disempurnakan pada koleksi, akurasi meningkat tajam pada tampilan jam standar, dan, pada tingkat yang lebih rendah, pada tampilan jam yang terdistorsi.
Namun, jam dengan jarum yang dimodifikasi, seperti bentuk yang lebih tipis atau mata panah, terus menghasilkan kesalahan besar.
Terdapat dua mode kegagalan yang berbeda: pada jam normal dan jam yang terdistorsi, model biasanya salah menilai arah jarum jam; namun pada jam dengan mode kegagalan yang berubah, model biasanya salah menilai arah jarum jam. gaya tangan, sering kali membingungkan fungsi masing-masing tangan, salah mengira jam untuk menit or menit untuk kedua.

Perbandingan yang menggambarkan kelemahan awal model, dan keuntungan parsial yang dicapai melalui fine-tuning, yang menunjukkan waktu yang diprediksi vs. waktu aktual, dalam detik, untuk 150 jam yang dipilih secara acak. Di sebelah kiri, sebelum fine-tuning, prediksi GPT-4.1 tersebar dan sering kali jauh dari nilai yang benar, ditunjukkan oleh garis diagonal merah. Di sebelah kanan, setelah fine-tuning pada kumpulan data sintetis yang seimbang, prediksi tersebut selaras lebih dekat dengan kebenaran dasar, meskipun beberapa kesalahan tetap ada.
Hal ini menunjukkan bahwa model tersebut telah belajar mengaitkan fitur visual seperti ketebalan tangan dengan peran tertentu, dan mengalami kesulitan saat isyarat ini berubah.
Peningkatan terbatas pada desain yang belum dikenal menimbulkan keraguan lebih lanjut tentang apakah model semacam ini mempelajari konsep abstrak dalam menentukan waktu, atau sekadar menyempurnakan pencocokan polanya.
Tanda Tangan
Jadi, meskipun penyetelan halus meningkatkan kinerja GPT-4.1 pada jam analog konvensional, namun dampaknya jauh lebih kecil pada jam dengan jarum yang lebih tipis atau bentuk mata panah, sehingga muncul kemungkinan bahwa kegagalan model tersebut bukan disebabkan oleh penalaran abstrak, melainkan lebih disebabkan oleh kebingungan mengenai jarum mana yang mana.
Untuk menguji apakah akurasi dapat ditingkatkan jika kebingungan itu dihilangkan, analisis baru dilakukan pada prediksi model untuk kumpulan data 'jarum yang dimodifikasi'. Keluarannya dibagi menjadi dua kelompok: kasus di mana GPT-4.1 mengenali jarum jam, menit, dan detik dengan benar; dan kasus di mana GPT-XNUMX tidak mengenali jarum jam, menit, dan detik dengan benar.
Prediksi tersebut dievaluasi untuk Berarti Kesalahan Mutlak (MAE) sebelum dan sesudah penyetelan halus, dan hasilnya dibandingkan dengan jam standar; kesalahan sudut juga diukur untuk setiap jarum jam menggunakan posisi dial sebagai dasar:

Perbandingan kesalahan untuk jam dengan dan tanpa kebingungan peran tangan dalam kumpulan data tangan yang dimodifikasi sebelum dan sesudah penyempurnaan.
Kekeliruan dalam menentukan peran jarum jam menyebabkan kesalahan terbesar. Ketika GPT-4.1 salah mengira jarum jam sebagai jarum menit atau sebaliknya, perkiraan waktu yang dihasilkan sering kali meleset jauh. Sebaliknya, kesalahan yang disebabkan oleh kesalahan dalam menilai arah jarum yang diidentifikasi dengan benar lebih kecil. Di antara ketiga jarum, jarum jam menunjukkan kesalahan sudut tertinggi sebelum penyetelan halus, sedangkan jarum detik menunjukkan kesalahan sudut terendah.

Kesalahan sudut berdasarkan jenis tangan untuk prediksi dengan dan tanpa kebingungan peran tangan, sebelum dan sesudah penyempurnaan, dalam kumpulan data tangan yang dimodifikasi.
Untuk fokus pada kesalahan arah saja, analisis dibatasi pada kasus-kasus di mana model mengidentifikasi fungsi masing-masing tangan dengan benar. Jika model telah menginternalisasi konsep umum penunjuk waktu, kinerjanya pada contoh-contoh ini seharusnya sesuai dengan keakuratannya pada jam standar. Namun, ternyata tidak, dan keakuratannya tetap jauh lebih buruk.
Untuk memeriksa apakah tangan bentuk mengganggu arah model, eksperimen kedua dijalankan: dua set data baru dibuat, masing-masing berisi enam puluh jam sintetis dengan hanya jarum jam, yang menunjuk ke tanda menit yang berbeda. Satu set menggunakan desain jarum asli, dan yang lainnya menggunakan versi yang diubah. Model diminta untuk menyebutkan tanda centang yang ditunjuk oleh jarum tersebut.
Hasil penelitian menunjukkan sedikit penurunan akurasi dengan tangan yang dimodifikasi, namun tidak cukup untuk menjelaskan kegagalan model secara lebih luas. fitur visual tunggal yang tidak dikenal tampaknya mampu mengganggu interpretasi model secara keseluruhan, bahkan dalam tugas-tugas yang sebelumnya dapat dilakukan dengan baik.

Gambaran umum kinerja GPT-4.1 sebelum dan sesudah penyempurnaan pada jam tangan standar, terdistorsi, dan yang dimodifikasi, menyoroti perolehan yang tidak merata dan kelemahan yang terus-menerus.
Kesimpulan
Meskipun fokus makalah ini mungkin tampak remeh pada pandangan pertama, tidak terlalu penting apakah model bahasa-penglihatan dapat belajar membaca jam analog dengan akurasi 100%. Yang memberi bobot pada karya ini adalah fokusnya pada pertanyaan berulang yang lebih dalam: apakah menjenuhkan model dengan lebih banyak (dan lebih beragam) data dapat mengarah pada jenis pemahaman domain yang diperoleh manusia melalui abstraksi dan generalisasi; atau apakah satu-satunya jalan yang layak adalah membanjiri domain dengan cukup banyak contoh untuk mengantisipasi setiap kemungkinan variasi pada inferensi.
Kedua rute tersebut menimbulkan keraguan tentang apa yang benar-benar mampu dipelajari oleh arsitektur saat ini.
Pertama kali diterbitkan pada hari Senin, 19 Mei 2025