Sudut Anderson
Perjuangan AI untuk Membaca Jam Analog Mungkin Memiliki Signifikansi yang Lebih Dalam

Sebuah makalah baru dari peneliti di Cina dan Spanyol menemukan bahwa bahkan model AI multimodal yang maju seperti GPT-4.1 mengalami kesulitan untuk mengetahui waktu dari gambar jam analog. Perubahan visual kecil pada jam dapat menyebabkan kesalahan interpretasi yang besar, dan fine-tuning hanya membantu dengan contoh yang familiar. Hasil ini menimbulkan kekhawatiran tentang keandalan model ini saat menghadapi gambar yang tidak familiar dalam tugas dunia nyata.
Manusia mengembangkan pemahaman yang cukup dalam tentang sebuah domain, seperti gravitasi atau prinsip fisik dasar lainnya, kita melampaui contoh spesifik untuk memahami abstraksi yang mendasarinya. Ini memungkinkan kita untuk menerapkan pengetahuan itu secara kreatif di seluruh konteks dan untuk mengenali instance baru, bahkan yang belum pernah kita lihat sebelumnya, dengan mengidentifikasi prinsip yang sedang beraksi.
Ketika sebuah domain membawa cukup banyak kepentingan, kita mungkin bahkan mulai memahaminya di mana itu tidak ada, seperti pareidolia, yang dipicu oleh biaya tinggi untuk gagal mengenali instance yang nyata. Pola pengenalan ini begitu kuat sehingga kita cenderung menemukan pola yang lebih luas di mana tidak ada.
Domain yang diajarkan kepada kita sejak dini dan dengan repetitif, semakin dalam pemahamannya dan persistensinya sepanjang hidup; dan salah satu dataset visual paling awal yang kita hadapi sebagai anak-anak datang dalam bentuk jam pengajaran, di mana materi cetak atau jam analog interaktif digunakan untuk mengajari kita cara membaca waktu:

Alat bantu untuk membantu anak-anak belajar membaca waktu. Sumber: https://www.youtube.com/watch?v=IBBQXBhSNUs
Meskipun perubahan mode dalam desain jam mungkin terkadang menantang kita, ketahanan penguasaan domain ini cukup mengesankan, memungkinkan kita untuk membedakan wajah jam analog bahkan dalam desain yang kompleks atau ‘eksenrik’:

Beberapa wajah jam yang menantang dalam desain jam.
Manusia tidak memerlukan ribuan contoh untuk belajar bagaimana jam bekerja; sekali konsep dasar dipahami, kita dapat mengenaliinya dalam hampir semua bentuk, bahkan ketika terdistorsi atau diabstraksikan.
Kesulitan yang dihadapi model AI dengan tugas ini, di sisi lain, menyoroti masalah yang lebih dalam: kekuatan yang tampaknya bergantung lebih pada paparan volume tinggi daripada pemahaman.
Melampaui Permainan Imitasi?
Tegangan antara kinerja permukaan dan pemahaman yang sebenarnya telah muncul berulang kali dalam penyelidikan model besar. Bulan lalu, Universitas Zhejiang dan Universitas Westlake mengajukan pertanyaan dalam sebuah makalah berjudul Apakah Model LLM Tingkat PhD Benar-Benar Memahami Penambahan Elementer? (bukan fokus artikel ini), menyimpulkan:
‘Meskipun benchmark yang mengesankan, model menunjukkan ketergantungan kritis pada pencocokan pola daripada pemahaman yang sebenarnya, seperti yang dibuktikan oleh kegagalan dengan representasi simbolik dan pelanggaran sifat dasar.
‘Pemberian aturan eksplisit yang merusak kinerja menunjukkan adanya keterbatasan arsitektur bawaan. Wawasan ini mengungkapkan celah evaluasi dan menyoroti kebutuhan akan arsitektur yang mampu melakukan penalaran matematika yang sebenarnya di luar pengenalan pola.’
Pertanyaan ini muncul kembali, sekarang dalam kolaborasi antara Universitas Aeronautika dan Astronautika Nanjing dan Universidad Politécnica de Madrid di Spanyol. Berjudul Apakah Multimodal Large Language Models (MLLMs) Benar-Benar Belajar Membaca Waktu pada Jam Analog?, makalah baru ini menjelajahi seberapa baik model multimodal memahami membaca waktu.
Meskipun kemajuan penelitian hanya diliput secara umum dalam makalah, tes awal peneliti menetapkan bahwa model bahasa multimodal GPT-4.1 dari OpenAI mengalami kesulitan untuk membaca waktu dari berbagai gambar jam, sering memberikan jawaban yang salah bahkan pada kasus sederhana.
Hal ini menunjukkan kemungkinan kesenjangan dalam data pelatihan model, menimbulkan kebutuhan akan dataset yang lebih seimbang, untuk menguji apakah model dapat benar-benar mempelajari konsep yang mendasarinya. Oleh karena itu, penulis membuat dataset sintetis jam analog, yang secara merata mencakup setiap waktu yang mungkin, dan menghindari bias yang biasa ditemukan dalam gambar internet:

Contoh dari dataset jam analog sintetis peneliti, digunakan untuk fine-tuning model GPT dalam karya baru ini. Sumber: https://huggingface.co/datasets/migonsa/analog_watches_finetune
Sebelum fine-tuning pada dataset baru, GPT-4.1 secara konsisten gagal membaca jam-jam ini. Setelah beberapa paparan terhadap koleksi baru, namun, kinerjanya membaik – tetapi hanya ketika gambar baru terlihat seperti yang sudah pernah dilihat sebelumnya.
Ketika bentuk jam atau gaya tangan berubah, akurasi turun tajam; bahkan perubahan kecil, seperti tangan yang lebih tipis atau panah (gambar paling kanan di bawah), cukup untuk mengacaukannya; dan GPT-4.1 juga berjuang untuk menafsirkan jam-jam ‘melting clocks’ khas Dali:

Gambar jam dengan desain standar (kiri), bentuk yang terdistorsi (tengah), dan tangan yang dimodifikasi (kanan), bersama dengan waktu yang dikembalikan oleh GPT-4.1 sebelum dan setelah fine-tuning. Sumber: https://arxiv.org/pdf/2505.10862
Penulis menyimpulkan bahwa model saat ini seperti GPT-4.1 mungkin mempelajari membaca jam terutama melalui pencocokan pola visual, bukan konsep yang lebih dalam tentang waktu, dengan pernyataan:
‘[GPT 4.1] gagal ketika jam terdeformasi atau ketika tangan diubah menjadi lebih tipis dan memiliki panah. Mean Absolute Error (MAE) dalam perkiraan waktu selama 150 waktu acak adalah 232,48s untuk jam awal, 1380,69s ketika bentuk diubah dan 3726,93s ketika tangan diubah.
‘Hasil ini menunjukkan bahwa MLLM belum belajar membaca waktu tetapi lebih mengingat pola.’
Cukup Waktu
Sebagian besar dataset pelatihan bergantung pada gambar web yang diambil, yang cenderung mengulangi waktu tertentu – terutama 10:10, sebuah pengaturan populer dalam iklan jam:

Dari makalah baru, contoh prevalensi waktu ‘sepuluh lewat sepuluh’ dalam gambar jam analog.
Sebagai hasil dari rentang waktu yang terbatas yang digambarkan, model mungkin hanya melihat rentang konfigurasi jam yang sempit, membatasi kemampuannya untuk menggeneralisasi di luar pola yang berulang-ulang.
Mengenai mengapa model gagal menafsirkan jam yang terdistorsi dengan benar, makalah menyatakan:
‘Meskipun GPT-4.1 berkinerja sangat baik dengan gambar jam standar, mengejutkan bahwa memodifikasi tangan jam dengan membuatnya lebih tipis dan menambahkan panah menyebabkan penurunan akurasi yang signifikan.
‘Intuitif, seseorang mungkin berharap bahwa perubahan visual yang lebih kompleks – dial yang terdistorsi – akan memiliki dampak yang lebih besar pada kinerja, namun modifikasi ini tampaknya memiliki efek yang relatif lebih kecil.’
‘Hal ini menimbulkan pertanyaan: bagaimana MLLMs menafsirkan jam, dan mengapa mereka gagal? Salah satu kemungkinan adalah bahwa tangan yang lebih tipis mengganggu kemampuan model untuk memahami arah, melemahkan pemahaman tentang orientasi spasial.
‘Atau, ada faktor lain yang menyebabkan kebingungan ketika model mencoba menggabungkan tangan jam, menit, dan detik menjadi waktu yang akurat.’
Penulis berpendapat bahwa mengidentifikasi penyebab akar kegagalan ini adalah kunci untuk mengembangkan model multimodal: jika masalahnya terletak pada bagaimana model memahami arah spasial, fine-tuning mungkin menawarkan perbaikan sederhana; tetapi jika masalahnya berasal dari kesulitan yang lebih mendasar dalam mengintegrasikan petunjuk visual multiple, itu menunjukkan kelemahan yang lebih fundamental dalam cara sistem ini memproses informasi.
Pengujian Fine-Tuning
Untuk menguji apakah kegagalan model dapat diatasi dengan paparan, GPT-4.1 difine-tuning pada dataset sintetis yang disebutkan sebelumnya. Sebelum fine-tuning, prediksinya tersebar luas, dengan kesalahan signifikan di semua jenis jam. Setelah fine-tuning pada koleksi, akurasi meningkat secara tajam pada wajah jam standar, dan, sampai batas tertentu, pada jam yang terdistorsi.
Namun, jam dengan tangan yang dimodifikasi, seperti bentuk yang lebih tipis atau panah, terus menghasilkan kesalahan besar.
Dua mode kegagalan yang berbeda muncul: pada jam normal dan terdistorsi, model biasanya salah menilai arah tangan; tetapi pada jam dengan gaya tangan yang diubah, model sering membingungkan fungsi masing-masing tangan, mengira jam untuk menit atau menit untuk detik.

Perbandingan yang menggambarkan kelemahan awal model, dan keuntungan sebagian yang diperoleh melalui fine-tuning, menunjukkan perkiraan versus waktu sebenarnya, dalam detik, untuk 150 jam yang dipilih secara acak. Di sebelah kiri, sebelum fine-tuning, prediksi GPT-4.1 tersebar dan sering jauh dari nilai yang benar, ditunjukkan oleh garis diagonal merah. Di sebelah kanan, setelah fine-tuning pada dataset sintetis yang seimbang, prediksi lebih dekat dengan kebenaran, meskipun beberapa kesalahan tetap ada.
Hal ini menunjukkan bahwa model telah belajar mengasosiasikan fitur visual seperti ketebalan tangan dengan peran tertentu, dan berjuang ketika petunjuk ini berubah.
Peningkatan terbatas pada desain yang tidak familiar menimbulkan keraguan lebih lanjut tentang apakah model jenis ini mempelajari konsep abstrak membaca waktu, atau hanya memperbaiki pencocokan pola.
Tanda Tangan Tangan
Jadi, meskipun fine-tuning memperbaiki kinerja GPT-4.1 pada jam analog konvensional, itu memiliki dampak yang jauh lebih kecil pada jam dengan tangan yang lebih tipis atau bentuk panah, menimbulkan kemungkinan bahwa kegagalan model berasal dari kebingungan tentang tangan mana yang mana.
Untuk menguji apakah akurasi mungkin ditingkatkan jika kebingungan itu dihilangkan, analisis baru dilakukan pada prediksi model untuk dataset ‘tangan yang dimodifikasi’. Keluaran dibagi menjadi dua kelompok: kasus di mana GPT-4.1 mengenali tangan jam, menit, dan detik dengan benar; dan kasus di mana tidak.
Prediksi dievaluasi untuk Mean Absolute Error (MAE) sebelum dan setelah fine-tuning, dan hasilnya dibandingkan dengan jam standar; kesalahan sudut juga diukur untuk setiap tangan menggunakan posisi dial sebagai baseline:

Perbandingan kesalahan untuk jam dengan dan tanpa kebingungan peran tangan dalam dataset tangan yang dimodifikasi sebelum dan setelah fine-tuning.
Membingungkan peran tangan jam menyebabkan kesalahan terbesar. Ketika GPT-4.1 mengira tangan jam untuk menit atau sebaliknya, perkiraan waktu yang dihasilkan sering jauh dari benar. Sebaliknya, kesalahan yang disebabkan oleh penilaian arah tangan yang salah identifikasi secara benar lebih kecil. Di antara ketiga tangan, tangan jam menunjukkan kesalahan sudut tertinggi sebelum fine-tuning, sementara tangan detik menunjukkan kesalahan sudut terendah.

Kesalahan sudut per jenis tangan untuk prediksi dengan dan tanpa kebingungan peran tangan, sebelum dan setelah fine-tuning, dalam dataset tangan yang dimodifikasi.
Untuk fokus pada kesalahan arah saja, analisis dibatasi pada kasus di mana model mengenali fungsi tangan dengan benar. Jika model telah memahami konsep membaca waktu yang umum, kinerjanya pada contoh ini seharusnya sesuai dengan akurasi pada jam standar. Namun, akurasi tetap jauh lebih buruk.
Untuk memeriksa apakah bentuk tangan mengganggu pemahaman model tentang arah, eksperimen kedua dilakukan: dua dataset sintetis baru dibuat, masing-masing berisi 60 jam sintetis dengan hanya tangan jam yang menunjuk ke tanda menit yang berbeda. Satu set menggunakan desain tangan asli, dan set lainnya menggunakan versi yang diubah. Model diminta untuk menamai tanda yang ditunjuk oleh tangan.
Hasil menunjukkan penurunan akurasi yang kecil dengan tangan yang dimodifikasi, tetapi tidak cukup untuk menjelaskan kegagalan model yang lebih luas. Sebuah fitur visual yang tidak biasa tampaknya dapat mengganggu interpretasi model secara keseluruhan, bahkan dalam tugas yang sebelumnya telah dilakukan dengan baik.

Ikhtisar kinerja GPT-4.1 sebelum dan setelah fine-tuning di seluruh jam standar, terdistorsi, dan tangan yang dimodifikasi, menyoroti keuntungan yang tidak merata dan kelemahan yang persisten.
Kesimpulan
Meskipun fokus makalah ini mungkin tampak sepele pada pandangan pertama, itu tidak terlalu penting jika model bahasa-penglihatan pernah belajar membaca jam analog dengan akurasi 100%. Yang memberikan makalah ini bobot adalah fokusnya pada pertanyaan yang lebih dalam dan berulang: apakah menjenuhkan model dengan lebih banyak (dan lebih beragam) data dapat mengarah pada pemahaman domain seperti yang diperoleh manusia melalui abstraksi dan generalisasi; atau apakah satu-satunya jalur yang layak adalah membanjiri domain dengan cukup contoh untuk memprediksi setiap variasi yang mungkin terjadi pada saat inferensi.
Setiap jalur menimbulkan keraguan tentang apa yang arsitektur saat ini benar-benar mampu pelajari.
Dipublikasikan pertama kali pada hari Senin, 19 Mei 2025












