Kecerdasan buatan
Ketika Benchmark AI Mengajarkan Model untuk Berbohong

AI hallucination — ketika sebuah sistem menghasilkan jawaban yang terdengar benar tetapi sebenarnya salah — tetap menjadi salah satu tantangan terberat dalam kecerdasan buatan. Bahkan model-model paling canggih saat ini, seperti DeepSeek-V3, Llama, dan rilis terbaru OpenAI, masih menghasilkan informasi yang tidak akurat dengan kepercayaan tinggi. Di bidang seperti kesehatan atau hukum, kesalahan seperti itu dapat menyebabkan konsekuensi serius.
Secara tradisional, hallucinasi telah dianggap sebagai produk sampingan dari cara model bahasa besar dilatih: mereka belajar untuk memprediksi kata berikutnya yang paling mungkin tanpa memverifikasi apakah informasi tersebut benar. Tetapi penelitian baru menunjukkan bahwa masalahnya mungkin tidak berhenti pada pelatihan. Benchmark yang digunakan untuk menguji dan membandingkan kinerja AI sebenarnya dapat memperkuat perilaku menyesatkan, menghargai jawaban yang terdengar meyakinkan daripada yang benar.
Perubahan perspektif ini mengubah masalah. Jika model dilatih untuk menyenangkan tes daripada mengatakan kebenaran, maka hallucinasi bukanlah kesalahan yang tidak disengaja, mereka adalah strategi yang dipelajari. Untuk melihat mengapa ini terjadi, kita perlu melihat mengapa model AI memilih untuk menebak daripada mengakui ketidaktahuan mereka?
Mengapa Model AI Menebak
Untuk melihat mengapa model AI sering menebak daripada mengakui bahwa mereka tidak tahu, pertimbangkan seorang siswa yang menghadapi pertanyaan ujian yang sulit. Siswa tersebut memiliki dua pilihan: meninggalkan jawaban kosong dan mendapatkan nol poin, atau membuat tebakan yang terdidik yang mungkin mendapatkan beberapa kredit. Secara rasional, menebak tampak seperti pilihan yang lebih baik karena ada kemungkinan benar.
Model AI menghadapi situasi yang sama selama evaluasi. Sebagian besar benchmark menggunakan sistem skor biner: jawaban yang benar mendapatkan poin, sedangkan jawaban yang salah atau tidak pasti mendapatkan tidak ada poin. Jika sebuah model ditanya, “Apa tanggal lahir seorang peneliti?” dan model tersebut benar-benar tidak tahu, menjawab dengan “Saya tidak tahu” dianggap sebagai kegagalan. Membuat tanggal, bagaimanapun, membawa beberapa kemungkinan benar — dan bahkan jika itu salah, sistem tidak menghukum tebakan yang percaya diri lebih dari keheningan.
Dinamika ini menjelaskan mengapa hallucinasi bertahan meskipun penelitian ekstensif untuk menghilangkannya. Model tidak berperilaku buruk; mereka mengikuti insentif yang dibangun ke dalam evaluasi. Mereka belajar bahwa terdengar percaya diri adalah cara terbaik untuk memaksimalkan skor mereka, bahkan jika jawaban itu salah. Sebagai hasilnya, bukan mengungkapkan ketidakpastian, model dipaksa untuk memberikan pernyataan yang berwenang — benar atau salah.
Dasar Matematika dari Ketidakjujuran AI
Penelitian menunjukkan bahwa hallucinasi muncul dari dasar matematika tentang cara model bahasa belajar. Bahkan jika sebuah model dilatih hanya pada informasi yang akurat, tujuan statistiknya masih akan menyebabkan kesalahan. Itu karena menghasilkan jawaban yang benar secara fundamental lebih sulit daripada mengenali apakah jawaban itu valid.
Hal ini membantu menjelaskan mengapa model sering gagal pada fakta yang tidak memiliki pola yang jelas, seperti tanggal lahir atau detail unik lainnya. Analisis matematika menunjukkan bahwa tingkat hallucinasi dalam kasus seperti itu akan setidaknya sebesar fraksi fakta yang muncul hanya sekali dalam data pelatihan. Dengan kata lain, semakin jarang informasi dalam data, semakin mungkin model akan berjuang dengannya.
Masalahnya tidak terbatas pada fakta yang jarang. Batasan struktural seperti kapasitas model yang terbatas atau desain arsitektur juga menghasilkan kesalahan sistematis. Misalnya, model yang lebih awal dengan jendela konteks yang sangat pendek secara konsisten gagal pada tugas yang memerlukan penalaran jangka panjang. Kesalahan ini bukanlah gangguan acak tetapi hasil yang dapat diprediksi dari kerangka matematika model.
Mengapa Pelatihan Pasca-Tidak Menyelesaikan Masalah
Setelah model AI dilatih pada dataset teks yang besar, biasanya melalui fine-tuning untuk membuat outputnya lebih berguna dan kurang berbahaya. Tetapi proses ini menghadapi masalah inti yang sama yang menyebabkan hallucinasi pada awalnya; cara kita mengevaluasi model.
Metode fine-tuning yang paling umum, seperti reinforcement learning from human feedback, masih bergantung pada benchmark yang menggunakan skor biner. Benchmark ini menghargai model untuk memberikan jawaban yang percaya diri sementara tidak memberikan kredit ketika model mengakui bahwa mereka tidak tahu. Sebagai hasilnya, sistem yang selalu merespons dengan kepercayaan, bahkan ketika salah, dapat mengungguli sistem yang jujur mengungkapkan ketidakpastian.
Peneliti menyebut ini sebagai masalah penghukuman ketidakpastian. Bahkan teknik canggih untuk mendeteksi atau mengurangi hallucinasi berjuang ketika benchmark yang mendasarinya terus mengutamakan kepercayaan diri. Dengan kata lain, tidak peduli seberapa canggih perbaikan, selama sistem evaluasi terus menghargai tebakan yang percaya diri, model akan cenderung memilih jawaban yang salah-tetapi-yakin daripada pengakuan jujur tentang keraguan.
Ilusi Kemajuan
Papan peringkat, yang secara luas dibagikan di komunitas AI, memperkuat masalah ini. Benchmark seperti MMLU, GPQA, dan SWE-bench mendominasi kertas penelitian dan pengumuman produk. Perusahaan menyoroti skor mereka untuk menunjukkan kemajuan yang cepat. Namun, seperti yang dicatat dalam laporan, benchmark ini sendiri mendorong hallucinasi.
Sebuah model yang jujur mengatakan “Saya tidak tahu” mungkin lebih aman dalam pengaturan dunia nyata tetapi akan menduduki peringkat yang lebih rendah pada papan peringkat. Sebaliknya, model yang mengarang jawaban yang meyakinkan tetapi palsu akan mendapatkan skor yang lebih baik. Ketika adopsi, pendanaan, dan prestise bergantung pada peringkat papan peringkat, arah kemajuan menjadi terdistorsi. Publik melihat narasi kemajuan konstan, tetapi di bawahnya, model sedang dilatih untuk menipu.
Mengapa Ketidakpastian Jujur Penting dalam AI
Hallucinasi bukan hanya tantangan penelitian; mereka memiliki konsekuensi dunia nyata. Dalam kesehatan, model yang mengarang interaksi obat dapat menyesatkan dokter. Dalam pendidikan, model yang mengarang fakta sejarah dapat menyesatkan siswa. Dalam jurnalisme, chatbot yang menghasilkan kutipan palsu dapat menyebarkan disinformasi. Risiko ini sudah terlihat. Stanford AI Index 2025 melaporkan bahwa benchmark yang dirancang untuk mengukur hallucinasi telah “berjuang untuk mendapatkan traksi,” bahkan ketika adopsi AI dipercepat. Sementara itu, benchmark yang mendominasi papan peringkat dan yang menghargai jawaban yang percaya diri tetapi tidak dapat diandalkan terus menetapkan arah kemajuan.
Temuan ini menyoroti baik tantangan maupun kesempatan. Dengan memeriksa akar matematika dari hallucinasi, peneliti telah mengidentifikasi arah yang jelas untuk membangun sistem AI yang lebih dapat diandalkan. Kunci adalah untuk berhenti menganggap ketidakpastian sebagai kelemahan dan sebaliknya mengakui sebagai kemampuan yang penting yang harus diukur dan dihargai.
Perubahan perspektif ini memiliki implikasi di luar mengurangi hallucinasi. Sistem AI yang dapat menilai dan mengkomunikasikan keterbatasan pengetahuan mereka dengan akurat akan lebih sesuai untuk aplikasi dengan risiko tinggi di mana kepercayaan diri dapat membawa konsekuensi serius. Diagnosa medis, analisis hukum, dan penelitian ilmiah semua memerlukan kemampuan untuk membedakan antara pengetahuan yang percaya diri dan spekulasi yang terinformasi.
Mempertimbangkan Kembali Evaluasi untuk AI yang Jujur
Temuan ini menyoroti bahwa membangun AI yang lebih dapat dipercaya memerlukan mempertimbangkan kembali cara kita mengukur kemampuan AI. Sebaliknya mengandalkan skor benar atau salah yang sederhana, kerangka evaluasi harus menghargai model untuk mengungkapkan ketidakpastian secara tepat. Ini berarti memberikan pedoman yang jelas tentang ambang kepercayaan dan skema skor yang sesuai dalam instruksi benchmark.
Pendekatan yang menjanjikan melibatkan membuat target kepercayaan yang eksplisit yang menentukan kapan model harus menjawab versus kapan mereka harus menahan diri. Misalnya, instruksi mungkin menyatakan bahwa jawaban hanya boleh diberikan ketika kepercayaan melebihi ambang tertentu, dengan skor disesuaikan secara sesuai. Dalam pengaturan ini, ketidakpastian bukan lagi kelemahan tetapi bagian berharga dari perilaku yang bertanggung jawab.
Kunci adalah membuat persyaratan kepercayaan menjadi transparan daripada implisit. Benchmark saat ini menciptakan hukuman tersembunyi untuk ketidakpastian yang model pelajari untuk menghindari. Target kepercayaan yang eksplisit akan memungkinkan model untuk mengoptimalkan perilaku yang sebenarnya diinginkan: jawaban yang akurat ketika percaya diri, dan pengakuan jujur tentang keraguan ketika pengetahuan tidak mencukupi.
Inti dari Masalah
Hallucinasi AI bukanlah kesalahan acak — mereka diperkuat oleh benchmark yang digunakan untuk mengukur kemajuan. Dengan menghargai tebakan yang percaya diri daripada ketidakpastian yang jujur, sistem evaluasi saat ini mendorong model untuk menipu daripada menjadi dapat diandalkan. Jika kita ingin AI yang dapat dipercaya dalam domain dengan risiko tinggi seperti kesehatan, hukum, dan ilmu, kita perlu mempertimbangkan kembali cara kita menguji dan menghargai mereka. Kemajuan harus diukur tidak hanya oleh akurasi, tetapi oleh kemampuan untuk mengenali dan mengakui apa yang model tidak tahu.












