Sudut Anderson
ChatGPT-5 dan Gemini 2.5 Mengalami Hallusinasi pada 40% Kueri Newsroom yang Diuji

Sebuah studi baru menemukan bahwa ChatGPT-5 dan Google Gemini menghasilkan hallusinasi pada 40% kueri gaya newsroom, sering kali mengarang klaim yang terdengar percaya diri tanpa didukung oleh fakta yang dapat diverifikasi. NotebookLM Google memiliki tingkat hallusinasi yang lebih rendah, yaitu 13% – tingkat yang masih akan membuat setiap jurnalis di dunia dipecat. Studi tersebut menemukan bahwa model-model tersebut sering kali memutarbalikkan sumber dengan mengubah opini menjadi fakta dan dengan menghilangkan atribusi, membuatnya menjadi alat yang berisiko untuk jurnalisme. Penulis studi tersebut menyerukan perlunya alat yang lebih baik dan khusus untuk tugas-tugas tersebut.
Model Bahasa Besar telah melihat adopsi yang cepat ke dalam jurnalisme dalam beberapa waktu terakhir, di lingkungan kerja yang telah mengurangi biaya, anggaran, dan staf sejak jurnalisme digital menghancurkan dua abad tradisi dalam proses yang tidak dapat dihentikan yang dimulai pada awal 2000-an.
Pada kenyataannya, medan sudah subur, karena media telah terbiasa dengan pemotongan pekerjaan melalui ‘inovasi’ sejak setidaknya pengenalan digital typesetting yang berubah-ubah pada 1980-an, serta tantangan sebelumnya dari advent of radio dan televisi.
Jalan AI yang tidak dapat dihentikan ke dalam newsroom dan outlet media tidak tanpa hambatan, bagaimanapun; dalam konteks di mana 55% perusahaan sekarang menyesali menggantikan manusia dengan AI, dan di mana Gartner memprediksi bahwa organisasi akan sangat mengurangi jadwal adopsi AI dalam dua tahun, sejumlah organisasi berita telah mengambil kembali jurnalis yang digantikan oleh AI, karena kekurangan serius dan sering kali memalukan dari alternatif pembelajaran mesin menjadi jelas.
To Err Is Not Just Human
Meskipun hallusinasi telah terbukti menjadi masalah besar untuk bidang di mana sitasi akurat sangat penting (dengan perhatian publik yang signifikan untuk kasus kegagalan AI di hukum, penelitian dan jurnalisme sektor), sebuah studi baru menemukan bahwa pembelajaran mesin di jurnalisme menghadapi tantangan yang lebih luas dari yang diharapkan.
Penulis studi tersebut mengevaluasi ChatGPT, Google Gemini, dan NotebookLM yang lebih fokus pada sitasi pada tugas pelaporan: menggunakan corpus 300-dokumen yang fokus pada litigasi dan kebijakan TikTok di Amerika Serikat.
Peneliti tersebut bervariasi dalam spesifikasi prompt dan jumlah dokumen yang disediakan, kemudian menganalisis hasilnya menggunakan taksonomi yang dirancang untuk menangkap jenis dan tingkat keparahan hallusinasi.
Di seluruh output, 30% mengandung setidaknya satu hallusinasi, sedangkan ChatGPT dan Gemini masing-masing menunjukkan tingkat hallusinasi 40% – sedikit lebih dari tiga kali lebih tinggi dari tingkat kesalahan NotebookLM 13%.
Bukannya mengarang fakta atau entitas, peneliti mencatat, model-model tersebut sering menampilkan kepercayaan diri interpretatif, menambahkan karakterisasi yang tidak didukung dan mengubah opini yang dikutip menjadi pernyataan umum:
‘Kualitatif, sebagian besar kesalahan tidak melibatkan entitas atau angka yang dibayangkan; sebaliknya, kami mengamati kepercayaan diri interpretatif–model menambahkan karakterisasi sumber yang tidak didukung dan mengubah opini yang dikutip menjadi pernyataan umum.
‘Polanya ini mengungkapkan kesenjangan epistemologis fundamental: Sementara jurnalisme memerlukan sumber eksplisit untuk setiap klaim, LLM menghasilkan teks yang terdengar berwenang tanpa dukungan bukti.
‘Kami mengusulkan ekstensi khusus jurnalisme untuk taksonomi hallusinasi yang ada dan berpendapat bahwa alat newsroom yang efektif memerlukan arsitektur yang menegakkan atribusi akurat daripada mengoptimalkan kelancaran.’
Studi baru, sebuah bacaan yang menarik tetapi singkat dalam lima halaman, berjudul Not Wrong, But Untrue: LLM Overconfidence in Document-Based Queries, dan berasal dari tiga peneliti di Northwestern University dan University of Minnesota.
Teori dan Metode
Penyebab pasti hallusinasi* masih diperdebatkan; meskipun hampir semua teori setuju bahwa kualitas data dan/atau distribusi adalah faktor kontribusi pada saat pelatihan, telah diajukan bahwa 100% output LLM pada dasarnya adalah hallusinasi (kecuali bahwa beberapa hallusinasi tersebut kebetulan bertepatan dengan kenyataan).
Penulis studi tersebut mengamati†:
‘Dari perspektif teknis, hallusinasi muncul dari kemampuan LLM untuk menghasilkan teks yang mengikuti pola umum tanpa memiliki pemahaman tentang apa yang benar. Karakteristik ini menghasilkan respons yang terdengar masuk akal yang tidak mencerminkan kenyataan – misalnya, hukum yang dibayangkan oleh LLM yang masuk ke dalam argumen.
‘Dan sementara kemampuan LLM telah meningkat secara dramatis selama lima tahun terakhir, hallusinasi masih menjadi masalah, dalam beberapa kasus bahkan meningkat seiring dengan model menjadi lebih kapabel.’
Sektor penelitian, makalah tersebut mengamati, telah menjelajahi sejumlah cara untuk mengurangi atau memahami hallusinasi LLM, yang cenderung jatuh ke dalam tiga area utama: pertama, dalam konteks, model dapat ditanam dalam sumber eksternal seperti basis data, koleksi dokumen, atau konten web untuk mendukung klaim mereka.
Ini bekerja dengan baik ketika materi tersebut dapat diandalkan dan lengkap, tetapi celah, informasi yang sudah ketinggalan zaman, atau data yang buruk masih menyebabkan kesalahan; dan model juga memiliki kebiasaan membuat pernyataan yang percaya diri yang melampaui apa yang dikatakan sumber.
Kedua, prompting dan decoding merujuk pada penggunaan instruksi yang hati-hati untuk memandu model. Ini dapat melibatkan meminta model untuk memeriksa bukti mereka, memecah tugas menjadi langkah-langkah yang lebih kecil, atau mengikuti format yang lebih ketat. Terkadang model bahkan diminta untuk meninjau kembali pekerjaan mereka sendiri atau membandingkan beberapa respons.
Teknik-teknik ini dapat menangkap kesalahan, tetapi mereka juga meningkatkan biaya, dan mereka sering gagal mendeteksi kesalahan yang halus; oleh karena itu, tanpa pemeriksaan bukti yang dapat diandalkan, sebagian besar beban verifikasi masih jatuh pada pengguna.
Ketiga, model dan alat merujuk pada memberikan LLM akses ke sumber daya yang dapat mendukung verifikasi, seperti mesin pencari atau kalkulator – meskipun akurasi juga dapat meningkat ketika model dilatih pada data yang memiliki sumber yang baik atau ketika fitur sitasi dibangun.
Namun, langkah-langkah ini tidak sempurna, dan masih bergantung pada kualitas sumber, kejelasan pedoman, dan pengawasan manusia, untuk mencegah informasi palsu menyebar.
Tik Tok
Untuk mengetahui pendekatan mana yang sebenarnya berguna untuk jurnalis, studi tersebut melakukan evaluasi yang dirancang untuk mencerminkan alur kerja newsroom yang sebenarnya dan standar, dengan hallusinasi yang diperiksa dalam konteks tugas pelaporan yang khas.
Model-model frontier diuji menggunakan strategi prompting yang umum dan pengaturan grounding dokumen, sehingga frekuensi dan jenis kesalahan hallusinasi dapat diukur – bersama dengan apa yang kesalahan tersebut sebenarnya signifikasikan untuk integrasi AI ke dalam newsroom.
Analisis tersebut berfokus pada jenis kueri berbasis dokumen yang khas dalam jurnalisme berbasis penelitian dan investigasi. Penulis studi tersebut mencari untuk mengkurasi korpus yang dimaksudkan untuk mencerminkan proyek newsroom kecil hingga menengah yang khas, tetapi yang masih cukup besar untuk menangkap kompleksitas pelaporan dunia nyata; untuk tujuan ini, mereka memilih upaya hukum yang sedang berlangsung untuk melarang TikTok di Amerika Serikat.
Dokumen-dokumen dikumpulkan dari Washington Post, New York Times, ProQuest, dan Westlaw, menghasilkan koleksi 300-dokumen yang terdiri dari lima makalah akademis, 150 artikel berita, dan 145 pengajuan hukum (dengan kompilasi lengkap tersedia untuk peneliti akademis atas permintaan melalui repository proyek).
Karena respons LLM sangat bergantung pada cara prompt diucapkan, dan berapa banyak konteks yang disediakan, penulis studi tersebut merancang lima kueri yang berkisar dari sangat luas hingga sangat spesifik – dari pertanyaan umum tentang larangan TikTok, hingga prompt rinci yang meminta kesaksian dari kasus pengadilan tertentu.
Jumlah dokumen yang diberikan kepada setiap model bervariasi pada 10, 100 – atau semua 300, dari corpus lengkap, dengan dua dokumen kunci disertakan dalam setiap sampel, untuk memastikan konsistensi. Lima belas respons dihasilkan untuk setiap model, kecuali ChatGPT, yang dibatasi hingga sepuluh respons.
Contenders
Tiga alat diuji, masing-masing mencerminkan pendekatan yang berbeda untuk kueri berbasis dokumen: ChatGPT‑5 dievaluasi menggunakan fitur Proyek, yang membatasi unggahan hingga 100 dokumen; Google Gemini 2.5 Pro dapat memproses corpus 300-dokumen lengkap dalam-konteks (menggunakan jendela konteks satu juta token untuk mengkonsumsi langsung 923.000 token); Google NotebookLM, yang menawarkan pengambilan sitasi bawaan, diuji menggunakan notebook khusus untuk setiap sampel.
Meskipun metode penanganan dokumen ini berbeda, ketiga alat tersebut mewakili alat yang sebenarnya tersedia untuk jurnalis; dan dalam hal apapun, state-of-the-art saat ini lebih eksperimental daripada homogen, dengan paritas fitur dan cakupan yang pasti berbeda di antara penawaran saat ini.
Untuk menangkap rentang kemungkinan perilaku hallusinasi, taksonomi dari studi sebelumnya 2023 digunakan, dengan hallusinasi dikodekan oleh orientasi (distorsi vs. elaborasi); kategori (jenis kesalahan); dan derajat (keparahan dinilai sebagai ringan, moderat, atau mengkhawatirkan).
Semua output model dianotasi oleh satu penulis manusia, yang meninjau setiap kalimat dan menerapkan kode ini. Kesalahan yang tidak tercakup dalam taksonomi ditandai sebagai miscellaneous, dan kemudian dianalisis untuk mengembangkan kategori khusus jurnalisme.
Data dan Tes
Dalam tes awal untuk prevalensi hallusinasi, 12 dari 40 respons model ditemukan mengandung setidaknya satu hallusinasi, dengan variasi yang mencolok antara alat. ChatGPT dan Gemini masing-masing menghasilkan hallusinasi pada 40% output mereka, sedangkan NotebookLM menghasilkan hallusinasi pada hanya 13% kasus:

Tingkat hallusinasi keseluruhan untuk setiap alat, dengan Gemini dan ChatGPT menghasilkan proporsi tertinggi respons yang mengandung kesalahan. Sumber: https://arxiv.org/pdf/2509.25498
Dari hasil ini, penulis studi tersebut mengomentari:
‘Ini menunjukkan bahwa, sementara sebagian besar respons di seluruh alat tidak mengandung hallusinasi, pilihan alat memang membuat perbedaan untuk corpus dokumen yang sama dan set kueri.’
Hallusinasi jarang terjadi secara isolasi, makalah tersebut mencatat; Gemini rata-rata empat per respons yang rusak, NotebookLM tiga, dan ChatGPT 1,5. Sebagian besar adalah moderat dalam tingkat keparahan, tetapi 14% diklasifikasikan sebagai mengkhawatirkan. Dalam satu kasus, ChatGPT mengarang motif balasan di balik larangan TikTok yang tidak muncul di sumber:
‘[Dalam] satu kueri ChatGPT menggambarkan larangan TikTok potensial sebagai tindakan timbal balik oleh pembuat undang-undang AS sebagai tanggapan terhadap kebijakan Tiongkok, klaim yang sepenuhnya tidak ada di dokumen sumber yang dikutip.’
Secara keseluruhan, 64% respons yang mengalami hallusinasi memperkenalkan ketidakakuratan faktual atau tangen, potensial memunculkan pertanyaan tentang apakah penggunaan LLM sebenarnya menghemat waktu dalam jenis alur kerja berbasis informasi ini, setidaknya pada tingkat kemajuan saat ini.
Dalam tes awal ini, sebagian besar hallusinasi tidak sesuai dengan kategori taksonomi yang ada, sering kali melibatkan kutipan yang dibayangkan atau perluasan akronim yang tidak benar, menunjukkan bahwa kerangka kerja saat ini mungkin terlalu sempit untuk kasus penggunaan jurnalisme.
Tingkat hallusinasi NotebookLM yang lebih rendah, penulis studi tersebut mengamati, menunjukkan bahwa sistem RAG berbasis sitasi yang dimilikinya menyediakan landasan yang lebih andal daripada fitur Proyek ChatGPT atau pemrosesan dalam-konteks Gemini, terutama ketika dokumen spesifik harus dirujuk.
Dalam hal studi karakteristik kualitatif hallusinasi yang diamati dalam hasil tes, peneliti tersebut mengamati bahwa hallusinasi berasal tidak terutama dari fakta yang dibayangkan, tetapi dari kelebihan interpretatif:
‘Model menambahkan karakterisasi yang percaya diri tentang tujuan dokumen, audiens, dan niat pembicara yang tampak berwenang tetapi tidak memiliki dasar dalam teks yang sebenarnya. Mereka mengubah pernyataan yang hati-hati atau dikutip menjadi klaim yang pasti.’
Kelebihan percaya diri mengambil dua bentuk: pertama, model menambahkan klaim yang tidak didukung tentang tujuan atau audiens dokumen, seperti melabeli sebuah artikel sebagai ‘ditulis untuk umum’ atau pengajuan sebagai ‘ditujukan untuk pengacara’.
Kedua, mereka mengubah opini yang dikutip menjadi pernyataan yang mirip dengan fakta, mengaburkan sumber asli dan melemahkan penilaian sumber.
Perilaku ini muncul di semua alat dan tidak terbatas pada satu arsitektur – dan sebagian besar kesalahan bukanlah fabrikasi, tetapi penafsiran yang berlebihan.
Sebagian besar hallusinasi diberi label sebagai miscellaneous, karena mereka tidak sesuai dengan kategori yang ada, mengaburkan perbedaan kunci antara jenis kesalahan. Masalah yang sering terjadi seperti atribusi yang hilang dan deskripsi sumber yang samar menunjukkan bahwa taksonomi saat ini melewatkan jenis kesalahan yang paling penting dalam jurnalisme, di mana sumber yang jelas sangat penting.
Penulis studi tersebut mengamati bahwa ‘Model menambahkan analisis yang dokumen tidak dukung dan menghilangkan atribusi yang penting.’
Kesimpulan
Siapa pun yang telah bereksperimen dengan tiga model yang dipelajari dalam makalah baru akan tahu bahwa masing-masing memiliki kelemahan dan kelebihan. Meskipun NotebookLM berkinerja jauh lebih baik dalam hal sitasi daripada ChatGPT atau Gemini, seseorang mungkin berpikir bahwa itu dibangun khusus untuk fungsionalitas ini, dan masih menghasilkan tingkat kesalahan yang akan membuat sebagian besar jurnalis, peneliti, atau pengacara dipecat, dengan insiden berulang.
Selain itu, NotebookLM, yang menempatkan dirinya sebagai kerangka kerja penelitian, tidak memiliki banyak penghalusan UX yang membuat platform lain lebih mudah digunakan.
Namun, setidaknya NotebookLM tampaknya benar-benar membaca dokumen yang diunggah, bukan jatuh ke dalam kebiasaan ChatGPT yang sangat destruktif untuk menebak apa yang mungkin dikatakan dokumen yang diunggah, berdasarkan apa yang diketahuinya tentang distribusi dokumen serupa. Ini bisa jadi perjuangan yang sulit untuk mendapatkan versi ChatGPT mana pun untuk melakukan pembacaan teks lengkap dari materi yang diunggah, bukan bergantung pada metadata atau asumsi/hallusinasi sendiri.
Untuk bidang di mana provenance dan standar sitasi sangat penting, seperti hukum, jurnalisme, dan penelitian ilmiah, tampaknya tidak ada fasilitas yang dilatih secara asli dalam LLM terkemuka saat ini yang dapat meningkatkan kapasitas terbatas mereka untuk mengekstrak dan menangani informasi yang ditunjuk oleh pengguna.
Saat ini, dan sampai sistem tambahan yang dapat menawarkan antarmuka yang lebih baik ke LLM daripada sekadar prompt sistem atau pengaturan MCP, semua output yang dihasilkan sistem ini untuk sektor kritis ini masih perlu diperiksa oleh manusia yang mahal, tidak nyaman, dan umumnya mengganggu.
* Google Cloud menawarkan penjelasan yang cukup menarik dan menyeluruh tentang topik di sini.
† Konversi saya dari kutipan inline penulis ke tautan.
Dipublikasikan pertama kali pada Rabu, 1 Oktober 2025. Direvisi pada Kamis, 2 Oktober, untuk memperbaiki kesalahan dalam TL;DR dan memperbaiki kesalahan gaya dalam paragraf pertama.












