Kecerdasan buatan

Bagaimana Data Sintetis Mempengaruhi Hallusinasi AI?

Published February 8, 2025

Updated April 3, 2026

Zac Amos

Meskipun data sintetis adalah alat yang kuat, itu hanya dapat mengurangi hallusinasi kecerdasan buatan di bawah keadaan tertentu. Di hampir semua kasus lain, itu akan memperkuatnya. Mengapa demikian? Apa yang dimaksud dengan fenomena ini bagi mereka yang telah berinvestasi di dalamnya?

Bagaimana Data Sintetis Berbeda Dari Data Riil?

Data sintetis adalah informasi yang dihasilkan oleh AI. Alih-alih dikumpulkan dari peristiwa atau pengamatan dunia nyata, itu diproduksi secara sintetis. Namun, itu menyerupai aslinya cukup untuk menghasilkan output yang akurat dan relevan. Itulah ide di baliknya.

Untuk membuat dataset sintetis, insinyur AI melatih algoritma generatif pada database relasional riil. Ketika diminta, itu menghasilkan set kedua yang secara dekat menyerupai yang pertama tetapi tidak mengandung informasi asli. Sementara tren umum dan sifat matematika tetap utuh, ada cukup noise untuk menutupi hubungan asli.

Dataset yang dihasilkan AI melampaui deidentifikasi, mereplikasi logika dasar hubungan antara bidang alih-alih hanya menggantikan bidang dengan alternatif yang setara. Karena itu tidak mengandung detail pengidentifikasi, perusahaan dapat menggunakannya untuk menghindari peraturan privasi dan hak cipta. Lebih penting lagi, mereka dapat membagikan atau mendistribusikannya secara bebas tanpa takut pelanggaran.

Namun, informasi palsu lebih umum digunakan untuk suplementasi. Bisnis dapat menggunakannya untuk memperkaya atau memperluas ukuran sampel yang terlalu kecil, membuatnya cukup besar untuk melatih sistem AI secara efektif.

Apakah Data Sintetis Mengurangi Hallusinasi AI?

Terkadang, algoritma merujuk pada peristiwa yang tidak ada atau membuat saran yang logis mustahil. Hallusinasi ini sering tidak masuk akal, menyesatkan, atau salah. Misalnya, model bahasa besar mungkin menulis artikel tentang bagaimana mendomestikasi singa atau menjadi dokter pada usia 6. Namun, mereka tidak semua ekstrem seperti ini, yang dapat membuat pengenalan mereka menantang.

Jika dikurasi dengan tepat, data sintetis dapat mengurangi insiden tersebut. Database pelatihan yang relevan dan asli adalah fondasi untuk setiap model, sehingga masuk akal bahwa semakin banyak detail yang dimiliki seseorang, semakin akurat output modelnya akan. Dataset suplementer memungkinkan skalabilitas, bahkan untuk aplikasi niche dengan informasi publik yang terbatas.

Debiasing adalah cara lain database sintetis dapat mengurangi hallusinasi AI. Menurut MIT Sloan School of Management, itu dapat membantu mengatasi bias karena itu tidak terbatas pada ukuran sampel asli. Profesional dapat menggunakan detail realistis untuk mengisi celah di mana subpopulasi tertentu under atau overrepresented.

Bagaimana Data Sintetis Membuat Hallusinasi Lebih Buruk

Karena algoritma cerdas tidak dapat bernalar atau mengkontekstualisasi informasi, mereka rentan terhadap hallusinasi. Model generatif — model bahasa besar pra-terlatih khususnya — sangat rentan. Dalam beberapa cara, fakta sintetis memperburuk masalah.

Amplifikasi Bias

Seperti manusia, AI dapat belajar dan mereproduksi bias. Jika database sintetis menghargai beberapa kelompok sementara meremehkan yang lain — yang mudah dilakukan secara tidak sengaja — logika pengambilan keputusannya akan miring, mempengaruhi akurasi output.

Masalah serupa mungkin timbul ketika perusahaan menggunakan data sintetis untuk menghilangkan bias dunia nyata karena mungkin tidak lagi mencerminkan kenyataan. Misalnya, karena lebih dari 99% kanker payudara terjadi pada wanita, menggunakan informasi suplemental untuk menyeimbangkan representasi dapat memiringkan diagnosis.

Hallusinasi Interseksional

Interseksionalitas adalah kerangka sosiologis yang menjelaskan bagaimana demografi seperti usia, jenis kelamin, ras, pekerjaan, dan kelas bersilangan. Ini menganalisis bagaimana identitas sosial yang tumpang tindih dari kelompok menghasilkan kombinasi unik diskriminasi dan privilese.

Ketika model generatif diminta untuk menghasilkan detail sintetis berdasarkan apa yang dilatihnya, itu mungkin menghasilkan kombinasi yang tidak ada dalam aslinya atau secara logis mustahil.

Ericka Johnson, profesor gender dan masyarakat di Universitas Linköping, bekerja dengan ilmuwan pembelajaran mesin untuk mendemonstrasikan fenomena ini. Mereka menggunakan jaringan adversarial generatif untuk membuat versi sintetis dari angka sensus AS tahun 1990.

Segera, mereka melihat masalah yang mencolok. Versi sintetis memiliki kategori berjudul “istri dan lajang” dan “suami yang tidak pernah menikah,” keduanya merupakan hallusinasi interseksional.

Tanpa kurasi yang tepat, database replika akan selalu mengoverrepresentasi subpopulasi dominan dalam dataset sementara meremehkan — atau bahkan menghilangkan — kelompok yang kurang diwakili. Kasus tepi dan outlier mungkin diabaikan sepenuhnya demi tren dominan.

Keruntuhan Model

Ketergantungan yang berlebihan pada pola dan tren sintetis menyebabkan keruntuhan model — di mana kinerja algoritma memburuk secara drastis karena menjadi kurang adaptif terhadap pengamatan dan peristiwa dunia nyata.

Fenomena ini terutama jelas dalam AI generatif generasi berikutnya. Menggunakan versi sintetis berulang kali untuk melatihnya menghasilkan loop yang mengkonsumsi diri sendiri. Satu studi menemukan bahwa kualitas dan recall mereka menurun secara progresif tanpa cukup angka riil terbaru dalam setiap generasi.

Overfitting

Overfitting adalah ketergantungan yang berlebihan pada data pelatihan. Algoritma berkinerja baik awalnya tetapi akan mengalami hallusinasi ketika diberikan titik data baru. Informasi sintetis dapat memperburuk masalah ini jika tidak mencerminkan kenyataan dengan akurat.

Implikasi Penggunaan Data Sintetis yang Berkelanjutan

Pasar data sintetis sedang booming. Perusahaan di industri niche ini mengumpulkan sekitar $328 juta pada 2022, naik dari $53 juta pada 2020 — peningkatan 518% dalam 18 bulan. Ini patut disebutkan bahwa ini hanya pendanaan yang diketahui secara publik, yang berarti angka sebenarnya mungkin lebih tinggi. Aman untuk mengatakan bahwa perusahaan sangat berinvestasi pada solusi ini.

Jika perusahaan terus menggunakan database sintetis tanpa kurasi dan debiasing yang tepat, kinerja model mereka akan menurun secara progresif, memburuknya investasi AI mereka. Hasilnya mungkin lebih parah, tergantung pada aplikasinya. Misalnya, dalam perawatan kesehatan, peningkatan hallusinasi dapat menghasilkan diagnosis yang salah atau rencana perawatan yang tidak tepat, menyebabkan hasil pasien yang lebih buruk.

Solusi Tidak Akan Melibatkan Kembali ke Data Riil

Sistem AI membutuhkan jutaan, jika tidak milyaran, gambar, teks, dan video untuk pelatihan, sebagian besar di antaranya dikumpulkan dari situs web publik dan dikompilasi dalam dataset terbuka yang besar. Sayangnya, algoritma mengonsumsi informasi ini lebih cepat daripada manusia dapat menghasilkannya. Apa yang terjadi ketika mereka belajar semua?

Pemimpin bisnis khawatir tentang menabrak “dinding data” — titik di mana semua informasi publik di internet telah habis. Ini mungkin mendekati lebih cepat daripada yang mereka pikir.

Meskipun jumlah teks biasa pada halaman umum dan jumlah pengguna internet tumbuh sebesar 2% hingga 4% setiap tahun, algoritma kehabisan data berkualitas tinggi. Hanya 10% hingga 40% dapat digunakan untuk pelatihan tanpa mengompromikan kinerja. Jika tren berlanjut, stok informasi publik yang dihasilkan manusia bisa habis pada 2026.

Sektor AI mungkin menghadapi “dinding data” bahkan lebih cepat. Boom AI generatif beberapa tahun terakhir telah meningkatkan ketegangan atas kepemilikan informasi dan pelanggaran hak cipta. Lebih banyak pemilik situs web menggunakan Protokol Pengecualian Robot — standar yang menggunakan file robots.txt untuk memblokir web crawler — atau membuatnya jelas bahwa situs mereka tidak dapat diakses.

Studi 2024 yang dipublikasikan oleh grup penelitian yang dipimpin MIT mengungkapkan bahwa dataset C4 — korpus web crawl skala besar — pembatasan meningkat. Lebih dari 28% sumber paling aktif dan kritis di C4 sepenuhnya dibatasi. Lebih lagi, 45% dari C4 sekarang ditandai sebagai tidak dapat diakses berdasarkan ketentuan layanan.

Jika perusahaan menghormati pembatasan ini, kesegaran, relevansi, dan akurasi fakta dunia nyata akan menurun, memaksa mereka untuk mengandalkan database sintetis. Mereka mungkin tidak memiliki banyak pilihan jika pengadilan memutuskan bahwa alternatif apa pun adalah pelanggaran hak cipta.

Masa Depan Data Sintetis dan Hallusinasi AI

Ketika hukum hak cipta diperbarui dan lebih banyak pemilik situs web menyembunyikan konten mereka dari web crawler, generasi dataset sintetis akan menjadi semakin populer. Organisasi harus siap menghadapi ancaman hallusinasi.

Related Topics:ai hallucination synthetic data

Zac Amos

Zac Amos adalah penulis teknologi yang fokus pada kecerdasan buatan. Ia juga merupakan Features Editor di ReHack, di mana Anda dapat membaca lebih banyak karyanya.