Terhubung dengan kami

Bagaimana Data Sintetis Mempengaruhi Halusinasi AI?

Kecerdasan Buatan

Bagaimana Data Sintetis Mempengaruhi Halusinasi AI?

mm

Meskipun data sintetis merupakan alat yang ampuh, data sintetis hanya dapat mengurangi halusinasi kecerdasan buatan dalam keadaan tertentu. Dalam hampir semua kasus lainnya, data sintetis akan memperkuat halusinasi tersebut. Mengapa demikian? Apa arti fenomena ini bagi mereka yang telah berinvestasi di dalamnya? 

Apa Bedanya Data Sintetis dengan Data Nyata?

Data sintetis adalah informasi yang dihasilkan oleh AI. Alih-alih dikumpulkan dari kejadian atau pengamatan di dunia nyata, data tersebut diproduksi secara artifisial. Namun, data tersebut cukup menyerupai data asli untuk menghasilkan output yang akurat dan relevan. Itulah idenya.  

Untuk membuat kumpulan data buatan, teknisi AI melatih algoritme generatif pada basis data relasional nyata. Saat diminta, algoritme tersebut menghasilkan kumpulan data kedua yang sangat mirip dengan kumpulan data pertama tetapi tidak berisi informasi asli. Meskipun tren umum dan sifat matematika tetap utuh, terdapat cukup banyak gangguan yang menutupi hubungan asli. 

Kumpulan data yang dihasilkan AI melampaui deidentifikasi, mereplikasi logika dasar hubungan antar bidang alih-alih sekadar mengganti bidang dengan alternatif yang setara. Karena tidak berisi detail pengenal, perusahaan dapat menggunakannya untuk menghindari peraturan privasi dan hak cipta. Yang lebih penting, mereka dapat membagikan atau mendistribusikannya secara bebas tanpa takut terjadi pelanggaran. 

Namun, informasi palsu lebih umum digunakan untuk pelengkapan. Bisnis dapat menggunakannya untuk memperkaya atau memperluas ukuran sampel yang terlalu kecil, sehingga cukup besar untuk melatih sistem AI secara efektif. 

Apakah Data Sintetis Meminimalkan Halusinasi AI?

Terkadang, algoritme merujuk pada kejadian yang tidak ada atau memberikan saran yang secara logis tidak mungkin. Halusinasi ini sering kali tidak masuk akal, menyesatkan, atau tidak benar. Misalnya, model bahasa yang besar mungkin menulis artikel tentang cara menjinakkan singa atau menjadi dokter pada usia 6 tahun. Namun, tidak semuanya ekstrem, yang dapat membuat pengenalannya menjadi sulit. 

Jika dikurasi dengan tepat, data buatan dapat mengurangi insiden ini. Basis data pelatihan yang relevan dan autentik merupakan fondasi bagi model apa pun, jadi masuk akal jika semakin banyak detail yang dimiliki seseorang, semakin akurat keluaran modelnya. Kumpulan data tambahan memungkinkan skalabilitas, bahkan untuk aplikasi khusus dengan informasi publik yang terbatas. 

Debiasing adalah cara lain database sintetis dapat meminimalkan halusinasi AI. Menurut MIT Sloan School of Management, dapat membantu mengatasi bias karena tidak terbatas pada ukuran sampel asli. Profesional dapat menggunakan detail yang realistis untuk mengisi kesenjangan di mana subpopulasi tertentu kurang atau terlalu terwakili. 

Bagaimana Data Buatan Memperburuk Halusinasi

Karena algoritma cerdas tidak dapat bernalar atau mengontekstualisasikan informasi, mereka rentan terhadap halusinasi. Model generatif β€” khususnya model bahasa besar yang telah dilatih sebelumnya β€” sangat rentan. Dalam beberapa hal, fakta buatan memperparah masalah. 

Amplifikasi Bias

Seperti manusia, AI dapat mempelajari dan mereproduksi bias. Jika basis data buatan menilai terlalu tinggi beberapa kelompok sementara kurang mewakili kelompok lain β€” yang sangat mudah terjadi secara tidak sengaja β€” logika pengambilan keputusannya akan miring, yang berdampak buruk pada akurasi keluaran. 

Masalah serupa dapat muncul ketika perusahaan menggunakan data palsu untuk menghilangkan bias di dunia nyata karena data tersebut mungkin tidak lagi mencerminkan kenyataan. Misalnya, karena lebih dari 99% kanker payudara terjadi pada wanita, penggunaan informasi tambahan untuk menyeimbangkan representasi dapat mendistorsi diagnosis.

Halusinasi Interseksional

Interseksionalitas adalah kerangka sosiologi yang menggambarkan bagaimana demografi seperti usia, jenis kelamin, ras, pekerjaan, dan kelas saling bersinggungan. Kerangka ini menganalisis bagaimana identitas sosial kelompok yang saling tumpang tindih menghasilkan kombinasi unik dari diskriminasi dan hak istimewa.

Bila model generatif diminta menghasilkan detail buatan berdasarkan apa yang dilatihnya, model tersebut mungkin menghasilkan kombinasi yang tidak ada dalam model asli atau tidak mungkin secara logis.

Ericka Johnson, seorang profesor gender dan masyarakat di Universitas LinkΓΆping, bekerja sama dengan seorang ilmuwan pembelajaran mesin untuk menunjukkan fenomena ini. Mereka menggunakan jaringan adversarial generatif untuk membuat versi sintetis angka sensus Amerika Serikat dari tahun 1990. 

Mereka langsung menyadari masalah yang mencolok. Versi buatan itu memiliki kategori berjudul "istri dan lajang" dan "suami yang belum pernah menikah", yang keduanya merupakan halusinasi interseksional.

Tanpa kurasi yang tepat, basis data replika akan selalu merepresentasikan subpopulasi dominan secara berlebihan dalam kumpulan data, sementara merepresentasikan β€” atau bahkan mengecualikan β€” kelompok yang kurang terwakili. Kasus ekstrem dan outlier dapat diabaikan sepenuhnya demi tren dominan. 

Keruntuhan Model 

Ketergantungan yang berlebihan pada pola dan tren buatan menyebabkan keruntuhan model β€” di mana kinerja algoritma menurun drastis karena menjadi kurang adaptif terhadap pengamatan dan kejadian di dunia nyata. 

Fenomena ini khususnya terlihat dalam AI generatif generasi berikutnya. Penggunaan versi buatan secara berulang untuk melatihnya menghasilkan siklus yang memakan waktu sendiri. Satu studi menemukan bahwa penurunan kualitas dan ingatan secara progresif tanpa cukup angka aktual terkini di setiap generasi.

overfitting 

overfitting adalah ketergantungan yang berlebihan pada data pelatihan. Algoritme tersebut awalnya berjalan dengan baik tetapi akan berhalusinasi ketika disajikan dengan titik data baru. Informasi sintetis dapat memperparah masalah ini jika tidak mencerminkan kenyataan secara akurat. 

Implikasi Penggunaan Data Sintetis yang Berkelanjutan

Pasar data sintetis sedang berkembang pesat. Perusahaan-perusahaan di industri khusus ini mengumpulkan sekitar $ 328 juta pada tahun 2022, naik dari $53 juta pada tahun 2020 β€” peningkatan 518% hanya dalam 18 bulan. Perlu dicatat bahwa ini hanya pendanaan yang diketahui publik, yang berarti angka sebenarnya mungkin lebih tinggi. Dapat dikatakan bahwa perusahaan sangat berinvestasi dalam solusi ini. 

Jika perusahaan terus menggunakan basis data buatan tanpa kurasi dan debiasing yang tepat, kinerja model mereka akan menurun secara bertahap, yang akan merusak investasi AI mereka. Hasilnya mungkin lebih parah, tergantung pada aplikasinya. Misalnya, dalam perawatan kesehatan, lonjakan halusinasi dapat mengakibatkan kesalahan diagnosis atau rencana perawatan yang tidak tepat, yang menyebabkan hasil pasien yang lebih buruk.

Solusinya Tidak Akan Melibatkan Pengembalian ke Data Nyata

Sistem AI memerlukan jutaan, bahkan miliaran, gambar, teks, dan video untuk pelatihan, yang sebagian besar diambil dari situs web publik dan dikompilasi dalam kumpulan data terbuka yang besar. Sayangnya, algoritme mengonsumsi informasi ini lebih cepat daripada kemampuan manusia untuk menghasilkannya. Apa yang terjadi ketika mereka mempelajari semuanya?

Para pemimpin bisnis khawatir akan terbentur tembok data β€” titik di mana semua informasi publik di internet telah habis. Hal itu mungkin terjadi lebih cepat dari yang mereka kira. 

Meskipun jumlah teks biasa pada halaman web perayapan umum rata-rata dan jumlah pengguna internet tumbuh sebesar 2% hingga 4% Setiap tahun, algoritme kehabisan data berkualitas tinggi. Hanya 10% hingga 40% yang dapat digunakan untuk pelatihan tanpa mengorbankan kinerja. Jika tren ini terus berlanjut, stok informasi publik yang dihasilkan manusia dapat habis pada tahun 2026.

Kemungkinan besar, sektor AI akan menghadapi kendala data lebih cepat. Ledakan AI generatif dalam beberapa tahun terakhir telah meningkatkan ketegangan atas kepemilikan informasi dan pelanggaran hak cipta. Lebih banyak pemilik situs web menggunakan Protokol Pengecualian Robot β€” standar yang menggunakan file robots.txt untuk memblokir perayap web β€” atau menyatakan dengan jelas bahwa situs mereka tidak dapat diakses. 

Sebuah studi tahun 2024 yang diterbitkan oleh kelompok penelitian yang dipimpin MIT mengungkapkan bahwa kumpulan data Colossal Cleaned Common Crawl (C4) β€” korpus perayapan web berskala besar β€” ​​semakin membatasi. 28% dari sumber yang paling aktif dan kritis di C4 sepenuhnya dibatasi. Selain itu, 45% dari C4 sekarang ditetapkan sebagai area terlarang berdasarkan ketentuan layanan. 

Jika perusahaan mematuhi batasan ini, kesegaran, relevansi, dan keakuratan fakta publik di dunia nyata akan menurun, sehingga memaksa mereka untuk bergantung pada basis data buatan. Mereka mungkin tidak punya banyak pilihan jika pengadilan memutuskan bahwa alternatif apa pun merupakan pelanggaran hak cipta. 

Masa Depan Data Sintetis dan Halusinasi AI 

Seiring dengan semakin modernnya undang-undang hak cipta dan semakin banyaknya pemilik situs web yang menyembunyikan konten mereka dari perayap web, pembuatan kumpulan data buatan akan semakin populer. Organisasi harus bersiap menghadapi ancaman halusinasi. 

Zac Amos adalah seorang penulis teknologi yang berfokus pada kecerdasan buatan. Dia juga Editor Fitur di Retas ulang, di mana Anda dapat membaca lebih banyak karyanya.