Pemimpin pemikiran
Apakah Ada Solusi yang Jelas untuk Risiko Privasi yang Ditimbulkan oleh AI Generatif?
Risiko privasi yang ditimbulkan oleh AI generatif sangat nyata. Dari peningkatan pengawasan dan eksposur ke kampanye phishing dan vishing yang lebih efektif daripada sebelumnya, AI generatif mengerosi privasi secara besar-besaran, tidak memilih, sambil memberikan alat yang dibutuhkan oleh aktor jahat, apakah itu kriminal, disponsori negara atau pemerintah, untuk menargetkan individu dan kelompok.
Solusi paling jelas untuk masalah ini melibatkan konsumen dan pengguna secara kolektif memutar balik hype AI, menuntut transparansi dari mereka yang mengembangkan atau menerapkan fitur AI yang disebut, dan regulasi efektif dari badan pemerintah yang mengawasi operasi mereka. Meskipun layak untuk diupayakan, ini tidak mungkin terjadi dalam waktu dekat.
Apa yang tersisa adalah pendekatan yang masuk akal, bahkan jika tidak lengkap, untuk mitigasi risiko privasi AI generatif. Prediksi jangka panjang, pasti, tetapi membosankan adalah bahwa semakin terdidik masyarakat tentang privasi data secara umum, semakin kecil risiko privasi yang ditimbulkan oleh adopsi besar-besaran AI generatif.
Apakah Kita Semua Memahami Konsep AI Generatif dengan Benar?
Hype sekitar AI sangat merajalela sehingga survei tentang apa yang orang maksud dengan AI generatif hampir tidak perlu. Tentu saja, tidak ada “fitur” AI, fungsionalitas, dan produk yang sebenarnya mewakili contoh nyata kecerdasan buatan, apa pun itu. Sebaliknya, mereka sebagian besar merupakan contoh pembelajaran mesin (ML), pembelajaran dalam (DL), dan model bahasa besar (LLMs).
AI generatif, seperti namanya, dapat menghasilkan konten baru – apakah teks (termasuk bahasa pemrograman), audio (termasuk musik dan suara manusia), atau video (dengan suara, dialog, potongan, dan perubahan kamera). Semua ini dicapai dengan melatih LLMs untuk mengidentifikasi, mencocokkan, dan mereproduksi pola dalam konten yang dihasilkan manusia.
Mari kita ambil ChatGPT sebagai contoh. Seperti banyak LLMs, itu dilatih dalam tiga tahap utama:
- Pelatihan sebelumnya: Selama fase ini, LLM “diberi makan” bahan teks dari internet, buku, jurnal akademis, dan apa pun yang berisi teks yang potensial atau berguna.
- Pelatihan instruksi yang diawasi: Model dilatih untuk merespons dengan lebih koheren terhadap instruksi menggunakan pasangan instruksi-respon berkualitas tinggi, biasanya disumber dari manusia.
- Pelatihan penguatan dari umpan balik manusia (RLHF): LLMs seperti ChatGPT sering menjalani tahap pelatihan tambahan ini, selama mana interaksi dengan pengguna manusia digunakan untuk memperbaiki keselarasan model dengan kasus penggunaan yang khas.
Ketiga tahap proses pelatihan melibatkan data, baik itu toko data besar yang dikumpulkan sebelumnya (seperti yang digunakan dalam pelatihan sebelumnya) atau data yang dikumpulkan dan diproses hampir secara real-time (seperti yang digunakan dalam RLHF). Itulah data yang membawa sebagian besar risiko privasi yang berasal dari AI generatif.
Apa Risiko Privasi yang Ditimbulkan oleh AI Generatif?
Privasi dikompromikan ketika informasi pribadi yang berkaitan dengan individu (subyek data) tersedia untuk individu atau entitas lain tanpa persetujuan subyek data. LLMs dilatih dan diperhalus pada rentang data yang sangat luas yang dapat dan sering kali termasuk data pribadi. Data ini biasanya dikumpulkan dari sumber yang tersedia untuk umum, tetapi tidak selalu.
Bahkan ketika data tersebut diambil dari sumber yang tersedia untuk umum, memiliki data tersebut agregat dan diproses oleh LLM dan kemudian secara esensial dibuat dapat dicari melalui antarmuka LLM bisa dibilang sebagai pelanggaran privasi lebih lanjut.
Tahap pelatihan penguatan dari umpan balik manusia (RLHF) mempersulit hal ini. Pada tahap pelatihan ini, interaksi nyata dengan pengguna manusia digunakan untuk memperbaiki dan memperhalus respon LLM. Ini berarti bahwa interaksi pengguna dengan LLM dapat dilihat, dibagikan, dan disebarkan oleh siapa pun yang memiliki akses ke data pelatihan.
Dalam sebagian besar kasus, ini bukanlah pelanggaran privasi, mengingat bahwa sebagian besar pengembang LLM menyertakan kebijakan privasi dan ketentuan layanan yang mengharuskan pengguna untuk memberikan persetujuan sebelum berinteraksi dengan LLM. Risiko privasi di sini terletak pada kenyataan bahwa banyak pengguna tidak menyadari bahwa mereka telah menyetujui pengumpulan dan penggunaan data tersebut. Pengguna seperti itu kemungkinan akan mengungkapkan informasi pribadi dan sensitif selama interaksi mereka dengan sistem ini, tanpa menyadari bahwa interaksi tersebut tidaklah rahasia atau pribadi.
Dengan cara ini, kita tiba pada tiga cara utama di mana AI generatif menimbulkan risiko privasi:
- Toko data besar yang berpotensi mengandung informasi pribadi rentan terhadap kompromi dan eksfiltrasi.
- Informasi pribadi yang termasuk dalam data pelatihan dapat bocor ke pengguna lain dari LLM yang sama melalui responnya terhadap kueri dan instruksi.
- Informasi pribadi dan rahasia yang diberikan selama interaksi dengan LLMs berakhir dengan karyawan LLMs dan mungkin kontraktor pihak ketiga, dari mana informasi tersebut dapat dilihat atau bocor.
Ini semua adalah risiko bagi privasi pengguna, tetapi kemungkinan informasi yang dapat diidentifikasi secara pribadi (PII) berakhir di tangan yang salah masih tampaknya cukup rendah. Itu, setidaknya, sampai broker data memasuki gambaran.
Perusahaan-perusahaan ini mengkhususkan diri dalam mencari PII dan mengumpulkan, mengagregasi, dan menyebarkan jika tidak secara terbuka menyiarkan informasi tersebut.
Dengan PII dan data pribadi lainnya telah menjadi semacam komoditas dan industri broker data muncul untuk memanfaatkan hal ini, setiap data pribadi yang “keluar” sangat mungkin untuk disedot oleh broker data dan disebarkan luas.
Risiko Privasi AI Generatif dalam Konteks
Sebelum melihat risiko yang ditimbulkan oleh AI generatif kepada privasi pengguna dalam konteks produk, layanan, dan kemitraan perusahaan tertentu, mari kita mundur dan lihat palet lengkap risiko AI generatif dengan lebih terstruktur. Menulis untuk IAPP, Moraes dan Previtali mengambil pendekatan berbasis data untuk memperbarui “Taksonomi Privasi” Solove 2006, mengurangi 16 risiko privasi yang digambarkan di dalamnya menjadi 12 risiko privasi khusus AI.
Ini adalah 12 risiko privasi yang termasuk dalam taksonomi yang diperbarui oleh Moraes dan Previtali:
- Pengawasan: AI memperburuk risiko pengawasan dengan meningkatkan skala dan ubiquitas pengumpulan data pribadi.
- Identifikasi: Teknologi AI memungkinkan penghubungan identitas otomatis di seluruh sumber data yang berbeda, meningkatkan risiko yang terkait dengan eksposur identitas pribadi.
- Agregasi: AI menggabungkan berbagai potongan data tentang seseorang untuk membuat inferensi, menciptakan risiko invasi privasi.
- Frenologi dan fisiognomi: AI menginferensi kepribadian atau atribut sosial dari karakteristik fisik, kategori risiko baru yang tidak ada dalam taksonomi Solove.
- Penggunaan sekunder: AI memperburuk penggunaan data pribadi untuk tujuan lain selain yang awalnya dimaksudkan melalui penggunaan kembali data.
- Pengucilan: AI membuat kegagalan untuk menginformasikan atau memberikan kontrol kepada pengguna atas bagaimana data mereka digunakan menjadi lebih buruk melalui praktik data yang tidak transparan.
- Ketidakamanan: AI memerlukan data dan praktik penyimpanan yang berisiko kebocoran data dan akses yang tidak tepat.
- Paparan: AI dapat mengungkapkan informasi sensitif, seperti melalui teknik AI generatif.
- Distorsi: Kemampuan AI untuk menghasilkan konten yang realistis tetapi palsu meningkatkan penyebaran informasi yang salah atau menyesatkan.
- Pengungkapan: AI dapat menyebabkan berbagi data yang tidak tepat ketika menginferensi informasi sensitif tambahan dari data mentah.
- Peningkatan Aksesibilitas: AI membuat informasi sensitif lebih dapat diakses oleh audiens yang lebih luas daripada yang dimaksud.
- Invasi: Teknologi AI menginvasi ruang pribadi atau kesunyian, sering melalui tindakan pengawasan.
Ini membuat beberapa pembacaan yang cukup mengkhawatirkan. Penting untuk dicatat bahwa taksonomi ini, untuk kelebihannya, mempertimbangkan kecenderungan AI generatif untuk mengalami halusinasi – untuk menghasilkan dan menyajikan informasi yang tidak akurat secara faktual. Fenomena ini, meskipun jarang mengungkapkan informasi nyata, juga merupakan risiko privasi. Penyebaran informasi yang salah dan menyesatkan mempengaruhi privasi subjek dengan cara yang lebih halus daripada dalam kasus informasi yang akurat, tetapi mempengaruhinya.
Mari kita turun ke contoh konkret tentang bagaimana risiko privasi ini bermain dalam konteks produk AI nyata.
Interaksi Langsung dengan Sistem AI Generatif Berbasis Teks
Kasus paling sederhana adalah yang melibatkan pengguna yang berinteraksi langsung dengan sistem AI generatif, seperti ChatGPT, Midjourney, atau Gemini. Interaksi pengguna dengan banyak produk ini dilog, disimpan, dan digunakan untuk RLHF (pelatihan penguatan dari umpan balik manusia), pelatihan instruksi yang diawasi, dan bahkan pelatihan sebelumnya dari LLM lain.
Analisis kebijakan privasi dari banyak layanan seperti ini juga mengungkapkan kegiatan berbagi data lain yang didukung oleh tujuan yang sangat berbeda, seperti pemasaran dan perantara data. Ini adalah jenis risiko privasi lain yang ditimbulkan oleh AI generatif: sistem ini dapat digambarkan sebagai corong data besar, mengumpulkan data yang diberikan oleh pengguna serta data yang dihasilkan melalui interaksi mereka dengan LLM yang mendasarinya.
Interaksi dengan Sistem AI Generatif yang Tersemat
Beberapa pengguna mungkin berinteraksi dengan antarmuka AI generatif yang tersemat dalam produk yang mereka gunakan. Pengguna mungkin menyadari bahwa mereka menggunakan “fitur AI”, tetapi mereka kurang mungkin menyadari apa yang itu berarti dalam hal risiko privasi data. Yang menjadi fokus dengan sistem yang tersemat adalah kurangnya apresiasi bahwa data pribadi yang dibagikan dengan LLM bisa berakhir di tangan pengembang dan mungkin kontraktor pihak ketiga.
Ada dua tingkat kurangnya kesadaran di sini: beberapa pengguna menyadari bahwa mereka berinteraksi dengan produk AI generatif; dan beberapa percaya bahwa mereka menggunakan produk yang AI generatif dibangun atau diakses. Dalam kedua kasus, pengguna mungkin telah (dan kemungkinan besar) secara teknis menyetujui ketentuan dan kondisi yang terkait dengan interaksi mereka dengan sistem yang tersemat.
Kemitraan Lain yang Menyebabkan Pengguna Terpapar pada Sistem AI Generatif
Beberapa perusahaan menyematkan atau mengintegrasikan antarmuka AI generatif ke dalam perangkat lunak mereka dengan cara yang kurang jelas, meninggalkan pengguna berinteraksi – dan berbagi informasi – dengan pihak ketiga tanpa menyadari hal itu. Untungnya, “AI” telah menjadi penjual yang sangat efektif sehingga tidak mungkin perusahaan akan menyembunyikan implementasi tersebut.
Fenomena lain dalam konteks ini adalah reaksi balik yang tumbuh terhadap implementasi AI generatif yang invasif privasi. Perusahaan penghapusan data Optery, misalnya, baru-baru ini membalikkan keputusan untuk berbagi data pengguna dengan OpenAI secara opt-out, yang berarti pengguna terdaftar dalam program secara default.
Tidak hanya pelanggan yang cepat mengungkapkan kekecewaan mereka, tetapi layanan penghapusan data perusahaan juga segera dihapus dari daftar layanan penghapusan data yang direkomendasikan oleh Privacy Guides. Untuk kehormatan Optery, perusahaan itu segera dan transparan membalikkan keputusannya, tetapi reaksi balik umum yang signifikan di sini: orang mulai menghargai risiko berbagi data dengan “perusahaan AI”.
Kasus Optery membuat contoh yang baik di sini karena penggunanya adalah, dalam beberapa cara, di garis depan skeptisisme yang tumbuh sekitar implementasi AI. Jenis orang yang memilih layanan penghapusan data adalah, biasanya, mereka yang akan memperhatikan perubahan dalam ketentuan layanan dan kebijakan privasi.
Bukti Reaksi Balik yang Tumbuh terhadap Penggunaan Data AI Generatif
Konsumen yang peduli privasi tidak hanya yang mengangkat kekhawatiran tentang sistem AI generatif dan risiko privasi data yang terkait. Pada tingkat legislatif, Undang-Undang Kecerdasan Buatan Uni Eropa mengkategorikan risiko menurut tingkat keparahannya, dengan privasi data sebagai kriteria yang secara eksplisit atau implisit digunakan untuk menetapkan tingkat keparahan dalam sebagian besar kasus. Undang-Undang juga menangani masalah persetujuan yang kami diskusikan sebelumnya.
Amerika Serikat, yang terkenal lambat dalam mengadopsi legislasi privasi data yang komprehensif, setidaknya memiliki beberapa pengaman berkat Perintah Eksekutif 14110. Lagi, kekhawatiran privasi data ada di garis depan tujuan yang diberikan untuk Perintah: “penggunaan yang tidak bertanggung jawab [teknologi AI] dapat memperburuk kerusakan sosial seperti penipuan, diskriminasi, bias, dan disinformasi” – semua terkait dengan ketersediaan dan penyebaran data pribadi.
Kembali ke tingkat konsumen, bukan hanya konsumen yang peduli privasi yang telah menolak implementasi AI generatif yang invasif privasi. Fitur “AI-powered” Recall Microsoft yang sekarang terkenal, yang ditujukan untuk sistem operasi Windows 11, adalah contoh utama. Setelah risiko privasi dan keamanan yang sebenarnya terungkap, reaksi balik cukup untuk menyebabkan raksasa teknologi itu mundur. Sayangnya, Microsoft tampaknya tidak menyerah pada ide itu, tetapi reaksi awal masyarakat sangat menggembirakan.
Tetap dengan Microsoft, program Copilot-nya telah dikritik secara luas karena masalah privasi data dan keamanan data. Sebagai Copilot dilatih pada data GitHub (sebagian besar kode sumber), kontroversi juga muncul sekitar pelanggaran Microsoft yang diduga terhadap perjanjian lisensi perangkat lunak programmer dan pengembang. Dalam kasus seperti ini, garis antara privasi data dan hak cipta mulai memburuk, memberikan nilai moneter pada yang terakhir – sesuatu yang tidak mudah dilakukan.
Mungkin indikasi terbesar bahwa AI menjadi bendera merah di mata konsumen adalah respons publik yang dingin terhadap peluncuran AI awal Apple, terutama dalam hal perjanjian berbagi data dengan OpenAI.
Solusi yang Tercerai Berantakan
Ada langkah-langkah yang dapat diambil oleh legislator, pengembang, dan perusahaan untuk memitigasi beberapa risiko yang ditimbulkan oleh AI generatif. Ini adalah solusi khusus untuk aspek tertentu dari masalah yang lebih besar, tidak ada satu solusi yang diharapkan cukup, tetapi semuanya, bekerja bersama, bisa membuat perbedaan yang signifikan.
- Minimisasi data. Meminimalkan jumlah data yang dikumpulkan dan disimpan adalah tujuan yang masuk akal, tetapi ini secara langsung bertentangan dengan keinginan pengembang AI generatif untuk data pelatihan.
- Transparansi. Diberikan keadaan saat ini dari seni ML, ini mungkin tidak bahkan secara teknis memungkinkan dalam banyak kasus. Wawasan ke dalam data yang diproses dan bagaimana ketika menghasilkan output tertentu adalah salah satu cara untuk memastikan privasi dalam interaksi AI generatif.
- Anonimisasi. Setiap PII yang tidak dapat dikecualikan dari data pelatihan (melalui minimisasi data) harus di-anonimkan. Masalahnya adalah bahwa banyak teknik anonimisasi dan pseudonimisasi yang populer dengan mudah dikalahkan.
- Persetujuan pengguna. Mengharuskan pengguna untuk menyetujui pengumpulan dan berbagi data mereka adalah penting tetapi terlalu terbuka untuk penyalahgunaan dan terlalu rentan terhadap kelesuan konsumen untuk efektif. Ini adalah persetujuan yang diberitahukan yang diperlukan di sini dan sebagian besar konsumen, dengan benar diberitahukan, tidak akan menyetujui berbagi data tersebut, sehingga insentifnya tidak sejalan.
- Mengamankan data dalam transaksi dan saat istirahat. Dasar lain dari privasi data dan keamanan data, melindungi data melalui kriptografi dan sarana lain dapat selalu dibuat lebih efektif. Namun, sistem AI generatif cenderung bocor data melalui antarmukanya, membuat ini hanya sebagian dari solusi.
- Mengenakan hukum hak cipta dan IP dalam konteks AI yang disebut. ML dapat beroperasi dalam “kotak hitam”, membuatnya sulit jika tidak mustahil untuk melacak materi berhak cipta dan IP yang berakhir di output AI generatif mana.
- Pemeriksaan. Langkah pengaman lain yang dihalangi oleh sifat “kotak hitam” dari LLMs dan sistem AI generatif yang didukungnya. Memperburuk keterbatasan bawaan ini adalah sifat tertutup dari sebagian besar produk AI generatif, yang membatasi pemeriksaan hanya pada yang dilakukan pada kenyamanan pengembang.
Semua pendekatan ini untuk masalah ini valid dan diperlukan, tetapi tidak ada yang cukup. Mereka semua memerlukan dukungan legislatif untuk memiliki efek yang berarti, yang berarti bahwa mereka dikutuk untuk tetap ketinggalan saat bidang dinamis ini terus berkembang.
Solusi yang Jelas
Solusi untuk risiko privasi yang ditimbulkan oleh AI generatif tidak revolusioner atau menarik, tetapi diambil ke kesimpulan logis, hasilnya bisa menjadi keduanya. Solusi yang jelas melibatkan konsumen sehari-hari menjadi sadar akan nilai data mereka bagi perusahaan dan hargalessness privasi data bagi diri mereka sendiri.
Konsumen adalah sumber dan mesin di balik informasi pribadi yang menggerakkan apa yang disebut ekonomi pengawasan modern. Setelah massa kritis konsumen mulai menghentikan aliran data pribadi ke ruang publik dan mulai menuntut pertanggungjawaban dari perusahaan yang berurusan dengan data pribadi, sistem akan harus memperbaiki diri.
Hal yang menggembirakan tentang AI generatif adalah bahwa, tidak seperti model iklan dan pemasaran saat ini, itu tidak perlu melibatkan informasi pribadi pada tahap apa pun. Data pelatihan dan pelatihan sebelumnya tidak perlu mencakup PII atau data pribadi lainnya dan pengguna tidak perlu mengekspos hal yang sama selama interaksi mereka dengan sistem AI generatif.
Untuk menghapus informasi pribadi mereka dari data pelatihan, orang dapat langsung ke sumber dan menghapus profil mereka dari berbagai broker data (termasuk situs pencarian orang) yang mengumpulkan catatan publik, membawa mereka ke dalam peredaran di pasar terbuka. Layanan penghapusan data pribadi mengotomatiskan proses ini, membuatnya cepat dan mudah. Tentu saja, menghapus data pribadi dari database perusahaan ini memiliki banyak manfaat lain dan tidak ada kerugian.
Orang juga menghasilkan data pribadi ketika berinteraksi dengan perangkat lunak, termasuk AI generatif. Untuk menghentikan aliran data ini, pengguna harus lebih menyadari bahwa interaksi mereka sedang direkam, ditinjau, dianalisis, dan dibagikan. Opsi mereka untuk menghindari hal ini terbatas pada membatasi apa yang mereka ungkapkan ke sistem online dan menggunakan LLM on-device, open-source di mana pun memungkinkan. Orang, secara umum, sudah melakukan pekerjaan yang baik dalam memodulasi apa yang mereka diskusikan di depan umum – kita hanya perlu memperluas insting ini ke dalam ranah AI generatif.












