potongan Data Sintetis Tidak Dapat Melindungi Privasi, Klaim Peneliti - Unite.AI
Terhubung dengan kami

Kesehatan

Data Sintetis Tidak Melindungi Privasi, Klaim Peneliti

mm

Diterbitkan

 on

Kolaborasi penelitian baru antara Perancis dan Inggris menimbulkan keraguan terhadap semakin besarnya kepercayaan industri bahwa data sintetis dapat menyelesaikan masalah privasi, kualitas, dan ketersediaan (di antara masalah lainnya) yang mengancam kemajuan di sektor pembelajaran mesin.

Di antara beberapa poin penting yang dibahas, penulis menegaskan bahwa data sintetik yang dimodelkan dari data nyata cukup menyimpan informasi asli sehingga tidak memberikan perlindungan yang andal dari inferensi dan serangan keanggotaan, yang berusaha untuk mendeanonimkan data dan mengaitkannya kembali dengan orang yang sebenarnya.

Selain itu, individu yang paling berisiko dari serangan tersebut, termasuk mereka yang memiliki kondisi medis kritis atau tagihan rumah sakit yang tinggi (dalam hal anonimisasi rekam medis), melalui sifat 'outlier' dari kondisi mereka, kemungkinan besar akan diidentifikasi ulang oleh teknik-teknik ini.

Makalah ini mengamati:

'Dengan akses ke kumpulan data sintetik, musuh strategis dapat menyimpulkan, dengan keyakinan tinggi, keberadaan rekaman target dalam data asli.'

Makalah ini juga mencatat itu data sintetis pribadi yang berbeda, yang mengaburkan tanda tangan catatan individu, memang melindungi privasi individu, tetapi hanya dengan secara signifikan melumpuhkan kegunaan sistem pencarian informasi yang menggunakannya.

Jika ada, para peneliti mengamati, pendekatan pribadi yang berbeda – yang menggunakan informasi 'nyata' 'sekali hapus' melalui data sintetik – buat skenario keamanan lebih buruk daripada yang seharusnya:

'Dataset [sintetis] tidak memberikan transparansi apa pun tentang tradeoff ini. Tidak mungkin memprediksi karakteristik data apa yang akan dipertahankan dan pola apa yang akan ditekan.'

Baru kertas, Berjudul Data Sintetis – Hari Groundhog Anonimisasi, datang dari dua peneliti di École Polytechnique Fédérale de Lausanne (EPFL) di Paris dan seorang peneliti dari University College London (UCL).

Para peneliti melakukan pengujian terhadap algoritme pelatihan model generatif pribadi yang ada, dan menemukan bahwa keputusan implementasi tertentu melanggar jaminan privasi formal yang disediakan dalam kerangka kerja, meninggalkan beragam catatan yang terkena serangan inferensi.

Penulis menawarkan versi revisi dari setiap algoritme yang berpotensi mengurangi paparan ini, dan membuat kodenya tersedia sebagai perpustakaan sumber terbuka. Mereka mengklaim bahwa ini akan membantu para peneliti untuk mengevaluasi perolehan privasi dari data sintetis dan berguna untuk membandingkan metode anonimisasi yang populer. Kerangka kerja baru menggabungkan dua metode serangan privasi terkait yang dapat diterapkan pada algoritma pelatihan model generatif apa pun.

Data Sintetis

Data sintetik digunakan untuk melatih model pembelajaran mesin dalam berbagai skenario, termasuk kasus di mana kurangnya informasi yang komprehensif berpotensi diisi oleh data semu. Salah satu contohnya adalah kemungkinan penggunaan wajah yang dihasilkan CGI untuk memberikan foto wajah yang 'sulit' atau jarang untuk kumpulan data sintesis gambar, di mana gambar profil, sudut lancip, atau ekspresi yang tidak biasa sering kali jarang terlihat di materi sumber.

Jenis citra CGI lainnya telah digunakan untuk mengisi kumpulan data yang pada akhirnya akan dijalankan pada data non-sintetik, seperti kumpulan data yang menampilkan tangan dan mebel.

Dalam hal perlindungan privasi, data sintetik dapat dihasilkan dari data nyata oleh sistem Generative Adversarial Network (GAN) yang mengekstraksi fitur dari data nyata dan membuat catatan fiktif serupa yang cenderung menggeneralisasi dengan baik ke data selanjutnya (tak terlihat, nyata), tetapi dimaksudkan untuk mengaburkan detail orang sungguhan yang ditampilkan dalam data sumber.

Metodologi

Untuk keperluan penelitian baru, penulis mengevaluasi keuntungan privasi di lima algoritma pelatihan model generatif. Tiga dari model tersebut tidak menawarkan perlindungan privasi secara eksplisit, sedangkan dua model lainnya hadir dengan jaminan privasi yang berbeda. Model tabular ini dipilih untuk mewakili berbagai arsitektur.

Model yang diserang adalah BayNet, PrivBay (turunan dari PrivBayes/BayNet), CTGAN, PATEGAN dan IndHist.

Kerangka evaluasi untuk model diimplementasikan sebagai pustaka Python dengan dua kelas inti – Model Generatif dan Serangan Privasi. Yang terakhir menampilkan dua sisi – musuh inferensi keanggotaan, dan serangan inferensi keanggotaan. Framework ini juga dapat mengevaluasi manfaat privasi dari data yang 'dibersihkan' (yaitu dianonimkan) dan data sintetik.

Dua dataset yang digunakan dalam pengujian adalah Kumpulan Data Dewasa dari Repositori Pembelajaran Mesin UCI, dan Data Keluar Rumah Sakit File Data Penggunaan Publik dari Departemen Layanan Kesehatan Negara Bagian Texas. Versi dataset Texas yang digunakan oleh para peneliti berisi 50,000 catatan sampel dari catatan pasien untuk tahun 2013.

Serangan dan Temuan

Tujuan umum dari penelitian ini adalah untuk membangun 'linkability' (pengaitan kembali data nyata dengan data sintetik yang terinspirasi olehnya). Model serangan yang digunakan dalam penelitian ini meliputi Regresi Logistik, Random Forests dan pengklasifikasi K-Nearest Neighbors.

Penulis memilih dua kelompok sasaran yang terdiri dari lima catatan yang dipilih secara acak untuk kategori populasi 'minoritas', karena ini adalah yang paling disukai menjadi rentan terhadap serangan linkage. Mereka juga memilih rekaman dengan 'nilai atribut kategori langka' di luar kuantil 95% atribut tersebut. Contohnya termasuk catatan yang terkait dengan risiko kematian yang tinggi, total biaya rumah sakit yang tinggi, dan tingkat keparahan penyakit.

Meskipun makalah ini tidak menguraikan aspek ini, dari sudut pandang kemungkinan penyerang dunia nyata, ini adalah jenis pasien 'mahal' atau 'berisiko tinggi' yang paling mungkin menjadi sasaran inferensi anggota dan jenis pendekatan eksfiltrasi lainnya. ke catatan pasien.

Berbagai model serangan dilatih berdasarkan informasi referensi publik untuk mengembangkan 'model bayangan' pada sepuluh sasaran. Hasil dari berbagai percobaan (seperti dijelaskan sebelumnya) menunjukkan bahwa sejumlah catatan 'sangat rentan' terhadap serangan linkage yang ditujukan kepada mereka oleh para peneliti. Hasilnya juga menemukan bahwa 20% dari seluruh target dalam uji coba menerima keuntungan privasi sebesar nol dari data sintetik yang dihasilkan oleh metode GAN.

Para peneliti mencatat bahwa hasil bervariasi, tergantung pada metode yang digunakan untuk menghasilkan data sintetik, vektor serangan, dan fitur dari kumpulan data yang ditargetkan. Laporan tersebut menemukan bahwa dalam banyak kasus, penekanan identitas yang efektif melalui pendekatan data sintetik menurunkan kegunaan sistem yang dihasilkan. Secara efektif, kegunaan dan akurasi sistem seperti itu dalam banyak kasus dapat menjadi indeks langsung seberapa rentan mereka terhadap serangan identifikasi ulang.

Para peneliti menyimpulkan:

'Jika kumpulan data sintetik mempertahankan karakteristik data asli dengan akurasi tinggi, dan karenanya mempertahankan utilitas data untuk kasus penggunaan yang diiklankan, secara bersamaan memungkinkan musuh untuk mengekstrak informasi sensitif tentang individu.

'Keuntungan tinggi dalam privasi melalui salah satu mekanisme anonimisasi yang kami evaluasi hanya dapat dicapai jika versi sintetik atau sanitasi yang diterbitkan dari data asli tidak membawa sinyal catatan individu dalam data mentah dan pada dasarnya menekan catatan mereka.'