Kecerdasan buatan
Peneliti AI Memperkirakan 97% Situs Web UE Gagal Memenuhi Persyaratan Privasi GDPR – Terutama Profiling Pengguna

Peneliti di AS telah menggunakan teknik pembelajaran mesin untuk mempelajari kebijakan privasi GDPR dari lebih dari seribu situs web perwakilan yang berbasis di UE. Mereka menemukan bahwa 97% dari situs yang dipelajari gagal memenuhi setidaknya satu persyaratan dari kerangka regulasi Uni Eropa 2018, dan bahwa mereka memenuhi persyaratan sekitar praktik ‘profiling pengguna’ paling sedikit.
Makalah tersebut menyatakan:
‘[Sejak] kebijakan privasi adalah saluran komunikasi penting bagi pengguna untuk memahami dan mengontrol privasi mereka, banyak perusahaan memperbarui kebijakan privasi mereka setelah GDPR diberlakukan. Namun, kebijakan privasi sebagian besar bersifat verbose, penuh dengan jargon, dan secara samar-samar menjelaskan praktik data perusahaan dan hak pengguna. Oleh karena itu, tidak jelas apakah mereka memenuhi GDPR.’
Itu berlanjut:
‘Hasil kami menunjukkan bahwa bahkan setelah GDPR berlaku, 97% situs web masih gagal memenuhi setidaknya satu persyaratan GDPR.’
Studi ini berjudul Automated Detection of GDPR Disclosure Requirements in Privacy Policies using Deep Active Learning, dan berasal dari tiga peneliti di University of Virginia at Charlottesville.
Privasi Terakhir
Area dengan tingkat kepatuhan terendah, menurut studi, berkaitan dengan ketentuan GDPR tentang profiling pengguna, dengan penulis menyatakan bahwa hanya 15,3% dari situs yang dipelajari yang memenuhi persyaratan ini secara penuh.

Grafik kepatuhan di antara kebijakan privasi situs web yang dipelajari untuk penelitian. Sumber: https://arxiv.org/pdf/2111.04224.pdf
Profiling pengguna (di mana interaksi seseorang dengan situs web direkam dan sering digunakan untuk ‘menargetkan’ mereka dalam konteks online lain, seperti periklanan) telah menjadi salah satu kontroversi terpanas di teknologi sejak skandal Cambridge Analytica.
Pada hari Selasa, komite kunci Parlemen Eropa menyetujui tahap pertama legislasi Digital Markets Act (DMA) baru, yang akan melarang penargetan perilaku terhadap anak-anak, dengan denda hingga 20% dari penjualan tahunan global untuk perusahaan yang melanggar.
Meskipun Undang-Undang tersebut diterima oleh media sebagai respons langsung terhadap pengaruh yang meningkat dari raksasa teknologi seperti Facebook dan Google, skala non-kepatuhan yang diwakili oleh penelitian baru ini menunjukkan bahwa sebagian besar perusahaan UE (termasuk kantor perusahaan Amerika yang beroperasi di Eropa) secara hukum terpapar pada denda GDPR.
Selain itu, Italia telah mengenakan denda maksimum sebesar 10 juta euro (11,2 juta USD) terhadap Apple dan Google karena mengeksploitasi profiling pengguna, di antara pelanggaran lainnya.
Data
Situs web yang diperiksa dalam penelitian baru ini diambil dari 10.000 situs web teratas yang terdaftar di Quantcast, kebijakan privasi bahasa Inggris yang diekstrak melalui pencarian Yandex di VPN berbasis UK (untuk memastikan bahwa kebijakan tidak diblokir secara geografis).
Situs web UE telah diwajibkan untuk menyediakan kebijakan privasi yang ditentukan, yang mencakup 18 persyaratan utama (lihat grafik di atas) sejak General Data Protection Regulation (GDPR) berlaku penuh pada Mei 2018.
Peneliti membatasi ekstraksi kebijakan privasi pada periode dari Agustus 2018 dan seterusnya, untuk memungkinkan waktu yang wajar bagi domain untuk menerbitkan kebijakan yang diperlukan (suatu ketentuan yang mereka ketahui sebelumnya selama setidaknya satu tahun dari fase pengembangan dua tahun GDPR sejak 2016).
Proses penyaringan menghasilkan corpus privasi 9.761 kebijakan, dari mana 1.080 kebijakan dipilih secara acak oleh peneliti.
Prapengolahan
Tim tersebut mempekerjakan dua ahli hukum untuk melatih empat annotator manusia untuk melabeli masing-masing dari 18 kebijakan privasi yang dimandatkan oleh GDPR.
Beberapa bahasa dalam kebijakan mencakup lebih dari satu persyaratan, membuatnya perlu menggunakan Convolutional Neural Network (CNN) untuk mendeteksi fitur bahasa yang terkait dengan setiap kebijakan.
Upaya awal untuk melatih model untuk mengidentifikasi kepatuhan berdasarkan bahasa mencapai 80,5% keberhasilan. Untuk meningkatkan hasil ini, peneliti menerapkan Active Learning untuk meningkatkan kinerja model menggunakan data yang dilabeli lebih sedikit. Dengan cara ini, dimungkinkan untuk melatih classifier CNN hingga akurasi 89,2%, dengan F1 score sebesar 0,88 (di mana ‘1’ adalah keberhasilan lengkap).
Untuk memastikan word embeddings spesifik untuk kebijakan privasi, peneliti melatih model word embedding tak terawasi menggunakan perpustakaan Python FastText dari Facebook.
Seperti biasa, data akhir dibagi 80/20 antara data yang dilatih dan data uji (yaitu data yang dipilih secara acak terhadap mana akurasi algoritma akan dihakimi). Studi pengukuran kualitas hasil dengan human-in-the-loop ditambahkan ke arsitektur untuk mengevaluasi kualitas hasil.

Arsitektur untuk sistem klasifikasi.
Dalam proses aliran kerja, 11.271 segmen kebijakan privasi yang dilabeli manusia dihasilkan, masing-masing diperiksa oleh empat annotator manusia yang telah dilatih oleh dua ahli hukum yang terlibat dalam studi. Di mana terjadi ketidaksetujuan, rasio kesepakatan 75% diperlukan untuk tidak menolak data dari inklusi.

Manusia-dalam-lintasan – tidak mungkin untuk mengotomatisasi sepenuhnya pelabelan data kebijakan, meskipun Active Learning memungkinkan aliran kerja berbasis kumpulan yang membuat proyek ini layak.
Selain hasil yang telah disebutkan, pengguna menemukan bahwa portabilitas – hak di bawah GDPR untuk memindahkan atau mengekspor data yang disimpan oleh perusahaan – hampir sama buruknya dengan profiling.
Peneliti menyimpulkan:
‘[Persyaratan] seperti Hak Portabilitas Pengguna dan menyediakan informasi kontak Petugas Perlindungan Data (kontak DPO) ditutupi oleh 15,5% dan 16,4% situs web, masing-masing. Persyaratan utama lainnya, seperti hak pengguna untuk Mengajukan Keluhan, Mencabut Persetujuan, Hak untuk Mengajukan Keberatan, dan Keputusan Kecukupan, ditutupi oleh 17-20% situs web.’
…dan melanjutkan:
‘Tampaknya hanya 3% situs web yang sepenuhnya memenuhi 18 persyaratan. Temuan ini menunjukkan bahwa banyak situs web masih tidak mengikuti persyaratan GDPR.’
7pm 26/11/2021 – Mengklarifikasi caption grafik pertama. – MA












