Mākslīgais intelekts

AI pētnieki lēš, ka 97% ES vietņu neatbilst GDPR privātuma prasībām, jo īpaši lietotāju profilēšanai

Atjaunināts on Decembris 9, 2022

Pētnieki ASV ir izmantojuši mašīnmācīšanās paņēmienus, lai izpētītu VDAR privātuma politikas vairāk nekā tūkstoš reprezentatīvām tīmekļa vietnēm, kas atrodas ES. Viņi atklāja, ka 97% no pētītajām vietnēm neatbilst vismaz vienai Eiropas Savienības 2018. gada normatīvā regulējuma prasībai un ka tās vismazāk atbilst normatīvajām prasībām saistībā ar “lietotāju profilēšanas” praksi.

Darbā teikts:

“[Tā kā] konfidencialitātes politika ir būtisks saziņas kanāls, lai lietotāji varētu izprast un kontrolēt savu privātumu, daudzi uzņēmumi atjaunināja savas privātuma politikas pēc GDPR ieviešanas. Tomēr lielākā daļa privātuma politiku ir daudzvārdīgas, pilnas ar žargonu un neskaidri apraksta uzņēmumu datu praksi un lietotāju tiesības. Tāpēc nav skaidrs, vai tie atbilst GDPR.

Tā turpina:

"Mūsu rezultāti liecina, ka pat pēc GDPR stāšanās spēkā 97% vietņu joprojām neatbilst vismaz vienai VDAR prasībai."

Jūsu darbs IR Klientu apkalpošana studēt tiek nosaukts Automatizēta GDPR izpaušanas prasību noteikšana privātuma politikās, izmantojot Deep Active Learning, un nāk no trim pētniekiem Virdžīnijas Universitātē Šarlotsvilā.

Privātums Pēdējā

Saskaņā ar pētījumu joma ar vismazāko atbilstību attiecās uz GDPR noteikumiem par lietotāju profilēšanu, autoriem norādot, ka tikai 15.3% pētīto vietņu pilnībā atbilst šim konkrētajam noteikumam.

Atbilstības diagramma starp 9761 pētījumam pētīto vietni. Avots: https://arxiv.org/pdf/2111.04224.pdf

Pētījumam izpētīto vietņu GDPR politiku atbilstības diagramma. Avots: https://arxiv.org/pdf/2111.04224.pdf

Lietotāju profilēšana (kur personas mijiedarbība ar tīmekļa vietnēm tiek reģistrēta un bieži tiek izmantota, lai tās “mērķētu” citos tiešsaistes kontekstos, piemēram, reklāmā) ir kļuvusi par vienu no karstākajiem strīdiem tehnoloģiju jomā kopš Cambridge Analytica skandāla.

Otrdien galvenā Eiropas Parlamenta komiteja nodots jaunā Digitālo tirgu likuma pirmais posms (DMA) tiesību akti, kas aizliegtu nepilngadīgo uzvedību, uzliekot naudas sodu līdz 20% pasaules gada pārdošanas apjomi pārkāpējiem uzņēmumiem.

Lai gan plašsaziņas līdzekļi šo likumu ir saņēmuši kā tiešu atbildi uz tehnoloģiju gigantu, piemēram, Facebook un Google, pieaugošo ietekmi, jaunais pētījums liecina, ka lielākā daļa ES uzņēmumu (tostarp ES Amerikas uzņēmumu rezidentu biroji, kas tirgojas Eiropā), ir likumīgi pakļauti GDPR soda naudas.

Turklāt Itālija šonedēļ ir piemērojusi maksimāli pieļaujamo naudas sodu 10 miljonu eiro apmērā (11.2 miljoni USD) pret Apple un Google par lietotāju profilēšanas izmantošanu, kā arī citiem pārkāpumiem.

Datums

Jaunajā pētījumā pārbaudītās vietnes tika atlasītas no 10,000 XNUMX populārākajām vietnēm, kas uzskaitītas Quantcast, un kuru privātuma politikas angļu valodā tika iegūtas, izmantojot Yandex meklēšanu Apvienotās Karalistes VPN (lai nodrošinātu, ka politikas nav ģeogrāfiski bloķētas). .

Kopš Vispārīgās datu aizsardzības regulas (VDAR) tiesību akta stāšanās spēkā 18. gada maijā, ES tīmekļa vietnēm ir bijis pienākums nodrošināt noteiktās privātuma politikas, kas aptver 2018 galvenās prasības (skatiet diagrammu iepriekš).

Pētnieki ierobežoja savu privātuma politiku izgūšanu uz laika posmu no 2018. gada augusta, lai dotu pietiekami daudz laika, lai domēni varētu publicēt vajadzīgās politikas (tas ir priekšnoteikums, par kuru viņiem bija iepriekšējas zināšanas vismaz gadu par divu gadu izstrādes posmu GDPR kopš 2016. gada).

Filtrēšanas procesā tika izveidots 9,761 politikas privātuma korpuss, no kuriem pētnieki nejauši atlasīja 1,080 politikas.

Iepriekšēja apstrāde

Komanda nodarbināja divus juridiskos ekspertus, lai apmācītu četrus anotatorus, lai atzīmētu katru no 18 iespējamajām privātuma politikām, ko nosaka GDPR.

Dažas no politikās esošajām juridiskajām prasībām attiecās uz vairāk nekā vienu no 18 prasībām, tādēļ bija jāizmanto konvolucionālais neironu tīkls (CNN), lai noteiktu ar katru politiku saistītās valodas funkcijas.

Sākotnējais mēģinājums apmācīt modeli atbilstības noteikšanai, pamatojoties uz valodu, guva 80.5% panākumus. Lai uzlabotu šos rezultātus, pētnieki pieteicās Aktīva mācīšanās lai uzlabotu modeļa veiktspēju, izmantojot mazāk marķētus datus. Ar šiem līdzekļiem bija iespējams apmācīt klasifikatoru CNN ar precizitāti līdz 89.2%, ar F1 rezultāts no 0.88 (kur “1” ir pilnīgs panākums).

Lai nodrošinātu, ka vārda iegulšana ir raksturīga privātuma politikai, pētnieki apmācīja neuzraudzītu vārdu iegulšanas modeli, izmantojot Facebook FastText Python bibliotēka.

Saskaņā ar standarta praksi galīgie dati tika sadalīti 80/20 starp apmācītajiem datiem un testa datiem (ti, nejauši atlasītiem datiem, pēc kuriem tiks vērtēta algoritma precizitāte). Arhitektūrai tika pievienots cilvēka cilpas mērījumu pētījums, lai novērtētu rezultātu kvalitāti.

Klasifikatoru sistēmas arhitektūra.

Darbplūsmas laikā tika izveidots 11,271 75 cilvēka anotēts privātuma politikas segments, no kuriem katru pārskatīja četri cilvēku anotatori, kurus apmācīja divi pētījumā iesaistītie juridiskie eksperti. Ja radās domstarpības, bija nepieciešama XNUMX% vienošanās attiecība, lai nenoraidītu datu iekļaušanu.

Cilvēks-in-the-loop — nebija iespējams pilnībā automatizēt politikas datu marķēšanu, lai gan Active Learning iespējoja pūla darbplūsmu, kas padarīja projektu iespējamu.

Papildus jau minētajiem rezultātiem lietotāji to atklāja pārnesamība – tiesības saskaņā ar GDPR pārvietot vai eksportēt uzņēmuma rīcībā esošos datus – tika izmantotas gandrīz tikpat slikti kā profilēšana.

Pētnieki secina:

“Tādas [prasības] kā lietotāju tiesības uz pārnesamību un datu aizsardzības inspektora kontaktinformācijas sniegšana (DPO kontaktinformācija) attiecas attiecīgi 15.5 % un 16.4 % vietņu. Citas primārās prasības, piemēram, lietotāju tiesības iesniegt sūdzību, atsaukt piekrišanu, tiesības iebilst un lēmumu par atbilstību, attiecas 17–20% vietņu.

...un turpiniet:

“Šķiet, ka tikai 3% vietņu pilnībā atbilst 18 prasībām. Šie atklājumi liecina, ka daudzas tīmekļa vietnes joprojām neievēro GDPR prasības.

7:26, 11. — precizēts pirmais diagrammas paraksts. – MA

Nākošais

Cilvēka smadzeņu projekts izdod jaunu dokumentu par eksamēroga skaitļošanas jaudu

Nepalaidiet garām

Neironu renderēšana: NeRF dodas pastaigā svaigā gaisā

Mārtiņš Andersons

Rakstnieks par mašīnmācību, mākslīgo intelektu un lielajiem datiem.
Personīgā vietne: Martinanderson.ai
Sazinieties ar: [e-pasts aizsargāts]
Twitter: @manders_ai