Mākslīgais intelekts

25 gadu privātuma politiku analīze, izmantojot mašīnmācīšanos

Atjaunināts on Decembris 9, 2022

Nesen veiktā pētījumā ir izmantotas mašīnmācīšanās analīzes metodes, lai noteiktu vairāk nekā 50,000 25 konfidencialitātes politiku lasāmību, lietderību, garumu un sarežģītību populārās vietnēs 1996 gadu periodā no 2021. gada līdz 400. gadam. Pētījumā secināts, ka vidusmēra lasītājam būtu jāvelta uzmanība. XNUMX stundu “ikgadējā lasīšanas laika” (vairāk nekā stunda dienā), lai iekļūtu pieaugošajā vārdu skaitā, neskaidra valoda un neskaidrs valodas lietojums, kas raksturo dažu visbiežāk apmeklēto vietņu modernās privātuma politikas.

Ziņojumā teikts:

“Pēdējo desmit gadu laikā vidējais polises ilgums ir gandrīz dubultojies, 2159. gada martā tas bija 2011 vārdi un 4191. gada martā – 2021 vārdi, un kopš 2000. gada tas ir gandrīz četrkāršojies (1146 vārdi).

Vidējais vārdu un teikumu skaits pētītajā korpusā 25 gadu periodā. Avots: https://arxiv.org/pdf/2201.08739.pdf

Lai gan garuma pieauguma temps pieauga, kad stājās spēkā GDPR un Kalifornijas Patērētāju privātuma likuma (CCPA) aizsardzības pasākumi, dokumentā šīs atšķirības tiek uzskatītas par “maziem efekta izmēriem”, kas šķiet nenozīmīgas attiecībā uz plašāku ilgtermiņa tendenci. Tomēr VDAR tiek identificēts kā iespējamais iemesls, kāpēc politikās pieaug neskaidrība (skatiet tālāk).

Pieņemot, ka lasīšanas ātrums ir 250 vārdi minūtē, rakstā tiek apgalvots, ka vidējais privātuma politikas lasīšana tagad aizņem 17 minūtes, savukārt populārākās politikas (ti, politikas, kas saistītas ar lielu lietotāju skaitu) aizņem 23 minūtes.

Saskaņā ar pētījumu, kas izmantoja vairākus varianti Google tīklā BERT valodas modelis.

Mūsdienu privātuma politiku lasīšanai nepieciešamo stundu skaita pieaugums gadā, pieņemot, ka lasītājs apmeklē 1462 unikālas vietnes gadā.

Gada stundu skaita pieaugums, kas nepieciešams, lai izlasītu modernās privātuma politikas, pieņemot, ka lasītājs apmeklē 1462 unikālas vietnes gadā.

Liela daļa no nesenā daudzpusības un neskaidrības privātuma politikā ir saistīta ar reakciju uz pēdējās divās desmitgadēs notikušajiem mēģinājumiem ieviest noteikumus, kā arī uz nepamatotu normatīvās atbilstības prasību izmantošanu kā attaisnojumu, lai slepeni palielinātu darbības jomu un privātuma politiku necaurredzamība.

"Kopumā mūsu rezultāti liecina, ka jaunākie privātuma noteikumi nav būtiski uzlabojuši lietotāju privātumu tiešsaistē, bet gan noveduši pie vairāk uzpūstām privātuma politikām, kas apraksta arvien vairāk invazīvu datu praksi."

Lai gan pēdējos gados vairākos dabiskās valodas apstrādes (NLP) rakstos ir apskatīta konfidencialitātes politikas lasāmība un citi aspekti, autors uzskata, ka šis ir pirmais šāda veida projekts, kas sniedz tik plašu pārskatu par politikas attīstību pēdējo desmitgažu laikā.

Jūsu darbs IR Klientu apkalpošana papīrs tiek nosaukts Privātuma politikas visu vecumu: 1996.–2021. gada konfidencialitātes politiku saturs un lasāmība, un nāk no Izabelas Vāgneres De Monfortas Universitātes Kibertehnoloģiju institūtā Apvienotajā Karalistē.

Eliptiska valoda

Ziņojumā arī norādīts, ka vidējais “apmulsinošo vārdu” skaits (t pieņemams, ievērojams, galvenokārt, un citiem vārdiem, kas nenodrošina galīgu nozīmi) privātuma politikās nepārtraukti pieauga līdz 2018. gadam, bet pēc tam pieauga no vidējās 227 aptuveni 2018. gada martā līdz 304 2020. gada jūnijā.

Autors apgalvo, ka šis pieaugums ir saistīts ar GDPR ietekmi, un rakstā konstatēts, ka vairāk nekā divās trešdaļās (72%) teikumu pētītajās privātuma politikās bija iekļauts vismaz viens neskaidrs vārds.

lasāmību

Pētījumā konstatēts, ka trīs bieži sastopami lasīšanas grūtības rādītāji "gadu gaitā privātuma politikas ir kļuvušas arvien grūtāk lasāmas". Autori lēš, ka 41% no pašreiz piemērojamām politikām, kas bija pieejamas 2021. gadā, bija mediāna Flesch lasīšanas vieglums (BEZMAKSAS, augstāks ir labāks) tikai 31.8, autoram to novērojot "Šis rādītājs norāda uz ļoti sarežģītu tekstu, ko vislabāk saprot augstskolu absolventi".

Tajā pašā laikā tikai 6.7% no polisēm sasniedza FRE punktu skaitu virs 45 (kas, ziņojumā norādīts, ir nolasīšanas standarts, kas nepieciešams apdrošināšanas polisēm Floridas štatā).

Apziņa par izmaiņām politikā

Darbā ir arī apskatīts, cik lielā mērā privātuma politikās ir iekļauta informācija par to, kā potenciālais piekrišanas devējs galu galā tiks informēts turpmāku atjauninājumu gadījumā, kas var ietekmēt lietotāja vēlmi saglabāt līgumu.

Autors atzīmē:

“2021. gadā 73% politiku ietver paziņojumu par politikas izmaiņām. No tiem 34% norāda, ka izmaiņas tiks paziņotas ar paziņojumu privātuma politikā, 37% ievietos paziņojumu vietnē, bet 22% nosūtīs personisku paziņojumu (pārējās politikās paziņojuma veids nav norādīts).

“Tā rezultātā lielākā daļa lietotāju, visticamāk, neuzzinās par izmaiņām privātuma politikās.

“Turklāt lietotājiem netiek piedāvāta gandrīz nekāda jēgpilna izvēle, kad politika mainās. No politikām, kas informē lietotāju par izmaiņām, tikai 12% piedāvā jaunu izvēli, turpretim 34% nedod izvēles iespēju un 54% atstāj to nenorādītu.

Raksta secinājumi par aprakstītajām metodēm lietotāju informēšanai par politikas izmaiņām.

Ierobežota izvēle attiecībā uz izsekošanu

Saskaņā ar pētījumu, privātuma politikā tiek piedāvāts daudz plašāks mehānismu klāsts, lai piekļūtu lietotāja konta informācijai, nevis lietotāja profila datiem. Profila datus var izveidot un atjaunināt, izmantojot automatizētus un nepārprotamus mehānismus, savukārt lietotāja konta datus ne tikai skaidri piešķir lietotājs, bet arī tiem ir jābūt rediģējamiem saskaņā ar dažādu jurisdikciju noteikumiem.

Patērētāju izvēle par sīkfailu piekrišanu privātuma politikās (tēma, kas ir piesaistījusi asas debates kopš GDPR ieviešanas tika izsludināts simtiem tūkstošu sīkfailu piekrišanas uznirstošo logu ES starptautisko un Eiropas tīmekļa vietņu gadījumiem) politikās parasti ir apskatīts, bet slēpj svarīgāku mazāk pieejamu datu slāni*.

“Izvēles attiecībā uz sīkfailiem nav pietiekamas, lai aizsargātu lietotājus no jebkādas izsekošanas, jo izvēles vai kontroles mehānismi tiek piedāvāti reti datora informācija, ierīces identifikatori, un personas identifikatori, kas ļauj izsekot lietotājiem, izmantojot pirkstu nospiedumus.

Spilgts kontrasts pieejamajā kontroles līmenī, ko nodrošina konfidencialitātes politikas, starp profila datiem (kurus var iegūt ar netiešiem vai slēptiem līdzekļiem) un lietotāja konta datiem (kuru dažus kontroles pasākumus bieži nosaka VDAR, Kalifornijas Patērētāju privātuma likums (CCPA). ) un līdzīgiem valsts un reģionāliem mehānismiem).

Datums

Lai iegūtu pētījuma datus, autors pārmeklēja tīmekļa vietnes, lai atrastu saites uz viņu privātuma politikām, bieži uzskatot par nepieciešamu paplašināt darbības jomu, pārsniedzot sākotnējo rezultātu, jo ir daudz neintegrētu politiku, kas ir saistītas ar turpmākām politikām (katra no kas var mainīties vai nu kopā ar vai neatkarīgi no mātes vai saistītās politikas).

Jūsu darbs IR Klientu apkalpošana Wayback Machine tika izmantots, lai iegūtu vēsturiskās politikas, lai gan, apsverot rezultātus, tas bija nepieciešams, lai ņemtu vērā politikas, kurām bija bloķēta pārmeklēšana vai arhivēšana, izmantojot robots.txt konfigurācijas failu (nelielu teksta failu, kas satur norādījumus tīmekļa rāpuļprogrammas indeksēšanas aģentiem attiecībā uz lapām un citiem. vienības, kuras tām nevajadzētu iekļaut publiskajā indeksā).

Viens momentuzņēmums mēnesī tika iegūts no Wayback Machine ar tā palīdzību CDX API katrai identificējamai un nepārtraukti piemērojamai politikai, izmantojot Firefox zem Selēna. Optiskās rakstzīmju atpazīšanas veikšana politikām, kas pieejamas tikai PDF formātā, projektā netika ņemtas vērā, jo tas aprobežojās ar (daudz lielāku) pieejamo HTML politiku skaitu.

Viens interesants projekta rezultāts ir tas, ka pornogrāfisko vietņu skaidrība un lasāmība faktiski ir uzlabojusies pētītajā laika posmā – iespējams, gaidot pieaugošos aicinājumus pēc lielāka regulējuma un skaidrības. Lai apkopotu šos dokumentus, augstskolas satura bloķēšanas protokolu dēļ bija nepieciešams tos iegūt ar papildu pārmeklējumiem no dzīvojamo IP adresēm.

Sākotnēji tika iegūti 1,068,683 120,265 39.1 dokumenti, kas atbilst 4.4 XNUMX unikāliem dokumentiem, kas satur vidēji XNUMX politikas pantu vai punktu un XNUMX unikālus politikas tekstus katrai saitei.

Tikai angliski

Kā tas ir ierasts līdzīgos nesenos pētījumos, projekts nevarēja risināt privātuma politikas, kas nav angļu valodā un kuras tika atmestas datu tīrīšanas posmā, izmantojot PYCLD2 Pakete.

Lai atšķirtu privātuma politikas no cita veida materiāliem, projektā tika izmantots klasifikators izstrādāts 2019. gadā kā Viskonsinas Universitātes un École Polytechnique Fédérale de Lausanne kopīga iniciatīva.

Klasifikatora IS-POLICY arhitektūra. Avots: https://arxiv.org/pdf/1809.08396.pdf

Lai gan IS-POLICY klasifikators tika apmācīts uz to pašu 1,000 dokumentu korpusu kā sākotnējā dokumentā, autoram bija jāiegūst jauni ar politiku nesaistīti dokumenti apmācībai, jo sākotnējie avoti nebija pieejami.

Pēc filtrēšanas dati tika samazināti līdz 56,416 XNUMX unikālām privātuma politikām.

* Raksta iekļautais citāts šeit tiek pārveidots par hipersaiti, slīpraksta pārslēgšana notiek no papīra.

Pirmo reizi publicēts 31. gada 2022. janvārī.

Nākošais

Atsauksmju izmantošana, lai izveidotu ieteikuma sistēmu, kas darbojas

Nepalaidiet garām

Jaunās sistēmas mērķis ir atrisināt AI enerģijas patēriņa problēmu

Mārtiņš Andersons

Rakstnieks par mašīnmācību, mākslīgo intelektu un lielajiem datiem.
Personīgā vietne: Martinanderson.ai
Sazinieties ar: [e-pasts aizsargāts]
Twitter: @manders_ai