Tehisintellekt

25 aasta pikkuse privaatsuspoliitika analüüsimine masinõppega

Ajakohastatud on Detsember 9, 2022

Hiljutises uuringus on kasutatud masinõppe analüüsi tehnikaid, et kaardistada populaarsete veebisaitide enam kui 50,000 25 privaatsuspoliitika loetavust, kasulikkust, pikkust ja keerukust ajavahemikul 1996–2021, mis hõlmab 400 aastat. Uuringus jõutakse järeldusele, et keskmine lugeja peaks sellele pühenduma. XNUMX tundi iga-aastast lugemisaega (rohkem kui tund päevas), et tungida läbi kasvava sõnade arvu, segava keele ja ebamäärase keelekasutuse, mis iseloomustavad mõnede enimkasutatavate veebisaitide tänapäevaseid privaatsuspoliitikaid.

Aruandes märgitakse:

"Keskmine kindlustuslepingu pikkus on viimase kümne aasta jooksul peaaegu kahekordistunud, 2159. aasta märtsis oli see 2011 sõna ja 4191. aasta märtsis 2021 sõna, ning peaaegu neljakordistunud alates 2000. aastast (1146 sõna)."

Keskmine sõnade ja lausete arv uuritud korpuses 25 aasta jooksul. Allikas: https://arxiv.org/pdf/2201.08739.pdf

Ehkki GDPR-i ja California tarbijate privaatsusseaduse (CCPA) kaitse jõustumisel suurenes pikkus järsult, käsitletakse dokumendis neid variatsioone kui "väikest mõju suurust", mis näivad laiema pikaajalise suundumuse taustal ebaolulised. Siiski peetakse GDPR-i võimalikuks põhjuseks, miks poliitikates esineb üha rohkem ebamäärast sõnastust (vt allpool).

Eeldades lugemiskiiruseks 250 sõna minutis, väidab artikkel, et keskmise privaatsuspoliitika lugemiseks kulub nüüd 17 minutit, samas kui populaarsemate poliitikate (st suure kasutajate arvuga seotud poliitika) täitmiseks kulub 23 minutit.

Microsofti andmestiku pikima poliitika jaoks kulub 152 minutit, selgub uuringust, mis kasutas mitmeid variandid Google'is BERT keelemudel.

Kaasaegsete privaatsuspoliitikate lugemiseks vajalike aastatundide arvu kasv, eeldades, et lugeja külastab aastas 1462 unikaalset veebisaiti.

Kaasaegsete privaatsuspoliitikate lugemiseks vajalike aastatundide arvu kasv, eeldades, et lugeja külastab 1462 unikaalset veebisaiti aastas.

Suur osa eraelu puutumatuse poliitika hiljutisest paljusõnalisusest ja ebaselgusest tuleneb dokumendist reaktsioonina viimase kahe aastakümne jooksul tehtud katsetele kehtestada eeskirju, aga ka regulatiivsete vastavusnõuete ebasihipärasele kasutamisele ettekäändena ulatuse vargsi suurendamiseks. privaatsuspoliitika läbipaistmatus.

"Üldiselt näitavad meie tulemused, et hiljutised privaatsusmäärused ei ole oluliselt parandanud kasutajate privaatsust võrgus, vaid pigem viinud privaatsuspoliitika ülepaisumiseni, mis kirjeldavad üha enam invasiivseid andmetegevusi."

Kuigi mitmed loomuliku keele töötlemise (NLP) paberid on viimastel aastatel käsitlenud privaatsuspoliitika loetavust ja muid aspekte, usub autor, et see on esimene seda tüüpi projekt, mis annab nii laia ülevaate poliitika arengust viimastel aastakümnetel.

. paber on pealkirjaga Privaatsuspoliitika läbi aegade: 1996–2021 privaatsuspoliitika sisu ja loetavus, ja pärineb Isabel Wagnerilt Ühendkuningriigi De Montforti ülikooli kübertehnoloogia instituudist.

Elliptiline keel

Raport viitab ka sellele, et keskmine hägustavate sõnade arv (st vastuvõetav, märkimisväärne, peamiselt, ja teisi sõnu, mis ei anna lõplikku tähendust) privaatsuspoliitikate osakaal kasvas pidevalt kuni 2018. aastani, kuid siis tõusis 227. aasta märtsis keskmiselt 2018-lt 304-le 2020. aasta juunis.

Autor väidab, et see tõus on tingitud GDPR-i mõjudest ja töös leitakse, et rohkem kui kaks kolmandikku (72%) uuritud privaatsuspoliitika lausetest sisaldas vähemalt ühte segavat sõna.

loetavus

Uuringus leiti, et kolme levinud lugemisraskuse näitaja puhul "Privaatsuspoliitikat on aastate jooksul üha raskem lugeda". Autorite hinnangul oli 41% 2021. aastal saadaolevatest praegu kehtivatest poliitikatest mediaan Fleschi lugemise lihtsus (TASUTA, kõrgem on parem) vaid 31.8, kui autor seda jälgib "See skoor näitab väga rasket teksti, millest ülikoolilõpetajad kõige paremini aru saavad".

Samal ajal ainult 6.7% kindlustuslepingutest saavutas FRE skoori üle 45 (mis aruandes märgib, et see on Florida osariigi kindlustuspoliiside jaoks nõutav lugemisstandard).

Poliitikamuutuste teadlikkus

Töös käsitletakse ka seda, mil määral sisaldavad privaatsuspoliitika üksikasju selle kohta, kuidas potentsiaalset nõusoleku andjat lõpuks teavitatakse hilisemate uuenduste korral, mis võivad mõjutada kasutaja valmisolekut lepingut säilitada.

Autor märgib:

Aastal 2021 sisaldab 73% poliitikatest avaldust poliitika muutmise kohta. Neist 34% märgib, et muudatustest teavitatakse privaatsuspoliitikas, 37% postitab teate veebisaidile ja 22% saadab isikliku teate (ülejäänud poliitikad jätavad teatise tüübi määramata).

Selle tulemusena ei saa enamik kasutajaid privaatsuspoliitika muudatustest teadlikuks.

„Lisaks ei pakuta kasutajatele poliitika muutumisel peaaegu mingit sisulist valikut. Poliitikast, mis teavitab kasutajat muudatustest, pakub ainult 12% uut lubamist, samas kui 34% ei anna valikut ja 54% jätab selle määramata.

Dokumendi järeldused kasutajate poliitikamuudatustest teavitamise kirjeldatud meetodite kohta.

Piiratud valik jälgimise osas

Uuringu kohaselt pakutakse privaatsuspoliitikates kasutajakonto teabele juurdepääsuks palju suuremaid mehhanisme kui kasutajaprofiilide andmetele juurdepääsuks. Profiiliandmeid saab luua ja värskendada automaatsete ja mitteilmsete mehhanismide kaudu, samas kui kasutajakonto andmeid ei ole mitte ainult kasutaja selgesõnaliselt lubanud, vaid ka erinevate jurisdiktsioonide määruste kohaselt peab see olema redigeeritav.

Tarbija valik küpsistega nõustumise asemel privaatsuspoliitikas (teema, mis on köitnud tuline arutelu Alates GDPR-i tulekust avaldas sadu tuhandeid küpsiste nõusoleku hüpikaknaid rahvusvaheliste ja Euroopa veebisaitide EL-i juhtude jaoks) on eeskirjades üldiselt käsitletud, kuid see peidab endas olulisemat vähem juurdepääsetavate andmete kihti*:

„[Küpsistega seotud] valikud on ebapiisavad, et kaitsta kasutajaid igasuguse jälgimise eest, kuna valiku- või juhtimismehhanisme pakutakse harva arvutiteave, seadme identifikaatoridja isiklikud identifikaatorid, mis võimaldavad kasutajaid sõrmejälgede abil jälgida.

Privaatsuspoliitikaga tagatud kontrollitasemes on terav kontrast profiiliandmete (mida võidakse hankida kaudsete või varjatud vahenditega) ja kasutajakonto andmete vahel (mille puhul on GDPR, California tarbijate privaatsusseadus (CCPA) sageli ette nähtud teatud kontrollimeetmed ) ja sarnased riiklikud ja piirkondlikud mehhanismid).

kuupäev

Uuringu andmete saamiseks roomas autor veebisaitidelt oma privaatsuspoliitika linke, leides sageli vajalikuks laiendada ulatust kaugemale esialgsest tulemusest, kuna on palju mitteintegraalseid eeskirju, mis lingivad edasiste poliitikatega (igaüks neist mis võib muutuda kas koos vanema või seotud poliitikaga või sellest sõltumatult).

. Wayback Machine kasutati ajalooliste poliitikate hankimiseks, kuigi tulemuste kaalumisel oli vaja võtta arvesse eeskirju, mille roomamine või arhiveerimine oli blokeeritud robots.txt konfiguratsioonifaili kaudu (väike tekstifail, mis sisaldab juhiseid veebis roomavate indekseerimisagentide kohta lehtede ja muu kohta). üksused, mida nad ei tohiks avalikku indeksisse lisada).

Üks hetktõmmis kuus saadi Wayback Machine'ist selle abil CDX API iga tuvastatava ja pidevalt kohaldatava poliitika jaoks, kasutades Firefox Seleeni all. Projekti puhul ei kaalutud optilise märgituvastuse teostamist ainult PDF-vormingus saadaolevate poliitikate puhul, kuna see piirdus (palju suurema) saadaolevate HTML-poliitikate arvuga.

Projekti üks huvitav tulemus on see, et pornograafiliste veebisaitide selgus ja loetavus on uuritud ajavahemiku jooksul tegelikult paranenud – võib-olla oodates kasvavaid nõudmisi suurema reguleerimise ja selguse järele. Nende dokumentide kogumiseks oli ülikooli sisublokeerimisprotokollide tõttu vaja need hankida elukoha IP-aadressidelt täiendavate roomamistega.

Algselt saadi 1,068,683 120,265 39.1 dokumenti, mis võrdub 4.4 XNUMX unikaalse dokumendiga, mis sisaldasid keskmiselt XNUMX poliitikaartiklit või -klauslit ja XNUMX unikaalset poliitikateksti iga lingi kohta.

Ainult inglise keeles

Nagu sarnastes hiljutistes uuringutes tavaline, ei suutnud projekt käsitleda mitte-ingliskeelseid privaatsuspoliitikaid, mis jäeti andmete puhastamise etapis kõrvale, kasutades PYCLD2 pakendis.

Privaatsuspoliitika eristamiseks muud tüüpi materjalidest kasutati projektis klassifikaatorit arenenud 2019is Wisconsini ülikooli ja École Polytechnique Fédérale de Lausanne'i ühisalgatusena.

Klassifikaatori IS-POLICY arhitektuur. Allikas: https://arxiv.org/pdf/1809.08396.pdf

Kuigi IS-POLICY klassifikaatorit koolitati samal 1,000-dokumendilisel korpusel nagu algses dokumendis, pidi autor koolituseks hankima uued poliitikavälised dokumendid, kuna algallikad ei olnud kättesaadavad.

Pärast filtreerimist vähendati andmeid 56,416 XNUMX ainulaadse privaatsuspoliitikani.

* Paberi tekstisisene tsitaat teisendatakse siin hüperlingiks, kaldkirja ümberlülitamine pärineb paberist.

Esmakordselt avaldatud 31. jaanuaril 2022.