Kuntatt magħna

Intelliġenza Artifiċjali

L-analiżi ta' 25 Sena ta' Politiki ta' Privatezza b'Tagħlim Magni

Aġġornata on

Studju reċenti uża tekniki ta’ analiżi tat-tagħlim tal-magni biex ifassal il-leġibbiltà, l-utilità, it-tul u l-kumplessità ta’ aktar minn 50,000 politika ta’ privatezza fuq websajts popolari f’perjodu li jkopri 25 sena mill-1996 sal-2021. Ir-riċerka tikkonkludi li l-qarrej medju jkun jeħtieġ li jiddedika. 400 siegħa ta' 'ħin ta' qari annwali' (aktar minn siegħa kuljum) sabiex jippenetraw l-għadd ta' kliem li qed jikber, lingwaġġ li jfixkel u użu vag tal-lingwa li jikkaratterizzaw il-politiki ta' privatezza moderni ta' wħud mill-aktar websajts frekwentati.

Ir-rapport jgħid:

'It-tul medju tal-politika kważi rdoppja fl-aħħar għaxar snin, b'2159 kelma f'Marzu 2011 u 4191 kelma f'Marzu 2021, u kważi rdoppja mill-2000 (1146 kelma).'

L-għadd medju tal-kliem u l-għadd tas-sentenzi fost il-corpus studjat, fuq perjodu ta’ 25 sena. Sors: https://arxiv.org/pdf/2201.08739.pdf

Għalkemm ir-rata ta' żieda fit-tul żdiedet meta daħlu fis-seħħ il-protezzjonijiet tal-GDPR u l-Att dwar il-Privatezza tal-Konsumatur ta' Kalifornja (CCPA), il-karta tiskonta dawn il-varjazzjonijiet bħala 'daqsijiet ta' effett żgħir' li jidhru li huma insinifikanti kontra x-xejra usa' fit-tul. Madankollu, il-GDPR huwa identifikat bħala kawża possibbli ta' lingwaġġ 'vag' li qed jikber fil-politiki (ara hawn taħt).

Jekk wieħed jassumi veloċità ta' qari ta' 250 kelma kull minuta, il-karta ssostni li l-politika ta' privatezza medja issa tieħu 17-il minuta biex tinqara, filwaqt li politiki aktar popolari (jiġifieri politiki assoċjati ma' numru għoli ta' utenti) jieħdu 23 minuta biex jitlestew.

L-itwal politika fis-sett tad-dejta, mill-Microsoft, teħtieġ 152 minuta biex tikkonsma, skont ir-riċerka, li ingranat numru ta’ varjanti fuq Google Mudell tal-lingwa BERT.

Tkabbir fir-rata ta 'sigħat annwali meħtieġa biex taqra politiki ta' privatezza moderni, jekk wieħed jassumi li l-qarrej iżur 1462 websajt unika fis-sena.

Ħafna miż-żieda reċenti fil-verbożità u l-ambigwità fil-politiki tal-privatezza hija attribwita mid-dokument bħala reazzjoni għal tentattivi matul l-aħħar għoxrin sena biex jiġu imposti regolamenti, iżda wkoll għall-użu diżingenu tar-rekwiżiti ta’ konformità regolatorja bħala skuża biex iżidu b’mod mistur l-ambitu u opaċità tal-politiki tal-privatezza.

"B'mod ġenerali, ir-riżultati tagħna juru li r-regolamenti riċenti tal-privatezza ma tejbux sostanzjalment il-privatezza tal-utenti onlajn, iżda pjuttost wasslu għal politiki ta' privatezza aktar minfuħin li jiddeskrivu prattiki tad-dejta dejjem aktar invażivi."

Għalkemm għadd ta’ karti tal-Ipproċessar tal-Lingwa Naturali (NLP) indirizzaw il-leġibbiltà u aspetti oħra tal-politiki tal-privatezza f’dawn l-aħħar snin, l-awtur jemmen li dan huwa l-ewwel proġett tat-tip tiegħu li jipprovdi ħarsa ġenerali daqshekk wiesgħa tal-iżvilupp tal-politika f’dawn l-aħħar deċennji.

il karta huwa intitolat Politiki ta' Privatezza Across the Ages: Kontenut u Leġibbiltà tal-Politiki ta' Privatezza 1996–2021, u ġej minn Isabel Wagner fl-Istitut tat-Teknoloġija Ċibernetika tal-Università De Montfort fir-Renju Unit.

Lingwa Ellittika

Ir-rapport jissuġġerixxi wkoll li n-numru medju ta’ ‘kliem li jfixkel’ (ie aċċettabbli, sinifikanti, prinċipalment, u kliem ieħor li ma jipprovdux tifsira definittiva) fil-politiki tal-privatezza żdiedu b’mod kostanti sal-2018, iżda mbagħad żdiedu minn medjan ta’ 227 madwar Marzu tal-2018 għal 304 f’Ġunju tal-2020.

L-awtur isostni li din iż-żieda hija attribwibbli għall-effetti tal-GDPR, u d-dokument isib li aktar minn żewġ terzi (72%) tas-sentenzi fil-politiki tal-privatezza studjati kien fihom minimu ta’ kelma waħda li tfixkel.

Leġġibbiltà

Madwar tliet miżuri komuni ta 'diffikultà fil-qari, l-istudju sab li "il-politiki tal-privatezza saru dejjem aktar diffiċli biex jinqraw matul is-snin". L-awturi jistmaw li 41% tal-politiki attwali applikabbli disponibbli fl-2021 kellhom medjan Flesch Qari Faċilità (FRE, ogħla huwa aħjar) ta’ 31.8 biss, bl-awtur josserva "Dan il-punteġġ jindika test diffiċli ħafna li jinftiehem l-aħjar minn gradwati universitarji".

Fl-istess ħin, biss 6.7% tal-poloz kisbu punteġġ FRE 'l fuq minn 45 (li, ir-rapport jinnota huwa l-istandard tal-qari meħtieġ għall-poloz tal-assigurazzjoni fl-istat ta' Florida).

Għarfien dwar Bidla fil-Politika

Ix-xogħol jindirizza wkoll il-punt sa fejn il-politiki tal-privatezza jinkludu dettalji dwar kif il-konsentent potenzjali eventwalment jiġi nnotifikat fil-każ ta 'aġġornamenti sussegwenti, li jistgħu jaffettwaw ir-rieda tal-utent li jżomm il-ftehim.

L-awtur josserva:

'Fl-2021, 73% tal-politiki jinkludu stqarrija dwar bidla fil-politika. Minn dawn, 34% jiddikjaraw li l-bidliet se jitħabbru b'avviż fil-politika tal-privatezza, 37% se jpoġġu avviż fuq il-websajt, u 22% se jibagħtu avviż personali (il-politiki li jifdal iħallu t-tip ta 'notifika mhux speċifikat).

'Bħala riżultat, ħafna mill-utenti x'aktarx ma jsirux konxji ta' bidliet fil-politiki tal-privatezza.

“Barra minn hekk, l-utenti ma jiġu offruti kważi l-ebda għażla sinifikanti meta jinbidlu l-politiki. Mill-politiki li jinnotifikaw lill-utent bil-bidliet, 12% biss joffru opt-in ġdid, filwaqt li 34% ma jagħtu l-ebda għażla u 54% iħalluha mhux speċifikata.'

Is-sejbiet tad-dokument dwar il-metodi deskritti biex jinnotifikaw lill-utenti dwar bidliet fil-politika.

Għażla Limitata Rigward it-Traċċar

Skont l-istudju, firxa ferm akbar ta 'mekkaniżmi huma offruti fil-politiki tal-privatezza għall-aċċess għall-informazzjoni tal-kont tal-utent milli għall-aċċess tad-dejta tal-profil tal-utent. Id-dejta tal-profil tista’ tinħoloq u tiġi aġġornata permezz ta’ mekkaniżmi awtomatizzati u mhux ovvji, filwaqt li d-dejta tal-kont tal-utent mhux biss tingħata b’mod espliċitu mill-utent, iżda wkoll obbligata li tkun editjabbli taħt regolamenti ta’ diversi ġurisdizzjonijiet.

Għażla tal-konsumatur fuq il-kunsens tal-cookie fil-politiki tal-privatezza (suġġett li ġibed dibattitu jaħraq peress li l-miġja tal-GDPR ippromulga mijiet ta’ eluf ta’ popups ta’ kunsens tal-cookie għal istanzi tal-UE ta’ websajts internazzjonali u Ewropej) hija ġeneralment indirizzata fil-politiki, iżda jaħbi saff aktar importanti ta’ data inqas aċċessibbli*:

“[L-]għażliet rigward il-cookies mhumiex biżżejjed biex jipproteġu lill-utenti mit-traċċar kollu minħabba li mekkaniżmi ta’ għażla jew ta’ kontroll rarament jiġu offruti għal informazzjoni tal-kompjuter, identifikaturi tal-apparat, u identifikaturi personali, li jippermettu li jintraċċaw l-utenti permezz tal-marki tas-swaba'.'

Kuntrast qawwi fil-livell disponibbli ta’ kontroll mogħti mill-politiki tal-privatezza bejn id-dejta tal-profil (li tista’ tinkiseb b’mezzi impliċiti jew mistiedna) u d-dejta tal-kont tal-utent (fejn xi miżura ta’ kontroll hija ta’ spiss mandati mill-GDPR, l-Att dwar il-Privatezza tal-Konsumatur ta’ Kalifornja (CCPA). ), u mekkaniżmi nazzjonali u reġjonali simili).

Data

Biex jikseb id-dejta għall-istudju, l-awtur crawler websajts għal links għall-politiki ta’ privatezza tagħhom, u spiss sab li kien meħtieġ li jitwessa’ l-ambitu lil hinn mir-riżultat inizjali, minħabba n-numru ta’ politiki mhux integrali li jorbtu ma’ politiki ulterjuri (kull wieħed minn li għandha potenzjal li tinbidel jew flimkien ma’ jew indipendentement mill-politika prinċipali jew relatata).

il Magni Wayback intuża biex jinkisbu politiki storiċi, għalkemm kien meħtieġ meta jiġu kkunsidrati r-riżultati biex jitqiesu politiki li kienu mblukkati milli jitkaxkru jew jiġu arkivjati permezz ta’ fajl ta’ konfigurazzjoni robots.txt (fajl ta’ test żgħir li fih struzzjonijiet għal aġenti ta’ indiċjar tat-tkaxkir tal-web dwar paġni u oħrajn. entitajiet li m'għandhomx jinkludu f'indiċi pubbliku).

Snapshot waħda kull xahar inkisbet mill-Magni Wayback minn tagħha CDX API għal kull politika applikabbli identifikabbli u kontinwa, bl-użu Firefox taħt Selenium. It-twettiq ta' rikonoxximent ottiku ta' karattri fuq politiki disponibbli biss f'format PDF ma kienx ikkunsidrat għall-proġett, li llimita ruħu għan-numru (ħafna akbar) ta' politiki HTML disponibbli.

Riżultat wieħed interessanti mill-proġett huwa li ċ-ċarezza u l-leġġibbiltà tal-websajts pornografiċi fil-fatt tjiebu matul l-intervall studjat - possibbilment b'antiċipazzjoni ta 'sejħiet dejjem jikbru għal regolamentazzjoni u ċarezza akbar. Sabiex jinġabru dawn id-dokumenti, kien meħtieġ li jinkisbu bi tkaxkir addizzjonali minn indirizzi IP residenzjali, minħabba l-protokolli ta 'imblukkar tal-kontenut tal-università.

Inizjalment inkisbu 1,068,683 dokument, li jammontaw għal 120,265 dokument uniku li fihom medja ta' 39.1 artikoli jew klawżoli ta' politika u 4.4 testi ta' politika uniċi għal kull link.

Ingliż biss

Kif inhu komuni fi studji reċenti simili, il-proġett ma kienx kapaċi jindirizza politiki tal-privatezza mhux bl-Ingliż, li ġew mormija matul l-istadju tat-tindif tad-dejta bl-użu tal- PYCLD2 pakkett.

Biex tiddistingwi politiki ta 'privatezza minn tipi oħra ta' materjal, il-proġett uża klassifikatur żviluppat fl-2019 bħala inizjattiva konġunta mill-Università ta’ Wisconsin u l-École Polytechnique Fédérale de Lausanne.

Arkitettura tal-klassifikatur IS-POLICY. Sors: https://arxiv.org/pdf/1809.08396.pdf

Għalkemm il-klassifikatur IS-POLICY kien imħarreġ fuq l-istess corpus ta' 1,000 dokument bħal fil-karta ta' oriġini, l-awtur kellu jikseb dokumenti ġodda mhux ta' politika għat-taħriġ, peress li s-sorsi oriġinali ma kinux disponibbli.

Wara l-filtrazzjoni, id-dejta tnaqqset għal 56,416 politika ta' privatezza unika.

 

* Iċ-ċitazzjoni inline tal-karta hija kkonvertita għal hyperlink hawn, it-toggling korsiv huwa mill-karta.

Ippublikat għall-ewwel darba fil-31 ta' Jannar 2022.