Inteligjenca artificiale

Duke analizuar 25 vjet politika të privatësisë me mësimin e makinerisë

Përditësuar on Dhjetor 9, 2022

Një studim i kohëve të fundit ka përdorur teknikat e analizës së mësimit të makinerive për të përcaktuar lexueshmërinë, dobinë, gjatësinë dhe kompleksitetin e më shumë se 50,000 politikave të privatësisë në faqet e internetit të njohura në një periudhë që mbulon 25 vjet nga 1996 deri në 2021. Hulumtimi arrin në përfundimin se lexuesi mesatar do të duhet t'i kushtojë 400 orë 'kohë leximi vjetore' (më shumë se një orë në ditë) për të depërtuar në numrin në rritje të fjalëve, gjuhën e errët dhe përdorimin e paqartë të gjuhës që karakterizojnë politikat moderne të privatësisë së disa prej faqeve të internetit më të shpeshta.

Në raport thuhet:

"Gjatësia mesatare e politikës është pothuajse dyfishuar në dhjetë vitet e fundit, me 2159 fjalë në mars 2011 dhe 4191 fjalë në mars 2021, dhe pothuajse katërfishuar që nga viti 2000 (1146 fjalë).

Numri mesatar i fjalëve dhe numri i fjalive midis korpusit të studiuar, gjatë një periudhe 25-vjeçare. Burimi: https://arxiv.org/pdf/2201.08739.pdf

Megjithëse shkalla e rritjes së gjatësisë u rrit kur mbrojtja e GDPR dhe Aktit të Privatësisë së Konsumatorit të Kalifornisë (CCPA) hynë në fuqi, gazeta i ul këto ndryshime si 'madhësi të vogla efektesh' të cilat duket të jenë të parëndësishme kundrejt prirjes më të gjerë afatgjatë. Megjithatë, GDPR është identifikuar si një shkak i mundshëm i rritjes së gjuhës 'të paqartë' në politika (shih më poshtë).

Duke supozuar një shpejtësi leximi prej 250 fjalësh në minutë, gazeta pretendon se politikës mesatare të privatësisë tani i duhen 17 minuta për t'u lexuar, ndërsa politikave më të njohura (dmth politikave të lidhura me një numër të madh përdoruesish) u duhen 23 minuta për t'u plotësuar.

Politika më e gjatë në grupin e të dhënave, nga Microsoft, kërkon 152 minuta për t'u konsumuar, sipas hulumtimit, i cili shfrytëzoi një numër variante në Google Modeli i gjuhës BERT.

Rritja e shkallës së orëve vjetore të nevojshme për të lexuar politikat moderne të privatësisë, duke supozuar se lexuesi viziton 1462 faqe interneti unike në vit.

Pjesa më e madhe e rritjes së fundit të fjalës dhe paqartësisë në politikat e privatësisë atribuohet nga gazeta si një reagim ndaj përpjekjeve gjatë dy dekadave të fundit për të imponuar rregullore, por edhe ndaj përdorimit të pasinqertë të kërkesave të pajtueshmërisë rregullatore si një justifikim për të rritur tinëzisht fushëveprimin dhe paqartësia e politikave të privatësisë.

"Në përgjithësi, rezultatet tona tregojnë se rregulloret e fundit të privatësisë nuk e kanë përmirësuar ndjeshëm privatësinë e përdoruesve në internet, por përkundrazi kanë çuar në politika më të fryra të privatësisë që përshkruajnë praktika gjithnjë e më invazive të të dhënave."

Megjithëse një sërë punimesh të Përpunimit të Gjuhës Natyrore (NLP) kanë trajtuar lexueshmërinë dhe aspekte të tjera të politikave të privatësisë në vitet e fundit, autori beson se ky është projekti i parë i këtij lloji që ofron një pasqyrë kaq të gjerë të zhvillimit të politikave në dekadat e fundit.

La letër titullohet Politikat e privatësisë nëpër epoka: Përmbajtja dhe lexueshmëria e politikave të privatësisë 1996–2021, dhe vjen nga Isabel Wagner në Institutin e Teknologjisë Kibernetike të Universitetit De Montfort në MB.

Gjuhë eliptike

Raporti sugjeron gjithashtu se numri mesatar i 'fjalëve turbulluese' (d.m.th i pranueshëm, i rëndësishëm, kryesisht, dhe fjalë të tjera që nuk japin kuptim përfundimtar) në politikat e privatësisë u rritën në mënyrë të qëndrueshme deri në vitin 2018, por më pas u rrit nga një mesatare prej 227 rreth marsit 2018 në 304 në qershor të 2020.

Autori pohon se kjo rritje i atribuohet efekteve të GDPR dhe punimi zbulon se mbi dy të tretat (72%) e fjalive në politikat e privatësisë të studiuara përmbanin të paktën një fjalë turbulluese.

Lexueshmëri

Përmes tre masave të zakonshme të vështirësisë në të lexuar, studimi zbuloi se "Politikat e privatësisë janë bërë gjithnjë e më të vështira për t'u lexuar me kalimin e viteve". Autorët vlerësojnë se 41% e politikave aktuale të aplikueshme të disponueshme në 2021 kishin një mesatare Lehtësia Flesch Leximi (FRE, më e lartë është më mirë) prej vetëm 31.8, me autorin që vëzhgon "Ky rezultat tregon një tekst shumë të vështirë që kuptohet më së miri nga të diplomuarit".

Në të njëjtën kohë, vetëm 6.7% nga politikat kanë arritur një rezultat FRE mbi 45 (që, vëren raporti është standardi i leximit i kërkuar për politikat e sigurimit në shtetin e Floridës).

Ndërgjegjësimi për ndryshimin e politikave

Puna trajton gjithashtu shkallën në të cilën politikat e privatësisë përfshijnë detaje rreth mënyrës se si miratuesi i mundshëm do të njoftohet përfundimisht në rast të përditësimeve të mëvonshme, të cilat mund të ndikojnë në gatishmërinë e përdoruesit për të ruajtur marrëveshjen.

Autori vëren:

“Në vitin 2021, 73% e politikave përfshijnë një deklaratë për ndryshimin e politikave. Nga këto, 34% deklarojnë se ndryshimet do të shpallen me një njoftim në politikën e privatësisë, 37% do të postojnë një njoftim në faqen e internetit dhe 22% do të dërgojnë një njoftim personal (politikat e mbetura lënë llojin e njoftimit të paspecifikuar).

"Si rezultat, shumica e përdoruesve nuk ka gjasa të ndërgjegjësohen për ndryshimet në politikat e privatësisë.

“Përveç kësaj, përdoruesve nuk u ofrohet pothuajse asnjë zgjedhje kuptimplote kur ndryshojnë politikat. Nga politikat që njoftojnë përdoruesin për ndryshimet, vetëm 12% ofrojnë një zgjedhje të re, ndërsa 34% nuk japin zgjidhje dhe 54% e lënë atë të paspecifikuar.'

Gjetjet e punimit mbi metodat e përshkruara për njoftimin e përdoruesve për ndryshimet e politikave.

Zgjedhje e kufizuar në lidhje me gjurmimin

Sipas studimit, një gamë shumë më e madhe mekanizmash ofrohen në politikat e privatësisë për të hyrë në informacionin e llogarisë së përdoruesit sesa për të hyrë në të dhënat e profilit të përdoruesit. Të dhënat e profilit mund të krijohen dhe përditësohen përmes mekanizmave të automatizuar dhe jo të dukshëm, ndërsa të dhënat e llogarisë së përdoruesit jo vetëm që jepen në mënyrë eksplicite nga përdoruesi, por gjithashtu janë të detyruara të jenë të redaktueshme sipas rregulloreve të juridiksioneve të ndryshme.

Zgjedhja e konsumatorit mbi pëlqimin e cookie-ve në politikat e privatësisë (një temë që ka tërhequr debat i ndezur që kur ardhja e GDPR shpalli qindra mijëra dritare të pëlqimit të cookie-ve për shembujt e BE-së të faqeve të internetit ndërkombëtare dhe evropiane) në përgjithësi trajtohet në politika, por fsheh një shtresë më të rëndësishme të të dhënave më pak të aksesueshme*:

Zgjedhjet në lidhje me cookie-t janë të pamjaftueshme për të mbrojtur përdoruesit nga çdo gjurmim, sepse mekanizmat e zgjedhjes ose kontrollit ofrohen rrallë për informacion kompjuterik, identifikuesit e pajisjesdhe identifikues personal, të cilat lejojnë ndjekjen e përdoruesve nëpërmjet gjurmëve të gishtërinjve.'

Një kontrast i fortë në nivelin e disponueshëm të kontrollit të dhënë nga politikat e privatësisë midis të dhënave të profilit (të cilat mund të merren me mjete të nënkuptuara ose të fshehta) dhe të dhënave të llogarisë së përdoruesit (ku disa masa kontrolli janë të mandatuara shpesh nga GDPR, Akti i Privatësisë së Konsumatorit në Kaliforni (CCPA). ), dhe mekanizma të ngjashëm kombëtarë dhe rajonalë).

Data

Për të marrë të dhënat për studimin, autori ka zvarritur faqet e internetit për lidhje me politikat e tyre të privatësisë, duke e parë shpesh të nevojshme të zgjerojë qëllimin përtej rezultatit fillestar, për shkak të numrit të politikave jointegrale që lidhen me politika të mëtejshme (secila prej e cila ka potencial të ndryshojë ose së bashku me ose pavarësisht nga politika mëmë ose e lidhur).

La Wayback Machine u përdor për të marrë politikat historike, megjithëse ishte e nevojshme kur shqyrtoheshin rezultatet të merreshin parasysh politikat të cilat ishin bllokuar nga zvarritja ose arkivimi nëpërmjet një skedari konfigurimi robots.txt (një skedar i vogël teksti që përmban udhëzime për agjentët e indeksimit të zvarritjes në ueb në lidhje me faqet dhe të tjera subjektet që nuk duhet t'i përfshijnë në një indeks publik).

Një fotografi në muaj është marrë nga Wayback Machine CDX API për çdo politikë të aplikueshme të identifikueshme dhe të vazhdueshme, duke përdorur Firefox nën Selenium. Kryerja e njohjes optike të karaktereve në politikat e disponueshme vetëm në formatin PDF nuk u konsiderua për projektin, i cili u kufizua në numrin (shumë më të madh) të politikave të disponueshme HTML.

Një rezultat interesant nga projekti është se qartësia dhe lexueshmëria e faqeve pornografike në të vërtetë është përmirësuar gjatë intervalit të studiuar – ndoshta në pritje të thirrjeve në rritje për rregullim dhe qartësi të shtuar. Për të mbledhur këto dokumente, ishte e nevojshme që ato të siguroheshin me zvarritje shtesë nga adresat IP të banesave, për shkak të protokolleve të bllokimit të përmbajtjes së universitetit.

Fillimisht u morën 1,068,683 dokumente, të barabarta me 120,265 dokumente unike që përmbajnë një mesatare prej 39.1 nene ose klauzola politikash dhe 4.4 tekste unike politikash për secilën lidhje.

Vetem anglisht

Siç ndodh zakonisht në studime të ngjashme të fundit, projekti nuk ishte në gjendje të adresonte politikat e privatësisë jo-anglisht, të cilat u hodhën poshtë gjatë fazës së pastrimit të të dhënave duke përdorur PYCLD2 paketë.

Për të dalluar politikat e privatësisë nga llojet e tjera të materialit, projekti përdori një klasifikues zhvilluar në 2019 si një nismë e përbashkët nga Universiteti i Wisconsin dhe École Polytechnique Fédérale de Lausanne.

Arkitektura e klasifikuesit IS-POLICY. Burimi: https://arxiv.org/pdf/1809.08396.pdf

Megjithëse klasifikuesi IS-POLICY ishte trajnuar në të njëjtin korpus 1,000 dokumentesh si në punimin fillestar, autorit iu desh të merrte dokumente të reja jo-politike për trajnim, pasi burimet origjinale nuk ishin të disponueshme.

Pas filtrimit, të dhënat u reduktuan në 56,416 politika unike të privatësisë.

* Citimi i brendshëm i letrës është konvertuar në një hiperlidhje këtu, ndërrimi i pjerrët është nga letra.

Botuar për herë të parë më 31 janar 2022.

Temat e ngjashme:intimitetin e të dhënave përpunimi i gjuhës natyrore NLP Politika rregullim rregulla hulumtim

E rradhes

Përdorimi i rishikimeve për të krijuar një sistem rekomandues që funksionon

Mos e humbas

Sistemi i ri synon të zgjidhë problemin e konsumit të energjisë nga AI

Martin Anderson

Shkrimtar për mësimin e makinerive, inteligjencën artificiale dhe të dhënat e mëdha.
Faqja personale: martinanderson.ai
Kontaktoni: [email mbrojtur]
Twitter: @manders_ai