Umelá inteligencia

Analýza 25 rokov zásad ochrany osobných údajov pomocou strojového učenia

Aktualizované on Decembra 9, 2022

Nedávna štúdia použila techniky analýzy strojového učenia na zmapovanie čitateľnosti, užitočnosti, dĺžky a zložitosti viac ako 50,000 25 zásad ochrany osobných údajov na populárnych webových stránkach v období 1996 rokov od roku 2021 do roku 400. Výskum dospel k záveru, že priemerný čitateľ by sa mal venovať XNUMX hodín „ročného čítania“ (viac ako hodinu denne), aby sme prenikli do rastúceho počtu slov, zahmlievajúceho jazyka a vágneho používania jazyka, ktoré charakterizujú moderné zásady ochrany osobných údajov niektorých z najfrekventovanejších webových stránok.

Správa uvádza:

„Priemerná dĺžka poistenia sa za posledných desať rokov takmer zdvojnásobila, s 2159 slovami v marci 2011 a 4191 slovami v marci 2021 a takmer štvornásobne od roku 2000 (1146 slov).

Priemerný počet slov a počet viet v skúmanom korpuse za obdobie 25 rokov. Zdroj: https://arxiv.org/pdf/2201.08739.pdf

Hoci miera nárastu dĺžky vzrástla, keď nadobudla účinnosť ochrana GDPR a kalifornského zákona o ochrane súkromia spotrebiteľov (CCPA), noviny tieto variácie zohľadňujú ako „veľkosti malých účinkov“, ktoré sa zdajú byť nevýznamné v porovnaní so širším dlhodobým trendom. GDPR je však identifikované ako možná príčina rastúceho „vágneho“ jazyka v politikách (pozri nižšie).

Za predpokladu, že rýchlosť čítania je 250 slov za minútu, noviny tvrdia, že čítanie priemernej politiky ochrany osobných údajov teraz trvá 17 minút, zatiaľ čo čítanie populárnejších pravidiel (tj pravidiel spojených s vysokým počtom používateľov) trvá 23 minút.

Najdlhšia politika v množine údajov od spoločnosti Microsoft si podľa výskumu vyžaduje 152 minút na spotrebovanie. varianty na Google jazykový model BERT.

Nárast počtu hodín ročne potrebných na prečítanie moderných zásad ochrany osobných údajov za predpokladu, že čitateľ navštívi 1462 XNUMX jedinečných webových stránok ročne.

Nárast počtu hodín ročne potrebných na prečítanie moderných zásad ochrany osobných údajov za predpokladu, že ich čitateľ navštívi 1462 unikátnych webových stránok ročne.

Veľkú časť nedávneho nárastu podrobností a nejednoznačnosti v politikách ochrany osobných údajov pripisuje tento dokument ako reakciu na pokusy za posledné dve desaťročia uvaliť nariadenia, ale aj na nečestné používanie požiadaviek na dodržiavanie predpisov ako zámienku na utajené zvýšenie rozsahu a neprehľadnosť zásad ochrany osobných údajov.

„Naše výsledky celkovo ukazujú, že nedávne nariadenia o ochrane osobných údajov podstatne nezlepšili súkromie používateľov online, ale skôr viedli k nafúknutejším zásadám ochrany osobných údajov, ktoré opisujú čoraz invazívnejšie praktiky týkajúce sa údajov.“

Aj keď sa množstvo článkov o spracovaní prirodzeného jazyka (NLP) v posledných rokoch zaoberalo čitateľnosťou a ďalšími aspektmi zásad ochrany osobných údajov, autor sa domnieva, že ide o prvý projekt svojho druhu, ktorý poskytuje taký široký prehľad o vývoji politiky v posledných desaťročiach.

papier je s názvom Zásady ochrany osobných údajov v rôznych vekových kategóriách: Obsah a čitateľnosť zásad ochrany osobných údajov 1996–2021, a pochádza od Isabel Wagnerovej z Cyber Technology Institute of De Montfort University vo Veľkej Británii.

Eliptický jazyk

Správa tiež naznačuje, že priemerný počet „zahmlievajúcich slov“ (tj prijateľný, významný, hlavnea ďalšie slová, ktoré neposkytujú definitívny význam) v zásadách ochrany osobných údajov sa do roku 2018 neustále zvyšovali, ale potom vystrelili z mediánu 227 okolo marca 2018 na 304 v júni 2020.

Autor tvrdí, že tento nárast možno pripísať účinkom GDPR a článok zistil, že viac ako dve tretiny (72 %) viet v študovaných zásadách ochrany osobných údajov obsahovali minimálne jedno zmätočné slovo.

čitateľnosť

Štúdia to zistila naprieč tromi bežnými mierami obtiažnosti čítania „Zásady ochrany osobných údajov sú v priebehu rokov čoraz ťažšie čitateľné“. Autori odhadujú, že 41 % aktuálne platných politík dostupných v roku 2021 malo medián Ľahké čítanie Flesch (FRE, vyššie je lepšie) len 31.8, pričom autor to pozoroval „Toto skóre označuje veľmi zložitý text, ktorému najlepšie rozumejú absolventi univerzity“.

Zároveň len 6.7% z poistiek dosiahli skóre FRE vyššie ako 45 (čo, ako sa v správe uvádza, je štandard čítania vyžadovaný pre poistné zmluvy v štáte Florida).

Povedomie o zmene zásad

Práca sa zaoberá aj rozsahom, v akom zásady ochrany osobných údajov obsahujú podrobnosti o tom, ako bude prípadný súhlas v prípade následných aktualizácií nakoniec informovaný, čo môže ovplyvniť ochotu používateľa zachovať dohodu.

Autor poznamenáva:

„V roku 2021 obsahuje 73 % politík vyhlásenie o zmene politiky. Z nich 34 % uvádza, že zmeny budú oznámené upozornením v zásadách ochrany osobných údajov, 37 % zverejní upozornenie na webovej stránke a 22 % pošle osobné upozornenie (zostávajúce zásady ponechávajú typ upozornenia nešpecifikovaný).

„V dôsledku toho je nepravdepodobné, že by si väčšina používateľov uvedomila zmeny v zásadách ochrany osobných údajov.

„Navyše, používateľom sa neponúka takmer žiadna zmysluplná voľba, keď sa zmenia pravidlá. Zo zásad, ktoré upozorňujú používateľa na zmeny, iba 12 % ponúka nové prihlásenie, zatiaľ čo 34 % nedáva žiadnu voľbu a 54 % ju necháva nešpecifikovanú.“

Zistenia článku o opísaných metódach informovania používateľov o zmenách politiky.

Obmedzený výber týkajúci sa sledovania

Podľa štúdie sa v zásadách ochrany osobných údajov ponúka oveľa väčší rozsah mechanizmov na prístup k informáciám o používateľskom účte ako na prístup k údajom o používateľskom profile. Údaje o profile môžu byť vytvárané a aktualizované prostredníctvom automatizovaných a nezrejmých mechanizmov, pričom údaje o používateľskom účte nie sú len explicitne poskytnuté používateľom, ale musia byť tiež upravované podľa predpisov rôznych jurisdikcií.

Voľba spotrebiteľa nad súhlasom so súbormi cookie v zásadách ochrany osobných údajov (téma, ktorá priťahuje horúca debata od nástupu GDPR zverejnilo státisíce vyskakovacích okien so súhlasom so súbormi cookie pre inštancie EÚ na medzinárodných a európskych webových stránkach) sa vo všeobecnosti riešia v zásadách, ale skrýva dôležitejšiu vrstvu menej dostupných údajov*:

„Možnosti týkajúce sa súborov cookie sú nedostatočné na to, aby chránili používateľov pred akýmkoľvek sledovaním, pretože mechanizmy výberu alebo kontroly sa zriedka ponúkajú pre informácie o počítači, identifikátory zariadenía osobné identifikátory, ktoré umožňujú sledovanie používateľov pomocou odtlačkov prstov.“

Výrazný kontrast v dostupnej úrovni kontroly poskytovanej zásadami ochrany osobných údajov medzi údajmi o profile (ktoré možno získať implicitnými alebo skrytými prostriedkami) a údajmi o používateľských účtoch (kde je určitá miera kontroly často nariadená GDPR, kalifornským zákonom o ochrane súkromia spotrebiteľov (CCPA) a podobné národné a regionálne mechanizmy).

dátum

Aby autor získal údaje pre štúdiu, prehľadal webové stránky a hľadal odkazy na ich zásady ochrany osobných údajov, pričom často považoval za potrebné rozšíriť rozsah nad rámec pôvodného výsledku kvôli množstvu neintegrálnych zásad, ktoré odkazujú na ďalšie zásady (každá z nich ktorá sa môže meniť buď v tandeme alebo nezávisle od materskej alebo súvisiacej politiky).

Wayback Machine bol použitý na získanie historických politík, hoci pri zvažovaní výsledkov bolo potrebné zohľadniť politiky, ktorých indexové prehľadávanie alebo archivácia bolo zablokované prostredníctvom konfiguračného súboru robots.txt (malý textový súbor obsahujúci pokyny pre indexovacích agentov na indexové prehľadávanie webu týkajúce sa stránok a iných subjekty, ktoré by nemali zahŕňať do verejného indexu).

Jedna snímka za mesiac bola získaná z Wayback Machine CDX API pre každú identifikovateľnú a nepretržite použiteľnú politiku pomocou Firefox pod Selenium. S vykonávaním optického rozpoznávania znakov na politikách dostupných iba vo formáte PDF sa v rámci projektu neuvažovalo, čo sa obmedzilo na (oveľa väčší) počet dostupných politík HTML.

Jedným zaujímavým výsledkom projektu je, že prehľadnosť a čitateľnosť pornografických webových stránok sa počas skúmaného intervalu skutočne zlepšila – možno v očakávaní rastúcich požiadaviek na zvýšenú reguláciu a prehľadnosť. Aby bolo možné tieto dokumenty zhromaždiť, bolo potrebné ich získať dodatočným prehľadávaním z rezidenčných IP adries, kvôli univerzitným protokolom na blokovanie obsahu.

Pôvodne bolo získaných 1,068,683 120,265 39.1 dokumentov, čo sa rovná 4.4 XNUMX jedinečným dokumentom obsahujúcim v priemere XNUMX článkov alebo klauzúl zásad a XNUMX jedinečných textov zásad pre každý odkaz.

Len anglicky

Ako je bežné v podobných nedávnych štúdiách, projekt nebol schopný riešiť neanglické zásady ochrany osobných údajov, ktoré boli vyradené počas fázy čistenia údajov pomocou PYCLD2 Balík.

Na odlíšenie zásad ochrany osobných údajov od iných typov materiálov projekt použil klasifikátor vyvinuté v 2019 ako spoločná iniciatíva University of Wisconsin a École Polytechnique Fédérale de Lausanne.

Architektúra klasifikátora IS-POLICY. Zdroj: https://arxiv.org/pdf/1809.08396.pdf

Hoci klasifikátor IS-POLICY bol trénovaný na rovnakom 1,000-dokumentovom korpuse ako v pôvodnom článku, autor musel získať nové nekoncepčné dokumenty na školenie, pretože pôvodné zdroje neboli k dispozícii.

Po filtrovaní sa údaje zredukovali na 56,416 XNUMX jedinečných zásad ochrany osobných údajov.

* Vložená citácia článku je tu prevedená na hypertextový odkaz, kurzíva je prepínaná z článku.

Prvýkrát zverejnené 31. januára 2022.