ciot Analizând 25 de ani de politici de confidențialitate cu Machine Learning - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Analizând 25 de ani de politici de confidențialitate cu Machine Learning

mm
Actualizat on

Un studiu recent a folosit tehnici de analiză a învățării automate pentru a prezenta lizibilitatea, utilitatea, lungimea și complexitatea a peste 50,000 de politici de confidențialitate de pe site-uri web populare într-o perioadă care acoperă 25 de ani, din 1996 până în 2021. Cercetarea concluzionează că cititorul mediu ar trebui să dedice 400 de ore de „timp anual de citire” (mai mult de o oră pe zi) pentru a pătrunde în numărul tot mai mare de cuvinte, limbajul obscur și utilizarea vagă a limbajului care caracterizează politicile moderne de confidențialitate ale unora dintre cele mai frecventate site-uri web.

Raportul prevede:

„Lungimea medie a politicii aproape s-a dublat în ultimii zece ani, cu 2159 de cuvinte în martie 2011 și 4191 de cuvinte în martie 2021 și aproape sa dublat din 2000 (1146 de cuvinte).”

Numărul mediu de cuvinte și numărul de propoziții din corpus studiat, pe o perioadă de 25 de ani. Sursa: https://arxiv.org/pdf/2201.08739.pdf

Numărul mediu de cuvinte și numărul de propoziții din corpus studiat, pe o perioadă de 25 de ani. Sursă: https://arxiv.org/pdf/2201.08739.pdf

Deși rata de creștere a lungimii a crescut când protecțiile GDPR și California Consumer Privacy Act (CCPA) au intrat în vigoare, lucrarea reduce aceste variații drept „mărimi ale efectelor mici”, care par a fi nesemnificative față de tendința mai largă pe termen lung. Cu toate acestea, GDPR este identificat ca o posibilă cauză a creșterii limbajului „vag” în politici (vezi mai jos).

Presupunând o viteză de citire de 250 de cuvinte pe minut, lucrarea susține că politica de confidențialitate medie durează acum 17 minute, în timp ce politicile mai populare (adică politicile asociate cu un număr mare de utilizatori) durează 23 de minute pentru a fi finalizate.

Cea mai lungă politică din setul de date, de la Microsoft, necesită 152 de minute pentru a consuma, conform cercetării, care a valorificat un număr de variante pe Google model de limbaj BERT.

Creșterea ratei de ore anuale necesare pentru a citi politicile moderne de confidențialitate, presupunând că cititorul vizitează 1462 de site-uri web unice pe an.

Creșterea ratei orelor anuale necesare pentru a citi politicile moderne de confidențialitate, presupunând că cititorul vizitează 1462 de site-uri web unice pe an.

O mare parte din creșterea recentă a verbozității și ambiguității în politicile de confidențialitate este atribuită de lucrare ca o reacție la încercările din ultimele două decenii de a impune reglementări, dar și la utilizarea necinstită a cerințelor de conformitate cu reglementările ca o scuză pentru a crește în mod ascuns domeniul de aplicare și opacitatea politicilor de confidențialitate.

„În general, rezultatele noastre arată că reglementările recente privind confidențialitatea nu au îmbunătățit substanțial confidențialitatea utilizatorilor online, ci au condus mai degrabă la politici de confidențialitate mai umflate care descriu practici de date din ce în ce mai invazive.”

Deși o serie de lucrări de procesare a limbajului natural (NLP) au abordat lizibilitatea și alte aspecte ale politicilor de confidențialitate în ultimii ani, autorul consideră că acesta este primul proiect de acest tip care oferă o imagine de ansamblu atât de largă asupra dezvoltării politicilor din ultimele decenii.

hârtie se intitulează Politici de confidențialitate de-a lungul epocii: conținutul și lizibilitatea politicilor de confidențialitate 1996–2021, și vine de la Isabel Wagner de la Institutul de Tehnologie Cibernetică al Universității De Montfort din Marea Britanie.

Limbajul eliptic

Raportul sugerează, de asemenea, că numărul mediu de „cuvinte ofuscatoare” (de ex acceptabil, semnificativ, mai ales, și alte cuvinte care nu oferă un sens definitiv) în politicile de confidențialitate a crescut constant până în 2018, dar apoi a crescut de la o mediană de 227 în jurul lunii martie 2018 la 304 în iunie 2020.

Autorul susține că această creștere este atribuită efectelor GDPR, iar lucrarea constată că peste două treimi (72%) din propozițiile din politicile de confidențialitate studiate conțineau cel puțin un cuvânt ofuscator.

Diviziune

Din trei măsuri comune ale dificultății de citire, studiul a constatat că „politicile de confidențialitate au devenit din ce în ce mai greu de citit de-a lungul anilor”. Autorii estimează că 41% dintre politicile actuale aplicabile disponibile în 2021 au avut o valoare mediană Ușurință de citire Flesch (FRE, mai mare este mai bine) de doar 31.8, autorul observând „Acest scor indică un text foarte dificil, care este cel mai bine înțeles de absolvenții de universitate”.

În același timp, numai 6.7% dintre polițe au obținut un scor FRE peste 45 (care, notează raportul, este standardul de citire necesar pentru polițele de asigurare din statul Florida).

Conștientizarea schimbării politicilor

Lucrarea abordează, de asemenea, măsura în care politicile de confidențialitate includ detalii despre modul în care potențialul consimțământ va fi în cele din urmă notificat în cazul unor actualizări ulterioare, care pot afecta dorința utilizatorului de a menține acordul.

Autorul observă:

„În 2021, 73% dintre politici includ o declarație despre schimbarea politicii. Dintre aceștia, 34% declară că modificările vor fi anunțate printr-o notificare în politica de confidențialitate, 37% vor posta o notificare pe site-ul web, iar 22% vor trimite o notificare personală (politicile rămase lasă tipul de notificare nespecificat).

„Ca urmare, este puțin probabil ca majoritatea utilizatorilor să devină conștienți de modificările politicilor de confidențialitate.

„În plus, utilizatorilor nu li se oferă aproape nicio alegere semnificativă atunci când politicile se schimbă. Dintre politicile care notifică utilizatorul cu privire la modificări, doar 12% oferă un nou opt-in, în timp ce 34% nu dau de ales și 54% o lasă nespecificată.'

Constatările lucrării cu privire la metodele descrise pentru notificarea utilizatorilor cu privire la modificările politicii.

Constatările lucrării cu privire la metodele descrise pentru notificarea utilizatorilor cu privire la modificările politicii.

Alegere limitată în ceea ce privește urmărirea

Potrivit studiului, o gamă mult mai mare de mecanisme sunt oferite în politicile de confidențialitate pentru accesarea informațiilor despre contul utilizatorului decât pentru accesarea datelor din profilul utilizatorului. Datele de profil pot fi create și actualizate prin mecanisme automate și neevidente, în timp ce datele contului de utilizator nu sunt doar acordate în mod explicit de către utilizator, ci și obligate să fie editabile în conformitate cu reglementările diferitelor jurisdicții.

Alegerea consumatorului față de consimțământul cookie-urilor în politicile de confidențialitate (un subiect care a atras dezbatere aprinsa de când apariția GDPR a promulgat sute de mii de ferestre pop-up de consimțământ pentru cookie-uri pentru instanțe ale UE de site-uri web internaționale și europene) este în general abordată în politici, dar ascunde un strat mai important de date mai puțin accesibile*:

„[Opțiunile] referitoare la cookie-uri sunt insuficiente pentru a proteja utilizatorii de orice urmărire, deoarece mecanismele de alegere sau de control sunt rareori oferite pentru informatii de calculator, identificatorii dispozitivului, și identificatori personali, care permit urmărirea utilizatorilor prin amprentare.'

Un contrast puternic între nivelul disponibil de control acordat de politicile de confidențialitate între datele de profil (care pot fi obținute prin mijloace implicite sau furtive) și datele contului de utilizator (unde o anumită măsură de control este adesea impusă de GDPR, California Consumer Privacy Act (CCPA). ), și mecanisme naționale și regionale similare).

Un contrast puternic între nivelul disponibil de control acordat de politicile de confidențialitate între datele de profil (care pot fi obținute prin mijloace implicite sau furtive) și datele contului de utilizator (unde o anumită măsură de control este adesea impusă de GDPR, California Consumer Privacy Act (CCPA). ), și mecanisme naționale și regionale similare).

Date

Pentru a obține datele pentru studiu, autorul a accesat cu crawlere site-urile web pentru a găsi link-uri către politicile lor de confidențialitate, considerând frecvent necesară extinderea domeniului de aplicare dincolo de rezultatul inițial, din cauza numărului de politici non-integrale care fac trimitere la politici ulterioare (fiecare dintre care are potențialul de a se schimba fie în tandem cu sau independent de politica părinte sau aferentă).

Wayback Masini a fost folosit pentru a obține politici istorice, deși a fost necesar, atunci când se analizează rezultatele, să se țină seama de politicile care au fost blocate de accesare cu crawlere sau arhivare printr-un fișier de configurare robots.txt (un fișier text mic care conține instrucțiuni pentru agenții de indexare cu crawlere pe web cu privire la pagini și alte entități pe care nu ar trebui să le includă într-un index public).

Un instantaneu pe lună a fost obținut de la Wayback Machine de către acesta API CDX pentru fiecare politică aplicabilă identificabilă și continuă, folosind Firefox sub Selenium. Efectuarea recunoașterii optice a caracterelor pe politicile disponibile numai în format PDF nu a fost luată în considerare pentru proiect, care s-a limitat la numărul (mult mai mare) de politici HTML disponibile.

Un rezultat interesant al proiectului este că claritatea și lizibilitatea site-urilor web pornografice s-au îmbunătățit de fapt în intervalul studiat – posibil în așteptarea cererilor tot mai mari de reglementare și claritate sporite. Pentru a strânge aceste documente a fost necesară obținerea lor cu crawleri suplimentare de la adrese IP rezidențiale, datorită protocoalelor de blocare a conținutului ale universității.

Inițial au fost obținute 1,068,683 de documente, ceea ce echivalează cu 120,265 de documente unice care conțin în medie 39.1 articole sau clauze de politică și 4.4 texte de politică unice pentru fiecare link.

Doar engleză

După cum este obișnuit în studii recente similare, proiectul nu a fost capabil să abordeze politicile de confidențialitate non-engleze, care au fost eliminate în timpul etapei de curățare a datelor folosind PYCLD2 pachet.

Pentru a distinge politicile de confidențialitate de alte tipuri de materiale, proiectul a folosit un clasificator dezvoltat în 2019 ca o inițiativă comună a Universității din Wisconsin și a École Polytechnique Fédérale de Lausanne.

Arhitectura clasificatorului IS-POLICY. Sursa: https://arxiv.org/pdf/1809.08396.pdf

Arhitectura clasificatorului IS-POLICY. Sursă: https://arxiv.org/pdf/1809.08396.pdf

Deși clasificatorul IS-POLICY a fost instruit pe același corpus de 1,000 de documente ca și în lucrarea inițială, autorul a trebuit să obțină noi documente non-politice pentru instruire, deoarece sursele originale nu erau disponibile.

După filtrare, datele au fost reduse la 56,416 politici de confidențialitate unice.

 

* Citarea inline a lucrării este convertită într-un hyperlink aici, comutarea cu cursive este din hârtie.

Prima dată publicată la 31 ianuarie 2022.