Angolo di Anderson

Analisi di 25 anni di politiche di privacy con l’apprendimento automatico

Pubblicato il 31 gennaio 2022

Aggiornato il 24 maggio 2026

Martin Anderson

Uno studio recente ha utilizzato tecniche di analisi dell’apprendimento automatico per tracciare la leggibilità, l’utilità, la lunghezza e la complessità di oltre 50.000 politiche di privacy su siti web popolari in un periodo di 25 anni, dal 1996 al 2021. La ricerca conclude che il lettore medio dovrebbe dedicare 400 ore di “tempo di lettura annuale” (più di un’ora al giorno) per penetrare i crescenti contatori di parole, il linguaggio oscurante e l’uso del linguaggio vago che caratterizzano le moderne politiche di privacy di alcuni dei siti web più frequentati.

Il rapporto afferma:

‘La lunghezza media della politica è quasi raddoppiata negli ultimi dieci anni, con 2159 parole nel marzo 2011 e 4191 parole nel marzo 2021, e quasi quadruplicata dal 2000 (1146 parole).’

Il conteggio medio delle parole e delle frasi nel corpus studiato, in un periodo di 25 anni. Fonte: https://arxiv.org/pdf/2201.08739.pdf

Sebbene il tasso di aumento della lunghezza abbia subito un picco quando la GDPR e la California Consumer Privacy Act (CCPA) sono entrate in vigore, il paper svaluta queste variazioni come “piccoli effetti” che appaiono insignificanti rispetto alla tendenza a lungo termine più ampia. Tuttavia, la GDPR è identificata come una possibile causa dell’aumento del linguaggio “vago” nelle politiche (vedi sotto).

Assumendo una velocità di lettura di 250 parole per minuto, il paper sostiene che la politica di privacy media ora richiede 17 minuti per essere letta, mentre le politiche più popolari (cioè le politiche associate a un gran numero di utenti) richiedono 23 minuti per essere completate.

La politica più lunga nel dataset, di Microsoft, richiede 152 minuti per essere consumata, secondo la ricerca, che ha sfruttato una serie di varianti del modello linguistico BERT di Google.

Aumento del tasso di ore annuali necessarie per leggere le moderne politiche di privacy, assumendo che il lettore visiti 1462 siti web unici all’anno.

Molta della recente aumento della verbosità e dell’ambiguità nelle politiche di privacy è attribuito dal paper come una reazione ai tentativi degli ultimi due decenni di imporre regolamenti, ma anche all’uso disonesto dei requisiti di conformità normativa come scusa per aumentare furtivamente la portata e l’opacità delle politiche di privacy.

‘In generale, i nostri risultati mostrano che le recenti norme sulla privacy non hanno sostanzialmente migliorato la privacy degli utenti online, ma hanno portato a politiche di privacy più gonfie che descrivono pratiche di dati più invasive e più numerose.’

Sebbene numerosi paper di Natural Language Processing (NLP) abbiano affrontato la leggibilità e altri aspetti delle politiche di privacy negli ultimi anni, l’autore ritiene che questo sia il primo progetto del suo tipo a fornire una panoramica così ampia dello sviluppo delle politiche negli ultimi decenni.

Il paper si intitola Politiche di privacy nel corso degli anni: contenuto e leggibilità delle politiche di privacy 1996-2021, e proviene da Isabel Wagner dell’Istituto di tecnologia cibernetica dell’Università De Montfort nel Regno Unito.

Linguaggio ellittico

Il rapporto suggerisce anche che il numero medio di “parole oscuranti” (ad esempio accettabile, significativo, principalmente, e altre parole che non forniscono un significato definitivo) nelle politiche di privacy è aumentato costantemente fino al 2018, ma poi è schizzato da una mediana di 227 intorno a marzo 2018 a 304 a giugno 2020.

L’autore sostiene che questa crescita è attribuibile agli effetti della GDPR, e il paper trova che oltre due terzi (72%) delle frasi nelle politiche di privacy studiate contengono almeno una parola oscurante.

Leggibilità

Su tre misure comuni di difficoltà di lettura, lo studio ha trovato che ‘le politiche di privacy sono diventate sempre più difficili da leggere nel corso degli anni’. Gli autori stimano che il 41% delle politiche attualmente applicabili disponibili nel 2021 aveva un punteggio medio di Flesch Reading Ease (FRE, più alto è meglio) di solo 31,8, con l’autore che osserva ‘Questo punteggio indica un testo molto difficile che è meglio compreso dai laureati universitari’.

Allo stesso tempo, solo 6,7% delle politiche ha raggiunto un punteggio FRE superiore a 45 (che, come nota il rapporto, è lo standard di lettura richiesto per le polizze assicurative nello stato della Florida).

Conoscenza dei cambiamenti delle politiche

Il lavoro affronta anche la misura in cui le politiche di privacy includono dettagli su come il potenziale consenziente sarà eventualmente notificato in caso di successive aggiornamenti, che possono influenzare la volontà dell’utente di mantenere l’accordo.

L’autore osserva:

‘Nel 2021, il 73% delle politiche include una dichiarazione sui cambiamenti di politica. Di questi, il 34% afferma che i cambiamenti saranno annunciati con un avviso nella politica di privacy, il 37% pubblicherà un avviso sul sito web e il 22% invierà una notifica personale (le politiche restanti lasciano il tipo di notifica non specificato).’

‘Inoltre, agli utenti viene offerta quasi nessuna scelta significativa quando le politiche cambiano. Dei 12% delle politiche che notificano all’utente i cambiamenti, solo il 12% offre un nuovo opt-in, mentre il 34% non offre alcuna scelta e il 54% lascia la scelta non specificata.’

I risultati del paper sui metodi descritti per notificare agli utenti i cambiamenti delle politiche.

Scelta limitata per il tracciamento

Secondo lo studio, un’ampia gamma di meccanismi è offerta nelle politiche di privacy per accedere alle informazioni dell’account utente rispetto alle informazioni del profilo utente. I dati del profilo possono essere creati e aggiornati attraverso meccanismi automatizzati e non ovvi, mentre i dati dell’account utente non solo sono esplicitamente concessi dall’utente, ma anche obbligati a essere modificabili secondo le norme di varie giurisdizioni.

La scelta del consumatore sul consenso ai cookie nelle politiche di privacy (un argomento che ha suscitato un acceso dibattito dal momento dell’introduzione della GDPR) è generalmente affrontata nelle politiche, ma nasconde uno strato più importante di dati meno accessibili*:

‘[Le] scelte relative ai cookie sono insufficienti per proteggere gli utenti da tutti i tracciamenti perché i meccanismi di scelta o di controllo sono raramente offerti per informazioni del computer, identificatori di dispositivo, e identificatori personali, che consentono il tracciamento degli utenti tramite fingerprinting.’

Un netto contrasto nel livello di controllo concesso dalle politiche di privacy tra i dati del profilo (che possono essere ottenuti con mezzi impliciti o furtivi) e i dati dell’account utente (dove una certa misura di controllo è frequentemente richiesta dalla GDPR, dalla California Consumer Privacy Act (CCPA) e da meccanismi nazionali e regionali simili).

Dati

Per ottenere i dati per lo studio, l’autore ha cercato siti web per collegamenti alle loro politiche di privacy, spesso trovando necessario ampliare l’ambito di ricerca iniziale a causa del numero di politiche non integrali che collegano ad altre politiche (ciascuna delle quali ha il potenziale di cambiare sia in concomitanza con che in modo indipendente dalla politica genitore o correlata).

La Wayback Machine è stata utilizzata per ottenere politiche storiche, sebbene sia stato necessario considerare i risultati per tenere conto delle politiche che erano state bloccate dal crawling o dall’archiviazione tramite un file di configurazione robots.txt (un piccolo file di testo contenente istruzioni per gli agenti di indicizzazione del web-crawling riguardo alle pagine e ad altre entità che non devono essere incluse in un indice pubblico).

Una snapshot al mese è stata ottenuta dalla Wayback Machine tramite il suo CDX API per ogni politica identificabile e applicabile continua, utilizzando Firefox con Selenium. L’esecuzione del riconoscimento ottico dei caratteri sulle politiche disponibili solo in formato PDF non è stata considerata per il progetto, che si è limitato al (molto più grande) numero di politiche HTML disponibili.

Un risultato interessante del progetto è che la chiarezza e la leggibilità dei siti web pornografici sono effettivamente migliorate nell’intervallo di tempo studiato – forse in anticipo di una crescente richiesta di maggiore regolamentazione e chiarezza. Per raccogliere questi documenti, è stato necessario ottenerli con crawl aggiuntivi da indirizzi IP residenziali, a causa dei protocolli di blocco del contenuto dell’università.

Inizialmente sono stati ottenuti 1.068.683 documenti, pari a 120.265 documenti unici contenenti in media 39,1 articoli o clausole di politica e 4,4 testi di politica unici per ogni collegamento.

Solo inglese

Come in studi simili recenti, il progetto non è stato in grado di affrontare le politiche di privacy non in inglese, che sono state scartate durante la fase di pulizia dei dati utilizzando il pacchetto PYCLD2.

Per distinguere le politiche di privacy da altri tipi di materiale, il progetto ha utilizzato un classificatore sviluppato nel 2019 come iniziativa congiunta dell’Università del Wisconsin e dell’École Polytechnique Fédérale de Lausanne.

Architettura del classificatore IS-POLICY. Fonte: https://arxiv.org/pdf/1809.08396.pdf

Sebbene il classificatore IS-POLICY sia stato addestrato sullo stesso corpus di 1.000 documenti del paper originale, l’autore ha dovuto ottenere nuovi documenti non di politica per l’addestramento, poiché le fonti originali non erano disponibili.

Dopo la filtrazione, i dati sono stati ridotti a 56.416 politiche di privacy uniche.

* La citazione inline del paper è stata convertita in un collegamento ipertestuale qui, il toggle in corsivo è del paper.

Pubblicato per la prima volta il 31 gennaio 2022.