Intelligenza artificiale

Ricercatori di intelligenza artificiale stimano che il 97% dei siti web dell’UE non rispetta i requisiti di privacy del GDPR – in particolare il profiling degli utenti

mm

I ricercatori negli Stati Uniti hanno utilizzato tecniche di apprendimento automatico per studiare le politiche di privacy del GDPR di oltre mille siti web rappresentativi con sede nell’UE. Hanno scoperto che il 97% dei siti esaminati non era in conformità con almeno un requisito del quadro normativo dell’Unione europea del 2018 e che hanno rispettato meno di tutti i requisiti normativi relativi alla pratica del ‘profiling degli utenti’.

Il documento afferma:

‘[Poiché] la politica di privacy è il canale di comunicazione essenziale per gli utenti per comprendere e controllare la propria privacy, molte aziende hanno aggiornato le proprie politiche di privacy dopo che il GDPR è stato applicato. Tuttavia, la maggior parte delle politiche di privacy è verbosa, piena di gergo e descrive in modo vago le pratiche di dati delle aziende e i diritti degli utenti. Pertanto, non è chiaro se sono in conformità con il GDPR.’

Prosegue:

‘I nostri risultati mostrano che anche dopo che il GDPR è entrato in vigore, il 97% dei siti web non rispetta ancora almeno un requisito del GDPR.’

Lo studio è intitolato Rilevamento automatico dei requisiti di divulgazione del GDPR nelle politiche di privacy utilizzando il deep active learning e proviene da tre ricercatori dell’Università della Virginia a Charlottesville.

Privacy ultima

L’area di minore conformità, secondo lo studio, riguarda le disposizioni del GDPR relative al profiling degli utenti, con gli autori che affermano che solo il 15,3% dei siti esaminati era in piena conformità con questa specifica regola.

Un grafico della conformità tra 9761 siti web esaminati per la ricerca. Fonte: https://arxiv.org/pdf/2111.04224.pdf

Un grafico della conformità tra le politiche di privacy dei siti web esaminati per la ricerca. Fonte: https://arxiv.org/pdf/2111.04224.pdf

Il profiling degli utenti (dove l’interazione di una persona con i siti web viene registrata e spesso utilizzata per “targetizzare” gli utenti in altri contesti online, come la pubblicità) è diventata una delle controversie più calde nella tecnologia dallo scandalo Cambridge Analytica.

Martedì, un comitato chiave del Parlamento europeo ha approvato il primo stadio del nuovo Atto sui mercati digitali (DMA) legislazione, che vieterebbe la targetizzazione comportamentale dei minori, imponendo multe fino al 20% delle entrate annuali globali per le aziende che violano la normativa.

Sebbene l’Atto sia stato accolto dai media come una risposta diretta alla crescente influenza dei giganti della tecnologia come Facebook e Google, la scala enorme di non conformità rappresentata dalla nuova ricerca suggerisce che la stragrande maggioranza delle aziende dell’UE (inclusi uffici dell’UE di aziende americane che operano in Europa) sono esposte a multe del GDPR.

Inoltre, l’Italia ha imposto questa settimana la multa massima consentita di 10 milioni di euro (11,2 milioni di dollari USA) contro Apple e Google per lo sfruttamento del profiling degli utenti, tra le altre infrazioni.

Dati

I siti esaminati nella nuova ricerca sono stati campionati tra i primi 10.000 siti web elencati in Quantcast, le cui politiche di privacy in inglese sono state estratte attraverso ricerche Yandex su VPN basate nel Regno Unito (al fine di garantire che le politiche non fossero bloccate geograficamente).

I siti web dell’UE sono stati obbligati a fornire politiche di privacy prescritte, che coprono 18 requisiti centrali (vedi grafico sopra) dal momento in cui il Regolamento generale sulla protezione dei dati (GDPR) è entrato pienamente in vigore nel maggio 2018.

I ricercatori hanno limitato l’estrazione delle politiche di privacy a un periodo a partire da agosto 2018, per consentire un ragionevole tempo ai domini per pubblicare le politiche richieste (un requisito che avevano una conoscenza anticipata di almeno un anno della fase di sviluppo di due anni del GDPR a partire dal 2016).

Il processo di filtraggio ha prodotto un corpus di politiche di privacy di 9.761 politiche, da cui 1.080 politiche sono state selezionate casualmente dai ricercatori.

Pre-elaborazione

Il team ha assunto due esperti legali per addestrare quattro annotatori umani a etichettare ciascuna delle 18 politiche di privacy possibili previste dal GDPR.

Alcune delle formulazioni giuridiche nelle politiche coprivano più di uno dei 18 requisiti, rendendo necessario l’uso di una rete neurale convoluzionale (CNN) per rilevare le caratteristiche linguistiche associate a ciascuna politica.

Un tentativo iniziale di addestrare un modello per identificare la conformità in base alla lingua ha raggiunto il 80,5% di successo. Per migliorare questi risultati, i ricercatori hanno applicato Active Learning per rafforzare le prestazioni del modello utilizzando meno dati etichettati. In questo modo è stato possibile addestrare il classificatore CNN fino a un’accuratezza dell’89,2%, con un punteggio F1 di 0,88 (dove ‘1’ è il successo completo).

Per garantire che le rappresentazioni delle parole fossero specifiche per le politiche di privacy, i ricercatori hanno addestrato un modello di word embedding non supervisionato utilizzando la libreria Python FastText di Facebook.

Come da prassi standard, i dati finali sono stati divisi nell’80% di dati di addestramento e nel 20% di dati di test (vale a dire dati selezionati casualmente contro cui verrà valutata l’accuratezza dell’algoritmo). Uno studio di misurazione con un essere umano nella catena di montaggio è stato aggiunto all’architettura per valutare la qualità dei risultati.

L'architettura per il sistema di classificazione.

L’architettura per il sistema di classificazione.

Nel corso del flusso di lavoro, sono stati prodotti 11.271 segmenti di politiche di privacy annotati da esseri umani, ciascuno dei quali è stato esaminato da quattro annotatori umani che erano stati addestrati dai due esperti legali coinvolti nello studio. Quando si è verificato un disaccordo, è stato necessario un rapporto di accordo del 75% per non rifiutare i dati dall’inclusione.

Esseri umani nella catena di montaggio - non è stato possibile automatizzare completamente l'etichettatura dei dati delle politiche, sebbene l'Active Learning abbia abilitato un flusso di lavoro basato su pool che ha reso il progetto fattibile.

Esseri umani nella catena di montaggio – non è stato possibile automatizzare completamente l’etichettatura dei dati delle politiche, sebbene l’Active Learning abbia abilitato un flusso di lavoro basato su pool che ha reso il progetto fattibile.

Oltre ai risultati già menzionati, gli utenti hanno scoperto che la portabilità – il diritto previsto dal GDPR di trasferire o esportare i dati detenuti da un’azienda – è stata quasi così male servita come il profiling.

I ricercatori concludono:

‘[Requisiti] come il diritto alla portabilità degli utenti e la fornitura delle informazioni di contatto dell’Ufficio per la protezione dei dati (contatto DPO) sono coperti dal 15,5% e dal 16,4% dei siti web, rispettivamente. Altri requisiti principali, come il diritto degli utenti di presentare una reclamo, revocare il consenso, diritto di opporsi e decisione di adeguatezza, sono coperti dal 17-20% dei siti web.’

…e continuano:

‘Sembra che solo il 3% dei siti web sia in piena conformità con i 18 requisiti. Questi risultati indicano che molti siti web non seguono ancora i requisiti del GDPR.’

 

 

19:00 26/11/2021 – Chiarito la didascalia del primo grafico. – MA

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.