Intelligenza Artificiale

I ricercatori di intelligenza artificiale stimano che il 97% dei siti web dell'UE non soddisfi i requisiti sulla privacy del GDPR, in particolare la profilazione degli utenti

Pubblicato il 26 Novembre 2021

aggiornato Dicembre 9, 2022

Martin Anderson

Ricercatori statunitensi hanno utilizzato tecniche di apprendimento automatico per studiare le informative sulla privacy GDPR di oltre mille siti web rappresentativi con sede nell'UE. Hanno scoperto che il 97% dei siti studiati non rispettava almeno un requisito del quadro normativo dell'Unione Europea del 2018 e che rispettava meno di tutti i requisiti normativi relativi alla pratica della "profilazione degli utenti".

Il documento afferma:

"[Poiché] l'informativa sulla privacy è il canale di comunicazione essenziale per consentire agli utenti di comprendere e controllare la propria privacy, molte aziende hanno aggiornato le proprie informative sulla privacy dopo l'entrata in vigore del GDPR. Tuttavia, la maggior parte delle informative sulla privacy è prolissa, piena di termini tecnici e descrive in modo vago le pratiche aziendali in materia di dati e i diritti degli utenti. Pertanto, non è chiaro se siano conformi al GDPR".

E continua:

"I nostri risultati mostrano che, anche dopo l'entrata in vigore del GDPR, il 97% dei siti web non è ancora conforme ad almeno uno dei requisiti del GDPR."

. studio è intitolato Rilevamento automatizzato dei requisiti di divulgazione GDPR nelle politiche sulla privacy utilizzando Deep Active Learning, e proviene da tre ricercatori dell'Università della Virginia a Charlottesville.

Privacy Ultimo

L'area di minore conformità, secondo lo studio, riguardava il GDPR stipulazioni sulla profilazione degli utenti, con gli autori che affermano che solo il 15.3% dei siti studiati rispetta pienamente questa particolare regola.

Un grafico di conformità tra 9761 siti web studiati per la ricerca. Fonte: https://arxiv.org/pdf/2111.04224.pdf

Un grafico di conformità tra le policy GDPR dei siti web studiati per la ricerca. Fonte: https://arxiv.org/pdf/2111.04224.pdf

La profilazione degli utenti (ovvero la registrazione dell'interazione di una persona con i siti web, spesso utilizzata per "prenderla di mira" in altri contesti online, come la pubblicità) è diventata una delle controversie più accese nel mondo della tecnologia dopo lo scandalo Cambridge Analytica.

Martedì, una commissione chiave del Parlamento europeo Passato la prima fase della nuova legge sui mercati digitali (DMA), che vieterebbe il targeting comportamentale dei minori, imponendo sanzioni fino al 20% del globale vendite annuali per le aziende contraffatte.

Sebbene la legge sia stata accolta dai media come una risposta diretta alla crescente influenza di giganti della tecnologia come Facebook e Google, l'enorme portata della non conformità rappresentata dalla nuova ricerca suggerisce che la stragrande maggioranza delle aziende dell'UE (comprese le aziende dell'UE uffici residenti per le società americane che operano in Europa) sono legalmente esposti a sanzioni GDPR.

Inoltre, questa settimana l'Italia ha imposto la sanzione massima consentita di 10 milioni di euro ($ 11.2 milioni di dollari) contro Apple e Google per aver sfruttato la profilazione degli utenti, tra le altre infrazioni.

Dati

I siti esaminati nella nuova ricerca sono stati campionati dai primi 10,000 siti Web elencati in Quantcast, le cui politiche sulla privacy in lingua inglese sono state estratte tramite ricerche Yandex su VPN con sede nel Regno Unito (al fine di garantire che le politiche non fossero geo-bloccate) .

I siti web dell'UE sono stati obbligati a fornire politiche sulla privacy prescritte, che coprono 18 requisiti centrali (vedi grafico sopra) da quando la legge sul regolamento generale sulla protezione dei dati (GDPR) è entrata a pieno regime nel maggio 2018.

I ricercatori hanno limitato la loro estrazione delle politiche sulla privacy a un periodo dall'agosto 2018 in poi, per consentire ai domini un tempo ragionevole per pubblicare le politiche richieste (requisito di cui avevano conoscenza anticipata per almeno un anno della fase di sviluppo biennale di GDPR dal 2016).

Il processo di filtraggio ha prodotto un corpus sulla privacy di 9,761 politiche, da cui 1,080 politiche sono state selezionate casualmente dai ricercatori.

Pre-elaborazione

Il team ha impiegato due esperti legali per addestrare quattro annotatori umani a etichettare ciascuna delle 18 possibili politiche sulla privacy imposte dal GDPR.

Alcuni aspetti legali delle policy coprivano più di uno dei 18 requisiti, rendendo necessario l'uso di una rete neurale convoluzionale (CNN) per rilevare le caratteristiche linguistiche associate a ciascuna policy.

Un tentativo iniziale di addestrare un modello per identificare la conformità in base alla lingua ha ottenuto l'80.5% di successo. Per migliorare questi risultati, i ricercatori hanno applicato Apprendimento attivo per rafforzare le prestazioni del modello utilizzando meno dati etichettati. In questo modo è stato possibile addestrare il classificatore CNN fino a un'accuratezza dell'89.2%, con un punteggio F1 di 0.88 (dove '1' è il successo completo).

Per garantire che gli incorporamenti di parole fossero specifici per la politica sulla privacy, i ricercatori hanno addestrato un modello di incorporamento di parole non supervisionato utilizzando Facebook Testo veloce Libreria Python.

Come da prassi standard, i dati finali sono stati suddivisi 80/20 tra dati addestrati e dati di test (ovvero dati selezionati casualmente in base ai quali verrà giudicata l'accuratezza dell'algoritmo). All'architettura è stato aggiunto uno studio di misurazione human-in-the-loop per valutare la qualità dei risultati.

L'architettura per il sistema di classificazione.

Nel corso del flusso di lavoro, sono stati prodotti 11,271 segmenti di politica sulla privacy con annotazioni umane, ognuno dei quali è stato rivisto da quattro annotatori umani formati dai due esperti legali coinvolti nello studio. In caso di disaccordo, era necessario un rapporto di accordo del 75% per non rifiutare i dati dall'inclusione.

Humans-in-the-loop: non è stato possibile automatizzare completamente l'etichettatura dei dati delle policy, sebbene Active Learning abbia consentito un flusso di lavoro basato su pool che ha reso il progetto fattibile.

Oltre ai risultati già menzionati, gli utenti lo hanno scoperto portabilità – il diritto ai sensi del GDPR di traslocare o esportare i dati detenuti da un'azienda – era servito quasi altrettanto male della profilazione.

I ricercatori concludono:

"[Requisiti] come il diritto alla portabilità degli utenti e la fornitura delle informazioni di contatto del responsabile della protezione dei dati (DPO) sono soddisfatti rispettivamente dal 15.5% e dal 16.4% dei siti web. Altri requisiti primari, come il diritto degli utenti di presentare reclamo, revocare il consenso, opporsi e valutare l'adeguatezza dei dati, sono soddisfatti dal 17-20% dei siti web".

…e continua:

"Sembra che solo il 3% dei siti web rispetti pienamente i 18 requisiti. Questi risultati indicano che molti siti web non rispettano ancora i requisiti del GDPR."

7:26 11/2021/XNUMX – Chiarita la prima didascalia del grafico. –MA

Martin Anderson

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai

Unite.AI

I ricercatori di intelligenza artificiale stimano che il 97% dei siti web dell'UE non soddisfi i requisiti sulla privacy del GDPR, in particolare la profilazione degli utenti

Privacy Ultimo

Dati

Pre-elaborazione

Ti potrebbe piacere