Intelligenza Artificiale

Machine Learning e sistemi di consenso sui cookie

Pubblicato il 12 aprile 2022

aggiornato Dicembre 9, 2022

Martin Anderson

Uno dei cubi criptici del franchise Hellraiser.

Una nuova collaborazione di ricerca tra l’Università del Wisconsin e Google confronta l’apprendimento automatico con uno dei più noti fastidi degli utenti web dell’ultimo decennio: l’opacità e il cinico uso improprio dei banner di consenso sui cookie conformi al GDPR.

Titolato CookieEnforcer, utilizza il nuovo framework Comprensione del testo semantico per analizzare il significato e l'utilità del codice sottostante al popup o al banner di consenso ai cookie, al fine di fornire all'utente la soluzione mancante "con un clic" per disabilitare tutti i cookie realmente "non necessari", compresi quelli che i proprietari di domini potrebbero presentare come "essenziali", anche se non lo sono.

CookieEnforcer prende in esame il codice di consenso ai cookie del sito www.askubuntu.com. Fonte: https://arxiv.org/pdf/2204.04221.pdf

Il sistema viene implementato tramite un plugin per browser web installato dall'utente, in grado di applicare regole definite dall'utente con un solo clic. Una volta che un framework per il consenso ai cookie appare sul sito web, l'utente può attivare il plugin, che analizzerà il codice di consenso ai cookie per individuare potenziali azioni prima di generare codice JavaScript appropriato per attuare le scelte per conto dell'utente.

Il plug-in può essere impostato per applicare automaticamente le preferenze dell'utente, oppure prendere i casi singolarmente, consentendo all'utente di regolare le impostazioni prima dell'invio finale.

Cookie Enforcer in azione. Se si preferisce, il plug-in di Chrome può automatizzare completamente questo processo, senza ulteriore contributo da parte dell'utente. Vedere il video incorporato in seguito per maggiori dettagli. Fonte: https://www.youtube.com/watch?v=5NI6Q981quc

La sfida di analizzare le possibili opzioni di "non consenso", che sono in genere nascoste in gruppi di impostazioni arcani e laboriosi (piuttosto che in quelle di facile utilizzo) accettare tutti tipico dei quadri di consenso) è modellato come a sequenza a sequenza compito.

In una valutazione di accuratezza end-to-end, CookieEnforcer è stato in grado di generare tutti i passaggi necessari per evitare procedure di consenso criptiche sui cookie nel 91% dei casi studiati, su domini che non erano stati rilevati durante l'addestramento del modello di apprendimento automatico del sistema. Uno studio sugli utenti ha inoltre dimostrato che il sistema riduce significativamente lo sforzo degli utenti nella navigazione dei moduli di consenso.

Migliori carta presentazione del metodo è intitolato CookieEnforcer: analisi e applicazione automatizzate dell'informativa sui cookie, e proviene da tre ricercatori dell'Università del Wisconsin a Madison e uno da Google Inc.

Strade arcane per il consenso sui cookie

Dall'entrata in vigore del regolamento generale sulla protezione dei dati (GDPR) nel 2016 e il California Consumer Privacy Act (CCPA) nel 2018, i siti web che desiderano interagire con gli utenti provenienti dalle aree coperte da tale legislazione sono stati tenuti a fornire meccanismi di preferenza dei cookie (solitamente basati sul rilevamento dell'indirizzo IP dell'utente come proxy per il suo paese di origine).

Tuttavia, poiché i proprietari di domini erano da tempo abituati a raccogliere dati utente preziosi e utilizzabili dall'implementazione opaca e solitamente invisibile dei cookie, si sono dimostrati riluttanti a fornire facili opt-out per i loro utenti appena autorizzati.

L'interfaccia utente predefinita per le interfacce di consenso ai cookie (che vengono visualizzate la prima volta che un utente visita un dominio o se l'utente ha eliminato i cookie per quel dominio) si è rapidamente stabilita in modelli scuri progettato per stancare lo spettatore con scelte granulari, dispendiose in termini di tempo ed estese nel caso in cui volesse esercitare i propri diritti di consenso; oppure un pulsante semplice e facilmente accessibile che ha abilitato l'utente a tutti i cookie che il proprietario del dominio desiderava eseguire. Questa cultura delle scelte labirintiche dell'interfaccia utente è stata descritta in uno studio del 2020 come 'una caccia al tesoro'.

Il nuovo documento commenta:

"[Gli utenti] potrebbero trovare difficile esercitare un controllo informato sui cookie per siti web con avvisi complessi. È molto più probabile che si affidino a configurazioni predefinite piuttosto che perfezionare le impostazioni dei cookie per ogni [sito web]. In molti casi, queste impostazioni predefinite sono invasive della privacy e favoriscono i fornitori di servizi, il che si traduce in [rischi] per la privacy."

Un commento su uno popolare post sul forum riguardo a queste pratiche, le hanno definite "conformità fraudolenta". Il fastidio degli utenti nei confronti dei framework di consenso sui cookie è un argomento che crea conflitti con i principali editori, che normalmente potrebbero permettersi una maggiore copertura se non fossero così personalmente esposti alle proprie pratiche in materia.

Un tipico labirinto di opzioni presentato, in questo caso, dal sito Web TechCrunch, ironicamente come prefazione a un articolo sul cambiamento dell'atteggiamento dell'UE nei confronti di ciò che costituisce il consenso ai cookie. Gli identificatori URL e gli hook aggiunti progettati per abilitare ulteriormente il tracciamento erano di 262 caratteri (eliminati qui). Un pulsante 'rifiuta tutto', sebbene disponibile per alcune categorie di cookie, non è disponibile per l'intero insieme di possibili cookie; in questi casi esclusi, l'utente deve azionare ogni 'toggle'.

Un tipico labirinto di opzioni presentato, in questo caso, dal sito TechCrunch, ironicamente come prefazione a un articolo sul cambiamento di atteggiamento dell'UE in merito a ciò che costituisce il consenso all'uso dei cookie. Gli identificatori URL e gli hook allegati, progettati per consentire ulteriormente il tracciamento, erano lunghi 262 caratteri (eliminati qui). Un pulsante "rifiuta tutti", sebbene disponibile per alcune categorie di cookie, non è disponibile per l'intero insieme di cookie possibili; in questi casi eccezionali, l'utente deve azionare ciascun pulsante "toggle".

A carta 2019 dalla Germania ha scoperto che la maggior parte dei visitatori dei siti nei domini studiati è stata "spinta" verso un consenso ampio e che solo un terzo dei siti web ha effettivamente spiegato le finalità delle pratiche di raccolta dati.

Negli ultimi anni sono emersi numerosi plug-in, componenti aggiuntivi ed estensioni del browser Web per risolvere il problema, come il Gestione rapida dei cookie Estensione di Firefox e un'ampia gamma di alternative a Chrome, mentre l'Unione Europea è cercando di chiudersi le scappatoie di conformità relative alle architetture di consenso dei cookie.

Metodo e dati

I ricercatori del nuovo documento erano determinati a creare un quadro di gestione del consenso dei cookie più robusto evitando di fare affidamento su parole chiave o regole artigianali, l'approccio centrale di una serie di recenti ricerche simili ML-aiutato progetti.

CookieEnforcer ha tre obiettivi: tradurre gli avvisi e le interfacce dei cookie in un formato leggibile dalla macchina; identificare la configurazione delle impostazioni dei cookie in modo da disabilitare i cookie non essenziali; e per applicare automaticamente ulteriori restrizioni senza ulteriori input da parte dell'utente, se desiderato dall'utente.

Il sistema è composto da una componente di backend che rileva e analizza le notifiche sui cookie, e da una componente di frontend, sotto forma di estensione del browser, che genera ed esegue la disabilitazione dei cookie non essenziali (ovvero cookie che non ostacolano la navigazione o l'accesso il dominio se bloccato).

Il framework è incorporato in un'estensione installata localmente specifica di Chrome che utilizza l'estensione Selenio libreria di test web sotto il file ChromeDriver struttura.

La sezione back-end presenta moduli per il rilevamento, l'analisi e un modello decisionale. Il modulo di analisi tiene conto dei cambiamenti nel codice introdotti dall'interazione dell'utente, in modo che il dump iniziale del codice non venga reso non valido dall'esplorazione simulata dell'utente.

Comprensione del linguaggio naturale

Una volta svelato il codice, è importante che CookieEnforcer comprenda lo stato attuale delle possibili azioni che potrebbe intraprendere, poiché il linguaggio alla base dei pulsanti di attivazione/disattivazione può essere ambiguo in termini di vantaggi per l'utente finale.

A tal fine, i ricercatori hanno addestrato a Trasformatore di trasferimento da testo a testo (T5) modello per la sua componente decisionale. Il modello T5-Large, che contiene 770 milioni di parametri, è stato messo a punto su un database personalizzato di codice input/output (ovvero codice che descrive e abilita la funzionalità delle opzioni di commutazione).

Esempio di formattazione (sopra) e dati di addestramento (sotto) per il modello T5. L'esempio di dati proviene da www.askubuntu.com.

Il set di dati è stato creato campionando 300 siti web con avvisi sui cookie selezionati da Tranco i primi 50 siti web popolari elenco. I moduli rilevatore e analizzatore hanno estratto le opzioni di consenso dei cookie dal loro codice sorgente di runtime e ne hanno valutato gli stati predefiniti.

Uno dei ricercatori ha quindi etichettato manualmente la serie interpretata di clic necessari per disabilitare i cookie non essenziali per tutti i siti Web studiati, risultando in 300 domini completamente etichettati.

Varietà nella disposizione del codice sorgente tra gli esempi del set di dati personalizzato.

Sono stati messi da parte 60 siti web come set di test e il modello T5-Large è stato addestrato con un tasso di apprendimento di 0.003 a una dimensione del batch di 16 per 20 epoche, con una lunghezza massima della sequenza di input di 256 token e una lunghezza massima della sequenza di destinazione di 64. I token erano formati da sotto-parole stabilite da Google FrasePiece tokenizzatore.

Infine, le informazioni elaborate vengono archiviate in un database locale e rese disponibili al front end del sistema. Gli autori hanno favorito il querySelector () Funzione HTML su XML Path Language (XPath) approccio adottato da alcuni precedenti progetti simili, poiché gli XPath per gli avvisi sui cookie sono vulnerabili agli aggiornamenti DOM (ovvero il codice può cambiare dopo il caricamento iniziale in risposta alle interazioni dell'utente). In questo modo, i percorsi degli elementi possono essere mantenuti anche quando sono dinamici e reattivi a fattori esterni.

Test e prestazioni

In pratica, CookieEnforcer si è dimostrato in grado di navigare in alcuni degli schemi oscuri più oscuri nel set di dati, come un'opzione nascosta nel framework di consenso dei cookie di Il nuovo scienziato che è oscurato da JavaScript fino a quando l'utente non richiede esplicitamente di vederlo.

Gli autori commentano:

Questa opzione può essere facilmente ignorata dagli utenti, che devono espandere un frame aggiuntivo per vederla. CookieEnforcer non solo trova questa opzione, ma ne comprende anche la semantica e decide di sollevare un'obiezione. Questi esempi dimostrano che il modello apprende il contesto e generalizza a nuovi esempi.

I ricercatori hanno eseguito tre test, tra cui una valutazione end-to-end delle prestazioni del framework su 500 domini non visti (ovvero siti web per i quali CookieEnforcer non era stato specificamente addestrato), in cui gli autori hanno riferito che è riuscito a disabilitare con successo i cookie non essenziali per il 91% dei siti.

Il secondo test comprendeva uno studio sugli utenti online che copriva 14 siti Web e utilizzava la scala di usabilità del sistema (punteggio) rispetto a una linea di base manuale. Per questo test, gli autori riferiscono che CookieEnforcer ha ottenuto un punteggio superiore del 15% rispetto al valore di base.

CookieEnforcer consente un punteggio superiore del 15% rispetto all'utilizzo di base (non assistito), automatizzando allo stesso tempo un processo fastidioso.

Infine, i parametri addestrati di CookieEnforcer sono stati testati sui 5000 principali siti web negli Stati Uniti e in Europa, per determinarne la capacità di gestire gli avvisi sui cookie. Gli autori affermano:

"Sebbene misurazioni su questa scala siano già state effettuate in precedenza, CookieEnforcer consente una comprensione più approfondita delle opzioni disponibili, oltre all'euristica basata sulle parole chiave. In particolare, abbiamo scoperto che il 16.7% dei siti web nel Regno Unito che mostrano avvisi sui cookie ha abilitato almeno un cookie non essenziale. La stessa percentuale per i siti web negli Stati Uniti è del 22%."

Gli autori hanno pubblicato un breve video su YouTube che mostra CookieEnforcer in azione:

Pubblicato per la prima volta l'12 aprile 2022.

Martin Anderson

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai

Unite.AI

Machine Learning e sistemi di consenso sui cookie

Strade arcane per il consenso sui cookie

Metodo e dati

Comprensione del linguaggio naturale

Test e prestazioni

Ti potrebbe piacere