mozzicone I dati sintetici non proteggono in modo affidabile la privacy, affermano i ricercatori - Unite.AI
Seguici sui social

SANITARIETÀ

I dati sintetici non proteggono in modo affidabile la privacy, affermano i ricercatori

mm

Pubblicato il

 on

Una nuova collaborazione di ricerca tra Francia e Regno Unito mette in dubbio la crescente fiducia del settore nel fatto che i dati sintetici possano risolvere i problemi di privacy, qualità e disponibilità (tra le altre questioni) che minacciano il progresso nel settore dell’apprendimento automatico.

Tra i diversi punti chiave affrontati, gli autori affermano che i dati sintetici modellati da dati reali conservano abbastanza informazioni autentiche da non fornire alcuna protezione affidabile da inferenze e attacchi di appartenenza, che cercano di deanonimizzare i dati e riassociarli a persone reali.

Inoltre, le persone più a rischio di tali attacchi, comprese quelle con condizioni mediche critiche o spese ospedaliere elevate (nel caso dell'anonimizzazione della cartella clinica), hanno maggiori probabilità, a causa della natura "anomalia" della loro condizione, di essere nuovamente identificate da queste tecniche.

Il giornale osserva:

"Dato l'accesso a un insieme di dati sintetici, un avversario strategico può dedurre, con elevata confidenza, la presenza di un record obiettivo nei dati originali."

Lo rileva anche il giornale dati sintetici differenzialmente privati, che oscura la firma dei record individuali, protegge effettivamente la privacy delle persone, ma solo paralizzando in modo significativo l'utilità dei sistemi di recupero delle informazioni che lo utilizzano.

Semmai, osservano i ricercatori, approcci differenzialmente privati, che utilizzano informazioni "reali". 'a una rimozione' tramite dati sintetici: crea lo scenario di sicurezza peggio di quanto sarebbe stato altrimenti:

'I set di dati [sintetici] non danno alcuna trasparenza su questo compromesso. È impossibile prevedere quali caratteristiche dei dati verranno conservate e quali modelli verranno soppressi.'

Il nuovo carta, dal titolo Dati sintetici – Anonimizzazione Ricomincio da capo, proviene da due ricercatori dell'École Polytechnique Fédérale de Lausanne (EPFL) di Parigi e da un ricercatore dell'University College London (UCL).

I ricercatori hanno condotto test sugli algoritmi di addestramento del modello generativo privato esistenti e hanno scoperto che alcune decisioni di implementazione violano le garanzie formali di privacy fornite nei framework, lasciando diversi record esposti ad attacchi di inferenza.

Gli autori offrono una versione rivista di ciascun algoritmo che potenzialmente mitiga queste esposizioni e stanno creando il codice disponibile come libreria open source. Sostengono che ciò aiuterà i ricercatori a valutare i guadagni in termini di privacy dei dati sintetici e confrontare utilmente i metodi di anonimizzazione più diffusi. Il nuovo framework incorpora due metodi di attacco alla privacy pertinenti che possono essere applicati a qualsiasi algoritmo di addestramento del modello generativo.

Dati sintetici

I dati sintetici vengono utilizzati per addestrare i modelli di apprendimento automatico in vari scenari, inclusi i casi in cui una mancanza di informazioni complete può essere potenzialmente colmata da dati surrogati. Un esempio di ciò è la possibilità di utilizzare volti generati da CGI per fornire foto di volti "difficili" o poco frequenti per set di dati di sintesi di immagini, dove le immagini del profilo, gli angoli acuti o le espressioni insolite sono spesso raramente visibili nel materiale sorgente.

Altri tipi di immagini CGI sono stati utilizzati per popolare i set di dati che alla fine verranno eseguiti su dati non sintetici, come i set di dati che presentano mani ed arredamento.

In termini di protezione della privacy, i dati sintetici possono essere generati da dati reali mediante sistemi GAN (Generative Adversarial Network) che estraggono caratteristiche dai dati reali e creano record simili e fittizi che possono essere generalizzati anche a dati successivi (non visti, reali), ma hanno lo scopo di offuscare i dettagli di persone reali presenti nei dati di origine.

Metodologia

Ai fini della nuova ricerca, gli autori hanno valutato i guadagni in termini di privacy attraverso cinque algoritmi di addestramento del modello generativo. Tre dei modelli non offrono una protezione esplicita della privacy, mentre gli altri due sono dotati di garanzie di privacy differenziate. Questi modelli tabulari sono stati scelti per rappresentare un'ampia gamma di architetture.

I modelli attaccati erano Baynet, PrivBay (una derivazione di PrivBayes/BayNet), CTGAN, PATEGANO ed IndHist.

Il framework di valutazione per i modelli è stato implementato come libreria Python con due classi principali: Modelli generativi ed PrivacyAttacchi. Quest'ultimo presenta due aspetti: un avversario di inferenza di appartenenza e un attacco di inferenza di appartenenza. Il framework è anche in grado di valutare i vantaggi per la privacy dei dati "sanificati" (ovvero resi anonimi) e dei dati sintetici.

I due set di dati utilizzati nei test erano i Set di dati per adulti dall'UCI Machine Learning Repository e il Dati di dimissione ospedaliera File di dati per uso pubblico dal Dipartimento dei servizi sanitari statali del Texas. La versione del set di dati del Texas utilizzata dai ricercatori contiene 50,000 record campionati dai record dei pazienti per l'anno 2013.

Attacchi e ritrovamenti

L'obiettivo generale della ricerca è stabilire la “linkability” (la riassociazione di dati reali con dati sintetici che ad essa si ispira). I modelli di attacco utilizzati nello studio includono la regressione logistica, le foreste casuali e i classificatori K-Nearest Neighbours.

Gli autori hanno selezionato due gruppi target costituiti da cinque record selezionati casualmente per categorie di "minoranza" della popolazione, poiché questi sono più probabilmente essere suscettibile di un attacco di linkage. Hanno anche selezionato i record con "valori di attributo categorici rari" al di fuori del quantile del 95% degli attributi. Gli esempi includono registrazioni relative ad alto rischio di mortalità, spese ospedaliere totali elevate e gravità della malattia.

Sebbene il documento non approfondisca questo aspetto, dal punto di vista dei probabili aggressori del mondo reale, questi sono esattamente il tipo di pazienti "costosi" o "ad alto rischio" che più probabilmente saranno presi di mira dall'inferenza dell'appartenenza e da altri tipi di approcci di esfiltrazione alle cartelle dei pazienti.

Sono stati addestrati modelli di attacco multipli sulla base di informazioni di riferimento pubbliche per sviluppare "modelli ombra" su dieci obiettivi. I risultati di una serie di esperimenti (come descritto in precedenza) indicano che un certo numero di record erano "altamente vulnerabili" agli attacchi di collegamento mirati contro di loro da parte dei ricercatori. I risultati hanno inoltre rilevato che il 20% di tutti gli obiettivi coinvolti negli studi ha ottenuto un guadagno in termini di privacy pari a zero da dati sintetici prodotti con metodi GAN.

I ricercatori osservano che i risultati variavano, a seconda del metodo utilizzato per generare dati sintetici, del vettore di attacco e delle caratteristiche del set di dati mirato. Il rapporto rileva che in molti casi, un'efficace soppressione dell'identità attraverso approcci di dati sintetici riduce l'utilità dei sistemi risultanti. In effetti, l'utilità e l'accuratezza di tali sistemi possono in molti casi essere un indice diretto di quanto siano vulnerabili agli attacchi di reidentificazione.

I ricercatori concludono:

"Se un set di dati sintetici conserva le caratteristiche dei dati originali con elevata precisione, e quindi conserva l'utilità dei dati per i casi d'uso per i quali è pubblicizzato, consente contemporaneamente agli avversari di estrarre informazioni sensibili sugli individui".

"Un elevato guadagno in termini di privacy attraverso uno qualsiasi dei meccanismi di anonimizzazione che abbiamo valutato può essere ottenuto solo se la versione sintetica o sterilizzata pubblicata dei dati originali non trasmette il segnale dei record individuali nei dati grezzi e di fatto sopprime il loro record."