Sanità
I Dati Sintetici Non Proteggono in Modo Affidabile la Privacy, Affermano i Ricercatori

Una nuova collaborazione di ricerca tra Francia e Regno Unito getta dubbi sulla crescente fiducia dell’industria che i dati sintetici possano risolvere le questioni di privacy, qualità e disponibilità (tra le altre) che minacciano i progressi nel settore del machine learning.
Tra i punti chiave trattati, gli autori affermano che i dati sintetici modellati da dati reali conservano abbastanza informazioni autentiche da non fornire alcuna protezione affidabile contro gli attacchi di inferenza e di appartenenza, che cercano di deanonimizzare i dati e di riassociarli con persone reali.
Inoltre, le persone più a rischio da tali attacchi, tra cui quelle con gravi condizioni mediche o alti conti ospedalieri (nel caso dell’anonimizzazione dei registri medici), a causa della natura di “outlier” della loro condizione, sono più probabili da essere riidentificate da queste tecniche.
Il documento osserva:
‘Dato l’accesso a un dataset sintetico, un avversario strategico può inferire, con alta fiducia, la presenza di un record di destinazione nei dati originali.’
Il documento nota inoltre che i dati sintetici differenzialmente privati, che oscurano la firma dei record individuali, proteggono effettivamente la privacy degli individui, ma solo a costo di compromettere notevolmente l’utilità dei sistemi di recupero delle informazioni che li utilizzano.
Se mai, gli studiosi osservano, gli approcci differenzialmente privati – che utilizzano ‘informazioni reali’ ‘a una certa distanza’ tramite dati sintetici – rendono lo scenario di sicurezza peggiore di quanto non sarebbe stato altrimenti:
‘[I dataset sintetici] non forniscono alcuna trasparenza su questo compromesso. È impossibile prevedere quali caratteristiche dei dati saranno preservate e quali modelli saranno soppressi.’
Il nuovo documento, intitolato Synthetic Data – Anonymisation Groundhog Day, proviene da due ricercatori dell’École Polytechnique Fédérale de Lausanne (EPFL) a Parigi e da un ricercatore dell’University College London (UCL).
Gli studiosi hanno condotto test sugli algoritmi di training dei modelli generativi privati esistenti e hanno scoperto che alcune decisioni di implementazione violano le garanzie di privacy formali fornite nei framework, lasciando esposti record diversi agli attacchi di inferenza.
Gli autori offrono una versione rivista di ciascun algoritmo che potenzialmente mitiga queste esposizioni e stanno rendendo il codice disponibile come libreria open source. Affermano che ciò aiuterà gli studiosi a valutare i guadagni di privacy dei dati sintetici e a confrontare utilmente i metodi di anonimizzazione popolari. Il nuovo framework incorpora due metodi di attacco alla privacy pertinenti che possono essere applicati a qualsiasi algoritmo di training del modello generativo.
Dati Sintetici
I dati sintetici vengono utilizzati per addestrare modelli di machine learning in vari scenari, tra cui casi in cui una mancanza di informazioni complete può potenzialmente essere colmata da dati ersatz. Un esempio di ciò è la possibilità di utilizzare volti generati da CGI per fornire foto di visi ‘difficili’ o ‘infrequenti’ per set di dati di sintesi di immagini, dove le immagini del profilo, gli angoli acuti o le espressioni insolite sono spesso rare nel materiale di origine.
Altri tipi di immagini CGI sono stati utilizzati per popolare set di dati che verranno eseguiti su dati non sintetici, come set di dati che presentano mani e mobili.
In termini di protezione della privacy, i dati sintetici possono essere generati da dati reali da sistemi di rete generativa avversariale (GAN) che estracono caratteristiche dai dati reali e creano record fittizi simili che sono probabili da generalizzare bene ai dati reali (non visti) successivi, ma sono destinati a offuscare i dettagli delle persone reali presenti nei dati di origine.
Metodologia
Per gli scopi della nuova ricerca, gli autori hanno valutato i guadagni di privacy su cinque algoritmi di training dei modelli generativi. Tre dei modelli non offrono protezione della privacy esplicita, mentre gli altri due offrono garanzie di privacy differenziale. Questi modelli tabulari sono stati scelti per rappresentare una vasta gamma di architetture.
I modelli attaccati sono stati BayNet, PrivBay (una derivazione di PrivBayes/BayNet), CTGAN, PATEGAN e IndHist.
Il framework di valutazione per i modelli è stato implementato come una libreria Python con due classi principali – GenerativeModels e PrivacyAttacks. Quest’ultimo presenta due aspetti – un avversario di inferenza della membership e un attacco di inferenza della membership. Il framework è anche in grado di valutare i benefici di privacy dei dati ‘sanitizzati’ (cioè anonimizzati) e dei dati sintetici.
I due set di dati utilizzati nei test sono stati il Adult Data Set dal UCI Machine Learning Repository e il Hospital Discharge Data Public Use Data File dal Texas Department of State Health Services. La versione del set di dati del Texas utilizzata dagli studiosi contiene 50.000 record campionati da registri di pazienti per l’anno 2013.
Attacchi e Risultati
L’obiettivo generale della ricerca è quello di stabilire la ‘linkabilità’ (la riassociazione dei dati reali con i dati sintetici che li hanno ispirati). I modelli di attacco utilizzati nello studio includono classificatori Logistic Regression, Random Forests e K-Nearest Neighbors.
Gli autori hanno selezionato due gruppi target composti da cinque record selezionati casualmente per categorie di ‘minoranza’ della popolazione, poiché questi sono più probabili di essere suscettibili a un attacco di linkage. Hanno anche selezionato record con ‘valori categoriali rari’ al di fuori del 95% del quantile di quell’attributo. Esempi includono record relativi a un alto rischio di mortalità, alti costi totali di ospedalizzazione e gravità della malattia.
Sebbene il documento non si dilunghi su questo aspetto, dal punto di vista di attaccanti reali probabili, questi sono esattamente i tipi di pazienti ‘costosi’ o ‘ad alto rischio’ più probabili di essere presi di mira da attacchi di inferenza della membership e altri tipi di approcci di esfiltrazione ai registri dei pazienti.
Sono stati addestrati più modelli di attacco contro informazioni di riferimento pubbliche per sviluppare ‘modelli ombra’ su dieci target. I risultati su una serie di esperimenti (come descritto in precedenza) indicano che un certo numero di record è stato ‘altamente vulnerabile’ agli attacchi di linkage mirati a loro dagli studiosi. I risultati hanno anche scoperto che il 20% di tutti i target nei trial ha ricevuto un guadagno di privacy di zero dai dati sintetici prodotti dai metodi GAN.
Gli studiosi notano che i risultati sono variati a seconda del metodo utilizzato per generare i dati sintetici, del vettore di attacco e delle caratteristiche del set di dati di destinazione. La relazione trova che in molti casi, la soppressione efficace dell’identità attraverso gli approcci dei dati sintetici riduce l’utilità dei sistemi risultanti. In effetti, l’utilità e l’accuratezza di tali sistemi possono in molti casi essere un indice diretto di quanto siano vulnerabili agli attacchi di riidentificazione.
Gli studiosi concludono:
‘Se un dataset sintetico conserva le caratteristiche dei dati originali con alta precisione, e quindi mantiene l’utilità dei dati per i casi d’uso per cui è stato pubblicizzato, allo stesso tempo consente agli avversari di estrarre informazioni sensibili su individui.
‘Un alto guadagno in termini di privacy attraverso uno qualsiasi dei meccanismi di anonimizzazione che abbiamo valutato può essere ottenuto solo se la versione pubblicata dei dati sintetici o sanificati non trasmette il segnale dei record individuali nei dati grezzi e in effetti sopprime il loro record.’












