Connect with us

Intelligenza artificiale

Che cos’è la privacy differenziale?

mm

Stiamo vivendo nell’era dei big data, che ha focalizzato ancora di più l’attenzione sul tema della privacy dei dati. Gli esseri umani producono una quantità incredibile di dati ogni secondo, e le aziende utilizzano questi dati per una vasta gamma di applicazioni. Con l’archiviazione e la condivisione dei dati a un ritmo senza precedenti, devono esserci più tecniche di protezione della privacy.

La privacy differenziale è un approccio per proteggere i dati personali e si è rivelata più efficace di molti dei nostri metodi tradizionali. Può essere definita come un sistema per condividere pubblicamente informazioni su un set di dati descrivendo i modelli dei gruppi all’interno del set di dati mentre si omette informazione sugli individui nel set di dati.

La privacy differenziale consente ai ricercatori e agli analisti di database di ottenere informazioni preziose dai database senza rivelare le informazioni di identificazione personale sugli individui. Ciò è fondamentale poiché molti database contengono una varietà di informazioni personali.

Un altro modo di guardare alla privacy differenziale è che crea dati anonimi iniettando rumore nei set di dati. Il rumore introdotto aiuta a proteggere la privacy mentre è ancora abbastanza limitato in modo che gli analisti possano utilizzare in modo affidabile i dati.

Puoi avere due set di dati quasi identici. Uno con le tue informazioni personali e uno senza. Con la privacy differenziale, puoi assicurarti che la probabilità che una query statistica produca un determinato risultato sia la stessa indipendentemente dal database su cui viene eseguita.

Come funziona la privacy differenziale?

Il modo in cui funziona la privacy differenziale è introducendo un parametro di perdita di privacy o budget di privacy, spesso denotato come epsilon (ε), nel set di dati. Questi parametri controllano quanto rumore o casualità viene aggiunto al set di dati grezzo.

Ad esempio, immagina di avere una colonna nel set di dati con risposte “Sì”/”No” da parte degli individui.

Ora, supponi di lanciare una moneta per ogni individuo:

  • Testa: la risposta rimane com’è.
  • Croce: lanci una seconda volta, registrando la risposta come “Sì” se testa e “No” se croce, indipendentemente dalla risposta reale.

Utilizzando questo processo, si aggiunge casualità ai dati. Con una grande quantità di dati e le informazioni dal meccanismo di aggiunta del rumore, il set di dati rimarrà accurato in termini di misurazioni aggregate. La privacy deriva dal fatto che ogni singolo individuo può plausibilmente negare la sua risposta reale grazie al processo di casualizzazione.

Sebbene questo sia un esempio semplicistico di privacy differenziale, fornisce un livello di base di comprensione. Nelle applicazioni del mondo reale, gli algoritmi sono più complessi.

È anche importante notare che la privacy differenziale può essere implementata localmente, dove il rumore viene aggiunto ai dati individuali prima che vengano centralizzati nel database, o globalmente, dove il rumore viene aggiunto ai dati grezzi dopo che vengono raccolti dagli individui.

Esempi di privacy differenziale

La privacy differenziale viene applicata in una vasta gamma di applicazioni come sistemi di raccomandazione, social network e servizi basati sulla posizione.

Ecco alcuni esempi di come grandi aziende si affidano alla privacy differenziale:

  • Apple utilizza il metodo per raccogliere informazioni di utilizzo anonime da dispositivi come iPhone e Mac.
  • Facebook utilizza la privacy differenziale per raccogliere dati comportamentali che possono essere utilizzati per campagne pubblicitarie mirate.
  • Amazon si affida a questa tecnica per ottenere informazioni sui preferenze di shopping personalizzate mentre nasconde informazioni sensibili.

Apple è stata particolarmente trasparente sull’utilizzo della privacy differenziale per ottenere informazioni sugli utenti mentre ne preserva la privacy.

“Apple ha adottato e ulteriormente sviluppato una tecnica conosciuta nel mondo accademico come privacy differenziale locale per fare qualcosa di veramente emozionante: ottenere informazioni su cosa stanno facendo molti utenti Apple, mentre aiuta a preservare la privacy degli utenti individuali. È una tecnica che consente ad Apple di apprendere sulla comunità degli utenti senza apprendere sugli individui all’interno della comunità. La privacy differenziale trasforma le informazioni condivise con Apple prima che lascino il dispositivo dell’utente in modo che Apple non possa mai riprodurre i dati veri.”

Panoramica sulla privacy differenziale di Apple

Applicazioni della privacy differenziale

Poiché viviamo in questa era dei big data, ci sono molte violazioni dei dati che minacciano governi, organizzazioni e aziende. Allo stesso tempo, le applicazioni di apprendimento automatico di oggi si basano su tecniche di apprendimento che richiedono grandi quantità di dati di training, spesso provenienti da individui. Le istituzioni di ricerca utilizzano e condividono anche dati con informazioni riservate. La divulgazione impropria di questi dati in qualsiasi modo può causare molti problemi sia per l’individuo che per l’organizzazione e, in casi gravi, può portare a responsabilità civile.

Modelli di privacy formali come la privacy differenziale affrontano tutti questi problemi. Vengono utilizzati per proteggere le informazioni personali, la posizione in tempo reale e altro.

Utilizzando la privacy differenziale, le aziende possono accedere a grandi quantità di dati sensibili per la ricerca o per attività commerciali senza compromettere i dati. Le istituzioni di ricerca possono anche sviluppare tecnologie di privacy differenziale specifiche per automatizzare i processi di privacy nelle comunità di condivisione cloud, che stanno diventando sempre più popolari.

Perché utilizzare la privacy differenziale?

La privacy differenziale offre alcune proprietà principali che la rendono un ottimo framework per l’analisi di dati privati mentre si garantisce la privacy:

  • Quantificazione della perdita di privacy: i meccanismi e gli algoritmi di privacy differenziale possono misurare la perdita di privacy, il che consente di confrontarla con altre tecniche.
  • Composizione: poiché è possibile quantificare la perdita di privacy, è anche possibile analizzarla e controllarla su più calcoli, consentendo lo sviluppo di algoritmi diversi.
  • Privacy di gruppo: oltre al livello individuale, la privacy differenziale consente di analizzare e controllare la perdita di privacy all’interno di gruppi più ampi.
  • Sicuro nel post-elaborazione: la privacy differenziale non può essere danneggiata dal post-elaborazione. Ad esempio, un analista dei dati non può calcolare una funzione dell’output di un algoritmo di privacy differenziale e renderlo meno differenzialmente privato.

Vantaggi della privacy differenziale

Come abbiamo menzionato in precedenza, la privacy differenziale è migliore di molte tecniche di privacy tradizionali. Ad esempio, se tutte le informazioni disponibili sono informazioni identificate, la privacy differenziale rende più facile identificare tutti gli elementi dei dati. È anche resistente agli attacchi di privacy basati su informazioni ausiliarie, prevenendo attacchi che possono essere eseguiti su dati de-identificati.

Uno dei maggiori vantaggi della privacy differenziale è che è composita, il che significa che è possibile calcolare la perdita di privacy dell’esecuzione di due analisi differenzialmente private sui dati. Ciò si ottiene sommando le perdite di privacy individuali per le due analisi.

Sebbene la privacy differenziale sia uno strumento nuovo e possa essere difficile da raggiungere al di fuori delle comunità di ricerca, soluzioni facili da implementare per la privacy dei dati stanno diventando più accessibili. Nel prossimo futuro, dovremmo vedere un aumento del numero di queste soluzioni disponibili per il pubblico in generale.

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.