Leader di pensiero
Esiste una soluzione chiara ai rischi per la privacy posti dall’intelligenza artificiale generativa?
I rischi per la privacy posti dall’intelligenza artificiale generativa sono molto reali. Dalla sorveglianza aumentata e dall’esposizione a campagne di phishing e vishing più efficaci che mai, l’intelligenza artificiale generativa erode la privacy in massa, indiscriminatamente, fornendo agli attori malintenzionati, che siano criminali, sponsorizzati dallo stato o governativi, gli strumenti di cui hanno bisogno per prendere di mira individui e gruppi.
La soluzione più chiara a questo problema coinvolge i consumatori e gli utenti che collettivamente voltano le spalle all’ipér del IA, chiedendo trasparenza a coloro che sviluppano o implementano le cosiddette funzionalità IA, e una regolamentazione efficace da parte degli organismi governativi che sovraintendono alle loro operazioni. Sebbene valga la pena di aspirarvi, ciò non è probabile che accada presto.
Ciò che rimane sono approcci ragionevoli, anche se necessariamente incompleti, per mitigare i rischi per la privacy dell’intelligenza artificiale generativa. La previsione a lungo termine, sicura e noiosa è che più il pubblico diventa istruito sulla privacy dei dati in generale, minori saranno i rischi per la privacy posti dall’adozione di massa dell’intelligenza artificiale generativa.
Abbiamo tutti capito il concetto di intelligenza artificiale generativa?
L’ipér intorno all’IA è così onnipresente che un sondaggio su cosa la gente intende per intelligenza artificiale generativa è a malapena necessario. Naturalmente, nessuna di queste “funzionalità IA”, funzionalità e prodotti rappresenta effettivamente esempi di vera intelligenza artificiale, qualunque cosa questo significhi. Piuttosto, sono per lo più esempi di apprendimento automatico (ML), apprendimento profondo (DL) e modelli linguistici di grandi dimensioni (LLM).
L’intelligenza artificiale generativa, come suggerisce il nome, può generare nuovo contenuto – sia testo (inclusi linguaggi di programmazione), audio (inclusa musica e voci simili a quelle umane) o video (con suono, dialogo, tagli e cambi di camera). Tutto ciò viene realizzato addestrando i LLM a identificare, abbinare e riprodurre modelli in contenuti generati dagli esseri umani.
Prendiamo ChatGPT come esempio. Come molti LLM, è stato addestrato in tre fasi ampie:
- Pre-addestramento: durante questa fase, il LLM viene “alimentato” con materiale testuale da Internet, libri, riviste accademiche e qualsiasi altra cosa che contenga testo potenzialmente rilevante o utile.
- Addestramento con istruzioni supervisionate: i modelli vengono addestrati a rispondere in modo più coerente alle istruzioni utilizzando coppie di istruzioni-risposte di alta qualità, solitamente fornite dagli esseri umani.
- Apprendimento per rinforzo da feedback umano (RLHF): i LLM come ChatGPT spesso subiscono questo ulteriore stadio di addestramento, durante il quale le interazioni con gli utenti umani vengono utilizzate per raffinare l’allineamento del modello con casi d’uso tipici.
Tutte e tre le fasi del processo di addestramento coinvolgono dati, sia enormi quantità di dati raccolti in precedenza (come quelli utilizzati nel pre-addestramento) sia dati raccolti e processati quasi in tempo reale (come quelli utilizzati nel RLHF). Sono proprio questi dati che portano la quota maggiore dei rischi per la privacy derivanti dall’intelligenza artificiale generativa.
Quali sono i rischi per la privacy posti dall’intelligenza artificiale generativa?
La privacy viene compromessa quando le informazioni personali relative a un individuo (il soggetto dei dati) vengono rese disponibili ad altri individui o entità senza il consenso del soggetto dei dati. I LLM vengono pre-addestrati e addestrati su un’ampia gamma di dati che possono e spesso includono dati personali. Questi dati vengono solitamente raccolti da fonti pubblicamente disponibili, ma non sempre.
Anche quando questi dati vengono presi da fonti pubblicamente disponibili, averli aggregati e processati da un LLM e poi resi essenzialmente ricercabili tramite l’interfaccia del LLM potrebbe essere considerato un ulteriore violazione della privacy.
La fase di apprendimento per rinforzo da feedback umano (RLHF) complica le cose. In questo stadio di addestramento, le interazioni reali con gli utenti umani vengono utilizzate per correggere e raffinare iterativamente le risposte del LLM. Ciò significa che le interazioni di un utente con un LLM possono essere visualizzate, condivise e diffuse da chiunque abbia accesso ai dati di addestramento.
Nella maggior parte dei casi, ciò non costituisce una violazione della privacy, dato che la maggior parte degli sviluppatori di LLM include politiche di privacy e condizioni di servizio che richiedono agli utenti di acconsentire prima di interagire con il LLM. Il rischio per la privacy qui risiede piuttosto nel fatto che molti utenti non sono consapevoli di aver acconsentito a tale raccolta e utilizzo dei dati. Tali utenti sono probabilmente destinati a rivelare informazioni private e sensibili durante le loro interazioni con questi sistemi, senza rendersi conto che queste interazioni non sono né confidenziali né private.
In questo modo, arriviamo ai tre modi principali in cui l’intelligenza artificiale generativa pone rischi per la privacy:
- Grandi quantità di dati di pre-addestramento potenzialmente contenenti informazioni personali sono vulnerabili a compromissione e estrazione.
- Le informazioni personali incluse nei dati di pre-addestramento possono essere divulgate ad altri utenti dello stesso LLM attraverso le sue risposte a query e istruzioni.
- Le informazioni personali e confidenziali fornite durante le interazioni con i LLM finiscono con i dipendenti dei LLM e possibilmente con i contraenti di terze parti, da dove possono essere visualizzate o divulgate.
Questi sono tutti rischi per la privacy degli utenti, ma le probabilità che le informazioni di identificazione personale (PII) finiscano nelle mani sbagliate sembrano ancora abbastanza basse. Ciò è almeno fino a quando gli intermediari di dati non entrano in scena. Queste aziende si specializzano nel cercare PII e nel raccogliere, aggregare e diffondere, se non addirittura trasmettere, tali informazioni.
Con le informazioni di identificazione personale e altri dati personali che sono diventati una sorta di merce e l’industria degli intermediari di dati che si è sviluppata per trarne profitto, qualsiasi dato personale che “esce” è molto probabile che venga raccolto dagli intermediari di dati e diffuso ampiamente.
I rischi per la privacy dell’intelligenza artificiale generativa nel contesto
Prima di esaminare i rischi che l’intelligenza artificiale generativa pone per la privacy degli utenti nel contesto di prodotti, servizi e partnership aziendali specifici, facciamo un passo indietro e prendiamo uno sguardo più strutturato alla gamma completa di rischi dell’intelligenza artificiale generativa. Scrivendo per l’IAPP, Moraes e Previtali hanno adottato un approccio basato sui dati per raffinare la “Tassonomia della privacy” di Solove del 2006, riducendo i 16 rischi per la privacy descritti in essa a 12 rischi per la privacy specifici dell’IA.
Questi sono i 12 rischi per la privacy inclusi nella tassonomia rivista:
- Sorveglianza: L’IA aggrava i rischi di sorveglianza aumentando la portata e l’ubiquità della raccolta di dati personali.
- Identificazione: Le tecnologie IA abilitano l’associazione automatica dell’identità attraverso varie fonti di dati, aumentando i rischi relativi all’esposizione dell’identità personale.
- Aggregazione: L’IA combina vari pezzi di dati su una persona per trarre inferenze, creando rischi di invasione della privacy.
- Frenologia e fisiognomica: L’IA inferisce la personalità o gli attributi sociali dalle caratteristiche fisiche, una nuova categoria di rischio non presente nella tassonomia di Solove.
- Uso secondario: L’IA aggrava l’uso di dati personali per scopi diversi da quelli originariamente previsti attraverso il riproposito dei dati.
- Esclusione: L’IA rende peggiore la mancanza di informazione o controllo degli utenti su come vengono utilizzati i loro dati attraverso pratiche di dati opache.
- Insicurezza: L’IA richiede dati e pratiche di archiviazione che rischiano di violazione dei dati e accesso improprio.
- Esposizione: L’IA può rivelare informazioni sensibili, come attraverso le tecniche di intelligenza artificiale generativa.
- Distorsione: La capacità dell’IA di generare contenuti realistici ma falsi aumenta la diffusione di informazioni false o fuorvianti.
- Divulgazione: L’IA può causare la condivisione impropria di dati quando inferisce ulteriori informazioni sensibili dai dati grezzi.
- Aumento dell’accessibilità: L’IA rende le informazioni sensibili più accessibili a un pubblico più ampio di quanto previsto.
- Intrusione: Le tecnologie IA invadono lo spazio personale o la solitudine, spesso attraverso misure di sorveglianza.
Questo fa per una lettura abbastanza allarmante. È importante notare che questa tassonomia, a suo credito, tiene conto della tendenza dell’intelligenza artificiale generativa a allucinare – a generare e presentare con fiducia informazioni fattualmente inaccurate. Questo fenomeno, anche se raramente rivela informazioni reali, è anche un rischio per la privacy. La diffusione di informazioni false e fuorvianti colpisce la privacy del soggetto in modi più sottili rispetto al caso di informazioni accurate, ma comunque la colpisce.
Facciamo un esempio concreto di come questi rischi per la privacy si verificano nel contesto di prodotti AI reali.
Interazioni dirette con sistemi di intelligenza artificiale generativa basati su testo
Il caso più semplice è quello in cui un utente interagisce direttamente con un sistema di intelligenza artificiale generativa, come ChatGPT, Midjourney o Gemini. Le interazioni dell’utente con molti di questi prodotti vengono registrate, archiviate e utilizzate per RLHF (apprendimento per rinforzo da feedback umano), addestramento con istruzioni supervisionate e persino il pre-addestramento di altri LLM.
Un’analisi delle politiche di privacy di molti servizi come questi rivela anche altre attività di condivisione dei dati sostenute da scopi molto diversi, come marketing e intermediazione dei dati. Questo è un altro tipo di rischio per la privacy posto dall’intelligenza artificiale generativa: questi sistemi possono essere caratterizzati come enormi tunnel di dati, raccogliendo dati forniti dagli utenti e quelli generati attraverso le loro interazioni con il LLM sottostante.
Interazioni con sistemi di intelligenza artificiale generativa incorporati
Alcuni utenti potrebbero interagire con interfacce di intelligenza artificiale generativa incorporate in qualsiasi prodotto stiano utilizzando. L’utente potrebbe essere consapevole di utilizzare una “funzionalità IA”, ma è meno probabile che sappia cosa ciò significhi in termini di rischi per la privacy dei dati. Ciò che emerge con i sistemi incorporati è la mancanza di apprezzamento del fatto che i dati personali condivisi con il LLM potrebbero finire nelle mani degli sviluppatori e degli intermediari di dati.
Ci sono due gradi di mancanza di consapevolezza qui: alcuni utenti si rendono conto di interagire con un prodotto di intelligenza artificiale generativa; e alcuni credono di utilizzare il prodotto in cui l’intelligenza artificiale generativa è incorporata o a cui si accede. In entrambi i casi, l’utente potrebbe aver (e probabilmente ha) tecnicamente acconsentito ai termini e alle condizioni associati alle sue interazioni con il sistema incorporato.
Altre partnership che espongono gli utenti ai sistemi di intelligenza artificiale generativa
Alcune aziende incorporano o includono altrimenti interfacce di intelligenza artificiale generativa nel loro software in modi meno ovvi, lasciando gli utenti a interagire – e condividere informazioni – con terze parti senza rendersene conto. Fortunatamente, “IA” è diventata un punto di vendita così efficace che è improbabile che un’azienda tenga segreta una tale implementazione.
Un altro fenomeno in questo contesto è la crescente reazione negativa che tali aziende hanno subito dopo aver tentato di condividere i dati degli utenti o dei clienti con aziende di intelligenza artificiale come OpenAI. La società di rimozione dei dati Optery, ad esempio, ha recentemente annullato una decisione di condividere i dati degli utenti con OpenAI su base di opt-out, il che significa che gli utenti sono stati iscritti al programma per impostazione predefinita.
Non solo i clienti sono stati rapidi a esprimere la loro delusione, ma il servizio di rimozione dei dati dell’azienda è stato prontamente rimosso dall’elenco dei servizi di rimozione dei dati consigliati da Privacy Guides. A credito di Optery, ha rapidamente e trasparentemente annullato la sua decisione, ma è la reazione generale che è significativa qui: le persone iniziano ad apprezzare i rischi di condividere i dati con aziende “IA”.
Il caso Optery fa per un buon esempio qui perché i suoi utenti sono, in un certo senso, all’avanguardia della crescente scetticismo che circonda le implementazioni di intelligenza artificiale. Il tipo di persone che opta per un servizio di rimozione dei dati è anche, di solito, quello che presterà attenzione ai cambiamenti nelle condizioni di servizio e nelle politiche di privacy.
Evidenza di una reazione negativa contro l’utilizzo dei dati di intelligenza artificiale generativa
I consumatori consapevoli della privacy non sono stati gli unici a sollevare preoccupazioni riguardo ai sistemi di intelligenza artificiale generativa e ai rischi per la privacy dei dati ad essi associati. A livello legislativo, l’ Atto sull’intelligenza artificiale dell’UE categorizza i rischi in base alla loro gravità, con la privacy dei dati come criterio esplicito o implicito per assegnare gravità nella maggior parte dei casi. L’Atto affronta anche le questioni relative al consenso informato che abbiamo discusso in precedenza.
Gli Stati Uniti, notoriamente lenti nell’adottare una legislazione sulla privacy dei dati completa e federale, hanno almeno alcune garanzie in atto grazie al Ordine esecutivo 14110. Ancora una volta, le preoccupazioni per la privacy dei dati sono in primo piano tra gli scopi indicati per l’Ordine: “l’uso irresponsabile [delle tecnologie IA] potrebbe aggravare danni sociali come frodi, discriminazione, pregiudizi e disinformazione” – tutti relativi alla disponibilità e alla diffusione di dati personali.
Tornando al livello dei consumatori, non sono solo i consumatori particolarmente consapevoli della privacy a essersi opposti a implementazioni di intelligenza artificiale generativa invasive della privacy. La funzionalità “AI-powered” Recall di Microsoft, destinata al suo sistema operativo Windows 11, è un esempio primario. Una volta rivelata la portata dei rischi per la privacy e la sicurezza, la reazione negativa è stata sufficiente per costringere il gigante tecnologico a fare marcia indietro. Purtroppo, Microsoft sembra non aver abbandonato l’idea, ma la reazione iniziale del pubblico è comunque incoraggiante.
Rimanendo con Microsoft, il suo programma Copilot è stato ampiamente criticato per problemi di privacy e sicurezza dei dati. Poiché Copilot è stato addestrato su dati GitHub (per lo più codice sorgente), è sorta anche una controversia sulle presunte violazioni di Microsoft degli accordi di licenza software dei programmatori e degli sviluppatori. È in casi come questo che i confini tra privacy dei dati e diritti di proprietà intellettuale iniziano a confondersi, assegnando a quest’ultima un valore monetario – qualcosa che non è facilmente fatto.
Forse l’indicazione più grande che l’IA sta diventando una bandiera rossa agli occhi dei consumatori è la risposta pubblica tiepida, se non addirittura guardinga, che Apple ha ricevuto per il suo lancio iniziale di IA, in particolare per quanto riguarda gli accordi di condivisione dei dati con OpenAI.
Le soluzioni a pezzi
Ci sono passi che i legislatori, gli sviluppatori e le aziende possono compiere per mitigare alcuni dei rischi posti dall’intelligenza artificiale generativa. Queste sono le soluzioni specializzate per aspetti specifici del problema generale, nessuna di queste soluzioni è sufficiente, ma tutte loro, lavorando insieme, potrebbero fare una grande differenza.
- Minimizzazione dei dati. Minimizzare la quantità di dati raccolti e archiviati è un obiettivo ragionevole, ma è direttamente opposto al desiderio degli sviluppatori di intelligenza artificiale generativa di dati di addestramento.
- Trasparenza. Data l’attuale stato dell’arte nell’apprendimento automatico, ciò potrebbe non essere nemmeno tecnicamente fattibile nella maggior parte dei casi. L’approfondimento di cosa i dati vengono elaborati e come quando si generano determinati output è un modo per garantire la privacy nelle interazioni con l’intelligenza artificiale generativa.
- Anonimizzazione. Qualsiasi informazione di identificazione personale (PII) che non possa essere esclusa dai dati di addestramento (attraverso la minimizzazione dei dati) dovrebbe essere anonimizzata. Il problema è che molte tecniche di anonimizzazione e pseudonimizzazione popolari sono facilmente superate.
- Consenso dell’utente. Richiedere agli utenti di acconsentire alla raccolta e condivisione dei loro dati è essenziale ma troppo aperto a abusi e troppo soggetto a una compiacenza dei consumatori per essere efficace. È necessario un consenso informato qui e la maggior parte dei consumatori, debitamente informati, non acconsentirebbero a una tale condivisione dei dati, quindi gli incentivi sono fuori allineamento.
- Protezione dei dati in transito e in riposo. Un altro fondamento sia della privacy dei dati che della sicurezza dei dati, proteggere i dati attraverso mezzi crittografici e altri può sempre essere reso più efficace. Tuttavia, i sistemi di intelligenza artificiale generativa tendono a perdere dati attraverso le loro interfacce, rendendolo solo una parte della soluzione.
- Applicazione delle leggi sul diritto d’autore e sulla proprietà intellettuale nel contesto dell’IA. L’apprendimento automatico può operare in una “scatola nera”, rendendo difficile se non impossibile tracciare quale materiale protetto da copyright e quale proprietà intellettuale finisce in quale output di intelligenza artificiale generativa.
- Verifiche. Un’altra misura di salvaguardia cruciale ostacolata dalla natura a “scatola nera” dei LLM e dei sistemi di intelligenza artificiale generativa che supportano. A ciò si aggiunge la natura a codice chiuso della maggior parte dei prodotti di intelligenza artificiale generativa, che limita le verifiche a quelle eseguite a discrezione dello sviluppatore.
Tutti questi approcci al problema sono validi e necessari, ma nessuno è sufficiente. Tutti richiedono un supporto legislativo per avere un effetto significativo, il che significa che sono destinati a rimanere indietro rispetto ai tempi mentre questo campo dinamico continua a evolversi.
La soluzione chiara
La soluzione ai rischi per la privacy posti dall’intelligenza artificiale generativa non è né rivoluzionaria né emozionante, ma portata alle sue logiche conclusioni, i suoi risultati potrebbero essere entrambi. La soluzione chiara coinvolge i consumatori comuni che diventano consapevoli del valore dei loro dati per le aziende e dell’importanza della privacy dei dati per se stessi.
I consumatori sono le fonti e i motori dietro le informazioni private che alimentano ciò che viene chiamata l’economia della sorveglianza moderna. Una volta che una massa critica di consumatori inizia a fermare il flusso di dati privati nella sfera pubblica e inizia a chiedere responsabilità alle aziende che trattano dati personali, il sistema dovrà autocorreggersi.
L’aspetto incoraggiante dell’intelligenza artificiale generativa è che, a differenza degli attuali modelli di pubblicità e marketing, non deve necessariamente coinvolgere informazioni personali in alcuna fase. I dati di pre-addestramento e di addestramento non devono includere informazioni di identificazione personale (PII) o altri dati personali e gli utenti non devono esporre gli stessi durante le loro interazioni con i sistemi di intelligenza artificiale generativa.
Per rimuovere le informazioni personali dai dati di addestramento, le persone possono andare direttamente alla fonte e rimuovere i loro profili dai vari intermediari di dati (inclusi siti di ricerca persone) che aggregano registri pubblici, portandoli in circolazione sul mercato aperto. I servizi di rimozione dei dati personali automatizzano il processo, rendendolo rapido e facile. Naturalmente, rimuovere i dati personali dai database di queste aziende ha molti altri benefici e nessun svantaggio.
Le persone generano anche dati personali quando interagiscono con il software, inclusa l’intelligenza artificiale generativa. Per fermare il flusso di questi dati, gli utenti dovranno essere più consapevoli del fatto che le loro interazioni vengono registrate, esaminate, analizzate e condivise. Le loro opzioni per evitare ciò si riducono a limitare ciò che rivelano ai sistemi online e all’uso di LLM on-device e open-source quando possibile. Le persone, nel complesso, già fanno un buon lavoro nel modulare ciò di cui discutono in pubblico – abbiamo solo bisogno di estendere questi istinti nel regno dell’intelligenza artificiale generativa.












