Interviste
Patricia Thaine, CEO di Private AI – Intervista in Serie

Patricia Thaine è la Co-Fondatrice e CEO di Private AI, una candidata al dottorato in Informatica all’Università di Toronto e una affiliata post-laurea all’Istituto Vector che svolge ricerche su tecniche di elaborazione del linguaggio naturale che preservano la privacy, con un focus su crittografia applicata. Svolge anche ricerche su metodi computazionali per la decifrazione di lingue perdute.
Patricia è destinataria della borsa di studio post-laurea NSERC, della borsa di studio RBC per laureati, della borsa di studio Beatrice “Trixie” Worsley per laureati in Informatica e della borsa di studio per laureati dell’Ontario. Ha otto anni di esperienza nella ricerca e nello sviluppo di software, tra cui al McGill Language Development Lab, al Computational Linguistics Lab dell’Università di Toronto, al Dipartimento di Linguistica dell’Università di Toronto e all’Agenzia di Salute Pubblica del Canada.
Cosa ti ha inizialmente attratto verso l’informatica?
La capacità di risolvere problemi e di essere creativa allo stesso tempo. È come un’arte. Vedi le tue idee di prodotto prendere vita, proprio come un falegname costruisce mobili. Come ho sentito dire una volta: la programmazione è lo strumento creativo definitivo. Il fatto che i prodotti che costruisci possano essere scalati e utilizzati da persone in tutto il mondo è come la ciliegina sulla torta.
Puoi discutere la storia di genesi di Private AI e come è nata dalla tua osservazione che c’è una mancanza di strumenti facili da integrare per la preservazione della privacy?
Attraverso il discorso e la scrittura, alcune delle informazioni più sensibili vengono prodotte e trasferite alle società che utilizziamo. Quando stavamo considerando quali prodotti NLP costruire, c’era uno strato di privacy che avremmo dovuto integrare, che semplicemente non esisteva sul mercato. Per utilizzare soluzioni di privacy, le società dovevano trasferire i dati degli utenti a un terzo, utilizzare soluzioni open-source di bassa qualità che non proteggono adeguatamente la privacy degli utenti, o costruire una soluzione in-house con poca esperienza in materia di privacy. Quindi, abbiamo deciso di concentrarci sulla creazione dei migliori prodotti possibili per gli sviluppatori e i team di intelligenza artificiale che devono avere i risultati delle tecnologie di miglioramento della privacy facilmente funzionanti per le loro esigenze.
Perché l’intelligenza artificiale che preserva la privacy è importante?
Circa l’80% delle informazioni prodotte è non strutturata e l’IA è l’unico modo per dare un senso a tutti quei dati. Può essere utilizzata per il bene, come aiutare a rilevare le cadute nella popolazione anziana, o per il male, come profilare e tracciare individui di popolazioni sottorappresentate. Assicurarsi che la privacy sia costruita nel software che creiamo rende molto più difficile utilizzare l’IA in modo dannoso.
Perché la privacy è un vantaggio competitivo?
Ci sono molte ragioni, ma ecco alcune:
- Sei e più utenti si preoccupano della privacy e, man mano che i consumatori diventano più istruiti, questa preoccupazione sta crescendo: il 70% dei consumatori si preoccupa della privacy dei propri dati.
- È molto più facile fare affari con altre società se si hanno protocolli e tecnologie di protezione e privacy dei dati adeguate.
- Quando si costruiscono prodotti in modo da preservare la privacy, si tiene meglio traccia dei punti di vulnerabilità nel servizio e, soprattutto attraverso la minimizzazione dei dati, si eliminano i dati di cui non si ha bisogno e che potrebbero causare problemi in caso di attacco informatico.
Puoi discutere l’importanza della privacy dei dati di formazione e perché è suscettibile all’ingegneria inversa?
Questa è una grande domanda e c’è bisogno di molta più educazione su questo. In modo semplicistico, i modelli di apprendimento automatico memorizzano le informazioni. Più grandi sono i modelli, più memorizzano casi limite. Ciò significa che le informazioni su cui quei modelli sono stati addestrati possono essere riprodotte in produzione. Ciò è stato dimostrato in diversi articoli di ricerca, tra cui The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks e Extracting Training Data from Large Language Models.
È stato anche dimostrato che le informazioni personali possono essere estratte da word embeddings e, per coloro che hanno dubbi su questo essere un problema reale, c’è stato anche uno scandalo quest’anno quando un chatbot coreano per innamorati ha scritto i dettagli degli utenti nelle chat con altri utenti.
Quali sono le tue opinioni sull’apprendimento federato e la privacy degli utenti?
L’apprendimento federato è un grande passo quando il caso d’uso lo consente. Tuttavia, è ancora possibile estrarre informazioni sugli input di un utente dagli aggiornamenti dei pesi inviati al cloud da un dispositivo di un utente specifico, quindi è importante combinare l’apprendimento federato con altre tecnologie di miglioramento della privacy (privacy differenziale e crittografia omomorfica/computazione sicura tra più parti). Ogni tecnologia di miglioramento della privacy deve essere scelta in base al caso d’uso – nessuna può essere utilizzata come un martello per risolvere tutti i problemi. Noi esaminiamo l’albero delle decisioni qui. Un grande vantaggio è che non si inviano mai i dati grezzi al di fuori del dispositivo. Un grande svantaggio è che se si hanno bisogno di dati per eseguire il debug di un sistema o per verificare se sta funzionando correttamente, diventa molto più difficile ottenerli. L’apprendimento federato è un buon inizio con molti problemi irrisolti su cui stanno lavorando la ricerca e l’industria.
Private AI consente agli sviluppatori di integrare l’analisi della privacy con poche righe di codice per garantire la privacy, come funziona?
La nostra tecnologia funziona come un’API REST a cui i nostri utenti inviano richieste POST con il testo che desiderano oscurare, de-identificare o pseudonimizzare/aumentare con dati realistici. Alcuni dei nostri clienti inviano trascrizioni di chiamate che devono essere oscurate per essere conformi alle norme PCI, mentre altri inviano intere chat in modo che possano utilizzare le informazioni per addestrare chatbot, analizzatori di sentimenti o altri modelli NLP. I nostri utenti possono anche scegliere quali entità devono mantenere o utilizzare come metadati per tenere traccia di dove vengono archiviati i dati personali. Noi eliminiamo il dolore di dover addestrare un sistema preciso per rilevare e sostituire le informazioni personali in dati molto sporchi.
Perché la privacy per i dispositivi IoT è un problema attuale e quali sono le tue opinioni sulla sua risoluzione?
In ultima analisi, il modo migliore per risolvere un problema di privacy è molto dipendente dal caso d’uso e i dispositivi IoT non sono diversi. Mentre alcuni casi d’uso potrebbero fare affidamento sulla distribuzione edge, sull’inferenza edge e sull’apprendimento federato che preserva la privacy (ad esempio, il sensing della folla nelle città intelligenti), altri casi d’uso potrebbero fare affidamento sull’aggregazione dei dati e sull’anonimizzazione (ad esempio, le informazioni sull’uso dell’energia). Detto questo, i dispositivi IoT sono un esempio perfetto di come la privacy e la sicurezza debbano andare di pari passo. Questi dispositivi sono notoriamente insicuri agli attacchi informatici, quindi c’è solo tanto che le tecnologie di miglioramento della privacy possono fare senza risolvere le vulnerabilità fondamentali del dispositivo. D’altra parte, senza pensare a modi per migliorare la privacy degli utenti, le informazioni raccolte all’interno delle nostre case possono essere condivise, incontrollate, con parti sconosciute, rendendo estremamente difficile garantire la sicurezza delle informazioni. Abbiamo due fronti da migliorare qui e la legislazione bozza scritta dalla Commissione Europea sulla sicurezza dei dispositivi IoT potrebbe finire per essere ciò che scuote i produttori di dispositivi a prendere seriamente la loro responsabilità verso la sicurezza e la privacy dei consumatori.
C’è qualcos’altro che ti piacerebbe condividere su Private AI?
Siamo un gruppo di esperti in privacy, linguaggio naturale, linguaggio parlato, elaborazione di immagini, distribuzione di modelli di apprendimento automatico in ambienti a risorse limitate, supportati da M12, il fondo di venture di Microsoft.
Ci assicuriamo che i prodotti che creiamo, oltre a essere altamente precisi, siano anche efficienti dal punto di vista computazionale in modo che non si abbia una bolletta cloud enorme a fine mese. Inoltre, i dati dei nostri clienti non vengono mai trasferiti a noi – tutto viene elaborato nel loro ambiente.
Grazie per la grande intervista, per saperne di più visita Private AI.












