Interviste
Amy Steier, Principal Machine Learning Scientist at Gretel.ai – Intervista Serie

Amy Steier è il Principal Machine Learning Scientist di Gretel.ai, la piattaforma di ingegneria della privacy più avanzata del mondo. Gretel rende facile incorporare la privacy by design nel tessuto della tecnologia basata sui dati. Le sue librerie open-source basate sull’intelligenza artificiale sono progettate per trasformare, anonimizzare e sintetizzare le informazioni sensibili.
Amy è una scienziata di machine learning e data science molto esperta, con più di 20 anni di esperienza. La sua passione è il big data e portare alla luce l’intelligenza nascosta utilizzando tecniche di machine learning, data mining, intelligenza artificiale e statistica. È molto abile nella modellazione predittiva, classificazione, clustering, rilevamento di anomalie, visualizzazione dei dati, metodi ensemble, recupero delle informazioni, analisi di cybersecurity, NLP, modelli di raccomandazione e analisi del comportamento degli utenti.
Cosa ti ha inizialmente attratto a perseguire una carriera nel computer science e machine learning?
Il mio amore puro, sfrenato e duraturo per i dati. Il potere, il mistero, l’intrigo e il potenziale dei dati mi hanno sempre affascinato. Il computer science e il machine learning sono strumenti per sfruttare questo potenziale. È anche terribilmente divertente lavorare in un campo dove lo stato dell’arte si muove così velocemente. Mi piace l’intersezione tra ricerca e prodotto. È molto soddisfacente prendere idee all’avanguardia, spingerle un po’ più in là e poi adattarle alle esigenze di prodotto esistenti e tangibili.
Per i lettori che non sono familiari, potresti spiegare cosa è il dato sintetico?
Il dato sintetico è un dato che sembra e si comporta come il dato originale, ma è anche abbastanza diverso da soddisfare un determinato caso d’uso. Il caso d’uso più comune è la necessità di proteggere la privacy delle informazioni nel dato originale. Un altro caso d’uso è la necessità di creare ulteriori dati per aumentare le dimensioni del set di dati originale. Un altro caso d’uso ancora è aiutare a risolvere un problema di squilibrio di classe o forse di pregiudizio demografico nel set di dati originale.
Il dato sintetico consente di continuare a sviluppare nuovi e innovativi prodotti e soluzioni quando i dati necessari per farlo altrimenti non sarebbero presenti o disponibili.
Come funziona la piattaforma Gretel per creare dati sintetici tramite API?
Le API di ingegneria della privacy di Gretel consentono di ingurgitare i dati in Gretel ed esplorare i dati che siamo in grado di estrarre. Queste sono le stesse API utilizzate dal nostro Console. Esporre le API, attraverso un’interfaccia intuitiva, speriamo di potenziare gli sviluppatori e gli scienziati dei dati per costruire i propri flussi di lavoro intorno a Gretel.
Mentre la console rende molto facile la creazione di dati sintetici, le API consentono di integrare la creazione di dati sintetici nel proprio flusso di lavoro. Mi piace utilizzare le API perché mi consentono di personalizzare la creazione di dati sintetici per un caso d’uso molto particolare.
Potresti discutere alcuni degli strumenti offerti da Gretel per aiutare a valutare la qualità dei dati sintetici?
Dopo la creazione dei dati sintetici, Gretel genererà un Rapporto sui dati sintetici. In questo rapporto puoi vedere il Punteggio di qualità dei dati sintetici (SQS), nonché un grado di livello di protezione della privacy (PPL).
Il punteggio SQS è una stima di quanto bene i dati sintetici generati mantengono le stesse proprietà statistiche del set di dati originale. In questo senso, il punteggio SQS può essere considerato come un punteggio di utilità o un punteggio di fiducia su cui le conclusioni scientifiche tratte dal set di dati sintetico sarebbero le stesse se si utilizzasse il set di dati originale.
Il punteggio di qualità dei dati sintetici è calcolato combinando le metriche di qualità individuali: Stabilità della distribuzione dei campi, Stabilità della correlazione dei campi e Stabilità della struttura profonda.
La stabilità della distribuzione dei campi è una misura di quanto bene i dati sintetici mantengono le stesse distribuzioni dei campi presenti nel dato originale. La stabilità della correlazione dei campi è una misura di quanto bene le correlazioni tra i campi sono mantenute nei dati sintetici. E infine, la stabilità della struttura profonda misura l’integrità statistica delle distribuzioni e delle correlazioni a più campi. Per stimare ciò, Gretel confronta un’analisi dei componenti principali (PCA) calcolata prima sui dati originali e poi sui dati sintetici.
Come funzionano i filtri di privacy di Gretel?
I filtri di privacy di Gretel sono stati il culmine di molte ricerche sulla natura degli attacchi adversarial ai dati sintetici. I filtri di privacy impediscono la creazione di dati sintetici con debolezze comunemente sfruttate dagli adversarial. Abbiamo due filtri di privacy, il primo è il filtro di similarità e il secondo è il filtro degli outlier. Il filtro di similarità impedisce la creazione di record sintetici che sono troppo simili a un record di training. Questi sono obiettivi principali degli adversarial che cercano di ottenere informazioni sui dati originali. Il secondo filtro di privacy è il filtro degli outlier. Ciò impedisce la creazione di record sintetici che sarebbero considerati outlier nello spazio definito dai dati di training. Gli outlier rivelati in un set di dati sintetico possono essere sfruttati da attacchi di inferenza di appartenenza, inferenza di attributi e una vasta gamma di altri attacchi adversarial. Sono un grave rischio per la privacy.
Come possono i dati sintetici aiutare a ridurre il bias dell’AI?
La tecnica più comune è quella di affrontare il pregiudizio rappresentativo dei dati che alimentano un sistema AI. Ad esempio, se esiste un forte squilibrio di classe nei tuoi dati o forse esiste un pregiudizio demografico nei tuoi dati, Gretel offre strumenti per aiutare a misurare lo squilibrio e poi a risolverlo nei dati sintetici. Rimuovendo il pregiudizio nei dati, spesso si rimuove anche il pregiudizio nel sistema AI costruito sui dati.
Chiaramente, ti piace imparare nuove tecnologie di machine learning, come fai a stare al passo con tutti i cambiamenti?
Leggere, leggere e poi leggere ancora, lol! Mi piace iniziare la mia giornata leggendo di nuove tecnologie di ML. Il Medium mi conosce così bene. Mi piace leggere articoli in Towards Data Science, Analytics Vidhya e newsletter come The Sequence. Facebook AI, Google AI e OpenMined hanno tutti ottimi blog. Ci sono una moltitudine di buone conferenze da seguire come NeurIPS, ICML, ICLR, AISTATS.
Mi piace anche utilizzare strumenti che seguono le tracce delle citazioni, aiutano a trovare articoli simili a quelli che ti piacciono e che si adattano ai tuoi interessi specifici e sono sempre in ascolto in sottofondo per un articolo che potrebbe interessarti. Zeta Alpha è uno strumento che utilizzo molto.
Infine, non si può sottovalutare il beneficio di avere colleghi con interessi simili. Nel team di ML di Gretel, seguiamo le ricerche relative ai campi che esploriamo e spesso ci incontriamo per discutere articoli interessanti.
Qual è la tua visione per il futuro del machine learning?
L’accesso facile ai dati inizierà una grande era di innovazione nel machine learning, che a sua volta aumenterà l’innovazione in una vasta gamma di campi come la sanità, la finanza, la produzione e le bioscienze. Storicamente, molti progressi fondamentali nel ML possono essere attribuiti a un grande volume di dati ricchi. Tuttavia, storicamente, molte ricerche sono state ostacolate dall’incapacità di accedere o condividere i dati a causa di preoccupazioni sulla privacy. Come strumenti come Gretel rimuovono questa barriera, l’accesso ai dati sarà democratizzato. L’intera comunità del machine learning trarrà beneficio dall’accesso a set di dati ricchi e grandi, invece di solo poche aziende elite.
C’è qualcos’altro che ti piacerebbe condividere su Gretel?
Se ami i dati, amerai Gretel (evidentemente io amo Gretel!). L’accesso facile ai dati è stato il problema di ogni scienziato dei dati che abbia mai conosciuto. A Gretel, ci vantiamo di aver creato una console e un set di API che rendono la creazione di dati privati e condivisibili il più semplice possibile. Crediamo profondamente che i dati siano più preziosi quando vengono condivisi.
Grazie per la grande intervista e per aver condiviso le tue idee, i lettori che desiderano saperne di più possono visitare Gretel.ai.












