Interviste
Roshanak Houmanfar, VP di Machine Learning Products presso Integrate.ai – Intervista

Roshanak (Ro) Houmanfar è il VP di machine learning products per integrate.ai, un’azienda che aiuta gli sviluppatori a risolvere i problemi più importanti del mondo senza rischiare dati sensibili. Ro ha un particolare talento per trovare nuovi modi per semplificare concetti complessi di intelligenza artificiale e collegarli alle esigenze degli utenti. Sfruttando questa esperienza, si trova alla forefront della missione di integrate.ai di democratizzare l’accesso alla tecnologia di miglioramento della privacy.
Cosa ti ha inizialmente attirato verso la scienza dei dati e il machine learning?
Ho iniziato il mio percorso nella robotica. Dopo aver sperimentato con diversi angoli della robotica e aver bruciato un laboratorio di saldatura, sono giunta alla conclusione che ero più attratta dal lato dell’intelligenza artificiale del mio campo, e questo mi ha portato al meraviglioso mondo del machine learning.
Puoi descrivere il tuo ruolo attuale e cosa significa una giornata tipo per te?
Sono il VP di Product presso integrate.ai, un’azienda SaaS che aiuta gli sviluppatori a risolvere i problemi più importanti del mondo senza rischiare dati sensibili. Stiamo costruendo strumenti per il machine learning e l’analisi della privacy per il futuro distribuito dei dati.
Nella mia giornata tipo, lavoro con i nostri team attraverso funzioni per raggiungere tre cose:
Pensare a cosa potrebbe essere il futuro dell’intelligenza e come possiamo plasmare quel futuro in modo che l’intelligenza risolva i problemi più critici
Comprendere i punti deboli dei nostri clienti e come possiamo innovare per rendere il loro lavoro più impattante ed efficiente.
Assicurarmi che la nostra visione e il feedback dei clienti siano sempre considerati nello sviluppo del prodotto, lavorando in collaborazione con i nostri team per offrire le migliori funzionalità.
I dati sintetici sono attualmente tutti il rage nel machine learning, ma integrate.ai adotta un approccio un po’ contrarian. Quali sono alcune applicazioni in cui i dati sintetici potrebbero non essere un’opzione desiderabile?
Per capire quando i dati sintetici non sono la soluzione migliore, è importante capire innanzitutto quando lo sono. I dati sintetici sono migliori quando l’obiettivo di modellazione ha un piccolo importo di dati reali disponibili o nessuno – ad esempio, nei problemi di avvio a freddo e nel training di modelli basati su testo e immagini. A volte, semplicemente non c’è abbastanza dati necessari per addestrare un modello, ed è quando i dati sintetici brillano come soluzione.
Tuttavia, i dati sintetici sono sempre più utilizzati in situazioni in cui esiste una grande quantità di dati reali, ma quei dati sono isolati a causa di regolamenti sulla privacy, costi di centralizzazione o altri ostacoli di interoperabilità. Questo è un uso improprio dei dati sintetici. In questi casi d’uso, è difficile determinare il livello giusto di astrazione per la creazione di dati sintetici, risultando in dati sintetici di bassa qualità che possono causare pregiudizi innati o altri problemi lungo la strada che sono difficili da debuggare. Inoltre, i modelli addestrati con dati sintetici non sono paragonabili a quelli addestrati con dati reali di alta qualità e granulari.
Integrate.ai si specializza nell’offrire soluzioni di apprendimento federato, potresti descrivere cosa è l’apprendimento federato?
Nel machine learning tradizionale, tutti i dati di training del modello devono essere centralizzati in un database. Con l’apprendimento federato, i modelli possono essere addestrati su set di dati decentralizzati e distribuiti – o dati che risiedono in due o più database separati e non possono essere facilmente spostati. Funziona in questo modo: porzioni di un modello di machine learning vengono addestrate dove si trovano i dati, e i parametri del modello vengono condivisi tra i set di dati partecipanti per produrre un modello globale migliorato. E poiché nessun dato si muove all’interno del sistema, le organizzazioni possono addestrare modelli senza ostacoli come regolamenti sulla privacy e sulla sicurezza, costi o altre preoccupazioni di centralizzazione.
In generale, i dati di training accessibili con l’apprendimento federato sono di qualità molto più alta, poiché i dati centralizzati tendono a perdere un po’ della loro granularità a scapito della facilità di accesso in un’unica posizione.
Come un’azienda può identificare i migliori casi d’uso per l’apprendimento federato?
L’apprendimento federato è una tecnologia di machine learning costruita per situazioni in cui accedere ai dati o portarli nel tradizionale infrastruttura del machine learning con laghi di dati centralizzati è doloroso. Se stai sperimentando uno dei seguenti sintomi, l’apprendimento federato è per te:
- Fornisci prodotti intelligenti alimentati da analisi e machine learning e non puoi creare effetti di rete per i tuoi prodotti perché i dati sono di proprietà dei tuoi clienti.
- Stai lavorando attraverso lunghi accordi di servizio o accordi di condivisione dei dati per accedere ai dati dei tuoi partner.
- Stai spendendo molto tempo formando contratti di collaborazione con i tuoi partner, in particolare in situazioni in cui il risultato di questa partnership di dati è incerto per te.
- Siedi su una grande quantità di dati e vuoi monetizzare i tuoi set di dati, ma hai paura delle implicazioni per la tua reputazione.
- Stai già monetizzando i tuoi dati, ma stai spendendo molto tempo, sforzo e denaro per rendere i dati sicuri per la condivisione.
- La tua infrastruttura è stata lasciata indietro durante il passaggio al cloud, ma hai ancora bisogno di analisi e machine learning.
- Hai molte consociate che appartengono alla stessa organizzazione, ma non possono condividere direttamente i dati tra loro.
- I set di dati con cui hai a che fare sono troppo grandi o costosi da spostare, quindi hai deciso di non utilizzarli o le tue pipeline ETL ti costano molto.
- Hai un’applicazione o un’opportunità che credi possa avere un impatto significativo, ma non hai i dati necessari per farla accadere.
- I tuoi modelli di machine learning hanno raggiunto un plateau e non sai come migliorarli ulteriormente.
La privacy differenziale è spesso utilizzata in congiunzione con l’apprendimento federato, cosa è esattamente?
La privacy differenziale è una tecnica per garantire la privacy mentre si sfrutta il potere del machine learning. Utilizzando matematica diversa dalle tecniche di de-identificazione standard, la privacy differenziale aggiunge rumore durante l’addestramento del modello locale, preservando la maggior parte delle caratteristiche statistiche del set di dati mentre limita il rischio che i dati individuali vengano identificati.
In implementazioni ideali, la privacy differenziale porta il rischio vicino a zero, mentre i modelli di machine learning mantengono prestazioni simili – fornendo tutta la sicurezza necessaria per la de-identificazione dei dati, senza ridurre la qualità dei risultati del modello.
La privacy differenziale è inclusa nella piattaforma integrate.ai per default, quindi gli sviluppatori possono assicurarsi che i dati individuali non possano essere dedotti dai parametri del modello.
Potresti descrivere come funziona la piattaforma di apprendimento federato di integrate.ai?
La nostra piattaforma sfrutta le tecnologie di apprendimento federato e privacy differenziale per sbloccare una gamma di capacità di machine learning e analisi su dati che altrimenti sarebbero difficili o impossibili da accedere a causa di problemi di privacy, confidenzialità o ostacoli tecnici. Operazioni come l’addestramento del modello e l’analisi vengono eseguite localmente e solo i risultati finali vengono aggregati in modo sicuro e confidenziale.
integrate.ai è confezionato come uno strumento per gli sviluppatori, consentendo loro di integrare senza sforzo queste funzionalità in quasi ogni soluzione con un software development kit (SDK) facile da usare e un servizio cloud di supporto per la gestione end-to-end. Una volta integrata la piattaforma, gli utenti finali possono collaborare su set di dati sensibili mentre i custodi dei dati mantengono il pieno controllo. Le soluzioni che incorporano integrate.ai possono servire come strumenti di sperimentazione efficaci e servizi pronti per la produzione.
Quali sono alcuni esempi di come questa piattaforma può essere utilizzata nella diagnostica di precisione?
Una delle reti di partner con cui stiamo lavorando, l’Autism Sharing Initiative, raccoglie informazioni relative alla diagnostica dell’autismo e campioni di dati genomici per comprendere le connessioni dei diversi genotipi e fenotipi con la diagnosi dell’autismo. Ogni sito di dati individuali non ha abbastanza set di dati per far funzionare i modelli di machine learning, ma collettivamente creano un campione significativo. Tuttavia, spostare i dati rappresenta un alto rischio per la sicurezza e la privacy, e a causa dei regolamenti e delle politiche ospedaliere, questi istituti di ricerca hanno sempre fatto default sulla non condivisione.
In una rete diversa, con un setup simile, i ricercatori sono interessati a migliorare l’assegnazione dei trial clinici ai pazienti utilizzando una visione più olistica della storia di ogni paziente.
Le diverse organizzazioni di ricerca coinvolte hanno accesso a informazioni diverse su ogni paziente – un laboratorio ha accesso alle loro scansioni mediche, un altro laboratorio ha accesso alle loro informazioni genomiche e un altro istituto ha i risultati dei trial clinici. Ma queste diverse organizzazioni non possono condividere direttamente le informazioni tra loro.
Con la soluzione integrate.ai, ogni organizzazione può accedere ai dati degli altri per i propri obiettivi senza spostare i dati lontano dai custodi dei dati e quindi aderendo alle proprie politiche interne.
Potresti discutere l’importanza di rendere la privacy comprensibile e come integrate.ai consente questo?
Rendere la privacy comprensibile significa aprire molte porte a imprese e organizzazioni che storicamente erano chiuse a causa della natura ambigua del rischio. I regolamenti sulla privacy come il GDPR, il CCPA e l’HIPPA sono incredibilmente complessi e possono variare a seconda dell’industria, della regione e del tipo di dati, rendendo difficile per le organizzazioni determinare quali progetti di dati sono sicuri per la privacy. Piuttosto che sprecare tempo e personale verificando ogni casella, la piattaforma di apprendimento federato di integrate.ai offre la privacy differenziale, la crittografia omomorfica e il calcolo multiparty sicuro, quindi gli sviluppatori e i custodi dei dati possono stare tranquilli sapendo che i loro progetti saranno automaticamente conformi ai requisiti regolamentari, senza il fastidio di saltare attraverso ogni cerchio categorico.
C’è qualcos’altro che vorresti condividere su integrate.ai?
La soluzione di integrate.ai è uno strumento incredibilmente amichevole per gli sviluppatori che consente un machine learning e un’analisi sicuri e rispettosi della privacy su fonti di dati sensibili. Attraverso API semplici da usare, tutta la complessità della conformità normativa e dei contratti su dati sensibili viene astratta. La soluzione di integrate.ai consente ai data scientist e agli sviluppatori di software di gestire il loro carico di lavoro in modo sicuro con un impatto minimo sulla loro infrastruttura e flussi di lavoro attuali.
Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare integrate.ai.












