mozzicone Roshanak Houmanfar, VP of Machine Learning Products presso Integrate.ai - Serie di interviste - Unite.AI
Seguici sui social

interviste

Roshanak Houmanfar, VP of Machine Learning Products presso Integrate.ai – Serie di interviste

mm
aggiornato on

Roshanak (Ro) Houmanfar è il vicepresidente dei prodotti di machine learning integrare.ai, un'azienda che aiuta gli sviluppatori a risolvere i problemi più importanti del mondo senza rischiare dati sensibili. Ro ha un talento particolare per trovare nuovi modi per semplificare concetti complessi di intelligenza artificiale e collegarli alle esigenze degli utenti. Sfruttando questa esperienza, è in prima linea nella missione di integrate.ai di democratizzare l'accesso alla tecnologia che migliora la privacy.

Cosa ti ha attratto inizialmente della scienza dei dati e dell'apprendimento automatico?

Ho iniziato il mio viaggio nella robotica. Dopo aver sperimentato le diverse angolazioni della robotica e bruciato un laboratorio di saldatura, sono giunto alla conclusione che ero più attratto dal lato dell'intelligenza artificiale del mio campo e questo mi ha portato al meraviglioso mondo dell'apprendimento automatico.

Potresti descrivere il tuo ruolo attuale e com'è una giornata tipo per te?

Sono il vicepresidente del prodotto presso integrare.ai, una società SaaS che aiuta gli sviluppatori a risolvere i problemi più importanti del mondo senza rischiare dati sensibili. Stiamo costruendo strumenti per l'apprendimento automatico e l'analisi sicuri per la privacy per il futuro distribuito dei dati.

Nella mia vita quotidiana, lavoro con i nostri team in tutte le funzioni per raggiungere tre obiettivi:

Pensa a come potrebbe essere il futuro dell'intelligenza e come possiamo plasmare quel futuro in modo che l'intelligenza risolva i problemi più critici

Comprendere i punti deboli dei nostri clienti e come possiamo innovare per rendere il loro lavoro più efficace ed efficiente.

Assicurati che la nostra visione e il feedback dei clienti siano sempre considerati nello sviluppo del prodotto, lavorando in collaborazione con i nostri team per offrire le migliori funzionalità.

I dati sintetici sono attualmente di gran moda nel machine learning, ma integral.ai adotta un approccio un po’ controcorrente. Quali sono alcune applicazioni in cui i dati sintetici potrebbero non essere un'opzione desiderabile?

Per capire quando i dati sintetici non sono la soluzione migliore, è importante prima capire in generale quando lo sono. I dati sintetici vengono utilizzati al meglio quando l'obiettivo di modellazione dispone di una piccola quantità di dati reali disponibili o del tutto assenti, ad esempio nei problemi di avvio a freddo e nell'addestramento del modello basato su testo e immagini. A volte, semplicemente non ci sono abbastanza dati necessari per addestrare un modello, che è quando i dati sintetici brillano come soluzione.

Tuttavia, i dati sintetici vengono sempre più utilizzati in situazioni in cui esistono molti dati reali, ma tali dati sono isolati a causa delle normative sulla privacy, dei costi di centralizzazione o di altri ostacoli all'interoperabilità. Questo è un flagrante uso improprio di dati sintetici. In questi casi d'uso, è difficile determinare il giusto livello di astrazione per la creazione di dati sintetici, con il risultato di dati sintetici di bassa qualità che possono causare pregiudizi innati o altri problemi a valle di cui è difficile eseguire il debug. Inoltre, i modelli addestrati su dati sintetici semplicemente non sono paragonabili a quelli addestrati su dati di origine reali, di alta qualità e granulari.

Integrate.ai è specializzato nell'offerta di soluzioni di apprendimento federato, potresti descrivere cos'è l'apprendimento federato?

Nell'apprendimento automatico tradizionale, tutti i dati di addestramento del modello devono essere centralizzati in un database. Con l'apprendimento federato, i modelli possono essere addestrati su set di dati distribuiti e decentralizzati o su dati che risiedono in due o più database separati e non possono essere facilmente spostati. Il modo in cui funziona è che le parti di un modello di apprendimento automatico vengono addestrate dove si trovano i dati e i parametri del modello vengono condivisi tra i set di dati partecipanti per produrre un modello globale migliorato. E poiché nessun dato si sposta all'interno del sistema, le organizzazioni possono addestrare i modelli senza ostacoli come normative sulla privacy e sulla sicurezza, costi o altri problemi di centralizzazione.

In generale, anche i dati di formazione accessibili con l'apprendimento federato sono di qualità molto superiore, poiché i dati centralizzati tendono a perdere parte della loro granularità a scapito della facilità di accesso in un'unica posizione.

In che modo un'azienda identifica i migliori casi d'uso per l'apprendimento federato?

L'apprendimento federato è uno stack tecnologico di apprendimento automatico creato per situazioni in cui l'accesso ai dati o il loro inserimento nell'infrastruttura tradizionale dell'apprendimento automatico con data lake centralizzati è problematico. Se riscontri uno dei seguenti sintomi, l'apprendimento federato fa per te:

  • Fornisci prodotti intelligenti basati su analisi e apprendimento automatico e non puoi creare effetti di rete per i tuoi prodotti perché i dati sono di proprietà dei tuoi clienti.
  • Stai lavorando a lunghi contratti di servizio principali o accordi di condivisione dei dati per ottenere l'accesso ai dati dai tuoi partner.
  • Trascorri molto tempo a stipulare contratti di collaborazione con i tuoi partner, in particolare in situazioni in cui il risultato di questa partnership di dati non ti è chiaro.
  • Ti siedi su una grande quantità di dati e vuoi monetizzare i tuoi set di dati, ma hai paura delle implicazioni per la tua reputazione.
  • Stai già monetizzando i tuoi dati, ma stai spendendo molto tempo, impegno e denaro per rendere i dati sicuri da condividere.
  • La tua infrastruttura è stata lasciata indietro durante il passaggio al cloud, ma hai ancora bisogno di analisi e machine learning.
  • Hai molte filiali che appartengono alla stessa organizzazione ma non possono condividere direttamente i dati tra loro.
  • I set di dati con cui hai a che fare sono troppo grandi o costosi per essere spostati, quindi hai deciso di non utilizzarli o le tue pipeline ETL ti costano molto.
  • Hai un'applicazione o un'opportunità che ritieni possa avere un impatto significativo, ma non disponi dei dati per realizzarla.
  • I tuoi modelli di machine learning si sono stabilizzati e non sai come migliorarli ulteriormente.

La privacy differenziale viene spesso utilizzata in combinazione con l'apprendimento federato, che cos'è nello specifico?

La privacy differenziale è una tecnica per garantire la privacy sfruttando contemporaneamente la potenza dell'apprendimento automatico. Utilizzando una matematica diversa rispetto alle tecniche di anonimizzazione standard, la privacy differenziale aggiunge rumore durante l'addestramento del modello locale, preservando la maggior parte delle caratteristiche statistiche del set di dati e limitando il rischio che i dati di qualsiasi individuo vengano identificati.

Nelle implementazioni ideali, la privacy differenziale porta il rischio vicino allo zero, mentre i modelli di machine learning mantengono prestazioni simili, fornendo tutta la sicurezza necessaria per l'anonimizzazione dei dati, senza ridurre la qualità dei risultati del modello.

La privacy differenziale è inclusa in integrare.aiper impostazione predefinita, in modo che gli sviluppatori possano garantire che i dati individuali non possano essere dedotti dai parametri del loro modello.

Potresti descrivere come funziona la piattaforma di apprendimento federata integrate.ai?

La nostra piattaforma sfrutta l'apprendimento federato e le tecnologie di privacy differenziale per sbloccare una gamma di funzionalità di machine learning e analisi su dati a cui sarebbe altrimenti difficile o impossibile accedere a causa di privacy, riservatezza o ostacoli tecnici. Operazioni come l'addestramento e l'analisi dei modelli vengono eseguite localmente e solo i risultati finali vengono aggregati in modo sicuro e riservato.

integrate.ai è confezionato come uno strumento per sviluppatori, consentendo agli sviluppatori di integrare perfettamente queste funzionalità in quasi tutte le soluzioni con un kit di sviluppo software (SDK) di facile utilizzo e supporto del servizio cloud per la gestione end-to-end. Una volta che la piattaforma è integrata, gli utenti finali possono collaborare su set di dati sensibili mentre i custodi mantengono il pieno controllo. Le soluzioni che incorporano integrate.ai possono fungere sia da efficaci strumenti di sperimentazione sia da servizi pronti per la produzione.

Quali sono alcuni esempi di come questa piattaforma può essere utilizzata nella diagnostica di precisione?

Una delle reti di partner con cui lavoriamo, the Iniziativa di condivisione dell'autismo, raccoglie informazioni relative alla diagnostica dell'autismo e campioni di dati sul genoma per comprendere le connessioni dei diversi genotipi e fenotipi alle diagnosi di autismo. Ogni singolo sito di dati non dispone di set di dati sufficienti per far funzionare i modelli di machine learning, ma collettivamente creano una dimensione del campione significativa. Tuttavia, lo spostamento dei dati rappresenta un rischio elevato per la sicurezza e la privacy e, a causa delle normative e delle politiche ospedaliere, questi istituti di ricerca si sono sempre rifiutati di non condividerli.

In una rete diversa, con una configurazione simile, i ricercatori sono interessati a migliorare l'assegnazione delle sperimentazioni cliniche ai pazienti utilizzando una visione più olistica della storia di ciascun paziente.

I diversi istituti di ricerca coinvolti hanno accesso a diverse informazioni su ciascun paziente: un laboratorio ha accesso alle proprie scansioni mediche, l'altro laboratorio ha accesso alle proprie informazioni genomiche e un altro istituto ha i risultati della sperimentazione clinica. Ma queste diverse organizzazioni non possono condividere direttamente le informazioni tra loro.

Con la soluzione integrate.ai, ogni organizzazione può accedere ai dati reciproci per i propri obiettivi senza spostare i dati dai custodi dei dati e quindi aderire alle proprie politiche interne.

Potresti discutere dell'importanza di rendere comprensibile la privacy e di come integrate.ai lo consente?

Rendere comprensibile la privacy significa aprire molte porte ad aziende e organizzazioni che storicamente erano chiuse a causa della natura ambigua del rischio. Le normative sulla privacy come GDPR, CCPA e HIPPA sono incredibilmente complesse e possono variare a seconda del settore, della regione e del tipo di dati, rendendo difficile per le organizzazioni determinare quali progetti di dati sono sicuri per la privacy. Anziché sprecare tempo e manodopera controllando ogni casella, la piattaforma di apprendimento federato di integrate.ai offre privacy differenziale integrata, crittografia omomorfica e calcolo multipartitico sicuro, in modo che sviluppatori e custodi dei dati possano stare tranquilli sapendo che i loro progetti rispetteranno automaticamente le normative requisiti, senza il fastidio di saltare attraverso ogni cerchio categorico.

C'è qualcos'altro che vorresti condividere su integrate.ai?

La soluzione di integrate.ai è uno strumento incredibilmente intuitivo per gli sviluppatori che consente l'apprendimento automatico e l'analisi conformi, rispettosi della privacy e sicuri su fonti di dati sensibili. Attraverso API semplici da usare, tutta la complessità della conformità normativa e dei contratti in aggiunta ai dati sensibili viene eliminata. La soluzione di integrate.ai consente ai data scientist e agli sviluppatori di software di gestire i propri carichi di lavoro in modo sicuro con un impatto minimo sull'infrastruttura e sui flussi di lavoro correnti.

Grazie per l'ottima intervista, i lettori che desiderano saperne di più dovrebbero visitare integrare.ai.

Socio fondatore di unite.AI e membro di Consiglio tecnologico di Forbes, Antonio è un futurista che è appassionato del futuro dell'intelligenza artificiale e della robotica.

È anche il Fondatore di Titoli.io, un sito web che si concentra sugli investimenti in tecnologie dirompenti.