Connect with us

Roshanak Houmanfar, VP of Machine Learning Products at Integrate.ai – Interview Series

Rozhovory

Roshanak Houmanfar, VP of Machine Learning Products at Integrate.ai – Interview Series

mm

Roshanak (Ro) Houmanfar je VP pro produkty strojového učení ve společnosti integrate.ai, společnosti, která pomáhá vývojářům řešit nejvýznamnější problémy světa bez ohrožení citlivých dat. Ro má zvláštní talent pro nacházení nových způsobů, jak zjednodušit složité koncepty AI a propojit je s potřebami uživatelů. Díky této odbornosti je na předním místě mise integrate.ai demokratizovat přístup k technologiím zvyšujícím ochranu soukromí.

Co vás původně přitáhlo k datové vědě a strojovému učení?

Začala jsem svou cestu v robotice. Po experimentování s různými úhly robotiky a spálení svařovací laboratoře jsem dospěla k závěru, že mě více přitahuje umělá inteligence, a to mě vedlo do úžasného světa strojového učení.

Můžete popsat svou současnou roli a jak vypadá průměrný den pro vás?

Jsem VP pro produkty ve společnosti integrate.ai, SaaS společnosti, která pomáhá vývojářům řešit nejvýznamnější problémy světa bez ohrožení citlivých dat. Budujeme nástroje pro bezpečné strojové učení a analýzu pro distribuovanou budoucnost dat.

V mém denním režimu pracuji s našimi týmy napříč funkcemi, abych dosáhla tří věcí:

Rozmyslet si, jak by mohla vypadat budoucnost inteligence a jak můžeme tuto budoucnost tvarovat, aby inteligence řešila nejkritičtější problémy

Porozumět bolestem našich zákazníků a jak můžeme inovovat, aby jejich práce byla více dopadová a efektivní.

Zajistit, aby naše vize a zpětná vazba zákazníků byly vždy zohledněny ve vývoji produktů, pracovat spoluprací s našimi týmy, abychom dodali nejlepší funkce.

Syntetická data jsou v současné době velmi populární ve strojovém učení, ale integrate.ai má trochu odlišný přístup. Jaké jsou některé aplikace, kde syntetická data nemusí být tou nejlepší volbou?

Abychom pochopili, kdy syntetická data nejsou nejlepší řešení, je důležité nejprve pochopit, kdy jsou. Syntetická data se nejlépe používají, když cíl modelování má buď malé množství skutečných dat nebo žádné – například u problémů s chladným startem a textovým a obrazovým trénováním modelů. Někdy prostě není dostatek dat potřebných k trénování modelu, a to je případ, kdy syntetická data vynikají jako řešení.

Nicméně syntetická data se stále více používají v situacích, kdy existuje dostatek skutečných dat, ale tato data jsou izolována kvůli předpisům na ochranu soukromí, centralizačním nákladům nebo jiným bariérám interoperability. To je zneužití syntetických dat. V těchto případech je obtížné určit správnou úroveň abstrakce pro vytváření syntetických dat, což vede k nízkokvalitním syntetickým datům, která mohou způsobit vrozené předpojatosti nebo jiné problémy, které jsou později obtížně odstranitelné. Kromě toho modely trénované na syntetických datech se nevyrovnají modelům trénovaným na skutečných, vysoce kvalitních a granulárních zdrojových datech.

Integrate.ai se specializuje na federované učení, můžete popsat, co je to federované učení?

V tradičním strojovém učení musí být všechna data pro trénování modelu centralizována v jedné databázi. S federovaným učením jsou modely schopny se učit na decentralizovaných, distribuovaných datech – nebo datech, které sídlí ve dvou nebo více samostatných databázích a nemohou být snadno přesunuty. To funguje tak, že části modelu strojového učení se trénují tam, kde se nachází data, a parametry modelu se sdílejí mezi účastnickými datovými sadami, aby se vyrobil vylepšený globální model. A protože se žádná data v systému nepohybují, organizace mohou trénovat modely bez bariér, jako jsou předpisy na ochranu soukromí, bezpečnost nebo jiné centralizační problémy.

Obecně je trénovací data dostupná pomocí federovaného učení mnohem vyšší kvality, protože centralizovaná data mají tendenci ztrácet část své granularnosti na úkor snadnosti přístupu na jednom místě.

Jak může podnik identifikovat nejlepší použití případů pro federované učení?

Federované učení je technologie strojového učení navržená pro situace, kdy přístup k datům nebo jejich přesunutí do tradiční infrastruktury strojového učení s centralizovanými datovými jezery je bolestivý. Pokud máte jednu z následujících příznaků, federované učení je pro vás:

  • Vyvíjíte chytré produkty poháněné analytikou a strojovým učením a nemůžete vytvářet síťové efekty pro vaše produkty, protože data vlastní vaši zákazníci.
  • Pracujete na dlouhých servisních smlouvách nebo dohodách o sdílení dat, aby jste získali přístup k datům od vašich partnerů.
  • Vyvíjíte spolupráci s vašimi partnery, zejména v situacích, kdy výsledek této datové partnerství není jasný pro vás.
  • Máte k dispozici velké množství dat a chcete je monetizovat, ale bojíte se dopadů na vaši pověst.
  • Už monetizujete svá data, ale trávíte spoustu času, úsilí a peněz, aby jste učinili data bezpečná pro sdílení.
  • Vaše infrastruktura byla zanechána během přechodu na cloud, ale stále potřebujete analytiku a strojové učení.
  • Máte mnoho dceřiných společností, které patří do stejné organizace, ale nemohou přímo sdílet data mezi sebou.
  • Pracujete s datovými sadami, které jsou příliš velké nebo drahé na to, aby je bylo možné přesunout, takže jste se rozhodli je nevyužít, nebo vaše ETL potrubí stojí mnoho.
  • Máte aplikaci nebo příležitost, o které jste přesvědčeni, že může mít významný dopad, ale nemáte sama data, aby jste to mohli udělat.
  • Vaše modely strojového učení dosáhly svého maxima a nevíte, jak je dále vylepšit.

Diferenční soukromí se často používá ve spojení s federovaným učením, co to je?

Diferenční soukromí je technika, která zajišťuje soukromí a současně využívá sílu strojového učení. Používá se odlišná matematika než standardní techniky deidentifikace, diferenciální soukromí přidává šum během lokálního trénování modelu, zachovává většinu statistických vlastností datové sady a současně omezuje riziko, že by могла být identifikována data jednotlivce.

V ideálním případě diferenciální soukromí snižuje riziko téměř na nulu, zatímco modely strojového učení si zachovávají podobné výkony – poskytují veškerou potřebnou bezpečnost pro deidentifikaci dat, aniž by snižovaly kvalitu výsledků modelu.

Diferenční soukromí je součástí platformy integrate.ai jako výchozí hodnota, takže vývojáři mohou zajistit, aby individuální data nemohla být odvozena z jejich modelových parametrů.

Můžete popsat, jak funguje platforma integrate.ai?

Naše platforma využívá federované učení a diferenciální soukromí, aby odemkla řadu schopností strojového učení a analýzy na datech, která by jinak byla obtížně nebo nemožně dostupná kvůli předpisům na ochranu soukromí, důvěrnosti nebo technickým bariérám. Operace, jako je trénování modelu a analýza, se provádějí místně a pouze konečné výsledky se agregují v bezpečném a důvěrném způsobem.

Integrate.ai je baleno jako nástroj pro vývojáře, který umožňuje vývojářům snadno integrovat tyto schopnosti do téměř jakéhokoli řešení pomocí snadno použitelného softwarového vývojového kitu (SDK) a podpůrné cloudové služby pro správu koncových výsledků. Jakmile je platforma integrována, koncoví uživatelé mohou spolupracovat na citlivých datech, zatímco správci dat si uchovávají plnou kontrolu. Řešení, která zahrnují integrate.ai, mohou sloužit jako efektivní nástroje pro experimentování i jako produkční služby.

Jaké jsou některé příklady toho, jak lze tuto platformu použít v přesné diagnostice?

Jedna z našich partnerských sítí, Autism Sharing Initiative, shromažďuje informace související s diagnostikou autismu a také vzorky genomových dat, aby pochopila spojení různých genotypů a fenotypů s diagnostikou autismu. Každá jednotlivá datová lokalita nemá dostatek datových sad, aby mohly modely strojového učení fungovat, ale společně vytvářejí smysluplnou velikost vzorku. Nicméně, přesunutí dat představuje vysoké riziko pro bezpečnost a soukromí, a kvůli předpisům a politice nemocnic tyto výzkumné instituce vždy defaultovaly na nesdílení.

V jiné síti, se stejnou konfigurací, výzkumníci se snaží zlepšit přiřazování klinických studií pacientům pomocí holistického pohledu na historii každého pacienta.

Různé výzkumné instituce zapojené do toho mají přístup k různým informacím o každém pacientovi – jedna laboratoř má přístup k jejich lékařským snímkům, jiná laboratoř má přístup k jejich genomickým informacím a další instituce má výsledky jejich klinických studií. Ale tyto různé organizace nemohou přímo sdílet informace s ostatními.

S řešením integrate.ai, každá organizace může získat přístup k datům ostatních pro své cíle bez přesunutí dat od správců dat a tím i dodržování jejich vnitřních politik.

Můžete diskutovat o důležitosti srozumitelnosti soukromí a jak integrate.ai to umožňuje?

Srozumitelnost soukromí znamená otevření mnoha dveří podnikům a organizacím, které historicky byly uzavřeny kvůli nejasné povaze rizika. Předpisy na ochranu soukromí, jako jsou GDPR, CCPA a HIPPA, jsou nesmírně komplexní a mohou se lišit v závislosti na odvětví, regionu a typu dat, což činí obtížným pro organizace určit, které datové projekty jsou bezpečné pro soukromí. Místo toho, aby se ztrácel čas a pracovní síla kontrolou každé položky, platforma integrate.ai nabízí vestavěné diferenciální soukromí, homomorfní šifrování a bezpečné vícestranné výpočty, takže vývojáři a správci dat mohou být v klidu, že jejich projekty budou automaticky splňovat regulační požadavky, bez zbytečných formalit.

Je něco jiného, co byste rádi sdíleli o integrate.ai?

Řešení integrate.ai je neuvěřitelně vývojářsky přátelským nástrojem, který umožňuje souladné, soukromí-přátelské a bezpečné strojové učení a analýzu nad citlivými zdroji dat. Prostřednictvím snadno použitelných API je veškerá složitost regulační compliance a smluv na citlivá data abstrahována. Řešení integrate.ai umožňuje datovým vědcům a softwarovým vývojářům spravovat svou práci bezpečně s minimálním dopadem na jejich stávající infrastrukturu a pracovní postupy.

Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit integrate.ai.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.