Connect with us

访谈

Roshanak Houmanfar,Integrate.ai 机器学习产品副总裁 – 采访系列

mm

Roshanak (Ro) Houmanfar 是 Integrate.ai 的机器学习产品副总裁,Integrate.ai 是一家帮助开发人员解决世界上最重要问题而不泄露敏感数据的公司。Ro 有一种特殊的才能,可以找到新的方法来简化复杂的 AI 概念,并将其与用户需求联系起来。利用这种专业知识,她站在 Integrate.ai 使命的前沿,旨在使隐私增强技术的访问更加民主。

您最初是什么吸引到了数据科学和机器学习?

我从机器人领域开始我的旅程。在尝试了机器人领域的不同角度,并烧毁了一个焊接实验室之后,我得出结论,我更倾向于我领域的人工智能方面,这让我进入了机器学习的美妙世界。

您能描述一下您的当前角色以及您的一天通常是什么样的吗?

我是 Integrate.ai 的产品副总裁,Integrate.ai 是一家帮助开发人员解决世界上最重要问题而不泄露敏感数据的 SaaS 公司。我们正在构建用于分布式数据的隐私安全机器学习和分析工具。

在我的日常工作中,我与我们的团队跨功能合作以实现三件事:

思考未来智能可能是什么样子以及我们如何塑造这种未来,使智能解决最关键的问题

了解我们的客户的痛点以及我们如何创新使他们的工作更加有效。

确保我们的愿景和客户反馈始终在产品开发中被考虑,我们与团队合作交付最佳功能。

合成数据目前在机器学习中非常流行,但 Integrate.ai 采取了一种相反的方法。合成数据可能不是最佳选择的应用有哪些?

为了了解何时合成数据不是最佳解决方案,首先需要了解何时它是合适的。合成数据最适合用于目标建模具有少量或没有真实数据可用的情况,例如冷启动问题和基于文本和图像的模型训练。有时,训练模型所需的数据根本不存在,这就是合成数据发挥作用的地方。

然而,合成数据正在被用于大量真实数据存在但由于隐私法规、集中成本或其他互操作性障碍而被隔离的情况。这是对合成数据的滥用。在这些用例中,很难确定合成数据创建的正确抽象级别,导致合成数据质量低下,可能会引起固有的偏差或其他难以调试的问题。此外,训练在合成数据上的模型与训练在真实、高质量、细粒度源数据上的模型相比,差异很大。

Integrate.ai 专门提供联邦学习解决方案,您能描述一下什么是联邦学习吗?

在传统的机器学习中,所有模型训练数据必须集中在一个数据库中。使用联邦学习,模型可以在分散的数据集上进行训练 – 或者说,数据位于两个或多个单独的数据库中,无法轻松移动。其工作原理是,机器学习模型的部分在数据所在位置进行训练,模型参数在参与的数据集之间共享以产生改进的全局模型。由于系统内没有数据移动,组织可以在没有诸如隐私和安全法规、成本或其他集中式问题等障碍的情况下训练模型。

一般来说,联邦学习可访问的训练数据质量更高,因为集中式数据往往会以牺牲某些方面的便利性为代价而失去一些细节。

企业如何确定联邦学习的最佳用例?

联邦学习是一种机器学习技术栈,适用于访问数据或将其带入传统机器学习的集中式数据湖的基础设施中很痛苦。如果您遇到以下任何症状,联邦学习适合您:

  • 您提供由分析和机器学习驱动的智能产品,但由于数据由您的客户所有,您无法为您的产品创建网络效应。
  • 您正在处理长期的服务协议或数据共享协议,以从您的合作伙伴那里获取数据。
  • 您正在与您的合作伙伴形成合作合同,特别是在数据合作的结果对您不明确的情况下。
  • 您拥有大量数据,并希望将其数据集货币化,但您担心对您声誉的影响。
  • 您已经在货币化您的数据,但您正在花费大量时间、精力和金钱使数据安全共享。
  • 您的基础设施在向云迁移过程中被落下,但您仍需要分析和机器学习。
  • 您有许多子公司属于同一组织,但它们无法直接共享数据。
  • 您处理的数据集太大或太昂贵,无法移动,因此您决定不使用它们,或者您的 ETL 管道成本很高。
  • 您有一个应用程序或机会,您相信它可以产生重大影响,但您没有数据来使其发生。
  • 您的机器学习模型已经达到瓶颈,您不知道如何进一步改进它们。

差分隐私通常与联邦学习一起使用,这是什么?

差分隐私是一种确保隐私的同时利用机器学习的强大的技术。使用与标准去识别技术不同的数学,差分隐私在本地模型训练期间添加噪声,保留大多数数据集的统计特征,同时限制任何个人的数据被识别的风险。

在理想的实现中,差分隐私将风险降低到几乎为零,同时机器学习模型保持类似的性能 – 提供所有必要的安全性以对数据进行去识别,而不会降低模型结果的质量。

差分隐私默认包含在 Integrate.ai 的平台中,因此开发人员可以确保个别数据无法从其模型参数中推断出来。

您能描述一下 Integrate.ai 的联邦学习平台如何工作吗?

我们的平台利用联邦学习和差分隐私技术来解锁一系列机器学习和分析能力,这些能力在数据由于隐私、保密或技术障碍而难以或无法访问的情况下将非常困难。操作,例如模型训练和分析,在本地执行,只有最终结果以安全和保密的方式聚合。

Integrate.ai 以开发人员工具包装,允许开发人员使用易于使用的软件开发工具包 (SDK) 和支持云服务进行端到端管理无缝地将这些功能集成到几乎任何解决方案中。一旦平台集成,终端用户可以在敏感数据集上进行合作,而数据保管者保留完全的控制权。包含 Integrate.ai 的解决方案可以作为有效的实验工具和生产就绪服务。

该平台如何在精确诊断中使用的例子有哪些?

我们正在合作的合作伙伴网络之一,Autism Sharing Initiative,收集与自闭症诊断相关的信息以及基因组数据样本,以了解自闭症诊断中不同基因型和表型之间的联系。每个个别数据站点没有足够的数据集来使机器学习模型发挥作用,但集体地它们创建了一个有意义的样本大小。然而,移动数据会对安全性和隐私构成高风险,并且由于法规和医院政策,这些研究机构一直默认不共享。

在一个具有类似设置的不同网络中,研究人员有兴趣使用对每个患者历史的更全面的了解来改进将临床试验分配给患者。

参与的不同组织可以访问有关每个患者的不同信息 – 一个实验室可以访问他们的医疗扫描,另一个实验室可以访问他们的基因信息,另一个机构可以访问他们的临床试验结果。但是,这些不同的组织无法直接共享信息。

使用 Integrate.ai 解决方案,每个组织可以在不将数据从数据保管者那里移动的情况下访问彼此的数据以实现其目标,从而遵守其内部政策。

您能讨论一下使隐私可理解的重要性以及 Integrate.ai 如何实现这一点吗?

使隐私可理解意味着为历史上由于风险的模糊性而关闭的业务和组织打开了很多大门。像 GDPR、CCPA 和 HIPPA 这样的隐私法规非常复杂,并且可能根据行业、地区和数据类型而有所不同,使得组织难以确定哪些数据项目是隐私安全的。与其浪费时间和人力检查每个盒子,Integrate.ai 的联邦学习平台提供了默认的差分隐私、同态加密和安全多方计算,因此开发人员和数据保管者可以放心地知道他们的项目将自动遵守法规要求,而无需通过每个类别的环节。

您是否还有其他关于 Integrate.ai 的信息想要分享?

Integrate.ai 的解决方案是一种非常适合开发人员的工具,允许在敏感数据源上进行合规、隐私保护和安全的机器学习和分析。通过简单易用的 API,所有与敏感数据相关的复杂性、法规遵从性和合同都被抽象掉。Integrate.ai 的解决方案允许数据科学家和软件开发人员安全地管理工作负载,对其当前的基础设施和工作流程影响最小。

感谢这次精彩的采访,希望了解更多的读者可以访问 Integrate.ai

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。