访谈

艾米·斯泰尔,Gretel.ai 首席机器学习科学家 – 采访系列

mm

艾米·斯泰尔是Gretel.ai的首席机器学习科学家,Gretel.ai是世界上最先进的隐私工程平台。Gretel使得将隐私设计融入数据驱动技术的基础设施变得容易。其基于AI的开源库旨在转换、匿名化和合成敏感信息。

艾米是一位成就卓著的机器学习和数据科学家,拥有超过20年的经验。她的热情是大数据和使用机器学习、数据挖掘、人工智能和统计学等技术来揭示隐藏的智能。她在预测建模、分类、聚类、异常检测、数据可视化、集成方法、信息检索、网络安全分析、自然语言处理、推荐模型和用户行为分析方面具有丰富的经验。

是什么最初吸引你从事计算机科学和机器学习的职业生涯?

我对数据的纯粹、无羁、持久的热爱。数据的力量、神秘、趣味和潜力一直让我着迷。计算机科学和机器学习是利用这种潜力的工具。同时,在一个领域中工作,状态-of-the-艺术发展如此迅速,也非常有趣。我喜欢研究和产品的交叉点。将前沿思想推进一点,然后将其转化为现有、有形的产品需求,非常令人满意。

对于不熟悉的人,你可以解释什么是合成数据吗?

合成数据是看起来和行为像原始数据,但又足够不同以满足某些用例的数据。最常见的用例是需要保护原始数据中的信息隐私。另一个用例是需要创建额外的数据来增加原始数据集的大小。又一个用例是帮助解决原始数据集中的类别不平衡或人口统计偏差问题。

合成数据允许我们继续开发新的和创新的产品和解决方案,即使原始数据不可用或不存在。

Gretel平台如何通过API创建合成数据?

Gretel隐私工程API允许您将数据输入Gretel并探索我们可以提取的数据。这些API与我们的控制台中使用的API相同。通过公开API,我们希望通过直观的界面赋予开发人员和数据科学家构建自己的工作流程的能力。

虽然控制台使创建合成数据变得非常容易,但API使您能够将合成数据的创建集成到您的工作流程中。我喜欢使用API,因为它使我能够根据特定的用例自定义合成数据的创建。

您可以讨论Gretel提供的一些工具来帮助评估合成数据的质量吗?

创建合成数据后,Gretel将生成合成报告。在该报告中,您可以看到合成数据质量评分(SQS)和隐私保护级别等级(PPL)。

SQS评分是生成的合成数据与原始数据集保持相同的统计属性的估计。在这种意义上,SQS评分可以被视为一个实用性评分或信心评分,以确定从合成数据集得出的科学结论是否与使用原始数据集相同。

合成数据质量评分是通过组合个别质量指标计算得出的:字段分布稳定性、字段相关性稳定性和深度结构稳定性。

字段分布稳定性是衡量合成数据与原始数据中字段分布保持一致性的指标。字段相关性稳定性是衡量合成数据中字段之间的相关性保持一致性的指标。最后,深度结构稳定性衡量合成数据中多个字段的分布和相关性的统计完整性。为此,Gretel比较了原始数据和合成数据上的主成分分析(PCA)。

Gretel隐私过滤器如何工作?

Gretel隐私过滤器是对合成数据的对抗性攻击进行了大量研究的结果。隐私过滤器防止创建具有常被对抗性攻击者利用的弱点的合成数据。我们有两个隐私过滤器,第一个是相似性过滤器,第二个是异常值过滤器。相似性过滤器防止创建与训练记录过于相似的合成记录。这些是对抗性攻击者试图获得原始数据见解的主要目标。第二个隐私过滤器是异常值过滤器。它防止创建在训练数据定义的空间中被视为异常值的合成记录。在合成数据集中揭示的异常值可以被会员推理攻击、属性推理和各种其他对抗性攻击所利用。它们是一个严重的隐私风险。

合成数据如何帮助减少AI偏差?

最常见的技术是解决数据中的代表性偏差。例如,如果您的数据中存在强烈的类别不平衡,或者存在人口统计偏差,Gretel提供工具来帮助您首先测量不平衡,然后在合成数据中解决它。通过从数据中删除偏差,您通常也会从构建在数据上的AI系统中删除偏差。

您显然喜欢学习新的机器学习技术,您如何跟上所有的变化?

阅读、阅读、然后再阅读,哈哈!我喜欢以阅读新机器学习技术的文章开始我的一天。Medium非常了解我。我喜欢阅读Towards Data Science、Analytics Vidhya和The Sequence等文章。Facebook AI、Google AI和OpenMined都有很好的博客。还有很多很好的会议可以关注,例如NeurIPS、ICML、ICLR和AISTATS。

我也喜欢可以跟踪引用路径、帮助您找到类似于您喜欢的论文以及了解您特定兴趣的工具,并且总是在后台监视可能感兴趣的论文。Zeta Alpha是我经常使用的一个工具。

最后,拥有具有类似兴趣的同事的好处不容忽视。在Gretel,机器学习团队跟踪我们探索领域的研究论文,并经常会聚在一起讨论有趣的论文。

您对机器学习的未来有什么展望?

数据的易访问将引发机器学习领域的伟大创新时代,这反过来又会在医疗保健、金融、制造业和生物科学等领域推动创新。历史上,许多开创性的机器学习进展都归功于大量的丰富数据。然而,历史上,许多研究都因无法访问或共享数据而受到限制,这是由于隐私问题。随着Gretel等工具消除了这一障碍,数据的访问将被民主化。整个机器学习社区将从丰富的大型数据集的访问中受益,而不仅仅是少数精英公司。

您是否还有其他关于Gretel的信息想要分享?

如果您喜欢数据,您将会喜欢Gretel(所以我显然喜欢Gretel!)。数据的易访问一直是每个我认识的数据科学家的痛点。在Gretel,我们为创建了一个控制台和一套使创建私有、可共享数据尽可能简单的API而感到自豪。我们深信数据在共享时更有价值。

感谢您这次精彩的采访,并感谢您分享您的见解,希望了解更多的读者可以访问Gretel.ai

安托万是一位具有远见的领导者和Unite.AI的联合创始人,他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者,他相信人工智能将对社会产生电力的影响一样的颠覆性影响,并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他还是Securities.io的创始人,这是一个专注于投资尖端技术的平台,这些技术正在重新定义未来并重塑整个行业。