面试

Bailey Kacsmar，滑铁卢大学博士生 – 访谈系列

发布时间

10个月前

2023 年 6 月 29 日

Bailey Kacsmar 是该校计算机科学学院的博士生滑铁卢大学以及一名即将上任的教员阿尔伯塔大学。她的研究兴趣是通过并行研究隐私计算的技术方法以及相应的用户对这些技术的感知、关注和理解，开发用户意识的隐私增强技术。她的工作旨在确定机器学习应用程序中隐私的潜力和局限性。

您的研究兴趣是开发用户意识的隐私增强技术，为什么人工智能中的隐私如此重要？

人工智能中的隐私如此重要，很大程度上是因为我们世界中的人工智能如果没有数据就不存在。数据虽然是一种有用的抽象，但最终是描述人及其行为的东西。我们很少使用有关树木数量和水位的数据；因此，每当我们处理可能影响现实生活的事情时，我们都需要认识到这一点，并了解我们的系统如何带来好处或带来伤害。对于人工智能来说尤其如此，其中许多系统受益于大量数据或希望使用高度敏感的数据（例如健康数据）来尝试对我们的世界产生新的理解。

您认为机器学习在哪些方面背叛了用户的隐私？

背叛是一个很强烈的词。然而，任何时候一个系统在未经人们同意、没有通知他们、也没有考虑潜在危害的情况下使用有关人们的信息，它就会面临背叛个人或社会隐私规范的风险。从本质上讲，这会导致一千个小切口的背叛。此类实践可以是根据用户电子邮件收件箱训练模型、根据用户短信或健康数据进行训练；所有这些都无需通知数据主体。

您能否定义什么是差异隐私？您对此有何看法？

差异隐私是一种在实现技术隐私方面日益突出的定义或技术。一般来说，隐私的技术定义包括两个关键方面；正在保护什么以及免受谁的保护。在技术隐私中，隐私保证是在满足一系列假设的情况下实现的保护。这些假设可能与潜在对手、系统复杂性或统计数据有关。这是一项非常有用的技术，具有广泛的应用范围。然而，重要的是要记住，差异隐私并不等同于隐私。

隐私并不局限于一种定义或概念，了解除此之外的概念也很重要。例如，上下文完整性是隐私的概念，它解释了不同的应用程序或不同的组织如何改变个人对某种情况的隐私认知等问题。还有隐私的法律概念，例如加拿大的 PIPEDA、欧洲的 GDPR 和加利福尼亚州的消费者保护法案 (CCPA) 所包含的概念。所有这一切都表明，即使采用了差异隐私，我们也不能将技术系统视为存在于没有其他隐私因素的真空中。

另一种隐私增强型机器学习是联邦学习，您如何定义它是什么？您对此有何看法？

联合学习是一种执行机器学习的方法，当模型要在分布在多个所有者或位置的数据集集合上进行训练时。它本质上不是一种隐私增强类型的机器学习。隐私增强类型的机器学习需要正式定义受保护的内容、受保护的对象以及这些保护必须满足的条件。例如，当我们想到一个简单的差分隐私计算时，它保证查看输出的人将无法确定某个数据点是否被贡献。

此外，如果数据点之间存在相关性，那么差异隐私就无法提供这种保证。联邦学习没有这个特性；它只是在数据集合上训练模型，而不要求数据持有者直接向彼此或第三方提供数据集。虽然这听起来像是一项隐私功能，但我们需要的是一种正式的保证，确保在不可信方观察到的中介和输出的情况下，人们无法得知受保护的信息。这种形式在联邦环境中尤其重要，其中不受信任的各方包括提供数据来训练集体模型的每个人。

这些方法目前有哪些局限性？

当前的限制可以最好地描述为隐私与效用权衡的本质。即使您做了其他所有事情，向受影响的人传达隐私影响，评估您想要做的系统等，它仍然归结为实现完美的隐私意味着我们不制造系统，实现完美的效用通常会没有任何隐私保护，所以问题是我们如何确定什么是“理想”的权衡。我们如何找到正确的临界点并朝着这个目标进行构建，以便我们在提供所需的隐私保护的同时仍然实现所需的功能。

您目前的目标是通过并行研究隐私计算技术解决方案来开发用户意识隐私技术。您能否详细介绍其中一些解决方案？

我所说的这些解决方案的意思是，宽泛地说，我们可以开发任意数量的技术隐私系统。然而，这样做时，重要的是确定隐私保证是否达到了受影响的范围。这可能意味着在找出人们重视哪种保护之后开发一个系统。这可能意味着在了解人们实际如何使用系统（考虑到现实生活中的威胁和风险考虑）后更新系统。技术解决方案可以是满足我之前提到的定义的正确系统。用户意识解决方案将根据用户和其他在预期应用领域中受影响的人的输入来设计其系统。

您目前正在寻找感兴趣的研究生，将于 2024 年 XNUMX 月开始学习，您为什么认为学生应该对 AI 隐私感兴趣？

我认为学生应该感兴趣，因为它在我们的社会中只会越来越普遍。要了解这些系统的速度有多快，只需通过新闻文章、社交媒体及其影响的辩论最近的 Chat-GPT 放大即可了解。我们生活在一个数据收集和使用深深植根于我们日常生活的社会，以至于我们几乎不断地向各种公司和组织提供有关我们自己的信息。这些公司希望使用这些数据，在某些情况下是为了改进他们的服务，在其他情况下是为了盈利。在这一点上，认为这些企业数据使用实践将会改变似乎是不现实的。然而，保护用户的隐私保护系统的存在，同时仍然允许公司所需的某些分析，可以帮助平衡风险回报权衡，这已经成为我们社会的隐性部分。

感谢您的精彩采访，有兴趣了解更多信息的读者可以访问 Bailey Kacsmar 的 Github 页面。