Connect with us

思想领袖

是否有明确的解决方案来应对生成式 AI 带来的隐私风险?

mm

生成式 AI 带来的隐私风险是非常真实的。从增加监控和暴露到更有效的钓鱼和语音诈骗,生成式 AI 大规模、无差别地侵蚀隐私,同时为不法分子(无论是犯罪、国家赞助还是政府)提供了针对个人和群体的工具。

这个问题最明确的解决方案涉及消费者和用户集体地抵制 AI 热潮,要求开发或实施所谓的 AI 功能的公司提供透明度,以及来自监督其运营的政府机构的有效监管。虽然值得努力,但这不太可能很快发生。

剩下的都是合理的、即使是必然不完整的方法来减轻生成式 AI 的隐私风险。长期、可靠、但枯燥的预测是,公众越是了解数据隐私,生成式 AI 的大规模采用所带来的隐私风险就越小。

我们是否正确理解生成式 AI 的概念?

AI 的炒作如此普遍,以至于调查人们对生成式 AI 的看法几乎没有必要。当然,这些“AI”功能、功能和产品实际上并不代表真正的人工智能的例子。相反,它们大多是机器学习(ML)、深度学习(DL)和大型语言模型(LLMs)的例子。

生成式 AI,如其名称所示,可以生成新内容——无论是文本(包括编程语言)、音频(包括音乐和类似人类的声音)还是视频(带有声音、对话、剪辑和摄像机变化)。所有这一切都是通过训练LLM来识别、匹配和复制人类生成内容中的模式来实现的。

让我们以ChatGPT为例。像许多LLM一样,它是在三个广泛的阶段进行训练的:

  • 预训练:在此阶段,LLM被“喂”以来自互联网、书籍、学术期刊和任何其他可能包含潜在相关或有用文本的内容。
  • 有监督的指令细化:模型被训练为使用高质量的指令-响应对来更连贯地响应指令,通常来自人类。
  • 从人类反馈中强化学习(RLHF):像ChatGPT这样的LLM经常会经过此额外的训练阶段,在此期间,模型的与人类用户的交互被用来完善模型与典型用例的对齐。

训练过程的所有三个阶段都涉及数据,无论是预训练中使用的大量预先收集的数据还是RLHF中几乎实时收集和处理的数据。正是这些数据带来了生成式AI的主要隐私风险。

生成式 AI 带来的隐私风险是什么?

当个人信息(数据主体)在未经数据主体同意的情况下被泄露给其他个人或实体时,隐私就会受到损害。LLM在预训练和细化时使用的数据范围非常广泛,可以包括个人数据,并且经常这样做。

即使这些数据来自公开可用的来源,将其聚合和处理到LLM中并通过LLM的界面使其可搜索,也可以认为是进一步侵犯隐私。

从人类反馈中强化学习(RLHF)阶段使事情变得复杂。在此训练阶段,模型的与人类用户的真实交互被用来迭代地纠正和完善LLM的响应。这意味着用户与LLM的交互可以被任何具有访问训练数据的人查看、共享和传播。

在大多数情况下,这并不是侵犯隐私,因为大多数LLM开发者都包含了要求用户在与LLM交互之前同意的隐私政策和服务条款。隐私风险在于许多用户不知道他们已经同意了此类数据收集和使用。这些用户可能会在与这些系统交互时透露私人和敏感信息,而不知道这些交互既不保密也不私密。

通过这种方式,我们得到了生成式AI带来的三种主要隐私风险:

  • 可能包含个人信息的预训练数据存储容易受到损害和泄露。
  • 预训练数据中包含的个人信息可以通过LLM的响应和指令泄露给同一LLM的其他用户。
  • 在与LLM交互期间提供的个人和机密信息最终会落入LLM的员工和可能的第三方承包商手中,从而可能被查看或泄露。

这些都是对用户隐私的风险,但个人可识别信息(PII)落入错误的人手中的可能性仍然相对较低。至少在数据经纪人进入画面之前是这样。

数据经纪人专门寻找PII并收集、聚合和传播它,如果不是公开广播的话。有了PII和其他个人数据成为某种商品,数据经纪人行业也随之兴起,任何进入“外界”的个人数据几乎都可能被数据经纪人收集并广泛传播。

生成式 AI 的隐私风险背景

在研究生成式AI对用户隐私的具体产品、服务和企业合作伙伴带来的风险之前,让我们退一步,系统地审视生成式AI风险的全貌。为IAPP撰稿的Moraes和Previtali采用了数据驱动的方法,完善了Solove 2006年的“隐私分类法”,将其中的16种隐私风险减少到12种AI特有的隐私风险。

这些是Moraes和Previtali的修订分类法中包含的12种隐私风险:

  • 监控:AI加剧了监控风险,通过增加个人数据收集的规模和普遍性。
  • 识别:AI技术使得自动跨不同数据源链接身份成为可能,增加了个人身份暴露的风险。
  • 聚合:AI将有关某人的一些数据片段组合起来,以进行推断,造成隐私侵犯的风险。
  • 颅相学和体貌学:AI从身体特征推断个性或社会属性,这是一个不在Solove分类法中的新风险类别。
  • 二次使用:AI加剧了将个人数据用于除最初意图以外的其他目的的风险,通过数据的改用。
  • 排除:AI使得用户对其数据如何使用缺乏信息或控制变得更加糟糕,通过不透明的数据实践。
  • 不安全性:AI的数据要求和存储实践风险数据泄露和不当访问。
  • 暴露:AI可能会透露敏感信息,例如通过生成式AI技术。
  • 歪曲:AI生成真实但虚假内容的能力加剧了虚假或误导性信息的传播。
  • 披露:AI可能会导致数据的不当共享,当它从原始数据中推断出其他敏感信息时。
  • 增加可访问性:AI使敏感信息对比预期更广泛的受众更容易访问。
  • 侵入:AI技术侵犯个人空间或孤立,通常通过监控措施。

这使得读起来相当令人担忧。需要注意的是,这个分类法有其优点,考虑到了生成式AI倾向于产生幻觉——生成和自信地呈现事实上不准确的信息。这种现象,即使很少透露真实信息,也是隐私风险。虚假和误导性信息的传播以比准确信息更微妙的方式影响了受害者的隐私,但它仍然影响了他们的隐私。

让我们深入研究生成式AI在实际AI产品中的具体例子,了解这些隐私风险如何发挥作用。

与基于文本的生成式AI系统的直接交互

最简单的情况是用户直接与生成式AI系统交互,例如ChatGPT、Midjourney或Gemini。用户与许多此类产品的交互被记录、存储并用于RLHF(从人类反馈中强化学习)、有监督的指令细化,甚至其他LLM的预训练。

对许多此类服务的隐私政策进行分析也揭示了其他数据共享活动,这些活动以不同的目的为基础,例如营销和数据经纪。生成式AI系统可以被视为巨大的数据漏斗,收集用户提供的数据以及用户与底层LLM交互时生成的数据。

与嵌入式生成式AI系统的交互

一些用户可能正在与嵌入在产品中的生成式AI界面交互。用户可能知道他们正在使用“AI”功能,但他们不太可能知道这意味着什么样的数据隐私风险。嵌入式系统中出现的问题是用户缺乏对以下事实的认识:与LLM共享的个人数据可能最终会落入开发人员和数据经纪人手中。

这里有两种程度的缺乏认识:一些用户意识到他们正在使用生成式AI产品;而另一些用户认为他们正在使用嵌入式或通过生成式AI访问的产品。不管哪种情况,用户可能已经(并且可能已经)从技术上同意了与嵌入式系统交互相关的条款和条件。

其他使用户暴露于生成式AI系统的合作伙伴关系

一些公司以更不明显的方式将生成式AI界面嵌入或包含在其软件中,从而使用户在不知不觉中与第三方进行交互并共享信息。幸运的是,“AI”已经成为如此有效的卖点,以至于不太可能有公司会保密此类实现。

在此背景下出现的另一种现象是,公司在尝试与生成式AI公司(如OpenAI)共享用户或客户数据时面临的日益增长的反弹。数据删除公司Optery最近推翻了了一项计划,即将用户数据发送给OpenAI,采用的是默认选择加入的方式。

不仅用户迅速表达了他们的失望,而且该公司的数据删除服务也被迅速从隐私指南的推荐数据删除服务列表中删除。Optery的决定值得肯定,因为他们迅速、透明地撤销了决定,但重要的是公众的强烈反应:人们开始意识到与“AI”公司共享数据的风险。

Optery案例在这里是一个很好的例子,因为其用户在某种意义上处于日益增长的对生成式AI数据使用的怀疑的前沿。选择数据删除服务的用户通常也是那些会关注服务条款和隐私政策变化的人。

对生成式AI数据使用的日益增长的反弹

并非只有注重隐私的消费者对生成式AI系统及其相关的数据隐私风险提出担忧。在立法层面,欧盟的人工智能法案根据风险的严重程度对其进行分类,大多数情况下,数据隐私被明确或暗示为确定严重程度的标准。该法案还解决了我们之前讨论的知情同意问题。

美国虽然在采纳全面、联邦层面的数据隐私立法方面行动迟缓,但至少在行政命令14110的帮助下拥有了一些防护措施。同样,数据隐私问题处于命令目的的前沿:“AI技术的不负责任使用可能会加剧社会危害,例如欺诈、歧视、偏见和虚假信息”——所有这些都与个人数据的可用性和传播有关。

回到消费者层面,反对侵犯隐私的生成式AI实施的不仅仅是特别注重隐私的消费者。微软臭名昭著的“AI驱动”的Recall功能,原本打算用于其Windows 11操作系统,是一个典型的例子。一旦其隐私和安全风险的程度被揭露,反弹足以让科技巨头后退。遗憾的是,微软似乎并没有放弃这个想法,但最初的公众反应是令人振奋的。

继续讨论微软,其Copilot计划因数据隐私和数据安全问题而受到广泛批评。由于Copilot是在GitHub数据(主要是源代码)上训练的,围绕微软的程序员和开发人员软件许可协议的侵犯也引发了争议。在这种情况下,数据隐私和知识产权之间的界限开始变得模糊,赋予前者一种货币价值——这并不是轻易做到的。

也许AI在消费者眼中成为红旗的最大迹象是苹果公司最初的AI发布会所获得的冷淡反应,特别是在与OpenAI的数据共享协议方面。

零碎的解决方案

立法者、开发者和公司可以采取一些措施来缓解生成式AI带来的某些风险。这些是针对问题特定方面的专用解决方案,没有一个解决方案被认为是足够的。它们都需要立法支持才能产生有意义的影响,这意味着它们注定会落后于这个动态领域的发展。

  • 数据最小化。最小化收集和存储的数据量是一个合理的目标,但它直接与生成式AI开发者对训练数据的渴望相矛盾。
  • 透明度。鉴于当前的机器学习状态,这在许多情况下可能甚至在技术上不可行。了解哪些数据被处理以及如何在生成给定输出时生成,都是确保生成式AI交互中的隐私的一种方式。
  • 匿名化。任何无法通过数据最小化从训练数据中排除的PII都应匿名化。问题在于,许多流行的匿名化和假名化技术都很容易被击败。
  • 用户同意。要求用户同意收集和共享其数据是必要的,但它容易被滥用,也容易让消费者变得自满,因此无法有效发挥作用。这里需要的是知情同意,大多数消费者如果得到适当的信息,就不会同意此类数据共享,因此激励措施不匹配。
  • 保护数据在传输和存储中的安全性。数据隐私和数据安全的另一个基础是通过加密和其他手段保护数据。然而,生成式AI系统倾向于通过其界面泄露数据,因此这只是部分解决方案。
  • 在所谓的AI的背景下执行版权和知识产权法。机器学习可以在“黑盒”中运行,使得很难甚至不可能追踪哪些受版权保护的材料和知识产权最终出现在哪些生成式AI输出中。
  • 审计。另一个至关重要的防护措施是由于LLM和支持它们的生成式AI系统的“黑盒”性质而受到阻碍的。这种固有的局限性与大多数生成式AI产品的闭源性相结合,限制了审计只能在开发者的方便时进行。

所有这些方法都是有效且必要的,但都不能单独解决问题。它们都需要立法支持才能产生有意义的影响,这意味着它们将落后于这个动态领域的发展。

明确的解决方案

生成式AI带来的隐私风险的解决方案既不革命性也不令人兴奋,但如果推到其逻辑结论,其结果可能是革命性的。明确的解决方案涉及日常消费者意识到他们的数据对公司的价值以及数据隐私对他们自己的无价价值。

消费者是为现代监控经济提供动力和来源的私人信息。只要有一批批消费者开始限制私人数据流入公共领域,并开始要求处理个人数据的公司承担责任,系统就会自我纠正。

生成式AI的令人鼓舞之处在于,与当前的广告和营销模式不同,它在任何阶段都不需要涉及个人信息。预训练和细化数据不需要包含PII或其他个人数据,用户也不需要在与生成式AI系统交互时暴露相同的信息。

为了从训练数据中删除个人信息,人们可以直接去数据源,删除他们在各种数据经纪人(包括人搜索网站)上的个人资料,这些数据经纪人会聚合公共记录并将其带入公开市场。 个人数据删除服务可以自动化此过程,使其快速简便。当然,从这些公司的数据库中删除个人数据还有很多其他好处,没有任何缺点。

人们在与软件(包括生成式AI)交互时也会产生个人数据。为了阻止这种数据的流动,用户将不得不更加注意,他们的交互正在被记录、审查、分析和共享。他们的选择是限制他们向在线系统透露的内容,并在可能的情况下使用本地、开源的LLM。人们总体上已经很好地调节了他们在公共场合讨论的内容——我们只需要将这些直觉扩展到生成式AI的领域。

David Balaban 是一位拥有超过 17 年恶意软件分析和防病毒软件评估经验的计算机安全研究员。David 运营着 MacSecurity.net Privacy-PC.com 项目,这些项目提供了有关当代信息安全问题的专家意见,包括社会工程、恶意软件、渗透测试、威胁情报、在线隐私和白帽黑客。David 拥有强大的恶意软件故障排除背景,最近专注于勒索软件的对策。