思想领袖

生成式人工智能带来的隐私风险有明确的解决方案吗？

发布时间 2025 年 3 月 1 日

大卫·巴拉班（David Balaban）

生成式人工智能带来的隐私风险是真实存在的。从监控和曝光度的增加，到比以往更有效的网络钓鱼和语音钓鱼活动，生成式人工智能不分青红皂白地大量侵蚀隐私，同时为不法分子（无论是犯罪分子、国家支持者还是政府）提供针对个人和团体所需的工具。

解决这个问题最明确的办法是消费者和用户集体拒绝人工智能炒作，要求开发或实施所谓人工智能功能的人保持透明度，并要求监督其运营的政府机构进行有效监管。虽然值得努力，但这不太可能很快实现。

剩下的是合理的（尽管不一定完整）减轻生成式人工智能隐私风险的方法。长期来看，万无一失但无聊的预测是，公众对数据隐私的了解越多，大规模采用生成式人工智能所带来的隐私风险就越小。

我们都正确理解了生成式人工智能的概念吗？

人工智能的炒作无处不在，因此几乎没有必要对人们所说的生成式人工智能进行调查。当然，这些“人工智能”特性、功能和产品实际上都不是真正的人工智能的例子，无论它是什么样子。相反，它们大多是机器学习（ML），深入学习（DL）大型语言模型（法学硕士）。

顾名思义，生成式人工智能可以生成新内容，无论是文本（包括编程语言）、音频（包括音乐和类似人类的声音）还是视频（带有声音、对话、剪辑和镜头变化）。所有这些都是通过训练 LLM 来识别、匹配和重现人类生成内容中的模式来实现的。

让我们以 ChatGPT 为例。与许多 LLM 一样，它的培训分为三个主要阶段：

预训练：在此阶段，法学硕士 (LLM) 将从互联网、书籍、学术期刊和任何其他包含潜在相关或有用文本的资料中“获取”文本材料。
监督指令微调：模型经过训练，可以使用高质量的指令-响应对（通常来自人类）对指令做出更连贯的反应。
从人类反馈中强化学习 (RLHF)：像 ChatGPT 这样的 LLM 通常会经过这个额外的训练阶段，在此期间，通过与人类用户的交互来完善模型与典型用例的一致性。

训练过程的所有三个阶段都涉及数据，无论是大量预先收集的数据（如预训练中使用的数据）还是几乎实时收集和处理的数据（如 RLHF 中使用的数据）。正是这些数据承担了生成式 AI 带来的大部分隐私风险。

生成式人工智能带来哪些隐私风险？

当有关个人（数据主体）的个人信息在未经数据主体同意的情况下被提供给其他个人或实体时，隐私就会受到损害。LLM 经过预先训练，并针对范围极广的数据进行了微调，这些数据可能包括个人数据，而且通常确实包括个人数据。这些数据通常是从公开来源抓取的，但并非总是如此。

即使这些数据是从公开来源获取的，如果由法学硕士 (LLM) 汇总和处理这些数据，然后通过法学硕士 (LLM) 界面进行搜索，也可能会被认为是进一步侵犯隐私。

此从人类反馈强化学习（RLHF）阶段使事情变得复杂。在此训练阶段，使用与人类用户的真实交互来迭代地纠正和改进 LLM 的响应。这意味着任何有权访问 LLM 的人都可以查看、共享和传播用户与 LLM 的交互训练数据.

在大多数情况下，这并不构成隐私侵犯，因为大多数 LLM 开发人员都制定了隐私政策和服务条款，要求用户在与 LLM 交互之前征得同意。这里的隐私风险在于，许多用户并不知道自己已经同意了此类数据收集和使用。这些用户可能会在与这些系统交互时泄露私人和敏感信息，而没有意识到这些交互既不保密也不私密。

这样，我们得出了生成式人工智能带来隐私风险的三个主要方式：

大量预训练数据可能包含个人信息，容易受到泄露。
预培训数据中包含的个人信息可能会通过对查询和指示的响应泄露给同一 LLM 的其他用户。
与法学硕士 (LLM) 互动期间提供的个人和机密信息最终会落入法学硕士 (LLM) 员工和可能的第三方承包商的手中，并可能被查看或泄露。

这些都是对用户隐私的风险，但个人身份信息 (PII) 落入不法之徒之手的可能性似乎仍然很低。至少在数据经纪人出现之前是这样。这些公司专门嗅探 PII 并收集、汇总和传播（如果不是直接广播的话）。

由于 PII 和其他个人数据已经成为一种商品，并且数据经纪行业如雨后春笋般涌现，从中获利，任何“流出”的个人数据都很可能被数据经纪商窃取并广泛传播。

生成式人工智能的隐私风险

在研究生成式人工智能在特定产品、服务和企业合作背景下对用户隐私构成的风险之前，让我们先退一步，更系统地了解一下生成式人工智能的全部风险。在为 IAPP 撰写的文章中，Moraes 和 Previtali 采用数据驱动的方法来完善 Solove 2006 年的“隐私分类法”，将其中描述的 16 种隐私风险减少为 12 种特定于人工智能的隐私风险。

以下是 Moraes 和 Previtali 的报告中列出的 12 种隐私风险修订的分类法:

监控： 人工智能增加了个人数据收集的规模和普遍性，从而加剧了监控风险。
鉴别： 人工智能技术可以实现跨各种数据源的自动身份关联，从而增加了与个人身份暴露相关的风险。
聚合： 人工智能将一个人的各种数据结合起来进行推断，带来了侵犯隐私的风险。
颅相学和面相学： 人工智能可以根据身体特征推断出性格或社会属性，这是索洛夫分类法中没有的一个新风险类别。
二次使用： 人工智能通过重新利用数据，加剧了个人数据用于非最初目的的现象。
排除： 通过不透明的数据实践，人工智能无法告知用户或让用户控制如何使用其数据，这让情况变得更糟。
不安全感： AI 的数据要求和存储实践存在数据泄露和不当访问的风险。
曝光： 人工智能可以揭示敏感信息，例如通过生成人工智能技术。
失真度： 人工智能能够生成逼真但虚假的内容，从而加剧了虚假或误导信息的传播。
披露： 当人工智能从原始数据中推断出额外的敏感信息时，可能会导致数据不当共享。
可访问性的增加： 人工智能使敏感信息比预期的更容易被更广泛的受众获取。
入侵： 人工智能技术通常会通过监视手段侵入个人空间或孤独感。

读起来相当令人担忧。值得注意的是，这种分类法考虑到了生成式人工智能的倾向，即幻觉的 – 生成并自信地呈现事实不准确的信息。这种现象虽然很少会泄露真实信息，但也是一种隐私风险。传播虚假和误导性信息对隐私的影响比准确信息更为微妙，但无论如何都会产生影响。

让我们深入研究一些具体的例子，看看这些隐私风险如何在实际的人工智能产品中发挥作用。

与基于文本的生成 AI 系统直接交互

最简单的情况是用户直接与生成式 AI 系统（如 ChatGPT、Midjourney 或 Gemini）交互。用户与许多此类产品的交互都会被记录、存储并用于 RLHF（从人类反馈中进行强化学习）、监督指令微调，甚至用于其他 LLM 的预训练。

对许多此类服务的隐私政策的分析还揭示了其他数据共享活动，其目的截然不同，例如营销和数据经纪。这是生成式人工智能带来的另一种隐私风险：这些系统可以被描述为巨大的数据漏斗，收集用户提供的数据以及通过与底层 LLM 交互生成的数据。

与嵌入式生成 AI 系统的交互

一些用户可能会与他们表面上使用的任何产品中嵌入的生成式 AI 界面进行交互。用户可能知道他们正在使用“AI”功能，但他们不太可能知道这会带来什么数据隐私风险。嵌入式系统最突出的一点是，人们没有意识到与 LLM 共享的个人数据最终可能会落入开发人员和数据经纪人手中。

这里缺乏意识有两种程度：一些用户意识到他们正在与生成式人工智能产品交互；一些用户认为他们正在使用生成式人工智能内置或通过其访问的任何产品。无论哪种情况，用户可能已经（并且可能已经）在技术上同意与他们与嵌入式系统交互相关的条款和条件。

向用户展示生成式人工智能系统的其他合作伙伴关系

有些公司会以不太明显的方式将生成式人工智能界面嵌入或包含在其软件中，让用户在不知情的情况下与第三方互动并共享信息。幸运的是，“人工智能”已经成为如此有效的卖点，公司不太可能对此类实现保密。

这种背景下的另一个现象是，这些公司在试图与 OpenAI 等生成式人工智能公司分享用户或客户数据后，遭遇了越来越多的反对。例如，数据删除公司 Optery 最近推翻了一项决定以选择退出的方式与 OpenAI 共享用户数据，这意味着用户默认加入该计划。

顾客们不仅很快就表达他们的失望，但该公司的数据删除服务很快就从隐私指南推荐的数据删除服务列表中被除名。值得赞扬的是，Optery 迅速而透明地撤销了其决定，但重要的是普遍的反对：人们开始意识到与“人工智能”公司共享数据的风险。

Optery 的案例是一个很好的例子，因为从某种意义上说，它的用户是围绕所谓的人工智能实施日益增长的怀疑论的先锋。选择数据删除服务的人通常也是那些会关注服务和隐私政策变化的人。

有证据表明，对生成性人工智能数据使用的反对声日益高涨

注重隐私的消费者并不是唯一对生成式人工智能系统及其相关数据隐私风险表示担忧的人。在立法层面，欧盟的人工智能法根据风险的严重程度对其进行分类，在大多数情况下，数据隐私是明确或隐含的严重程度标准。该法案还解决了我们之前讨论过的知情同意问题。

美国在制定全面的联邦数据隐私立法方面进展缓慢，但至少有一些保护措施，这要归功于行政命令14110。同样，数据隐私问题是该命令首要的目标：“不负责任地使用[人工智能技术]可能会加剧欺诈、歧视、偏见和虚假信息等社会危害”——所有这些都与个人数据的可用性和传播有关。

回到消费者层面，不仅仅是特别注重隐私的消费者对侵犯隐私的生成式人工智能实施犹豫不决。微软现在臭名昭著的“人工智能驱动”的召回功能（注定要用于其 Windows 11 操作系统）就是一个典型的例子。一旦隐私和安全风险的程度被揭露，反弹足以让这家科技巨头退缩。不幸的是，微软似乎不要放弃这个想法但公众最初的反应仍然令人振奋。

微软的 Copilot 计划一直受到广泛批评，因为数据隐私和数据安全问题。由于 Copilot 是在 GitHub 数据（主要是源代码）上进行训练的，微软涉嫌违反程序员和开发人员的软件许可协议也引发了争议。在这种情况下，数据隐私和知识产权之间的界限开始变得模糊，赋予前者货币价值——这并非易事。

或许，人工智能正在成为消费者眼中危险信号的最大迹象是，苹果首次推出人工智能时，公众的反应不温不火，甚至是完全谨慎，尤其是在与 OpenAI 达成的数据共享协议方面。

零碎的解决方案

立法者、开发者和公司可以采取一些措施来减轻生成式人工智能带来的一些风险。这些是针对总体问题特定方面的专门解决方案，其中任何一种解决方案都不足以解决问题，但所有这些解决方案共同发挥作用，就能产生真正的影响。

数据最小化。 尽量减少收集和存储的数据量是一个合理的目标，但它与生成式人工智能开发人员对训练数据的需求背道而驰。
透明度。 鉴于机器学习的当前发展水平，这在很多情况下甚至在技术上都不可行。了解处理了哪些数据以及在生成给定输出时如何处理数据是确保生成式人工智能交互中的隐私的一种方法。
匿名化。 任何无法从训练数据中排除的 PII（通过数据最小化）都应匿名化。问题是许多流行的匿名化和假名化技术很容易被攻破。
用户同意。 要求用户同意收集和共享他们的数据是必要的，但这样做很容易被滥用，而且容易让消费者自满，因此效果不佳。这里需要的是知情同意，而大多数消费者在得到充分信息后，不会同意这种数据共享，因此激励机制是不一致的。
确保传输中和静止数据的安全。 数据隐私和数据安全的另一个基础是，通过加密和其他方式保护数据，这种做法总是可以变得更加有效。然而，生成式人工智能系统往往会通过其接口泄露数据，因此这只是解决方案的一部分。
执行版权和知识产权法 在所谓的人工智能背景下。机器学习可以在“黑匣子”中运行，这使得追踪哪些受版权保护的材料和知识产权最终出现在哪些生成性人工智能输出中变得非常困难甚至不可能。
审核。 另一项关键的防护措施因 LLM 及其支持的生成式 AI 系统的黑箱性质而受阻。加剧这一固有限制的是大多数生成式 AI 产品的闭源性质，这限制了审计仅限于开发人员方便时进行的审计。

所有这些解决问题的方法都是有效且必要的，但没有一种方法是足够的。它们都需要立法支持才能产生有意义的效果，这意味着随着这个充满活力的领域不断发展，它们注定会落后于时代。

明确的解决方案

解决生成式人工智能带来的隐私风险的方法既不具有革命性也不令人兴奋，但从逻辑上讲，其结果可能是两者兼而有之。明确的解决方案是让日常消费者意识到他们的数据对公司的价值以及数据隐私对他们自己的无价性。

消费者是私人信息的来源和引擎，推动了所谓的现代监控经济。一旦大量消费者开始阻止私人数据流入公共领域，并开始要求处理个人数据的公司承担责任，该系统就必须自我纠正。

生成式人工智能令人鼓舞的一点是，与当前的广告和营销模式不同，它在任何阶段都不需要涉及个人信息。预训练和微调数据不需要包含 PII 或其他个人数据，用户在与生成式人工智能系统交互时也不需要暴露这些数据。

为了从训练数据中删除他们的个人信息，人们可以直接从源头删除他们的个人资料，从汇总公共记录的各种数据代理商（包括人物搜索网站）中删除，从而使这些信息在公开市场上流通。个人资料删除服务使流程自动化，使其变得快速而简单。当然，从这些公司的数据库中删除个人数据还有许多其他好处，而且没有坏处。

人们在与软件（包括生成式人工智能）交互时也会生成个人数据。为了阻止这些数据的流动，用户必须更加注意他们的互动是否被记录、审查、分析和共享。他们避免这种情况的选择归结为限制他们向在线系统透露的内容，并尽可能使用设备上的开源 LLM。总体而言，人们已经很好地控制了他们在公共场合讨论的内容——我们只需要将这些本能扩展到生成式人工智能领域。

相关话题：数据隐私大卫·巴拉曼隐私政策隐私风险