Anderson 视角

从LLM数据泄露中保护提示

发布于 2025年2月27日

更新于 2026年5月19日

作者

Martin Anderson

ChatGPT-4o: 'Orthographic 1792x1024 view of a SIMs-like police officer holding up his hand to a citizen to stop them going any further'

观点一篇来自IBM NeurIPS 2024的有趣论文在2024年末重新出现在Arxiv上。它提出了一个可以自动干预以保护用户免于提交个人或敏感信息到与大型语言模型（LLM）对话时的系统，例如ChatGPT。

用户研究中使用的示例，用于确定用户与提示干预服务交互的方式。 来源：https://arxiv.org/pdf/2502.18509

上述示例由IBM研究人员在研究中使用，以测试此类“干预”的潜在用户摩擦。

虽然关于GUI实现的细节很少，但我们可以假设此类功能可以通过浏览器插件与本地LLM框架通信，或者可以创建一个应用程序直接连接到（例如）OpenAI API，有效地重现OpenAI自己的可下载独立程序，但具有额外的安全措施。

话虽如此，ChatGPT本身会自动对包含关键信息的提示进行自我审查，例如银行详细信息：

ChatGPT拒绝与包含感知到的关键安全信息的提示进行交互，例如银行详细信息（上述提示中的详细信息是虚构的，非功能性）。 来源：https://chatgpt.com/

然而，ChatGPT在不同类型的个人信息方面更加宽容，即使泄露此类信息可能不符合用户的最佳利益（在这种情况下，可能是由于工作和披露等各种原因）：

上述示例是虚构的，但ChatGPT并不犹豫与用户讨论一个可能构成潜在声誉或收益风险的敏感话题（上述示例完全是虚构的）

在上述情况下，写成：‘白血病诊断对一个人的写作能力和行动能力有什么意义？’可能更好。

IBM项目识别并重新解释此类请求，从“个人”转变为“通用”立场。

IBM系统的模式，该系统使用本地LLM或基于NLP的启发式来识别潜在提示中的敏感材料。

这假设在线LLM收集的材料在人工智能聊天的这一初期阶段不会通过到后续模型或可能利用用户查询的潜在目标广告框架来提供信息。

虽然目前尚无此类系统或安排，但在互联网采用的黎明时期（20世纪90年代初期），此类功能尚未可用；从那时起，信息的跨域共享以供个性化广告使用，导致了多种丑闻，以及偏执。

因此，历史表明，最好现在就清理LLM提示输入，而不是等数据积累到一定量，并且在LLM提交最终进入永久循环数据库和/或模型或其他信息结构之前。

记住我？

使用“通用”或清理的LLM提示的一个因素是，坦率地说，自定义像ChatGPT这样的昂贵API-only LLM的功能相当令人信服，至少目前如此——但这可能涉及长期暴露私人信息。

我经常要求ChatGPT帮助我编写Windows PowerShell脚本和BAT文件来自动化流程，以及其他技术问题。为此，我发现系统永久记住有关我可用的硬件的详细信息；我的现有技术技能能力（或缺乏）；以及各种其他环境因素和自定义规则很有用：

ChatGPT允许用户开发一个将在系统考虑对未来提示的响应时应用的“缓存”记忆。

不可避免地，这会将有关我的信息存储在外部服务器上，受随时间推移可能发生变化的条款和条件的约束，没有任何保证OpenAI（尽管它可以是任何其他主要LLM提供商）将尊重他们制定的条款。

一般来说，ChatGPT中构建记忆缓存的能力最有用，因为LLM通常具有有限的注意力窗口；没有长期（个性化）嵌入，用户会感到沮丧，因为他们正在与一个患有anterograde amnesia的实体交谈。

很难说新模型是否最终会变得足够高效，以提供有用的响应，而无需缓存记忆，或创建可以存储在网上的自定义GPT。

暂时性健忘

虽然可以使ChatGPT对话“暂时”，但有用的是将聊天记录作为参考，可以在时间允许时提炼成更连贯的本地记录，也许是在笔记平台上；但在任何情况下，我们都无法确切知道这些“丢弃”的聊天会发生什么（尽管OpenAI 声明它们不会用于训练，但它没有声明它们会被销毁），基于ChatGPT的基础设施。我们所知道的就是，当在ChatGPT中启用“临时聊天”时，聊天记录不再出现在我们的历史记录中。

最近的各种争议表明，像OpenAI这样的基于API的提供商不应该被留给保护用户隐私的责任，包括发现出现的记忆，表明较大的LLM更有可能完全记住一些训练示例，并增加了用户特定数据泄露的风险——以及其他公共事件，这些事件说服了许多大公司，例如三星，禁止内部公司使用LLM。

跳出思维定式

LLM的极端实用性和明显的潜在风险之间的紧张关系需要一些创造性的解决方案——IBM提议似乎是一个有趣的基本模板。

三个IBM基于的改编，平衡了实用性与数据隐私。在最低（粉色）带中，我们看到一个提示，该提示超出了系统有意义地清理的能力。

IBM方法在网络级别拦截发送到LLM的传出数据包，并在必要时重写它们，然后再提交原始数据包。文章开头看到的更复杂的GUI集成只是这种方法可以走的方向的示例，如果它被开发出来的话。

当然，没有足够的代理，用户可能不知道他们正在获得对稍微修改的原始提交的响应。这种缺乏透明度相当于操作系统的防火墙在未通知用户的情况下阻止访问网站或服务，用户可能会错误地寻找其他问题的原因。

提示作为安全漏洞

“提示干预”的前景与Windows操作系统安全性类似，后者已经从20世纪90年代的可选商业产品演变成了一个非可选的、严格执行的网络防御工具套件，它随着Windows安装一起提供，并需要一些努力来关闭或降低强度。

如果提示清理像网络防火墙一样演变，IBM论文的提议可以作为未来蓝图：在用户的机器上部署一个完全本地的LLM来过滤发送到已知LLM API的传出提示。该系统自然需要集成GUI框架和通知，给用户控制权——除非管理员策略覆盖它，如往往在商业环境中发生。

研究人员分析了ShareGPT数据集的开源版本，以了解在现实场景中上下文隐私被违反的频率。

Llama-3.1-405B-Instruct被用作“法官”模型来检测上下文完整性违规。从大量对话中，分析了基于长度的单次对话子集。然后，法官模型评估了上下文、敏感信息和任务完成的必要性，导致识别出包含潜在上下文完整性违规的对话。

对这些对话的一个较小子集进行了进一步分析，该子集表明了明确的上下文隐私违规。

该框架本身是使用比典型聊天代理（如ChatGPT）更小的模型实现的，以实现本地部署通过Ollama。

提示干预系统的模式。

评估的三个LLM是Mixtral-8x7B-Instruct-v0.1；Llama-3.1-8B-Instruct；和DeepSeek-R1-Distill-Llama-8B。

用户提示由框架在三个阶段处理：上下文识别；敏感信息分类；和改写。

对敏感信息分类实施了两种方法：动态和结构化分类：动态分类根据对话中使用的详细信息确定其必要性；结构化分类允许指定一个预定义的敏感属性列表，这些属性始终被认为是非必要的。模型改写提示，如果它检测到非必要的敏感详细信息，通过删除或改写它们来最小化隐私风险，同时保持可用性。

家庭规则

虽然结构化分类作为一个概念在IBM论文中没有很好地说明，但它最类似于Private Prompts计划中的“私人数据定义”方法，该方法提供了一个可下载的独立程序，可以改写提示——尽管它没有IBM方法那样直接干预网络级别（相反，用户必须复制和粘贴修改后的提示）。

Private Prompts可执行文件允许用户输入文本的替代列表。

在上面的图像中，我们可以看到Private Prompts用户可以为敏感信息编程自动替换。在Private Prompts和IBM方法中，似乎不太可能需要此产品的用户具有足够的自我意识和个人洞察力来策划此类列表——尽管它可以随着事件的发生而随时间建立起来。

在管理员角色中，结构化分类可以作为员工的强制防火墙或审查网；在家庭网络中，它可以成为所有网络用户的家庭网络过滤器，但最终，这种方法可以说是多余的，因为能够正确设置此类产品的用户也可以自我审查。

ChatGPT的意见

由于ChatGPT最近推出了深度研究工具，我使用此功能要求ChatGPT审查相关文献，并对IBM的论文给出一个“怀疑”的看法。我收到了系统给出的最具防御性和嘲笑性的回应，当要求它评估或解析新出版物时：

ChatGPT-4o对IBM项目持低估看法。

“如果用户不信任OpenAI、Google或Anthropic负责地处理他们的数据，”ChatGPT认为。“为什么他们会信任一个第三方软件层位于他们和AI之间？中间件本身成为一个新的故障点——可能记录、误处理或甚至泄露数据，然后才到达LLM。它解决了什么问题，如果它只是创建了一个实体来利用用户数据？”

此异议似乎是自私的和不适用的，考虑到开源项目的悠久历史，这些项目通过社区开发人员和贡献者的长期努力真正造福了最终用户；并且考虑到移动设备运行和训练轻量级LLM的日益增长的潜力。当然，在这种情况下，使用案例并不是非常苛刻的。

接下来，ChatGPT自信地错过了在商业LLM中使用本地LLM提供输入监督的要点，该LLM不可能在本地机器上运行（因为LLM太大，允许本地访问对于创建它的公司来说风险太大）：

“有效的隐私过滤需要在决定要过滤掉什么之前了解输入。如果中间件足够聪明，可以识别敏感数据（名称、地址、财务详细信息），那么它已经在处理和分析它应该删除的东西——这意味着它必须存储或检查它应该删除的东西。”

“这引入了一个悖论：a）一个愚蠢的过滤器（基本正则表达式替换）将无效且会错过微妙的隐私风险。b）一个智能过滤器（LLM驱动的改写器）必须处理完整的输入，这使得它与原始LLM一样危险。”

“如果你足够信任中间件来读取和改写你的输入，为什么不直接信任LLM本身？”

对最后一个问题的答案是，局部LLM旨在完全站在用户一边，并且最终是开源的，几乎没有网络访问的必要。一个等效的商业版本，无论最初的意图如何，最终都会容易受到公司转变和服务条款变化的影响，而适当的开源许可证将防止这种“不可避免的腐败”。

ChatGPT进一步认为，IBM提议“打破了用户的意图”，因为它可以将提示重新解释为一种改变其实用性的替代提示。然而，这是一个更广泛的问题，在提示清理中，并且不特定于此特定用例。

最后，ChatGPT认为，IBM方法代表了一个障碍，采用它会因为实施警告和编辑方法到聊天中而产生“用户摩擦”。

这里，ChatGPT可能是对的；但如果由于进一步的公开事件或如果由于日益增长的监管而受到威胁的利润在一个地理区域内受到威胁（而公司拒绝放弃受影响的地区），消费技术的历史表明，防护措施最终将不再是可选的。

结论

我们不可能指望OpenAI真正实施IBM论文中提出的那种防护措施，至少目前不会。

当然，不仅仅是在全球范围内；就像苹果阻止某些iPhone功能在欧洲一样，LinkedIn对不同国家的用户数据有不同的规则，可以合理地假设任何AI公司都会默认为在其运营的任何国家中最有利可图的条款和条件——在每种情况下，都会损害用户的数据隐私权，按照需要。

首次发布于2025年2月27日，星期四

更新于2025年2月27日，星期四，15:47:11，因为Apple相关链接不正确 – MA