人工智能
受控遗忘:AI 记忆的下一个大挑战

多年来,AI 领域专注于一个目标:使系统更好地记忆。我们训练模型在大型数据集上,并不断提高它们保留和回忆信息的能力。但我们现在意识到一个令人不舒服的现实。那些从不忘记的系统现在被自己的记忆所困住。曾经看似优势的东西现在变成了严重的弱点。
人类自然会遗忘。我们放弃信息,适应,并向前迈进。AI 系统工作不同。它们记住一切,除非我们教它们遗忘。这造成了真正的问题。AI 难以应对隐私违规,过时的信息,嵌入的偏见,以及在学习新任务时系统崩溃的问题。前方的挑战不是关于使 AI 记住更多。我们需要教 AI 如何明智地遗忘。
遗忘的两面
AI 中的遗忘出现了两种不同的形式,每种都有其自己的问题集。
第一种是 灾难性遗忘。当神经网络在训练新任务后丢失之前学习的知识时就会发生这种情况。例如,一个训练识别猫和狗的模型可能在学习识别鸟类后忘记了这种能力。
第二种形式是受控遗忘。这是故意的。它涉及从训练模型中故意删除某些信息。像 GDPR 这样的隐私法赋予人们“被遗忘的权利”,这要求公司在请求时删除数据。这不是关于修复破损的系统。这是关于故意删除不应该存储或必须在请求时消失的数据。
这两个问题相互矛盾。一个需要我们停止遗忘,另一个要求我们使遗忘成为可能。同时管理这两个问题是 AI 面临的最难的挑战之一。
当记忆成为负担
AI 研究长期以来专注于改善记忆。模型变得更大,数据集更大,上下文窗口更长。像 GPT-4o 这样的系统现在可以处理 128,000 个 上下文令牌,而 Claude 可以达到 200,000。这些进步提高了性能,但也引入了新的问题。
当一个模型记住太多时,它可以回忆起过时或不相关的信息。这浪费了计算资源,并可能会让用户感到困惑。例如,考虑一个客户支持聊天机器人,它是在公司的知识库上训练的。您更新了一项政策,但在几次交互后,机器人又回到了旧信息。这 发生 是因为 AI 不能正确地优先考虑记忆。AI 不能区分当前信息和旧信息。
隐私法使事情变得 更加困难。在 GDPR 下,当用户要求删除其数据时,公司必须删除它。但从 AI 模型中删除数据与从计算机中删除文件不同。一旦个人数据成为模型参数的一部分,它就会在网络的数百万个连接中传播。为了删除该数据而重新训练整个系统的成本高昂,通常是不可能的。研究表明,较大的模型更容易受到网络攻击。模型越大,它就越倾向于记住,并且可以在受到精心设计的提示时复制私人数据。攻击者可以提取他们不应该访问的信息。
什么使遗忘困难
AI 模型不像文件夹中的文件一样存储训练示例。它们将训练信息压缩并混合到权重和激活中。删除一部分数据而不干扰其他一切是极其困难的。另外,我们无法轻松跟踪特定训练数据如何影响模型的内部权重。一旦模型从数据中学习,知识就会通过其参数以难以追踪的方式传播。
在每个删除请求后从头开始重新训练模型是不切实际的。当有人在 GDPR 下要求删除其个人数据时,您需要从 AI 系统中删除它。但是在大多数生产环境中,每次重新训练模型的成本太高,速度太慢。对于在数十亿个数据点上训练的large语言模型,这种方法将不可避免地昂贵且耗时。
遗忘的验证也带来了另一个挑战。我们如何证明数据已经真正被遗忘?公司需要外部审计来证明他们已经删除了信息。没有可靠的验证方法,企业无法证明其合规性,用户也无法相信其数据已经真正消失。
这些挑战导致了一个新的领域的出现,称为 机器取消学习。它专注于从训练模型中删除特定数据的影响的技术。但这些方法仍处于初期阶段。精确取消学习通常需要重新训练模型,而近似方法可能会在删除信息后留下痕迹。
稳定性-可塑性困境
我们需要解决的核心挑战是防止灾难性遗忘同时实现受控遗忘。这导致我们面临 AI 面临的关键挑战:稳定性-可塑性困境。模型必须足够灵活以学习新信息,但也足够稳定以保持旧知识。如果我们将模型推向稳定性太远,它就无法适应。另一方面,如果我们将其推向灵活性太远,它就可能忘记所有以前学到的东西。
人类记忆为处理这个困境提供了有用的线索。神经科学 告诉 我们,遗忘不是一个缺陷。它是一个主动过程。大脑故意遗忘,以使学习更有效。它删除或抑制旧的或低价值的信息,以便新的记忆保持可访问。当人们学习一种新语言时,他们不会删除旧语言。但是,如果他们停止使用它,回忆就会变得更加困难。信息仍然存在,只是被降级。大脑使用选择性抑制,而不是删除。
AI 研究人员开始采用类似的想法。 生成重放 技术模仿大脑存储记忆的方式。它们创建过去知识的抽象表示,而不是存储原始数据。这减少了灾难性遗忘,并保持了紧凑的记忆。另一个有前途的想法是智能衰减。存储的记忆根据其最近性、相关性和有用性进行评分。重要性较低的记忆逐渐失去优先级,并且除非需要否则不会被检索。这保持了信息的可用性,但除非需要否则不会被检索。AI 系统可以管理大型知识库,而不会丢弃可能有价值的信息。
目标不是删除,而是明智地平衡记忆和遗忘。
未来是什么样子
该行业正在朝着三个主要方向发展。
首先,混合记忆架构正在出现。这些 系统 结合了情景记忆(特定经历)和语义记忆(一般知识)。它们使用排名和修剪机制来保持重要信息,同时淡化不那么相关的信息。向量数据库,如 Pinecone 和 Weaviate,有助于高效地管理和检索此类记忆。
第二,隐私增强 技术 正在获得关注。像 联邦学习、差异隐私 和 同态加密 这样的技术减少了对敏感个人数据的需求。这些方法允许模型 协同训练 或安全训练,而无需收集敏感的用户信息。它们不能直接解决遗忘问题,但它们减少了需要在以后遗忘的个人数据量。
第三,机器取消学习继续 改进。新方法可以在不需要完全重新训练的情况下调整与特定数据相关的模型参数。这些 方法 仍处于初期阶段,但它们朝着满足数据删除要求的合规性方向发展。然而,验证取消学习是否真正删除所有数据痕迹仍然具有挑战性。研究人员正在开发测试以衡量其有效性。
结论
AI 系统已经变得擅长记忆。但它们仍然不擅长遗忘。这种差距变得越来越难以忽视。随着 AI变得更加强大,法规变得更加严格,明智地遗忘的能力将与记忆能力一样重要。为了使 AI 更加安全、适应性更强、更注重隐私,我们必须教会它明智地、有选择性地和智能地遗忘。受控遗忘不仅可以保护数据隐私,还可以帮助 AI 系统在不成为自己的记忆囚徒的情况下演进。
