人工智能
受控遗忘:人工智能记忆的下一个大挑战

多年来,人工智能领域专注于一个目标:让系统记忆更好。我们在大量数据集上训练模型,并不断提高它们保留和回忆信息的能力。但我们现在意识到一个令人不舒服的现实。那些从不忘记的系统现在被自己的记忆所困住。曾经看似优势的东西现在变成了严重的弱点。
人类自然会遗忘。我们放弃信息,适应,并向前迈进。人工智能系统则不同。它们记住一切,除非我们教它们遗忘。这造成了真正的问题。人工智能难以应对隐私违规,过时的信息,嵌入的偏见,以及在学习新任务时系统崩溃。前方的挑战不是让人工智能记忆更多,我们需要教会人工智能如何明智地遗忘。
遗忘的两面
人工智能中的遗忘表现为两种不同的形式,每种都有其自己的问题集。
第一种是 灾难性遗忘。当神经网络在训练新任务后丢失以前学习的知识时就会发生这种情况。例如,一个训练识别猫和狗的模型可能会在学习识别鸟类后忘记这种能力。
第二种形式是受控遗忘。这是故意的。它涉及从训练模型中故意删除某些信息。像 GDPR 这样的隐私法赋予人们“被遗忘的权利”,这要求公司在收到请求后删除数据。这不是关于修复破损的系统,而是关于故意删除不应该存储或必须在请求后消失的数据。
这两个问题朝着相反的方向拉扯。一个要求我们停止遗忘,另一个要求我们使遗忘成为可能。同时管理这两个问题是人工智能面临的最艰难的挑战之一。
当记忆成为负担
人工智能研究长期以来一直专注于改善记忆。模型变得更大,数据集变得更大,上下文窗口变得更长。像 GPT-4o 这样的系统现在可以处理 128,000 个令牌 的上下文,而 Claude 可以达到 200,000。这些进步提高了性能,但也引入了新的问题。
当一个模型记忆太多时,它可以回忆起过时或不相关的信息。这浪费了计算资源,并可能会让用户感到困惑。例如,考虑一个客户支持聊天机器人,它是在公司的知识库上训练的。您更新了一项政策,但在几次交互后,机器人又回到旧的信息。这 发生 是因为人工智能无法正确地优先考虑记忆。人工智能无法区分当前信息和旧信息。
隐私法使事情变得 更加困难。在 GDPR 下,当用户要求删除其数据时,公司必须删除它。但是,从人工智能模型中删除数据与从计算机中删除文件不同。一旦个人数据成为模型参数的一部分,它就会在网络的数百万个连接中传播。为了删除数据而重新训练整个系统既昂贵又往往不可能。研究表明,较大的模型更容易受到网络攻击。模型越大,它就越倾向于记忆,并且可以在受到精心设计的提示时复制私人数据。攻击者可以提取他们不应该访问的信息。
什么使遗忘困难
人工智能模型不像文件夹中的文件一样存储训练示例。它们将训练信息压缩并混合到它们的权重和激活中。删除一块数据而不扰乱其他一切是极其困难的。另外,我们无法轻松地跟踪特定的训练数据如何影响模型的内部权重。一旦模型从数据中学习,知识就会通过其参数传播,这种方式很难追踪。
在每个删除请求后从头开始重新训练模型是不切实际的。当有人要求在 GDPR 下删除其个人数据时,您需要从人工智能系统中删除它。但是,在大多数生产环境中,每次重新训练模型都太昂贵和耗时。对于在数十亿个数据点上训练的巨型语言模型,这种方法将不可避免地昂贵和耗时。
遗忘的验证提出了另一个挑战。我们如何证明数据实际上已经被遗忘?公司需要外部审计来展示他们已经删除了信息。没有可靠的验证方法,企业无法证明合规性,用户也无法相信其数据真正消失了。
这些挑战导致了一个新的领域的出现,称为 机器解学习。它专注于从训练模型中删除特定数据的影响的技术。但这些方法仍处于初期阶段。精确解学习通常需要重新训练模型,而近似方法可能会在删除信息后留下痕迹。
稳定性-可塑性困境
我们需要解决的核心挑战是防止灾难性遗忘同时实现受控遗忘。这使我们面临人工智能面临的关键挑战:稳定性-可塑性困境。模型必须足够灵活以学习新信息,但也必须足够稳定以保持旧知识。如果我们将模型推向稳定性太远,它就无法适应。另一方面,如果我们将其推向灵活性太远,它就可能忘记所有以前学到的东西。
人类记忆为处理这个困境提供了有用的线索。神经科学 告诉 我们,遗忘不是一个缺陷。它是一个主动过程。大脑故意遗忘,以使学习更有效。它删除或抑制旧的或低价值的信息,以便新的记忆保持可访问。当人们学习一门新语言时,他们不会抹去旧语言。但是,如果他们停止使用它,回忆就会变得更加困难。信息仍然存在,只是被降级了。大脑使用选择性抑制,而不是删除。
人工智能研究人员正在采用类似的想法。 生成重放 技术模仿大脑存储记忆的方式。它们创建过去知识的抽象表示,而不是存储原始数据。这减少了灾难性遗忘,并保持了记忆的紧凑性。另一个有前途的想法是智能衰减。存储的记忆根据其新鲜度、相关性和有用性进行评分。重要性较低的记忆逐渐失去优先级,并且除非需要,否则不会被检索。这样可以保持信息的可用性,但除非需要,否则会被隐藏。人工智能系统可以在不丢弃潜在有价值信息的情况下管理大型知识库。
目标不是抹去,而是明智地平衡记忆和遗忘。
未来是什么样的
该行业正在朝着三个主要方向发展。
首先,混合记忆架构正在出现。这些 系统 结合了历时记忆(特定经历)和语义记忆(一般知识)。它们使用排名和修剪机制来保持重要信息,同时淡化不那么相关的信息。像 Pinecone 和 Weaviate 这样的向量数据库有助于高效地管理和检索此类记忆。
第二,隐私增强 技术 正在获得关注。像 联邦学习、差异性隐私 和 同态加密 这样的技术减少了对敏感个人数据的需求。这些方法允许模型 协同 训练或安全训练,而无需收集敏感的用户信息。它们不会直接解决遗忘问题,但它们减少了需要在以后遗忘的个人数据量。
第三,机器解学习继续 改进。新的方法可以在不需要完全重新训练的情况下调整与特定数据相关的模型参数。这些 方法 仍处于初期阶段,但它们朝着符合数据删除要求的方向发展。然而,验证解学习是否真正删除所有数据痕迹仍然很困难。研究人员正在开发测试以衡量其有效性。
结论
人工智能系统已经变得擅长记忆。但是,它们仍然不擅长遗忘。这种差距变得越来越难以忽视。随着人工智能变得更加强大,法规变得更加严格,明智地遗忘的能力将与记忆能力一样重要。为了使人工智能更加安全、适应性更强、更加注重隐私,我们必须教会它明智地、有选择性地和智能地遗忘。受控遗忘不仅可以保护数据隐私,还可以帮助人工智能系统在不成为自己记忆的囚徒的情况下演进。
