Anderson 视角

教忘记的AI“记住”更长时间的方法

mm
AI-generated image: A robot with ChatGPT logo at laptop, with vice on open head and glowing text emerging from head. GPT-image-1.

语言模型通常无法记住对话的开始。新的文本压缩方法可能会改变这一点,并使AI聊天会话变得不那么令人沮丧。

 

对话式AI系统,例如ChatGPT,经常丢失对话的早期部分,重复自己,或给出忽略以前同意的规则的答案。

这是因为大型语言模型(LLMs)具有有限的注意力,定义为一个“上下文窗口” – 就像一个只能照亮直接指向的物体和几个相邻物体的灯。

修复这种“健忘”的倾向是语言模型研究的最重要方向之一,因为这种症状严重限制了有用和一致的多回合对话的可能性,并限制了LLMs在准确性至关重要的背景下(如医学和法律)的用途。

突破

来自中国的新研究提出了一种使大量文本适应AI模型有限资源的新方法,实现了20倍的压缩改进,同时保持了98%的准确率:

上下文级联压缩(C3)比光学压缩方法(如DeepSeek-OCR)更准确地重建长文档,即使输入被压缩40倍。

上下文级联压缩(C3)比光学压缩方法(如DeepSeek-OCR)更准确地重建长文档,即使输入被压缩40倍。 来源

具有93%的准确率,这种文本压缩甚至可以达到40倍的压缩比:

三种压缩长文本的方法:基线方法(左)直接对文本进行标记化,得到大量标记;光学方法(中)将文本转换为图像并使用Vision Transformer提取视觉嵌入,实现10倍压缩;新的C3方法(右)使用小型语言模型将文本压缩为仅32个潜在标记,实现40倍压缩,而无需视觉编码。

三种压缩长文本的方法:基线方法(左)直接对文本进行标记化,得到大量标记;光学方法(中)将文本转换为图像并使用Vision Transformer提取视觉嵌入,实现10倍压缩;新的C3方法(右)使用小型语言模型将文本压缩为仅32个潜在标记,实现40倍压缩,而无需视觉编码。

这意味着,即使是非常长的对话也可以被压缩和重新注入(更新)到聊天会话中,以便在LLM正常情况下忘记早期事实和滑入“健忘”行为时作为背景上下文信息。

虽然这是一个有损压缩方法,但损失的方式也是有用的:在新的方法中,记忆在句子的末尾而不是均匀地降低,就像DeepSeek-OCR架构那样;实际上,研究人员提出,他们的方法的降级方式与人类记忆相同,而不是随机的:

上,人类记忆在数据流的末尾降低;中,DeepSeek-OCR随机降低,无法提供帮助;下,新的方法与人类记忆相同,提供了可以通过事后处理提高准确性的标记。

上,人类记忆在数据流的末尾降低;中,DeepSeek-OCR随机降低,无法提供帮助;下,新的方法与人类记忆相同,提供了可以通过事后处理提高准确性的标记。

这意味着,可以预测记忆的数据可能不太可靠,并使用这种知识来解决问题,可能会带来对话回忆和连贯性的巨大改进,甚至可以在补救后达到100%的准确率。

新的方法称为上下文级联压缩(C3),其灵感来自DeepSeek-OCR将文本压缩为图像的方法。然而,通过使用两个语言模型(中型和大型)直接将长文本压缩为潜在嵌入,新的方法消除了使用光栅图像的拖累,从而实现了更好的性能。

论文指出:

‘C3的卓越性能可以归因于其基本的架构设计。DeepSeek-OCR分析假设其性能下降是由于“复杂布局”和“低分辨率图像模糊”等因素造成的——光学路径的固有局限性。’

‘我们的C3范式,通过直接在文本域中操作,完全免受这些视觉域的artifact的影响。它避免了将文本渲染为像素然后编码这些像素所带来的信息损失。相反,它利用预训练LLM的强大语义理解,将文本信息直接提炼为高效的潜在表示。’

新论文的标题是上下文级联压缩:探索文本压缩的上限,由两位作者撰写,他们似乎还提供了C3作为开源存储库在GitHub上。

方法

为了理解新的方法,了解光学字符识别(OCR)是什么是有用的,因为这个想法正是从这里开始的。

OCR是一种算法方法,起源于1920年代,尽管在1990年代才流行起来,它允许计算机程序将光栅文本(即图像中的文本,无法被选中,只存在于照片内容中)转换为可编辑的文本。

DeepSeek-OCR的创造者发现,通过使用OCR作为中间阶段,可以比标准管道更好地压缩文本。换句话说,通过压缩文本的光栅化版本,可以实现更高的潜在嵌入密度(即保存更多信息):

DeepSeek-OCR发布论文中的压缩管道图,包括16x16光栅化块作为OCR组件。来源[ https://arxiv.org/pdf/2510.18234 ]

DeepSeek-OCR发布论文中的压缩管道图,包括16×16光栅化块作为OCR组件。 来源

新论文表明,光学方法(如DeepSeek-OCR)可能将其压缩收益的来源归因于错误的原因。相反,主要的好处来自于将冗长的文本标记转换为更高效的潜在表示

为了测试这一点,他们创建了一个管道,利用两个语言模型:较小的Qwen2.5 1.5B,它作为编码器,将长段压缩为少量潜在标记;和较大的Qwen2.5 3B,它作为解码器,从这些标记中重建原始文本:

在新的C3系统中,较小的Qwen2.5 1.5B模型将长输入压缩为固定长度的潜在标记,使用可训练的查询嵌入。这些标记与提示一起传递给较大的Qwen2.5 3B模型,后者重建原始文本。这种架构使得使用原始标记计数的一小部分就能高保真地回忆长序列。

在新的C3系统中,较小的Qwen2.5 1.5B模型将长输入压缩为固定长度的潜在标记,使用可训练的查询嵌入。这些标记与提示一起传递给较大的Qwen2.5 3B模型,后者重建原始文本。这种架构使得使用原始标记计数的一小部分就能高保真地回忆长序列。

为了处理压缩阶段,研究人员通过引入可训练的查询嵌入来适应预训练的Qwen2.5 1.5B模型:抽象提示,引导模型将长上下文压缩为更小的潜在表示:

相反,方法只是将长文本和查询嵌入一起作为单个输入。模型的自注意机制将这些元素视为相同,允许它输出固定长度的潜在上下文,而无需新层或设计更改;然后将此输出传递给较大的模型进行重建。

为了评估压缩后保留了多少信息,研究人员指示Qwen2.5 3B解码器使用仅潜在标记和提示‘重复文本’来重建原始输入。由于任务涉及确切的重现,而不是总结或改述,因此任何偏离原始文本的偏差都可以直接归因于压缩中丢失的信息,提供了一个干净和客观的测试,以评估整个编码-解码管道的保真度。

数据和测试

论文指出,作者编制了一份原始的OCR材料数据集,包含从互联网上获得的100万页。关于这一点没有更多的细节,作者似乎对这一点故意含糊其辞。

尽管如此,他们观察到,对于他们的目的来说,数据工程和策划是没有必要的,他们能够在“多样长度”的样本上有效地训练他们的模型;他们声称,这表明他们的架构是强健的(并且根据训练设置,很好地泛化)。

模型是在由八个NVIDIA H800 GPU组成的高性能集群上训练的,每个GPU配备了80GB的VRAM,总共有640GB的VRAM。每个GPU容纳了一个批次大小为2,总共有16个累积步骤,批次大小为256。优化器是AdamW,总共40,000步。

为了测试C3架构的有效性,研究人员遵循了原始DeepSeek-OCR论文中使用的相同评估设置,使用Fox基准来衡量压缩和重建准确率,跨越一系列文档长度。

选择了英语文本,段落范围从600到1300个标记,使用Qwen标记器进行标记化。

为了实现公平的比较,使用了与(DeepSeek-OCR)光学基线相同的压缩级别,分别使用64和100个潜在标记。为了探索该方法的极限,还进行了仅使用32个潜在标记的额外测试。在每种情况下,重建都是以指令‘重复文本:’开始的:

初始测试结果。重建精度和压缩比在使用64和100个潜在标记的七个标记范围内进行了测量,表明C3在更高的压缩级别上始终优于DeepSeek-OCR。

初始测试结果。重建精度和压缩比在使用64和100个潜在标记的七个标记范围内进行了测量,表明C3在更高的压缩级别上始终优于DeepSeek-OCR。

讨论上述初始结果时,论文指出:

‘数据明确表明,C3的直接文本-潜在压缩范式在所有测试条件下都优于光学压缩方法,建立了高保真上下文压缩的新状态。’

当两个系统都在较长的文档上进行测试时,DeepSeek-OCR开始随着压缩的增加而失去准确性,在最极端的情况下,准确率低于60%。C3即使在相同的压缩级别下也能保持准确率接近98%,即使输入被压缩到原来的二十分之一。

在最具挑战性的测试中,完整的文本被压缩到仅32个标记。即使在这种情况下,模型也能够恢复几乎所有原始内容,在许多情况下保持准确率接近99%:

在32个潜在标记处的重建准确率和压缩比,表明即使在极端压缩(高达40倍)下,精度也保持在93%以上。

在32个潜在标记处的重建准确率和压缩比,表明即使在极端压缩(高达40倍)下,精度也保持在93%以上。

在最极端的设置中,输入被压缩到几乎是原来的四十分之一,仍然能够回忆起超过93%的内容。相比之下,早期的光学方法在压缩级别的一半时,准确率就会下降到大约60%。

作者指出††

‘这些发现明确证明了C3架构的优势。通过避免视觉模式(例如图像分辨率限制、布局复杂性)中的信息瓶颈和潜在的artifact,我们的方法可以优雅地处理极端的压缩,并且信息损失最小。 ‘

‘这些激进的测试结果巩固了我们对直接文本-潜在压缩范式比其光学对应物更高效和强大的说法。 ‘

他们还得出结论,C3可以“解锁处理整个书籍、广泛的法律文件或大型代码库以进行任务(如问答、总结和分析)的新功能”。

结论

这是我最近遇到的最清晰和最易于理解的论文之一,具有一个值得称道的清晰的核心思想,可能会成为对抗“上下文窗口问题”的一种额外的方法。

许多LLM的用户可能已经学会了在长时间的交流过程中定期“刷新”关键信息或指南,因为他们已经通过艰难的方式发现,像ChatGPT这样的模型无法长时间地保留这些信息。新的论文中提出的想法是,长时间对话的高度压缩版本可以在LLM实例的上下文窗口中自动重新注入,从而实现“代理记忆”。

在GPU稀缺导致传统计算机内存(如DRAM,其中许多以前的GPU工作负载现在被卸载以支持更大的模型)价格上涨的气候下,似乎不太可能在近期内显著增加AI的主机硬件容量。因此,像这样的创新方法可能会被证明是必要的,以推动性能的发展。

更重要的是,如果LLM能够维持一个连贯的对话超过一个小时,并且实际上记得对话的内容就太好了。

 

* CLI安装说明已提供,但我没有时间尝试安装,并且不确定存储库是否代码完整。

两位作者被列为Fanfan Liu和Haibo Qiu。根据随意研究,Qiu目前是中国科技公司Meituan的研究员,Liu是中国科学院的硕士生。两者目前都没有在其历史记录中列出该论文。如果这些归属不正确,请通过我的个人资料联系我。

†† 虽然作者遵循公式提供了额外的定性测试,但这些测试与早期的压缩测试相比并不具有启发性,我在此没有涉及它们。

首次发布于2025年11月21日,星期五

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai