教健忘的AI «记住要点»更长时间
语言模型常常记不住对话的开头。一种新的文本压缩方法可能改变这一点,并使AI聊天会话不再那么令人恼火。 像ChatGPT这样的对话式AI系统常常忘记对话的早期部分,重复自己,或者给出忽略先前已达成一致的规则的答案。这是因为大型语言模型(LLMs)的专注能力有限,这被定义为一个注意力“上下文窗口”——就像手电筒只能照亮它直接对准的物体和少数相邻物体一样。修复这种由于注意力限制而产生的“健忘”倾向,是基于语言的人工智能模型研究中最重要的方向之一——尤其是因为这种症状严重限制了进行有用且一致的多轮对话的可能性,并削弱了LLMs在医学和法律等对准确性要求极高的各种场景中的实用性。压缩它来自中国的新研究†提出了一种新颖的方法,可以将数量显著更多的文本塞进运行AI模型的GPU的有限资源中——其成果实现了20倍的压缩改进,同时保持98%的准确率:在93%的准确率下——这在可行参数范围内——文本压缩甚至可以实现40倍的压缩比:这意味着,即使是超长对话的全部内容,也可以在聊天后期——当LLM通常会忘记早期事实并陷入“健忘”行为时——被压缩并(更新后)定期重新注入到交流中,作为背景上下文信息。尽管这是一种有损压缩方法,但即使是信息丢失的方式也是有用的:在新方法下,记忆在句子的末尾退化,而不是像启发该新方法的DeepSeek-OCR架构那样在整个句子中均匀退化;事实上,新论文的研究人员认为,他们的方法以与实际人类记忆相同的方式退化,而不是随机地:[/caption]为了处理压缩阶段,研究人员对预训练的Qwen2.5 1.5B模型进行了调整,引入了可训练的查询嵌入:这是一种抽象的提示,用于指导模型将输入的长上下文提炼成小得多的潜在表示。该方法没有修改架构,只是将长文本和查询嵌入一起作为单一输入进行馈送。模型的自注意力机制对这些元素一视同仁,使其能够输出固定长度的潜在上下文,而无需新的层或设计变更;然后,这个输出被传递给更大的模型进行重建。为了评估有多少信息在压缩后得以保留,研究人员指示Qwen2.5 3B解码器仅使用潜在标记和提示‘重复文本’来重建原始输入。由于任务涉及精确复制,而非摘要或转述,任何与原文的偏差都可以直接追溯到压缩过程中丢失的信息,从而为编码-解码流程的保真度提供了一个清晰且客观的测试。数据与测试论文指出,作者汇编了一个原始的OCR材料数据集,总计从互联网上获取了一百万页。关于这个来源没有进一步的细节,作者似乎在此点上刻意保持模糊。尽管如此,他们观察到,数据工程和整理对于他们的目的来说是不必要的,他们能够在”不同长度”的样本上有效地训练模型;他们表示,这表明他们的架构具有弹性(并且可以推断,根据训练设置,具有良好的泛化能力)。模型在一个高性能集群上进行训练,该集群由八个NVIDIA H800 GPU组成,每个GPU配备80GB VRAM,总VRAM资源为640GB。每个GPU容纳的批次大小为2,考虑到计划的16个累积步骤,获得了256的总全局批次大小。优化器为AdamW,总步数为40,000步。为了测试C3架构的有效性,研究人员遵循了原始DeepSeek-OCR论文中使用的相同评估设置,使用Fox基准来测量不同文档长度下的压缩和重建准确性。选择了英语文本,段落长度从600到1300个标记不等,标记化使用Qwen标记器进行。为了进行公平比较,使用了(DeepSeek-OCR)光学基线的等效压缩级别,即64和100个潜在标记。为了探索该方法的极限,还进行了仅使用32个潜在标记的额外测试。在所有情况下,重建都以指令‘重复文本:’开始:在讨论上面可视化的初步结果时,论文指出:‘数据明确表明,C3的直接文本到潜在压缩范式在所有测试条件下都显著优于光学压缩方法,在高保真上下文压缩方面确立了新的最先进水平。’当两个系统在较长文档上进行测试时,DeepSeek-OCR随着压缩程度的增加开始失去准确性,在最极端的情况下降至60%以下。C3以更少的损失处理了相同级别的压缩,即使输入被压缩到其原始大小的二十分之一,也能稳定保持在98%附近。在最苛刻的测试中,完整文本被压缩到仅32个标记。即便如此,模型仍能恢复几乎所有的原始内容,在许多情况下保持接近99%的准确性:来自中国的研究人员开发了一种新的文本压缩方法,据称可以将文本压缩近40倍,同时保留超过93%的原始信息,这种方法可能为大型语言模型(LLM)的“上下文窗口问题”提供一种解决方案。这项新研究来自中国,提出了一种名为“C3”的压缩方法,它绕过了传统上用于文本压缩的“光学”方法(例如,先将文本渲染为图像,然后使用图像压缩技术)。相反,C3采用了一种“直接文本到潜在”的方法,将文本直接编码到一个压缩的“潜在”表示中,然后可以将其解码回文本,据称信息损失最小。这项新工作名为C3: 高保真文本压缩作为长上下文LLM的增强,来自中国科学院和美团的研究人员。作者声称,他们的方法在“极端”压缩水平下,在文本相似性任务上的表现显著优于基于图像的压缩方法,并且可以集成到现有的LLM工作流程中,以扩展有效的上下文长度。文本作为图像的问题近年来,将文本渲染为图像(例如PNG或JPEG)然后进行压缩的方法,作为一种在LLM有限的上下文窗口内“挤入”更多信息的方式,已经变得流行起来。例如,Unite.AI去年报道了“Text as Image”方法,该方法将文本转换为二进制表示,然后将其渲染为图像并进行压缩。然而,根据新论文的作者,这种方法存在固有的局限性。他们写道:“尽管这些方法在压缩比方面显示出潜力,但它们受到视觉模态固有限制的阻碍。图像分辨率限制了可编码的文本量,而复杂的布局可能会在压缩过程中引入伪影,导致信息丢失。此外,将文本编码和解码为图像格式会增加计算开销,并可能降低整体系统效率。”为了克服这些限制,作者提出了C3(压缩、缓存、上下文),这是一种“直接文本到潜在”的压缩方法,绕过了基于图像的中间步骤。C3方法C3框架由三个主要组件组成: 压缩器:使用预训练的文本编码器(如BERT)将输入文本映射到连续的潜在表示。然后应用量化技术将这些表示离散化,从而实现压缩。 缓存:压缩后的表示被存储在一个缓存系统中,允许快速检索和重用频繁访问的信息。 上下文集成:压缩后的表示被解码回文本并注入到LLM的上下文窗口中,有效地扩展了模型可以处理的信息量。 作者声称,通过直接在潜在空间中操作,C3避免了基于图像的方法的分辨率限制和布局复杂性,从而实现了更高的压缩比,同时保持了更好的信息保真度。测试与结果研究人员在多个数据集上评估了C3,包括GovReport、Proof-pile和Fiction,将其与几种基线方法进行比较,包括: 直接文本截断 基于图像的压缩方法(如Text as Image) 传统文本压缩算法(如gzip) 他们使用ROUGE和BERTScore等指标来衡量压缩后文本与原始文本的相似性。根据该论文,C3在所有数据集和压缩水平上始终优于基线方法。在最高压缩设置下(压缩比接近40倍),C3在ROUGE-L上保持了超过93%的分数,而基于图像的方法在类似压缩水平下下降到约60%。作者还进行了人类评估,要求标注者比较原始文本和压缩后文本的可读性和信息保留程度。据报道,C3在可读性和信息保留方面都获得了最高分。对长上下文LLM的潜在影响这项研究最直接的潜在应用是扩展LLM的有效上下文长度。通过将长文档压缩成更紧凑的表示,C3可能允许模型在有限的上下文窗口内处理更多的信息。作者通过将C3集成到流行的LLM(如LLaMA和GPT-2)中并评估其在长上下文任务上的性能来证明这一应用。他们报告说,与使用原始文本或基于图像的压缩方法相比,使用C3压缩的上下文在问答和摘要任务上取得了更好的结果。研究人员指出:“我们的结果表明,C3可以显著增强LLM处理长文档的能力,而无需增加模型大小或计算需求。这为在资源有限的环境中部署长上下文LLM开辟了新的可能性。”局限性与未来工作尽管结果令人鼓舞,但作者也承认C3目前的一些局限性: 该方法依赖于预训练的文本编码器,其性能可能受到用于训练这些编码器的数据的限制。 量化过程可能会引入少量信息损失,特别是在极高的压缩比下。 当前的实现可能无法最佳地处理高度专业或技术性的文本。 对于未来的工作,研究人员计划探索更先进的量化技术,将C3扩展到多模态数据(如图像和文本),并研究将该方法应用于实时LLM交互的方法。更广泛的影响如果C3或其衍生方法被证明是有效的,它可能对各个领域产生重大影响: 法律与学术研究:律师和研究人员可以处理更长的文档和案例集,而无需不断参考外部来源。 客户服务:聊天机器人可以维持更长的对话并记住更多的上下文,从而提供更个性化和有效的帮助。 内容创作:作者和记者可以使用LLM来帮助分析和总结长篇资料,从而更高效地进行研究。...