人工智能
顶级 AI 模型在长文档中迷失

来自慕尼黑大学、慕尼黑机器学习中心和 Adobe 研究院的研究人员的一项新研究揭示了 AI 语言模型的一个弱点:它们难以理解长文档,方式可能会让你感到惊讶。研究团队的发现表明,即使是最先进的 AI 模型也难以在无法依赖简单的词匹配时连接信息。
AI 阅读技能的隐藏问题
想象一下,你试图在一篇长的研究论文中找到一个特定的细节。你可能会浏览它,脑海中建立不同部分之间的联系,以拼凑出你需要的信息。事实证明,许多 AI 模型根本不这样工作。相反,它们经常严重依赖于找到确切的词匹配,类似于在你的电脑上使用 Ctrl+F。
研究团队开发了一个名为 NOLIMA(无字面匹配)的新基准来测试各种 AI 模型。结果表明,当 AI 模型处理长于 2,000 个字的文本时,其性能会大幅下降。到大约 32,000 个字(相当于一本短书的长度)时,大多数模型的性能仅为其通常能力的一半。这包括测试主要模型,如 GPT-4o、Gemini 1.5 Pro和 Llama 3.3 70B。
考虑一个使用 AI 分析患者记录的医疗研究人员,或者一个使用 AI 审查案件文件的法律团队。如果 AI 因为相关信息使用的词语与搜索查询不同而错过了关键的连接,后果可能会很严重。
为什么词匹配不够
当前的 AI 模型使用称为注意力机制的东西来处理文本。该系统帮助 AI 集中于文本的不同部分,以了解词语和思想之间的关系。当处理较短的文本时,这样就足够了。然而,研究表明,这种机制会在文本变长时变得不知所措,特别是当它不能依赖于确切的词匹配时。
NOLIMA 测试通过要求 AI 模型回答需要理解上下文而不是找到匹配词的题目来揭示这一限制。结果很有启发性。虽然模型在短文本中表现良好,但它们建立这些联系的能力会随着文本长度的增加而显著下降。即使是专门为推理任务设计的模型,在处理较长文档时也只能达到 50% 的准确率。
没有词匹配的帮助,AI 模型难以:
- 连接使用不同术语的相关概念
- 遵循多步骤的推理路径
- 找到相关信息,即使它出现在关键上下文之后
- 忽略不相关部分中的误导性词匹配
数字讲述了故事
研究结果生动地描绘了 AI 模型如何处理较长的文本。GPT-4o 表现最强,保持有效性直到大约 8,000 个标记(大约 6,000 个字)。然而,即使这种顶级表现者也在更长的文本中表现出显著的下降。其他大多数模型,包括 Gemini 1.5 Pro 和 Llama 3.3 70B,在 2,000 到 8,000 个标记之间经历了急剧的性能下降。
当任务需要多步骤的推理时,性能下降变得更加明显。例如,如果一个模型需要进行两个逻辑连接——比如理解一个角色住在一个地标附近,而这个地标在一个特定的城市——成功率会大大降低。研究表明,这种多步骤的推理在超过 16,000 个标记的文本中变得特别具有挑战性,即使使用了旨在提高推理的技术,例如 Chain-of-Thought 提示。
这些发现之所以特别值得注意,是因为它们挑战了关于 AI 模型能够处理长上下文的说法。虽然许多模型宣称支持广泛的上下文窗口,但 NOLIMA 基准表明,有效的理解会在达到这些理论限制之前大大下降。

来源:Modarressi 等。
当 AI 迷失在细节中
这些限制对我们在实际应用中使用 AI 有着重大的影响。考虑一个在案例法中搜索的法律 AI 系统。它可能会错过相关的先例,只是因为它们使用的术语与搜索查询不同。该系统可能会专注于不太相关的案例,这些案例碰巧与搜索词更为相似。
对搜索和文档分析的影响尤其令人担忧。当前的 AI 驱动的搜索系统通常依赖于一种称为 检索增强生成 (RAG)的技术。即使这些系统成功检索到包含正确信息的文档,AI 也可能无法识别其相关性,如果措辞与查询不同。相反,AI 可能会转向不太相关的文档,这些文档与搜索词在表面上有相似之处。
对于 AI 用户,这些发现表明了几个重要的考虑因素:
首先,较短的查询和文档可能会产生更可靠的结果。当处理较长的文本时,将它们分解为较小、更有针对性的部分可能有助于保持 AI 的性能。
其次,用户在要求 AI 分析较长的文本时应该特别小心。研究表明,AI 模型在需要独立建立连接时会遇到最大的困难,特别是当连接不是通过共享词汇明显时。
最后,这些限制凸显了持续的人类监督的重要性。虽然 AI 可以成为处理和分析文本的强大工具,但它不应该被视为在复杂文档中识别重要连接的唯一手段。人类在长文本中保持上下文和建立概念连接的能力仍然优于当前的 AI 能力。
这些发现提醒我们,尽管 AI 技术进步迅速,但这些系统仍以与人类非常不同的方式处理信息。了解这些限制对于有效使用 AI 工具和知道何时人类判断仍然至关重要是非常重要的。
接下来是什么
了解当前 AI 模型处理长文本的限制为 AI 发展的未来提出了重要的问题。NOLIMA 基准背后的研究表明,我们当前的 AI 文本处理方法可能需要重大改进,特别是在处理较长段落中的信息方面。
当前的解决方案只取得了部分成功。Chain-of-Thought 提示,鼓励 AI 模型将其推理分解为步骤,有助于提高性能。例如,使用此技术,Llama 3.3 70B 在处理较长的上下文时表现更好。然而,这种方法仍然不足以处理超过 16,000 个标记的文本,表明我们需要更根本的解决方案。
形成当前 AI 模型处理文本的基础的注意力机制需要重新思考。可以把它想象成试图在一个拥挤的房间里进行对话——对话越长,跟踪之前提到的所有重要点就越困难。我们的当前 AI 模型面临着类似的挑战,但规模要大得多。
展望未来,研究人员正在探索几个有前途的方向。一个方法涉及开发新的方法,使 AI 能够在长文本中组织和优先处理信息,超越简单的词匹配,以了解更深层次的概念联系。这可能会像人类创建信息的心理地图一样工作,根据意义而不是仅仅共享词汇来连接思想。
另一个发展领域集中于改进 AI 模型处理所谓的“潜在跳跃”的方式——连接不同信息片段所需的逻辑步骤。当前的模型在较长的文本中,尤其是处理这些连接时会遇到困难,但新的架构可能有助于弥合这一差距。
对于今天使用 AI 工具的人来说,这些发现表明了几种实用的方法:
在使用 AI 时,考虑将较长的文档分解为有意义的部分。这有助于创建保留重要上下文的逻辑部分。例如,如果分析一篇研究论文,您可能会将方法和结果部分保持在一起,因为它们通常包含相关信息。
当要求 AI 分析较长的文本时,请具体说明您希望它建立的连接。不要提出广泛的问题,而是引导 AI 向您感兴趣的特定关系。这样有助于弥补模型在独立建立这些连接时的当前限制。
也许最重要的是,要对 AI 处理长文本的能力保持现实的期望。虽然这些工具可以成为处理和分析文本的强大辅助工具,但它们不应被视为替代人类对复杂文档的分析。人类在长文本中保持上下文和建立概念联系的能力仍然优于当前的 AI 能力。
在这个领域的 AI 发展之路既具有挑战性,又令人兴奋。随着我们更好地理解这些限制,我们可以朝着真正理解长文本的 AI 系统而努力,而不是仅仅处理它们。直到那时,使用 AI 有效地意味着在其当前限制内工作,同时欣赏其优势。












