人工智能

顶级 AI 模型在长文档中迷失

Published February 13, 2025

Updated April 26, 2026

Alex McFarland

来自慕尼黑大学、慕尼黑机器学习中心和 Adobe 研究院的研究人员的一项新研究揭示了 AI 语言模型的一个弱点：它们难以理解长文档，方式可能会让你感到惊讶。研究团队的发现表明，即使是最先进的 AI 模型也难以在无法依赖简单的词匹配时连接信息。

AI 阅读技能的隐藏问题

想象一下，你试图在一篇长的研究论文中找到一个特定的细节。你可能会浏览它，脑海中建立不同部分之间的联系，以拼凑出你需要的信息。事实证明，许多 AI 模型根本不这样工作。相反，它们经常严重依赖于找到确切的词匹配，类似于在你的电脑上使用 Ctrl+F。

研究团队开发了一个名为 NOLIMA（无字面匹配）的新基准来测试各种 AI 模型。结果表明，当 AI 模型处理长于 2,000 个字的文本时，其性能会大幅下降。到大约 32,000 个字（相当于一本短书的长度）时，大多数模型的性能仅为其通常能力的一半。这包括测试主要模型，如 GPT-4o、Gemini 1.5 Pro和 Llama 3.3 70B。

考虑一个使用 AI 分析患者记录的医疗研究人员，或者一个使用 AI 审查案件文件的法律团队。如果 AI 因为相关信息使用的词语与搜索查询不同而错过了关键的连接，后果可能会很严重。

为什么词匹配不够

当前的 AI 模型使用称为注意力机制的东西来处理文本。该系统帮助 AI 集中于文本的不同部分，以了解词语和思想之间的关系。当处理较短的文本时，这样就足够了。然而，研究表明，这种机制会在文本变长时变得不知所措，特别是当它不能依赖于确切的词匹配时。

NOLIMA 测试通过要求 AI 模型回答需要理解上下文而不是找到匹配词的题目来揭示这一限制。结果很有启发性。虽然模型在短文本中表现良好，但它们建立这些联系的能力会随着文本长度的增加而显著下降。即使是专门为推理任务设计的模型，在处理较长文档时也只能达到 50% 的准确率。

没有词匹配的帮助，AI 模型难以：

连接使用不同术语的相关概念
遵循多步骤的推理路径
找到相关信息，即使它出现在关键上下文之后
忽略不相关部分中的误导性词匹配

数字讲述了故事

研究结果生动地描绘了 AI 模型如何处理较长的文本。GPT-4o 表现最强，保持有效性直到大约 8,000 个标记（大约 6,000 个字）。然而，即使这种顶级表现者也在更长的文本中表现出显著的下降。其他大多数模型，包括 Gemini 1.5 Pro 和 Llama 3.3 70B，在 2,000 到 8,000 个标记之间经历了急剧的性能下降。

当任务需要多步骤的推理时，性能下降变得更加明显。例如，如果一个模型需要进行两个逻辑连接——比如理解一个角色住在一个地标附近，而这个地标在一个特定的城市——成功率会大大降低。研究表明，这种多步骤的推理在超过 16,000 个标记的文本中变得特别具有挑战性，即使使用了旨在提高推理的技术，例如 Chain-of-Thought 提示。

这些发现之所以特别值得注意，是因为它们挑战了关于 AI 模型能够处理长上下文的说法。虽然许多模型宣称支持广泛的上下文窗口，但 NOLIMA 基准表明，有效的理解会在达到这些理论限制之前大大下降。

来源：Modarressi 等。

当 AI 迷失在细节中

这些限制对我们在实际应用中使用 AI 有着重大的影响。考虑一个在案例法中搜索的法律 AI 系统。它可能会错过相关的先例，只是因为它们使用的术语与搜索查询不同。该系统可能会专注于不太相关的案例，这些案例碰巧与搜索词更为相似。

对搜索和文档分析的影响尤其令人担忧。当前的 AI 驱动的搜索系统通常依赖于一种称为检索增强生成 (RAG)的技术。即使这些系统成功检索到包含正确信息的文档，AI 也可能无法识别其相关性，如果措辞与查询不同。相反，AI 可能会转向不太相关的文档，这些文档与搜索词在表面上有相似之处。

对于 AI 用户，这些发现表明了几个重要的考虑因素：

首先，较短的查询和文档可能会产生更可靠的结果。当处理较长的文本时，将它们分解为较小、更有针对性的部分可能有助于保持 AI 的性能。

其次，用户在要求 AI 分析较长的文本时应该特别小心。研究表明，AI 模型在需要独立建立连接时会遇到最大的困难，特别是当连接不是通过共享词汇明显时。

最后，这些限制凸显了持续的人类监督的重要性。虽然 AI 可以成为处理和分析文本的强大工具，但它不应该被视为在复杂文档中识别重要连接的唯一手段。人类在长文本中保持上下文和建立概念连接的能力仍然优于当前的 AI 能力。

这些发现提醒我们，尽管 AI 技术进步迅速，但这些系统仍以与人类非常不同的方式处理信息。了解这些限制对于有效使用 AI 工具和知道何时人类判断仍然至关重要是非常重要的。

接下来是什么

了解当前 AI 模型处理长文本的限制为 AI 发展的未来提出了重要的问题。NOLIMA 基准背后的研究表明，我们当前的 AI 文本处理方法可能需要重大改进，特别是在处理较长段落中的信息方面。

当前的解决方案只取得了部分成功。Chain-of-Thought 提示，鼓励 AI 模型将其推理分解为步骤，有助于提高性能。例如，使用此技术，Llama 3.3 70B 在处理较长的上下文时表现更好。然而，这种方法仍然不足以处理超过 16,000 个标记的文本，表明我们需要更根本的解决方案。

形成当前 AI 模型处理文本的基础的注意力机制需要重新思考。可以把它想象成试图在一个拥挤的房间里进行对话——对话越长，跟踪之前提到的所有重要点就越困难。我们的当前 AI 模型面临着类似的挑战，但规模要大得多。

展望未来，研究人员正在探索几个有前途的方向。一个方法涉及开发新的方法，使 AI 能够在长文本中组织和优先处理信息，超越简单的词匹配，以了解更深层次的概念联系。这可能会像人类创建信息的心理地图一样工作，根据意义而不是仅仅共享词汇来连接思想。

另一个发展领域集中于改进 AI 模型处理所谓的“潜在跳跃”的方式——连接不同信息片段所需的逻辑步骤。当前的模型在较长的文本中，尤其是处理这些连接时会遇到困难，但新的架构可能有助于弥合这一差距。

对于今天使用 AI 工具的人来说，这些发现表明了几种实用的方法：

在使用 AI 时，考虑将较长的文档分解为有意义的部分。这有助于创建保留重要上下文的逻辑部分。例如，如果分析一篇研究论文，您可能会将方法和结果部分保持在一起，因为它们通常包含相关信息。

当要求 AI 分析较长的文本时，请具体说明您希望它建立的连接。不要提出广泛的问题，而是引导 AI 向您感兴趣的特定关系。这样有助于弥补模型在独立建立这些连接时的当前限制。

也许最重要的是，要对 AI 处理长文本的能力保持现实的期望。虽然这些工具可以成为处理和分析文本的强大辅助工具，但它们不应被视为替代人类对复杂文档的分析。人类在长文本中保持上下文和建立概念联系的能力仍然优于当前的 AI 能力。

在这个领域的 AI 发展之路既具有挑战性，又令人兴奋。随着我们更好地理解这些限制，我们可以朝着真正理解长文本的 AI 系统而努力，而不是仅仅处理它们。直到那时，使用 AI 有效地意味着在其当前限制内工作，同时欣赏其优势。