Unite.AI - AI News & Research

人工智能1 year ago

顶尖AI模型在长文档处理中迷失方向

慕尼黑大学、慕尼黑机器学习中心和Adobe Research的研究人员发布的一项新研究揭示了AI语言模型的一个弱点：它们在理解长文档方面存在困难，其表现方式可能出乎你的意料。研究团队的发现表明，即使是最先进的AI模型，在无法依赖简单的词语匹配时，也难以建立信息之间的联系。 AI阅读能力的隐藏问题想象一下，试图在一篇长篇研究论文中寻找一个具体细节。你可能会快速浏览，在脑海中将不同部分的信息联系起来，拼凑出所需内容。事实证明，许多AI模型完全不是这样工作的。相反，它们通常严重依赖寻找完全匹配的词语，类似于在电脑上使用Ctrl+F功能。研究团队开发了一个名为NOLIMA（无字面匹配）的新基准来测试各种AI模型。结果显示，当AI模型处理超过2000词的文本时，其性能会急剧下降。当文本长度达到32,000词——大约相当于一本短篇小说的长度——大多数模型的性能只有其通常能力的一半。这包括对GPT-4o、Gemini 1.5 Pro和Llama 3.3 70B等主要模型的测试。设想一下，一位医学研究员使用AI分析患者记录，或一个法律团队使用AI审查案件文件。如果AI因为相关信息使用的词语与搜索查询不同而错过了关键联系，后果可能很严重。为何词语匹配不够用当前的AI模型使用一种称为注意力机制的机制来处理文本。这个系统帮助AI专注于文本的不同部分，以理解词语和思想之间的关系。在处理较短文本时，这通常效果尚可。然而，研究表明，随着文本变长，这种机制会变得不堪重负，尤其是在无法依赖精确词语匹配的情况下。 NOLIMA测试通过向AI模型提出需要理解上下文而非寻找匹配词语的问题，揭示了这一局限性。结果很有说服力。虽然模型在短文本上表现良好，但随着文本长度增加，它们建立这些联系的能力显著下降。即使是专为推理任务设计的模型，在处理较长文档时，准确率也低于50%。失去了词语匹配这根拐杖，AI模型难以做到：连接使用不同术语的相关概念遵循多步骤的推理路径在关键语境之后找到相关信息忽略无关部分中具有误导性的词语匹配数据说明一切研究结果清晰地描绘了AI模型处理较长文本的状况。GPT-4o表现最强，其有效性可维持到大约8000个标记（约6000词）。然而，即使是这位顶级选手，在处理更长文本时也表现出显著下降。包括Gemini 1.5 Pro和Llama 3.3 70B在内的大多数其他模型，在2000到8000个标记之间性能急剧下滑。当任务需要多步骤推理时，性能下降更为明显。例如，如果模型需要进行两个逻辑连接——比如理解一个角色住在某个地标附近，而该地标位于某个特定城市——成功率就会大幅下降。研究表明，这种多步骤推理在超过16,000个标记的文本中变得尤其具有挑战性，即使使用了旨在改进推理的技术，如思维链提示。这些发现之所以特别值得注意，是因为它们挑战了关于AI模型处理长上下文能力的说法。虽然许多模型宣传支持超长的上下文窗口，但NOLIMA基准测试表明，有效的理解能力在达到这些理论极限之前就早已下降。...