人工智能1 year ago
顶尖AI模型在长文档处理中迷失方向
慕尼黑大学、慕尼黑机器学习中心和Adobe Research的研究人员发布的一项新研究揭示了AI语言模型的一个弱点:它们在理解长文档方面存在困难,其表现方式可能出乎你的意料。研究团队的发现表明,即使是最先进的AI模型,在无法依赖简单的词语匹配时,也难以建立信息之间的联系。 AI阅读能力的隐藏问题 想象一下,试图在一篇长篇研究论文中寻找一个具体细节。你可能会快速浏览,在脑海中将不同部分的信息联系起来,拼凑出所需内容。事实证明,许多AI模型完全不是这样工作的。相反,它们通常严重依赖寻找完全匹配的词语,类似于在电脑上使用Ctrl+F功能。 研究团队开发了一个名为NOLIMA(无字面匹配)的新基准来测试各种AI模型。结果显示,当AI模型处理超过2000词的文本时,其性能会急剧下降。当文本长度达到32,000词——大约相当于一本短篇小说的长度——大多数模型的性能只有其通常能力的一半。这包括对GPT-4o、Gemini 1.5 Pro和Llama 3.3 70B等主要模型的测试。 设想一下,一位医学研究员使用AI分析患者记录,或一个法律团队使用AI审查案件文件。如果AI因为相关信息使用的词语与搜索查询不同而错过了关键联系,后果可能很严重。 为何词语匹配不够用 当前的AI模型使用一种称为注意力机制的机制来处理文本。这个系统帮助AI专注于文本的不同部分,以理解词语和思想之间的关系。在处理较短文本时,这通常效果尚可。然而,研究表明,随着文本变长,这种机制会变得不堪重负,尤其是在无法依赖精确词语匹配的情况下。 NOLIMA测试通过向AI模型提出需要理解上下文而非寻找匹配词语的问题,揭示了这一局限性。结果很有说服力。虽然模型在短文本上表现良好,但随着文本长度增加,它们建立这些联系的能力显著下降。即使是专为推理任务设计的模型,在处理较长文档时,准确率也低于50%。 失去了词语匹配这根拐杖,AI模型难以做到: 连接使用不同术语的相关概念 遵循多步骤的推理路径 在关键语境之后找到相关信息 忽略无关部分中具有误导性的词语匹配 数据说明一切 研究结果清晰地描绘了AI模型处理较长文本的状况。GPT-4o表现最强,其有效性可维持到大约8000个标记(约6000词)。然而,即使是这位顶级选手,在处理更长文本时也表现出显著下降。包括Gemini 1.5 Pro和Llama 3.3 70B在内的大多数其他模型,在2000到8000个标记之间性能急剧下滑。 当任务需要多步骤推理时,性能下降更为明显。例如,如果模型需要进行两个逻辑连接——比如理解一个角色住在某个地标附近,而该地标位于某个特定城市——成功率就会大幅下降。研究表明,这种多步骤推理在超过16,000个标记的文本中变得尤其具有挑战性,即使使用了旨在改进推理的技术,如思维链提示。 这些发现之所以特别值得注意,是因为它们挑战了关于AI模型处理长上下文能力的说法。虽然许多模型宣传支持超长的上下文窗口,但NOLIMA基准测试表明,有效的理解能力在达到这些理论极限之前就早已下降。...