人工智能
为什么大型语言模型忘记了中间部分:揭示AI的隐藏盲点

由于大型语言模型(LLMs)被广泛用于文档摘要、法律分析和医疗史评估等任务,因此认识这些模型的局限性至关重要。虽然像幻觉和偏见这样的常见问题已经众所周知,但研究人员最近发现了另一个重要的缺陷:在处理长文本时,LLMs倾向于保留开始和结束的信息,但经常忽略中间部分。
这个问题,被称为“迷失在中间”现象,对这些模型在实际应用中的性能可能产生严重影响。例如,如果AI被要求总结一份冗长的法律文件,遗漏中间的关键细节可能会导致误导性或不完整的摘要。在医疗环境中,忽略患者病史中间的信息可能会导致不准确的建议。了解为什么会发生这种情况仍然是研究人员在构建更安全、更可靠的AI时面临的挑战。然而,最近的一项研究提供了一些最清晰的答案,揭示了这个问题深深植根于这些模型的架构中。
“迷失在中间”的问题
“迷失在中间”现象指的是LLMs倾向于给长输入序列中间的信息较少的关注。这与人类经常更好地记住列表中的第一个和最后一个项目,而不是中间的项目类似。这种人类的认知偏见通常被称为首位效应和近期效应。对于LLMs,这意味着它们在开始或结束处具有关键信息时性能更好,但当信息埋藏在中间时则挣扎。这导致了一个“U形”性能曲线,其中开始处的准确率很高,中间部分急剧下降,然后在结束处再次上升。
这种现象不仅仅是一个理论问题。它已经在广泛的任务中被观察到,从问答到文档摘要。例如,如果你问LLM一个问题,答案位于长文章的前几段,它可能会正确回答。同样,如果答案位于最后几段也是如此。但如果关键信息隐藏在中间,模型的准确率会大幅下降。这是一个严重的局限性,因为它意味着我们不能完全信任这些模型来执行需要理解长而复杂上下文的任务。它还使它们容易被操纵。有人可能会故意将误导性信息放在文档的开始或结束处来影响AI的输出。
理解LLMs的架构
为了了解为什么LLMs会忘记中间部分,我们需要看看它们的构建方式。现代LLMs基于一种称为Transformer的架构。Transformer是一个突破,因为它引入了一种称为自注意力的机制。自注意力允许模型在处理任何给定单词时权衡输入文本中不同单词的重要性。例如,当处理句子“The cat sat on the mat”时,自注意力机制可能会学习“cat”和“sat”之间的高相关性。这使得模型能够比以前的架构更好地理解单词之间的关系。
另一个关键组件是位置编码。由于自注意力机制本身没有内在的单词顺序感知,因此位置编码被添加到输入中以给模型关于每个单词在序列中的位置的信息。没有这个,模型会将输入文本视为一个没有结构的“词袋”。这些两个组件,自注意力和位置编码,一起使LLMs更有效。然而,新的研究表明,它们的交互作用也是这个隐藏盲点的源头。
位置偏见是如何出现的
最近的一项研究使用了一种巧妙的方法来解释这个现象。它将Transformer内部的信息流建模为一个图,其中每个单词是一个节点,注意力连接是边。这样,研究人员就可以数学地跟踪不同位置的信息如何通过模型的多个层次处理。
他们发现了两个主要的见解。首先,许多LLMs中使用的因果掩蔽技术固有地创建了对序列开始的偏见。因果掩蔽是一种技术,确保当模型生成一个单词时,它只能关注之前的单词,而不是之后的单词。这对于像文本生成这样的任务至关重要。然而,在多个层次上,这种技术会产生一种复合效应。文本中的第一个几个单词被反复处理,它们的表示变得越来越有影响力。相比之下,中间的单词总是回顾已经建立的上下文,它们自己的独特贡献可能会被淹没。
其次,研究人员研究了位置编码如何与这种因果掩蔽效应相互作用。现代LLMs通常使用相对位置编码,这些编码关注单词之间的距离,而不是它们的绝对位置。这有助于模型对不同长度的文本进行泛化。虽然这似乎是一个好主意,但它会产生一种竞争压力。因果掩蔽将模型的焦点推向开始,而相对位置编码则鼓励模型关注附近的单词。这种拉锯战的结果是,模型最关注文本的开始和任何给定单词的局部上下文。远离开始且不在开始的信息,换句话说,中间部分,获得的关注最少。
更广泛的影响
“迷失在中间”现象对依赖长文本处理的应用具有重要意义。研究表明,问题不仅仅是一个随机效应,而是我们设计这些模型的方式的基本结果。这意味着仅仅在更多数据上训练它们不太可能解决这个问题。相反,我们可能需要重新思考Transformer的一些核心架构原则。
对于AI的用户和开发者来说,这是一个关键警告。我们必须意识到这个限制,当设计依赖LLMs的应用时。对于涉及长文档的任务,我们可能需要开发策略来减轻这种偏见。这可能涉及将文档分解为较小的块或创建专门将模型的注意力引导到文本不同部分的模型。它还强调了彻底测试的重要性。我们不能假设在短文本上表现良好的LLM在面对更长、更复杂的输入时会是可靠的。
结论
AI开发一直专注于识别局限性并找到克服它们的方法。“迷失在中间”问题是大型语言模型的一个重大缺陷,它们倾向于忽略长文本序列中的中间信息。这个问题源于Transformer架构中的偏见,特别是因果掩蔽和相对位置编码之间的交互作用。虽然LLMs在文本开始和结束处的信息处理良好,但当重要细节位于中间时,它们会挣扎。这一局限性会降低LLMs在文档摘要和问答等任务中的准确性,这可能会在法律和医学等领域产生严重的影响。开发者和研究人员必须解决这个问题,以提高LLMs在实际应用中的可靠性。












