人工智能

DeepMind 的米开朗基罗基准：揭示长上下文 LLM 的局限性

发布于 2024年10月17日

更新于 2026年5月20日

作者

Dr. Assad Abbas

DeepMind Michelangelo Benchmark LLM limits

随着人工智能（AI）的不断发展，处理和理解长序列信息的能力变得越来越重要。AI 系统现在被用于复杂任务，如分析长文档、跟踪长对话和处理大量数据。然而，许多当前模型在长上下文推理方面存在困难。随着输入的增长，它们往往会丢失重要细节，导致结果不准确或不连贯。

这个问题在医疗保健、法律服务和金融行业尤其突出，在这些领域，AI 工具必须处理详细的文档或长时间的讨论，同时提供准确、上下文感知的响应。一个常见的挑战是上下文漂移，即模型在处理新输入时会丢失对早期信息的跟踪，导致结果不相关。

为了解决这些局限性，DeepMind 开发了米开朗基罗基准。这一工具严格测试了 AI 模型在长上下文推理方面的能力。受米开朗基罗的启发，米开朗基罗基准有助于发现 AI 模型从大型数据集中提取有意义模式的能力。通过确定当前模型的缺陷，米开朗基罗基准为 AI 在长上下文推理方面的未来改进提供了方向。

理解 AI 中的长上下文推理

长上下文推理是指 AI 模型在长文本、代码或对话序列中保持连贯性和准确性的能力。像 GPT-4 和 PaLM-2 这样的模型在短或中等长度的输入中表现良好。然而，它们在处理更长的上下文时存在困难。随着输入长度的增加，这些模型往往会丢失早期部分的重要细节。这种问题被称为上下文窗口限制。模型保留和处理信息的能力会随着上下文的增长而降低。

这个问题在现实世界应用中非常重要。例如，在法律服务中，AI 模型分析合同、案例研究或法规，这些文档可能有数百页长。如果这些模型无法有效地保留和推理这些长文档，它们可能会错过重要条款或误解法律术语。这可能会导致不准确的建议或分析。在医疗保健中，AI 系统需要综合患者记录、医疗史和治疗计划，这些计划可能跨越数年甚至数十年。如果模型无法准确地回忆早期记录中的关键信息，它可能会推荐不适当的治疗或误诊患者。

尽管人们已经努力提高模型的标记限制（如 GPT-4 可以处理多达 32,000 个标记，约相当于 50 页文本），长上下文推理仍然是一个挑战。上下文窗口问题限制了模型可以处理的输入量，并影响了其在整个输入序列中保持准确理解的能力。这导致了上下文漂移，即模型逐渐忘记早期的细节，随着新信息的引入。这降低了其生成连贯和相关输出的能力。

米开朗基罗基准：概念和方法

米开朗基罗基准通过测试 LLM 在需要保留和处理长序列信息的任务中来解决长上下文推理的挑战。与早期基准不同，早期基准关注短上下文任务，如句子完成或基本问答，米开朗基罗基准强调需要模型跨长数据序列推理的任务，通常包括干扰或不相关信息。

米开朗基罗基准使用潜在结构查询（LSQ）框架来挑战 AI 模型。这一方法需要模型在大型数据集中找到有意义的模式，同时过滤掉不相关的信息，类似于人类在复杂数据中筛选出重要信息。基准关注两个主要领域：自然语言和代码，引入了测试不仅仅是数据检索的任务。

一个重要的任务是潜在列表任务。在这个任务中，模型被给予一系列 Python 列表操作，如追加、删除或排序元素，然后它需要产生正确的最终列表。为了使其更具挑战性，任务包括不相关的操作，例如反转列表或取消前面的步骤。这测试了模型专注于关键操作的能力，模拟了 AI 系统处理混合相关性的大型数据集的方式。

另一个关键任务是多轮核心ference 解析（MRCR）。这个任务衡量模型跟踪长时间对话中重叠或不明确主题的引用的能力。挑战是让模型将对话末端引用的内容链接到早期点，即使这些引用被不相关的细节所掩盖。这一任务反映了现实世界的讨论，话题经常转变，AI 必须准确地跟踪和解析引用以保持连贯的沟通。

此外，米开朗基罗还具有 IDK 任务，该任务测试模型识别何时没有足够的信息来回答问题的能力。在这个任务中，模型被呈现可能不包含相关信息来回答特定查询的文本。挑战是让模型识别正确的响应是“我不知道”，而不是提供一个看似合理但不正确的答案。这一任务反映了 AI 可靠性的一个关键方面——识别不确定性。

通过这样的任务，米开朗基罗超越了简单的检索，测试了模型推理、综合和管理长上下文输入的能力。它引入了一个可扩展、合成且未泄露的长上下文推理基准，提供了对 LLM 当前状态和未来潜力的更精确的衡量。

对 AI 研究和开发的影响

米开朗基罗基准的结果对 AI 的发展有着重大影响。基准表明，当前的 LLM 需要更好的架构，特别是在注意力机制和内存系统方面。目前，大多数 LLM 依赖于自注意力机制。这些机制对短任务有效，但在上下文增长时会遇到困难。这就是我们看到上下文漂移的问题，即模型忘记或混淆早期的细节。为了解决这个问题，研究人员正在探索内存增强模型。这些模型可以存储早期对话或文档中的重要信息，允许 AI 在需要时回忆和使用它。

另一个有前途的方法是分层处理。这一方法使 AI 能够将长输入分解为较小、可管理的部分，这有助于它在每个步骤关注最相关的细节。这样，模型可以更好地处理复杂任务，而不会被过多的信息所淹没。

提高长上下文推理的能力将产生重大影响。在医疗保健中，这可能意味着更好的患者记录分析，AI 可以跟踪患者的历史并提供更准确的治疗建议。在法律服务中，这些进步可能会导致 AI 系统能够更准确地分析长合同或案例法，提供更可靠的见解给律师和法律专业人士。

然而，随着这些进步而来的还有重要的伦理问题。随着 AI 更好地保留和推理长上下文，存在泄露敏感或私人信息的风险。这是一个真正的担忧，尤其是在医疗保健和客户服务等行业中，保密性至关重要。

如果 AI 模型保留太多来自以前交互的信息，它可能会在未来的对话中无意中泄露个人细节。此外，随着 AI 更好地生成令人信服的长篇内容，存在使用它创建更先进的虚假信息或错误信息的危险，这进一步复杂了围绕 AI 法规的挑战。

结论

米开朗基罗基准揭示了 AI 模型处理复杂长上下文任务的能力，突出了它们的优势和局限性。这个基准推动了 AI 的创新，鼓励更好的模型架构和改进的内存系统。转变医疗保健和法律服务等行业的潜力令人兴奋，但伴随着伦理责任。

随着 AI 更好地处理大量信息，必须解决隐私、虚假信息和公平问题。AI 的增长必须专注于以深思熟虑和负责任的方式造福社会。

Dr. Assad Abbas

阿萨德·阿巴斯博士（Dr. Assad Abbas）是巴基斯坦伊斯兰堡COMSATS大学的终身副教授，他在美国北达科他州立大学获得了博士学位。他的研究重点是包括云计算、雾计算、边缘计算、大数据分析和人工智能在内的先进技术。阿巴斯博士在著名的科学期刊和会议上发表了大量的论文，并做出了重要的贡献。他也是 MyFastingBuddy 的创始人。

Unite.AI

DeepMind 的米开朗基罗基准：揭示长上下文 LLM 的局限性

理解 AI 中的长上下文推理

米开朗基罗基准：概念和方法

对 AI 研究和开发的影响

结论

You may like