思想领袖

LLM的基准测试

Published August 28, 2024

Updated April 27, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

了解基准测试在LLM性能评估中的作用和局限性。探索开发强大的LLM的技术。

大型语言模型（LLM）近年来获得了巨大的关注。正如您所见，LLM在理解人类语言命令方面具有卓越的能力，使其成为企业的绝佳整合，支持关键工作流程并自动执行任务以实现最大效率。此外，超出普通用户的理解范围，LLM还可以做更多的事情。随着我们对其的依赖程度的增加，我们必须更加关注确保准确性和可靠性的措施。这是一个全球性的任务，涉及整个机构，但在商业领域，已经有多个基准测试可用于评估LLM在各个领域的性能。这些基准测试可以测试模型在理解、逻辑构建、数学等方面的能力，结果将决定LLM是否准备好投入商业使用。

在本文中，我收集了一个全面列表，列出了最流行的LLM评估基准测试。我们将详细讨论每个基准测试，并看看不同LLM如何在评估标准中表现。但首先，让我们更详细地了解LLM评估。

什么是LLM评估？

与其他AI模型一样，LLM也需要根据特定的基准测试进行评估，这些基准测试评估语言模型性能的各个方面：知识、准确性、可靠性和一致性。标准通常涉及：

理解用户查询：评估模型准确理解和解释广泛用户输入的能力。
输出验证：通过将AI生成的响应与可靠的知识库进行验证，以确保其正确性和相关性。
鲁棒性：衡量模型在模糊、不完整或嘈杂输入下的性能。

LLM评估为开发人员提供了识别和解决限制的能力，从而提高整体用户体验。如果LLM经过彻底评估，它将足够准确和强大，以处理不同实际应用，甚至包括那些具有模糊或意外输入的应用。

基准测试

LLM是迄今为止最复杂的技术之一，可以支持甚至最棘手的应用。因此，评估过程必须同样复杂，测试其思维过程和技术准确性。

基准测试使用特定的数据集、指标和评估任务来测试LLM性能，并允许比较不同LLM并衡量其准确性，从而推动行业的进步和性能的提高。

以下是LLM性能的一些最典型的方面：

知识：模型的知识需要在各个领域进行测试。这就是知识基准测试的目的。它评估模型如何有效地从不同领域（如物理学、编程、地理等）回忆信息。
逻辑推理：意味着测试模型的“思考”步骤和推导出逻辑结论的能力。它们通常涉及场景，模型必须选择最合理的继续或基于日常知识和逻辑推理的解释。
阅读理解：模型必须擅长于自然语言解释，然后生成相应的响应。测试类似于回答基于段落的问题，以衡量理解、推理和细节保留能力。就像学校的阅读测试一样。
代码理解：这需要衡量模型在理解、编写和调试代码方面的能力。这些基准测试为模型提供编码任务或问题，模型必须准确解决，通常涵盖广泛的编程语言和范式。
世界知识：为了评估模型对世界的一般知识的掌握。这些数据集通常具有需要广泛的百科知识才能正确回答的问题，这使它们与更具体和专业的知识基准测试有所不同。

“知识”基准测试

MMLU（多模态语言理解）

该基准测试旨在测试LLM在各个主题（如人文、社会科学、历史、计算机科学，甚至法律）方面的知识掌握。57个问题和15k个任务都旨在确保模型具有出色的推理能力。这使MMLU成为评估LLM事实知识和推理能力的良好工具，涵盖各个主题。

最近，它已成为评估LLM在上述领域的关键基准测试。开发人员始终希望优化他们的模型，以在此基准测试中超越其他模型，这使其成为评估高级推理和LLM知识的 де facto 标准。像GPT-4-omni、Claude 3 Opus、Gemini 1.5 Pro和Llama-3 70B这样的大型企业级模型在此基准测试中取得了令人印象深刻的成绩，包括88.7％、86.8％、85.9％和82％。小型模型通常在此基准测试中表现不佳，通常不超过60-65％，但Phi-3-Small-7b最近的75.3％表现令人值得思考。

然而，MMLU并非完美无缺：它存在已知问题，例如模糊的问题、不正确的答案和缺乏背景。许多人认为，其中一些任务对于适当的LLM评估来说太容易了。

我想澄清，像MMLU这样的基准测试并不能完美地反映现实世界的场景。如果LLM在此基准测试中取得了伟大的成绩，这并不总是意味着它已经成为该领域的专家。基准测试的范围通常有限，通常依赖多项选择题，这永远无法完全捕捉现实世界交互的复杂性和背景。真正的理解需要知道事实并动态地应用这些知识，这涉及批判性思维、问题解决和背景理解。因此，LLM需要不断被改进和更新，以保持基准测试的相关性和有效性。

… (rest of the translation remains the same)

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, 是一位具有十多年经验的杰出数据科学家，涵盖了产品分析和尖端技术的分析。她领导了Yasmina的创建和分析，Yasmina是沙特阿拉伯的第一个完全功能的本地化AI语音助手，负责现代标准阿拉伯语和沙特方言的复杂数据本地化和标注。目前，Irina负责Yandex的质量分析，推动AI技术的发展。

Unite.AI

LLM的基准测试

什么是LLM评估？

基准测试

“知识”基准测试

MMLU（多模态语言理解）

You may like