Connect with us

思想领袖

LLM的基准测试

mm

了解基准测试在LLM性能评估中的作用和局限性。探索开发强大的LLM的技术。

大型语言模型(LLM)近年来获得了巨大的关注。正如您所见,LLM在理解人类语言命令方面具有卓越的能力,使其成为企业的绝佳整合,支持关键工作流程并自动执行任务以实现最大效率。此外,超出普通用户的理解范围,LLM还可以做更多的事情。随着我们对其的依赖程度的增加,我们必须更加关注确保准确性和可靠性的措施。这是一个全球性的任务,涉及整个机构,但在商业领域,已经有多个基准测试可用于评估LLM在各个领域的性能。这些基准测试可以测试模型在理解、逻辑构建、数学等方面的能力,结果将决定LLM是否准备好投入商业使用。

在本文中,我收集了一个全面列表,列出了最流行的LLM评估基准测试。我们将详细讨论每个基准测试,并看看不同LLM如何在评估标准中表现。但首先,让我们更详细地了解LLM评估。

什么是LLM评估?

与其他AI模型一样,LLM也需要根据特定的基准测试进行评估,这些基准测试评估语言模型性能的各个方面:知识、准确性、可靠性和一致性。标准通常涉及:

  1. 理解用户查询:评估模型准确理解和解释广泛用户输入的能力。
  2. 输出验证:通过将AI生成的响应与可靠的知识库进行验证,以确保其正确性和相关性。
  3. 鲁棒性:衡量模型在模糊、不完整或嘈杂输入下的性能。

LLM评估为开发人员提供了识别和解决限制的能力,从而提高整体用户体验。如果LLM经过彻底评估,它将足够准确和强大,以处理不同实际应用,甚至包括那些具有模糊或意外输入的应用。

基准测试

LLM是迄今为止最复杂的技术之一,可以支持甚至最棘手的应用。因此,评估过程必须同样复杂,测试其思维过程和技术准确性。

基准测试使用特定的数据集、指标和评估任务来测试LLM性能,并允许比较不同LLM并衡量其准确性,从而推动行业的进步和性能的提高。

以下是LLM性能的一些最典型的方面:

  • 知识:模型的知识需要在各个领域进行测试。这就是知识基准测试的目的。它评估模型如何有效地从不同领域(如物理学、编程、地理等)回忆信息。
  • 逻辑推理:意味着测试模型的“思考”步骤和推导出逻辑结论的能力。它们通常涉及场景,模型必须选择最合理的继续或基于日常知识和逻辑推理的解释。
  • 阅读理解:模型必须擅长于自然语言解释,然后生成相应的响应。测试类似于回答基于段落的问题,以衡量理解、推理和细节保留能力。就像学校的阅读测试一样。
  • 代码理解:这需要衡量模型在理解、编写和调试代码方面的能力。这些基准测试为模型提供编码任务或问题,模型必须准确解决,通常涵盖广泛的编程语言和范式。
  • 世界知识:为了评估模型对世界的一般知识的掌握。这些数据集通常具有需要广泛的百科知识才能正确回答的问题,这使它们与更具体和专业的知识基准测试有所不同。

“知识”基准测试

MMLU(多模态语言理解)

该基准测试旨在测试LLM在各个主题(如人文、社会科学、历史、计算机科学,甚至法律)方面的知识掌握。57个问题和15k个任务都旨在确保模型具有出色的推理能力。这使MMLU成为评估LLM事实知识和推理能力的良好工具,涵盖各个主题。

最近,它已成为评估LLM在上述领域的关键基准测试。开发人员始终希望优化他们的模型,以在此基准测试中超越其他模型,这使其成为评估高级推理和LLM知识的 де facto 标准。像GPT-4-omni、Claude 3 Opus、Gemini 1.5 Pro和Llama-3 70B这样的大型企业级模型在此基准测试中取得了令人印象深刻的成绩,包括88.7%、86.8%、85.9%和82%。小型模型通常在此基准测试中表现不佳,通常不超过60-65%,但Phi-3-Small-7b最近的75.3%表现令人值得思考。

然而,MMLU并非完美无缺:它存在已知问题,例如模糊的问题、不正确的答案和缺乏背景。许多人认为,其中一些任务对于适当的LLM评估来说太容易了。

我想澄清,像MMLU这样的基准测试并不能完美地反映现实世界的场景。如果LLM在此基准测试中取得了伟大的成绩,这并不总是意味着它已经成为该领域的专家。基准测试的范围通常有限,通常依赖多项选择题,这永远无法完全捕捉现实世界交互的复杂性和背景。真正的理解需要知道事实并动态地应用这些知识,这涉及批判性思维、问题解决和背景理解。因此,LLM需要不断被改进和更新,以保持基准测试的相关性和有效性。

… (rest of the translation remains the same)

Irina Barskaya, PhD, 是一位具有十多年经验的杰出数据科学家,涵盖了产品分析和尖端技术的分析。她领导了Yasmina的创建和分析,Yasmina是沙特阿拉伯的第一个完全功能的本地化AI语音助手,负责现代标准阿拉伯语和沙特方言的复杂数据本地化和标注。目前,Irina负责Yandex的质量分析,推动AI技术的发展。