AI 模型与平台

评估大型语言模型：技术指南

发布于 2024年1月29日

更新于 2026年5月22日

作者

Aayush Mittal Mittal

大型语言模型（LLM）如GPT-4、Claude和LLaMA正在迅速流行。由于它们能够生成令人印象深刻的人类般文本，这些人工智能系统现在被用于从内容创作到客户服务聊天机器人等一切事情。

但是，我们如何知道这些模型实际上是否有效？随着新的大型语言模型不断被宣布，所有这些模型都声称比以前的模型更大、更好，我们如何评估和比较它们的性能?

在这份综合指南中，我们将探讨评估大型语言模型的顶级技术。我们将研究每种方法的优缺点、应用场景以及如何在自己的大型语言模型测试中利用它们。

任务特定指标

评估大型语言模型最直接的方法之一是使用标准化指标测试它们在已建立的NLP任务上的性能。例如：

摘要

对于摘要任务，像ROUGE（回忆导向的摘要评估）这样的指标通常被使用。ROUGE将模型生成的摘要与人类编写的“参考”摘要进行比较，计算重叠的单词或短语。

ROUGE有几种变体，每种都有其优缺点：

ROUGE-N：比较n-gram（N个单词的序列）的重叠。ROUGE-1使用单个单词，ROUGE-2使用双词等。优点是它可以捕捉单词顺序，但可能过于严格。
ROUGE-L：基于最长公共子序列（LCS）。在单词顺序上更灵活，但关注主要点。
ROUGE-W：根据LCS匹配的重要性加权。试图改进ROUGE-L。

一般来说，ROUGE指标快速、自动，并且适用于排名系统摘要。然而，它们不衡量连贯性或意义。一个摘要可能获得高ROUGE评分，但仍然是无意义的。

ROUGE-N的公式是：

$ROUGE-N = \sum ^{s \in {Reference Summaries}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {Reference Summaries}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

其中：

Count_{match}(gram_n)是生成和参考摘要中n-gram的数量。
Count(gram_n)是参考摘要中n-gram的数量。

例如，对于ROUGE-1（单词）：

生成的摘要：“猫坐在那里。”
参考摘要：“猫坐在垫子上。”
重叠的单词：“猫”，“坐在”
ROUGE-1评分=3/5=0.6

ROUGE-L使用最长公共子序列（LCS）。它在单词顺序上更灵活。公式是：

$ROUGE-L = max(length(generated), length(reference)) L CS ( generated , reference )$

其中LCS是最长公共子序列的长度。

ROUGE-W加权LCS匹配。它考虑每个匹配的重要性。

翻译

对于机器翻译任务，BLEU（双语评估）是一个流行的指标。BLEU衡量模型输出翻译与专业人士翻译之间的相似度，使用n-gram精度和简洁性惩罚。

BLEU的关键方面：

比较n-gram的重叠，n的取值范围是1到4（单词、双词、trigram、4-gram）。
计算n-gram精度的几何平均值。
如果翻译比参考翻译短很多，则应用简洁性惩罚。
通常范围从0到1，1表示与参考翻译完全匹配。

BLEU与人类对翻译质量的判断相关性较好。但是，它仍然有一些局限性：

只衡量精度，而不衡量召回率或F1得分。
难以处理使用不同词汇的创造性翻译。
容易被翻译技巧“操纵”。

其他翻译指标，如METEOR和TER，试图改进BLEU的弱点。但一般来说，自动指标不能完全捕捉翻译质量。

其他任务

除了摘要和翻译，像F1、准确率、MSE等指标可以用于评估大型语言模型在以下任务上的性能：

文本分类
信息抽取
问答
情感分析
语法错误检测

任务特定指标的优势在于评估可以使用标准化数据集完全自动化，如SQuAD用于问答和GLUE基准测试用于一系列任务。结果可以轻松跟踪随着模型改进而变化的性能。

然而，这些指标狭隘地关注单个任务，无法衡量整体语言质量。大型语言模型可能在单个任务的指标上表现良好，但在生成连贯、逻辑、有用的文本方面可能会失败。

研究基准

评估大型语言模型的一种流行方法是测试它们在涵盖多样主题和技能的广泛研究基准上。这些基准允许模型快速大规模测试。

一些著名的基准包括：

SuperGLUE – 11个多样化语言任务的挑战集合。
GLUE – 9个句子理解任务的集合。比SuperGLUE简单。
MMLU – 57个不同STEM、社会科学和人文任务。测试知识和推理能力。
Winograd Schema Challenge – 需要常识推理的代词解析问题。
ARC – 挑战性的自然语言推理任务。
Hellaswag – 关于情况的常识推理。
PIQA – 需要图表的物理问题。

通过在这些基准上评估，研究人员可以快速测试模型在数学、逻辑、推理、编码、常识等方面的能力。正确回答的问题的百分比成为比较模型的基准指标。

然而，基准的一个主要问题是训练数据污染。许多基准包含模型在预训练期间已经看到的示例。这使得模型能够“记忆”特定问题的答案，并且比其实际能力更好地表现。

人们试图通过删除重叠示例来“去污染”基准。但是，这很难做到，尤其是当模型可能已经看到问题的改述或翻译版本时。

因此，虽然基准可以高效地测试一组广泛的技能，但它们不能可靠地衡量真正的推理能力，也不能避免由于污染而导致的评分膨胀。需要补充的评估方法。

大型语言模型自我评估

一个有趣的方法是让大型语言模型评估另一个大型语言模型的输出。这个想法是利用“更容易”的任务概念：

生成高质量输出对于大型语言模型来说可能很困难。
但是，判断给定的输出是否高质量可能是一个更容易的任务。

例如，大型语言模型可能难以从头开始生成一个事实、连贯的段落，但它可以更容易地判断给定的段落是否在逻辑上有意义并且符合上下文。

所以，过程是：

将输入提示传递给第一个大型语言模型以生成输出。
将输入提示+生成的输出传递给第二个“评估者”大型语言模型。
要求评估者大型语言模型评估输出质量。例如，“上述响应是否有逻辑意义？”

这种方法快速实现并自动化大型语言模型评估。但是，有一些挑战：

性能严重依赖于评估者大型语言模型的选择和提示的措辞。
受到原始任务难度的限制。评估复杂推理对于大型语言模型来说仍然很困难。
如果使用基于API的大型语言模型，可能会计算成本高昂。

自我评估特别适合评估检索增强生成（RAG）系统中检索的信息。额外的大型语言模型查询可以验证是否正确使用了检索的上下文。

总体来说，自我评估显示出潜力，但需要小心实施。它补充，而不是取代，人类评估。

人类评估

鉴于自动化指标和基准的局限性，人类评估仍然是评估大型语言模型质量的金标准。

专家可以提供有关以下方面的详细定性评估：

准确性和事实正确性
逻辑、推理和常识
连贯性、一致性和可读性
语气、风格和声音的适当性
语法和流畅性
创造力和细微差别

为了评估模型，人类会被给予一组输入提示和大型语言模型生成的响应。他们会评估响应的质量，通常使用评分标准和评分表。

缺点是手动的人类评估昂贵、缓慢、难以扩大规模。它还需要开发标准化的评估标准和培训评估人员一致地应用这些标准。

一些研究人员已经探索了众包人类大型语言模型评估的创造性方法，使用锦标赛式系统，人们可以在模型之间下注和评判。但是，覆盖范围仍然有限，相比之下，全面的人类评估更为全面。

对于质量比规模更重要的商业用例，专家的人类测试仍然是金标准，尽管它很昂贵。尤其是在大型语言模型的风险应用中，这一点尤为重要。

结论

彻底评估大型语言模型需要使用一系列互补的方法，而不是依赖单一技术。

通过将自动化方法与严格的人类监督相结合，我们可以开发出可靠的测试方法来评估大型语言模型。通过强大的评估，我们可以解锁大型语言模型的巨大潜力，同时负责任地管理其风险。

Aayush Mittal, Mittal

我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献，特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI