人工智能

评估大型语言模型：技术指南

发布时间

3个月前

2024 年 1 月 29 日

阿尤什·米塔尔

GPT-4、Claude 和 LLaMA 等大型语言模型 (LLM) 的受欢迎程度呈爆炸性增长。由于能够生成令人印象深刻的类似人类的文本，这些人工智能系统现在被用于从内容创建到客户服务聊天机器人的各个领域。

但我们如何知道这些模型是否真的有用呢？随着新的法学硕士不断宣布，都声称规模更大、更好，我们如何评估和比较他们的表现？

在本综合指南中，我们将探讨评估大型语言模型的顶级技术。我们将研究每种方法的优缺点、何时最好应用它们，以及如何在自己的法学硕士测试中利用它们。

特定于任务的指标

评估 LLM 最直接的方法之一是使用标准化指标在既定的 NLP 任务上对其进行测试。例如：

概要

对于总结任务，指标如 RED （Recall-Oriented Understudy for Gisting Evaluation）是常用的。 ROUGE 将模型生成的摘要与人工编写的“参考”摘要进行比较，计算单词或短语的重叠。

ROUGE 有多种口味，每种口味都有自己的优点和缺点：

胭脂-N： 比较 n 元语法（N 个单词的序列）的重叠。 胭脂-1 使用一元语法（单个单词）， 胭脂-2 使用二元组等。优点是它捕获词序，但可能过于严格。
胭脂-L： 基于最长公共子序列（LCS）。词序更灵活，但重点关注要点。
胭脂-W： LCS 的权重按其重要性进行匹配。尝试改进 ROUGE-L。

一般来说，ROUGE 指标快速、自动，并且非常适合排名系统摘要。然而，它们不衡量连贯性或意义。一个总结可能会得到很高的 ROUGE 分数，但仍然是无意义的。

ROUGE-N 的公式为：

$胭脂N = \sum ^{s \in {参考摘要}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {参考摘要}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

地点：

Count_{match}(gram_n) 是生成的摘要和参考摘要中的 n 元语法的计数。
Count(gram_n) 是参考摘要中 n 元语法的计数。

例如，对于 ROUGE-1（一元组）：

生成的摘要：“猫坐着。”
参考摘要：“猫坐在垫子上。”
重叠的一元词：“The”、“cat”、“sat”
ROUGE-1 分数 = 3/5 = 0.6

胭脂-L 使用最长公共子序列（LCS）。词序更灵活。公式为：

$胭脂-L = max(长度(生成), 长度(参考)) L CS ( 产生 , 参考 )$

其中 LCS 是最长公共子序列的长度。

胭脂-W LCS 匹配的权重。它考虑了 LCS 中每场比赛的重要性。

翻译

对于机器翻译任务，布鲁（双语评估替补）是一个流行的指标。 BLEU 使用 n 元语法精度和简洁性惩罚来衡量模型输出翻译与专业人工翻译之间的相似性。

BLEU 工作原理的关键方面：

比较 n 最多 4 个的 n 元语法重叠（一元语法、二元语法、三元语法、4 元语法）。
计算 n 元语法精度的几何平均值。
如果翻译比参考短得多，则会受到简洁性惩罚。
通常范围从 0 到 1，其中 1 与参考完美匹配。

BLEU 与人类对翻译质量的判断有相当好的相关性。但它仍然有局限性：

仅衡量参考文献的精确度，而不衡量召回率或 F1。
难以使用不同的措辞进行创造性翻译。
容易被翻译技巧“玩弄”。

其他翻译指标（如 METEOR 和 TER）试图改进 BLEU 的弱点。但总的来说，自动指标并不能完全捕捉翻译质量。

其他任务

除了摘要和翻译之外，F1、准确性、MSE 等指标还可用于评估 LLM 在以下任务上的表现：

文字分类
信息提取
问题回答
情绪分析
语法错误检测

特定于任务的指标的优点是可以使用标准化数据集完全自动化评估，例如队用于质量检查和胶一系列任务的基准。随着模型的改进，可以轻松跟踪结果。

然而，这些指标的关注范围很窄，无法衡量整体语言质量。一般来说，在单个任务的指标上表现良好的法学硕士可能无法生成连贯、逻辑、有用的文本。

研究基准

评估法学硕士的一种流行方法是根据涵盖不同主题和技能的广泛研究基准对其进行测试。这些基准允许快速大规模测试模型。

一些著名的基准包括：

强力胶 – 11 项不同的语言任务具有挑战性。
胶 – 9 个句子理解任务的集合。比 SuperGLUE 更简单。
百万美元 – 57 项不同的 STEM、社会科学和人文学科任务。测试知识和推理能力。
Winograd 模式挑战 – 需要常识推理的代词解析问题。
ARC – 具有挑战性的自然语言推理任务。
海拉斯瓦格 – 关于情况的常识推理。
PIQA – 需要图表的物理问题。

通过评估此类基准，研究人员可以快速测试模型执行数学、逻辑、推理、编码、常识等的能力。正确回答问题的百分比成为比较模型的基准指标。

然而，基准测试的一个主要问题是 训练数据污染。许多基准测试包含模型在预训练期间已经看到的示例。这使得模型能够“记住” 回答具体问题并表现得比他们的真实能力更好。

正在尝试“去污”通过删除重叠示例来进行基准测试。但这对于全面做到这一点具有挑战性，特别是当模型可能已经看到问题的释义或翻译版本时。

因此，虽然基准测试可以有效地测试广泛的技能，但它们无法可靠地衡量真实的推理能力或避免由于污染而造成的分数膨胀。需要补充评估方法。

法学硕士自我评估

一个有趣的方法是让一个法学硕士评估另一个法学硕士的输出。这个想法是利用“更简单”的任务概念：

对于法学硕士来说，产生高质量的输出可能很困难。
但确定给定的输出是否是高质量的可能是一项更容易的任务。

例如，虽然法学硕士可能很难从头开始生成事实、连贯的段落，但它可以更轻松地判断给定的段落是否具有逻辑意义并适合上下文。

所以过程是：

将输入提示传递给第一个 LLM 以生成输出。
将输入提示+生成的输出传递给第二个“评估者”LLM。
向评估员 LLM 询问一个问题以评估输出质量。例如，“上述回应符合逻辑吗？”

这种方法实施速度快，并且可以自动化法学硕士评估。但也存在一些挑战：

绩效在很大程度上取决于评估者法学硕士的选择和提示措辞。
受原任务难度的限制。对于法学硕士来说，评估复杂的推理仍然很困难。
如果使用基于 API 的法学硕士，计算成本可能会很高。

自我评估对于评估检索到的信息特别有前途 RAG（检索增强生成） 系统。额外的 LLM 查询可以验证检索到的上下文是否被正确使用。

总体而言，自我评估显示出潜力，但在实施时需要谨慎。它补充而不是取代人类评估。

人工评价

鉴于自动化指标和基准的局限性，人工评估仍然是严格评估 LLM 质量的黄金标准。

专家可以提供详细的定性评估：

准确性和事实正确性
逻辑、推理和常识
连贯性、一致性和可读性
语气、风格和声音的恰当性
语法性和流利性
创造力和细微差别

为了评估模型，人类会得到一组输入提示和法学硕士生成的响应。他们通常使用评级量表和评分标准来评估答复的质量。

缺点是人工评估成本高昂、速度缓慢且难以扩展。它还需要制定标准化标准并培训评估者以一致地应用它们。

一些研究人员探索了利用锦标赛式系统对人类法学硕士评估进行众筹的创造性方法，人们在该系统中下注并判断模型之间的匹配。但与完整的手动评估相比，覆盖范围仍然有限。

对于质量比原始规模更重要的业务用例，专家人体测试尽管成本高昂，但仍然是黄金标准。对于法学硕士的风险较高的申请尤其如此。

结论

彻底评估大型语言模型需要使用多种互补方法的工具包，而不是依赖任何单一技术。

通过将自动化的速度方法与严格的人工监督准确性相结合，我们可以为大型语言模型开发值得信赖的测试方法。通过稳健的评估，我们可以释放法学硕士的巨大潜力，同时负责任地管理其风险。

联合人工智能

评估大型语言模型：技术指南

人工智能

评估大型语言模型：技术指南

目录

特定于任务的指标

概要

翻译

其他任务

研究基准

法学硕士自我评估

人工评价

结论

最新文章

联合人工智能

评估大型语言模型：技术指南

目录

特定于任务的指标

概要

翻译

其他任务

研究基准

法学硕士自我评估

人工评价

结论

你可能会喜欢

最新文章