Connect with us

人工智能

评估大型语言模型:技术指南

mm
Evaluating Large Language Models

大型语言模型(LLM)如GPT-4、Claude和LLaMA近期非常受欢迎。由于它们能够生成令人印象深刻的人类化文本,这些AI系统现在被用于从内容创作到客户服务聊天机器人等一切事情。

但是,我们如何知道这些模型实际上有多好?随着新的大型语言模型不断被宣布,所有这些模型都声称自己更大、更好,我们如何评估和比较它们的性能?

在这份综合指南中,我们将探索评估大型语言模型的顶级技术。我们将研究每种方法的优缺点、最佳应用场景以及如何在自己的LLM测试中利用它们。

任务特定指标

评估LLM的一种最直接的方法是使用标准化指标测试它在已建立的NLP任务上的性能。例如:

摘要

对于摘要任务,通常使用ROUGE(面向总结的回忆导向下属)指标。ROUGE通过比较模型生成的摘要与人类撰写的“参考”摘要,计算单词或短语的重叠程度来进行比较。

ROUGE有几种变体,每种都有其优缺点:

  • ROUGE-N:比较n-gram(N个单词序列)的重叠。 ROUGE-1使用单个单词(unigram),ROUGE-2使用双词(bigram),等等。其优点是可以捕捉单词顺序,但可能过于严格。
  • ROUGE-L:基于最长公共子序列(LCS)。在单词顺序上更灵活,但关注主要点。
  • ROUGE-W:根据LCS匹配的重要性对其进行加权。试图改进ROUGE-L。

一般来说,ROUGE指标计算速度快、自动化,并且适用于对系统摘要进行排名。然而,它们无法衡量连贯性或意义。一个摘要可能获得高ROUGE评分,但仍然是无意义的。

ROUGE-N的公式为:

ROUGE-N=∑∈{Reference Summaries}∑∑�∈{Reference Summaries}∑

其中:

  • Count_{match}(gram_n)是生成和参考摘要中n-gram的数量。
  • Count(gram_n)是参考摘要中n-gram的数量。

例如,对于ROUGE-1(单词):

  • 生成的摘要:“猫坐在那里。”
  • 参考摘要:“猫坐在垫子上。”
  • 重叠的单词:“猫”,“坐在”
  • ROUGE-1评分=3/5=0.6

ROUGE-L使用最长公共子序列(LCS)。它在单词顺序上更灵活。公式为:

ROUGE-L=���(generated,reference)max(length(generated), length(reference))

其中LCS是最长公共子序列的长度。

ROUGE-W对LCS匹配进行加权。它考虑每个LCS匹配的重要性。

翻译

对于机器翻译任务,BLEU(双语评估辅助工具)是一种流行的指标。BLEU通过使用n-gram精度和简洁性惩罚来衡量模型输出翻译与专业人士翻译之间的相似度。

BLEU的工作原理关键方面:

  • 比较n-gram的重叠度,n的取值范围为1至4(单词、双词、3-gram、4-gram)。
  • 计算n-gram精度的几何平均值。
  • 如果翻译比参考翻译短得多,则施加简洁性惩罚。
  • 通常范围从0到1,1表示与参考翻译完全匹配。

BLEU与人类对翻译质量的判断相对较好相关。但是,它仍然存在局限性:

  • 仅衡量对参考翻译的精度,而不是召回率或F1得分。
  • 难以处理使用不同词汇的创造性翻译。
  • 容易受到“作弊”的影响,例如使用翻译技巧。

其他翻译指标,如METEOR和TER,试图改进BLEU的弱点。但一般来说,自动化指标无法完全捕捉翻译质量。

其他任务

除了摘要和翻译外,还可以使用F1、准确率、MSE等指标来评估LLM在以下任务中的性能:

  • 文本分类
  • 信息抽取
  • 问答
  • 情感分析
  • 语法错误检测

任务特定指标的优点是可以使用标准化数据集(如SQuAD用于问答和GLUE基准测试用于一系列任务)完全自动化评估。结果可以轻松跟踪随着模型改进而变化的趋势。

然而,这些指标的关注点很狭窄,无法衡量整体语言质量。在单个任务的指标上表现良好的LLM可能在生成连贯、逻辑性和有用的通用文本方面失败。

研究基准

评估LLM的一种流行方法是测试它们在涵盖多样话题和技能的广泛研究基准上。这些基准允许模型快速大规模测试。

一些著名的基准包括:

  • SuperGLUE – 一套具有挑战性的11个多样化的语言任务。
  • GLUE – 一系列9个句子理解任务。比SuperGLUE简单。
  • MMLU – 57个不同STEM、社会科学和人文任务。测试知识和推理能力。
  • Winograd Schema Challenge – 需要常识推理的代词解析问题。
  • ARC -具有挑战性的自然语言推理任务。
  • Hellaswag – 需要常识推理的情景。
  • PIQA – 需要图表的物理问题。

通过在这些基准上评估,研究人员可以快速测试模型在数学、逻辑、推理、编码、常识等方面的能力。正确回答的问题百分比成为比较模型的基准指标。

然而,基准的一个主要问题是训练数据污染。许多基准包含模型在预训练期间已经看到的示例。这使得模型能够“记忆”特定问题的答案,并且比其实际能力表现得更好。

人们试图通过删除重叠示例来“去污染”基准。但是,这很难做到全面,尤其是当模型可能已经看到问题的改述或翻译版本时。

因此,虽然基准可以高效地测试一系列技能,但它们无法可靠地衡量真正的推理能力,也无法避免由于污染而导致的评分膨胀。需要补充的评估方法。

LLM自我评估

一种有趣的方法是让LLM评估另一个LLM的输出。其理念是利用“更容易”的任务概念:

  • 为LLM生成高质量输出可能很困难。
  • 但是,判断给定的输出是否高质量可能是一个更容易的任务。

例如,虽然LLM可能难以从头开始生成一个事实、连贯的段落,但它可以更容易地判断给定的段落是否在逻辑上有意义并且符合上下文。

所以这个过程是:

  1. 将输入提示传递给第一个LLM以生成输出。
  2. 将输入提示+生成的输出传递给第二个“评估器”LLM。
  3. 要求评估器LLM一个问题来评估输出质量。例如,“上述响应是否在逻辑上有意义?”

这种方法快速实施并自动化LLM评估。但是,也有一些挑战:

  • 性能严重依赖于评估器LLM的选择和提示的措辞。
  • 受到原始任务难度的限制。评估复杂推理对于LLM来说仍然很困难。
  • 如果使用基于API的LLM,可能会计算成本高昂。

自我评估对于评估检索增强生成(RAG)系统中检索的信息尤其有前途。额外的LLM查询可以验证检索的上下文是否被适当使用。

总体而言,自我评估显示出潜力,但需要小心实施。它补充,而不是取代,人类评估。

人类评估

鉴于自动化指标和基准的局限性,人类评估仍然是评估LLM质量的金标准。

专家可以对以下方面提供详细的定性评估:

  • 准确性和事实正确性
  • 逻辑、推理和常识
  • 连贯性、一致性和可读性
  • 语气、风格和声音的适当性
  • 语法和流畅度
  • 创造力和细微差别

为了评估一个模型,人类会被给予一组输入提示和LLM生成的响应。他们评估响应的质量,通常使用评分标准和评分表。

缺点是手动的人类评估昂贵、缓慢且难以扩大规模。它还需要开发标准化的标准并培训评估人员一致地应用它们。

一些研究人员已经探索了使用锦标赛式系统来众包人类LLM评估的创造性方法,在这些系统中,人们可以对模型进行投注和判断。但是,相比之下,覆盖范围仍然有限。

对于质量比原始规模更重要的商业用例,专家人工测试仍然是金标准,尽管它很昂贵。这在LLM的风险应用中尤其如此。

结论

全面评估大型语言模型需要使用多种互补方法的工具箱,而不是依赖任何单一技术。

通过将自动化方法与严格的人类监督相结合以确保准确性,我们可以为大型语言模型开发可靠的测试方法。通过强大的评估,我们可以在负责任地管理风险的同时解锁LLM的巨大潜力。

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献,特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣,这是一个我渴望进一步探索的领域。