人工智能

LLM-as-a-Judge：一种用于评估语言模型的可扩展解决方案，利用语言模型

Published November 14, 2024

Updated April 3, 2026

Aayush Mittal Mittal

LLM-as-a-Judge for Automated and Scalable Evaluation

LLM-as-a-Judge 框架是一种可扩展的、自动化的替代人类评估的方法，后者通常由于成本高、速度慢和评估响应的体积有限而受到限制。通过使用 LLM 来评估另一个 LLM 的输出，团队可以高效地跟踪准确性、相关性、语气和遵守特定指南的一致性和可复制性。

评估生成的文本会带来独特的挑战，这些挑战超出了传统的准确性指标。一个单一的提示可以产生多个正确的响应，这些响应在风格、语气或措辞上有所不同，使得使用简单的量化指标来衡量质量变得困难。

这里，LLM-as-a-Judge 方法脱颖而出：它允许对复杂的质量进行细致的评估，例如语气、有用性和对话连贯性。无论是用于比较模型版本还是评估实时输出，LLM 判断都提供了一种灵活的方式来近似人类判断，使其成为扩展评估工作的理想解决方案，适用于大型数据集和实时交互。

本指南将探讨 LLM-as-a-Judge 的工作原理、其不同类型的评估以及如何在各种上下文中有效实施。我们将介绍如何设置标准、设计评估提示以及建立反馈循环以进行持续改进。

LLM-as-a-Judge 的概念

LLM-as-a-Judge 使用 LLM 来评估其他 AI 系统的文本输出。作为公正的评估者，LLM 可以根据自定义标准（例如相关性、简洁性和语气）对生成的文本进行评分。该评估过程类似于让虚拟评估者根据提示中提供的特定指南审查每个输出。

它的工作原理

LLM-as-a-Judge 的设计目的是根据评估提示中的指令评估文本响应。提示通常定义了 LLM 在评估输出时应考虑的质量，例如有用性、相关性或清晰度。

LLM 使用其内部知识和学习的语言模式来评估提供的文本，将提示标准与响应的质量进行匹配。通过设定明确的期望，评估者可以将 LLM 的焦点定制为捕捉细致的质量，例如礼貌或具体性，这些质量可能很难衡量。与传统的评估指标不同，LLM-as-a-Judge 提供了一种灵活的、高级的近似人类判断，可以适应不同的内容类型和评估需求。

评估类型

成对比较: 在这种方法中，LLM 被给予两个对同一提示的响应，并被要求根据相关性或准确性等标准选择“更好的”一个。这种类型的评估通常用于 A/B 测试，其中开发人员正在比较不同版本的模型或提示配置。通过要求 LLM 判断哪个响应根据特定标准更好，成对比较提供了一种确定模型输出偏好的直接方法。
直接评分: 直接评分是一种无参考评估，LLM 根据预定义的质量（例如礼貌、语气或清晰度）对单个输出进行评分。直接评分在离线和在线评估中都有效，提供了一种方式来持续监测质量在各种交互中的变化。这种方法有利于跟踪一致的质量随时间的变化，通常用于监测实时响应的生产。
基于参考的评估: 该方法引入了额外的上下文，例如参考答案或支持材料，生成的响应将根据这些上下文进行评估。这种方法通常用于检索增强生成 (RAG) 设置中，响应必须与检索的知识紧密对齐。通过将输出与参考文档进行比较，该方法有助于评估事实准确性和遵守特定内容，例如检查生成文本中的幻觉。

用例

LLM-as-a-Judge 可适用于各种应用：

聊天机器人: 评估响应的相关性、语气和有用性，以确保一致的质量。
摘要: 根据摘要的简洁性、清晰度和与源文档的对齐度进行评分，以保持忠实度。
代码生成: 审查代码片段的正确性、可读性和遵守给定的指令或最佳实践。

这种方法可以作为自动评估器来增强这些应用程序，通过不断监测和改进模型性能来提高质量，而无需进行耗时的人类审查。

构建您的 LLM 判断 – 分步指南

创建 LLM 基础评估设置需要仔细规划和明确的指南。按照以下步骤构建强大的 LLM-as-a-Judge 评估系统：

步骤 1：定义评估标准

首先定义您希望 LLM 评估的特定质量。您的评估标准可能包括以下因素：

相关性: 响应是否直接解决问题或提示？
语气: 语气是否适合上下文（例如专业、友好、简洁）？
准确性: 提供的信息是否事实正确，特别是在基于知识的响应中？

例如，如果评估聊天机器人，您可能会优先考虑相关性和有用性，以确保它提供有用的、相关的响应。每个标准都应明确定义，因为模糊的指南可能会导致不一致的评估。定义简单的二元或量化标准（例如“相关”与“不相关”或有用性的 Likert 量表）可以提高一致性。

步骤 2：准备评估数据集

要校准和测试 LLM 判断器，您需要一个具有标记示例的代表性数据集。准备此数据集有两种主要方法：

生产数据: 使用应用程序的历史输出数据。选择代表典型响应的示例，涵盖每个标准的各个质量级别。
合成数据: 如果生产数据有限，您可以创建合成示例。这些示例应模仿预期的响应特征，并涵盖更全面的测试边缘情况。

一旦您拥有数据集，请根据您的评估标准手动标记它。这将作为您的基准真相，允许您衡量 LLM 判断器的一致性和准确性。

步骤 3：精心设计提示

提示工程对于有效指导 LLM 判断器至关重要。每个提示都应清晰、具体并与您的评估标准保持一致。以下是每种评估类型的示例：

成对比较提示

您将看到两个对同一问题的响应。根据有用性、相关性和详细程度选择更好的响应。如果两个响应同样好，请将它们标记为平局。

问题：[插入问题]
响应 A：[插入响应 A]
响应 B：[插入响应 B]

输出： “更好的响应：A” 或 “更好的响应：B” 或 “平局”;

直接评分提示

评估以下响应的礼貌。礼貌的响应是尊重的、体贴的，并避免使用严厉的语言。返回“礼貌”或“不礼貌”。

响应：[插入响应]

输出： “礼貌” 或 “不礼貌”;

基于参考的评估提示

比较以下响应与提供的参考答案。评估响应是否事实正确并传达相同的含义。标记为“正确”或“错误”。

参考答案：[插入参考答案]
生成响应：[插入生成响应]

输出： “正确” 或 “错误”;

以这种方式设计提示可以减少歧义，并使 LLM 判断器能够理解如何评估每个响应。为了进一步提高提示的清晰度，限制每次评估的范围为一两个质量（例如相关性和详细程度），而不是在单个提示中混合多个因素。

步骤 4：测试和迭代

创建提示和数据集后，通过在标记的数据集上运行 LLM 判断器来评估它。将 LLM 的输出与您分配的基准真相标签进行比较，以检查一致性和准确性。评估的关键指标包括：

精度: 正确的正面评估的百分比。
召回率: 基准真相中正确识别的正面评估的百分比。
准确率: 正确评估的总百分比。

测试有助于识别 LLM 判断器性能中的任何不一致性。例如，如果判断器经常错误地将有用的响应标记为无用，您可能需要改进评估提示。从小样本开始，然后在迭代过程中增加数据集的大小。

在此阶段，考虑使用不同的提示结构进行实验或使用多个 LLM 进行交叉验证。例如，如果一个模型倾向于冗长，您可以尝试使用更简洁的 LLM 模型来查看结果是否更好地符合您的基准真相。提示修订可能涉及调整标签、简化语言，甚至将复杂的提示分解为更小、更易于管理的提示。

代码实现：将 LLM-as-a-Judge 投入行动

本节将指导您如何使用 Python 和 Hugging Face 设置和实现 LLM-as-a-Judge 框架。从设置 LLM 客户端到处理数据和运行评估，本节将涵盖整个管道。

设置您的 LLM 客户端

要使用 LLM 作为评估器，首先需要配置它以执行评估任务。这涉及设置 LLM 模型客户端以使用 Hugging Face 的中心库中预训练的模型执行推理和评估任务。

import pandas as pd
from huggingface_hub import InferenceClient

# 初始化 LLM 客户端，使用特定的模型存储库
repo_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
llm_client = InferenceClient(model=repo_id, timeout=120)

在此设置中，模型使用超时限制初始化，以处理扩展的评估请求。请确保将 repo_id 替换为所选模型的正确存储库 ID。

加载和准备数据

设置 LLM 客户端后，下一步是加载和准备数据以进行评估。我们将使用 pandas 进行数据操作，并使用 datasets 库加载任何预先存在的数据集。

import pandas as pd
from datasets import load_dataset

# 加载示例数据集（替换为您的数据集）
data = load_dataset("your_dataset_id")["train"]

# 提取评估的相关字段
df = pd.DataFrame({
'question': data['question_field'],
'answer': data['answer_field']
})
df.head()

确保数据集包含与评估标准相关的字段，例如问题-答案对或预期输出格式。

使用 LLM 判断进行评估

数据加载和准备完成后，我们可以创建函数来评估响应。以下示例演示了一个函数，用于根据提供的问题-答案对评估答案的相关性和准确性。

def evaluate_answer(question, answer):
# 编写提示以评估相关性和准确性
prompt = f"评估响应的相关性和准确性:\n问题：{question}\n答案：{answer}"
result = llm_client.text_generation(prompt=prompt, max_new_tokens=50)
return result

# 使用示例测试函数
question = "FED 的行动如何影响通货膨胀？"
answer = "当 FED 购买债券时，它可能导致..."
evaluation = evaluate_answer(question, answer)
print("LLM 评估：", evaluation)

此函数将问题-答案对发送到 LLM，LLM 根据评估提示进行判断。您可以通过修改提示中指定的标准（例如“相关性和语气”或“简洁性”）来适应此函数以执行其他评估任务。

实现成对比较

在需要比较两个模型输出的情况下，LLM 可以在响应之间进行判断。我们调整评估提示以指示 LLM 根据指定标准选择两个响应中的“更好”一个。

def evaluate_pairwise(question, answer_a, answer_b):
# 编写提示以进行成对比较
prompt = (
f"给定以下问题，确定哪个响应更相关、更详细。\n\n"
f"问题：{question}\n\n"
f"响应 A：{answer_a}\n\n"
f"响应 B：{answer_b}\n\n"
"选择更好的响应：A 或 B。"
)
result = llm_client.text_generation(prompt=prompt, max_new_tokens=10)
return result

# 示例成对比较
question = "FED 的债券购买行为会产生什么影响？"
answer_a = "FED 的行动可以增加货币供应。"
answer_b = "FED 的债券购买通常会提高通货膨胀。"
comparison = evaluate_pairwise(question, answer_a, answer_b)
print("更好的响应：", comparison)

此函数提供了一种实用的方法来评估和排名响应，这在 A/B 测试场景中尤其有用，以优化模型响应。

实用提示和挑战

虽然 LLM-as-a-Judge 框架是一种强大的工具，但几个实用的考虑因素可以帮助提高其性能并在长期内保持准确性。

提示设计的最佳实践

设计有效的提示对于准确的评估至关重要。以下是一些实用的提示：

避免偏见: LLM 可能会根据提示结构显示偏好偏见。避免在提示中暗示“正确”的答案，并确保问题是中立的。
减少冗长偏见: LLM 可能会偏爱更冗长的响应。指定简洁性，如果冗长度不是标准。
最小化位置偏见: 在成对比较中，定期随机化答案的顺序，以减少对第一个或第二个响应的任何位置偏见。

例如，改为指定标准：“选择提供清晰、简洁解释的响应。”

局限性和缓解策略

虽然 LLM 判断可以复制人类判断，但它们也存在局限性：

任务复杂性: 一些任务，尤其是那些需要数学或深入推理的任务，可能会超过 LLM 的能力。对于需要精确事实知识的任务，使用较简单的模型或外部验证器可能会有所帮助。
意外偏见: LLM 判断可能会根据措辞显示偏见，例如“位置偏见”（偏爱某些位置的响应）或“自我增强偏见”（偏爱类似先前答案的答案）。为了减轻这些偏见，避免位置假设，并监测评估趋势以发现不一致性。
输出模糊性: 如果 LLM 产生模糊的评估，请考虑使用二元提示，需要是/否或正/负分类，以简化任务。

结论

LLM-as-a-Judge 框架提供了一种灵活、可扩展且具有成本效益的方法来评估 AI 生成的文本输出。通过仔细设置和周到的提示设计，它可以模仿人类判断，适用于从聊天机器人到摘要器再到问答系统的各种应用。

通过仔细监测、提示迭代和对局限性的认识，团队可以确保他们的 LLM 判断器保持与实际应用需求的一致性。

Aayush Mittal

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献，特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI