人工智能

LLM-as-a-Judge：使用语言模型评估语言模型的可扩展解决方案

发布时间 2024 年 11 月 14 日

阿尤什·米塔尔米塔尔

LLM-as-a-Judge 框架是一种可扩展的自动化评估替代方案，人工评估通常成本高昂、速度慢，并且受限于可评估的回复数量。通过使用 LLM 评估另一个 LLM 的输出，团队可以以一致且可复制的方式高效地跟踪准确性、相关性、语气和对特定准则的遵守情况。

评估生成的文本带来了超越传统准确度指标的独特挑战。单个提示可能会产生在风格、语气或措辞上有所不同的多个正确答案，因此很难使用简单的定量指标来衡量质量。

在这里，LLM 法官方法脱颖而出：它允许对语气、帮助性和对话连贯性等复杂品质进行细致入微的评估。无论是用于比较模型版本还是评估实时输出，LLM 法官都提供了一种灵活的方式来近似人类判断，使其成为在大型数据集和实时交互中扩展评估工作的理想解决方案。

本指南将探讨法学硕士（LLM-as-a-Judge）项目的运作方式、不同类型的评估，以及在各种情况下有效实施的实用步骤。我们将介绍如何设置标准、设计评估提示，以及如何建立持续改进的反馈循环。

法学硕士法官项目的概念

法学硕士法官专业使用 LLM 评估其他 AI 系统的文本输出。作为公正的评估者，LLM 可以根据自定义标准（例如相关性、简洁性和语气）对生成的文本进行评分。此评估过程类似于让虚拟评估员根据特定指南审查每个输出提示. 对于内容密集型的应用来说，这是一个特别有用的框架，因为由于数量或时间的限制，人工审核是不切实际的。

服务流程

LLM-as-a-Judge 旨在根据评估提示中的说明评估文本响应。提示通常定义 LLM 在评估输出时应考虑的品质，如有用性、相关性或清晰度。例如，提示可能会要求 LLM 判断聊天机器人的响应是“有帮助”还是“无帮助”，并指导每个标签的含义。

这个 LLM 使用其内部知识和学习到的语言模式来评估所提供的文本，将提示标准与响应的质量相匹配。通过设定明确的期望，评估人员可以调整 LLM 的重点，以捕捉礼貌或特异性等细微的品质，否则这些品质可能难以衡量。与传统的评估指标不同，LLM-as-a-Judge 提供了一种灵活、高级的人类判断近似值，可适应不同的内容类型和评估需求。

评估类型

成对比较：在这种方法中，LLM 会针对同一提示给出两个答案，并被要求根据相关性或准确性等标准选择“更好”的答案。这种评估类型通常用于 A/B 测试，开发人员会比较模型的不同版本或提示配置。通过要求 LLM 根据特定标准判断哪个答案表现更好，成对比较提供了一种确定模型输出偏好的直接方法。
直接得分：直接评分是一种无参考的评估，其中 LLM 根据礼貌、语气或清晰度等预定义的品质对单一输出进行评分。直接评分适用于离线和在线评估，提供了一种持续监控各种互动质量的方法。这种方法有利于跟踪随时间推移的一致品质，通常用于监控生产中的实时响应。
基于参考的评价：此方法引入了额外的上下文，例如参考答案或支持材料，以此来评估生成的响应。这通常用于检索增强生成（RAG）设置，其中响应必须与检索到的知识紧密相关。通过将输出与参考文档进行比较，这种方法有助于评估事实准确性和对特定内容的遵守情况，例如检查生成的文本中是否存在幻觉。

使用案例

LLM-as-a-Judge 适用于多种应用：

聊天机器人：根据相关性、语气和帮助性等标准评估回应，以确保始终如一的质量。
概要：对摘要的简洁性、清晰度以及与源文档的一致性进行评分以保持保真度。
代码生成：检查代码片段的正确性、可读性以及是否符合给定的说明或最佳实践。

该方法可以作为自动评估器，通过持续监控和改进模型性能（无需详尽的人工审查）来增强这些应用程序。

建立你的法学硕士法官资格——循序渐进的指南

创建基于 LLM 的评估设置需要仔细规划和明确的指导方针。请按照以下步骤构建强大的 LLM-as-a-Judge 评估系统：

步骤 1：定义评估标准

首先明确你希望 LLM 评估的具体素质。你的评估标准可能包括以下因素：

相关性：答复是否直接回答了问题或提示？
音色：语气是否适合当时的情况（例如专业、友好、简洁）？
准确性：所提供的信息是否事实正确，特别是在基于知识的回应中？

例如，如果评估聊天机器人，您可以优先考虑相关性和实用性，以确保它提供有用且切题的响应。每个标准都应明确定义，因为模糊的指导方针可能会导致评估不一致。定义简单的二元或缩放标准（例如“相关”与“不相关”或李克特量表来衡量实用性）可以提高一致性。

第 2 步：准备评估数据集

为了校准和测试 LLM 评判员，您需要一个带有标记示例的代表性数据集。准备此数据集的主要方法有两种：

生产数据：使用应用程序历史输出的数据。选择代表典型响应的示例，涵盖每个标准的一系列质量级别。
综合数据：如果生产数据有限，您可以创建合成示例。这些示例应模拟预期的响应特征并涵盖边缘情况，以进行更全面的测试。

获得数据集后，请根据评估标准手动标记它。这个标记的数据集将作为您的基本事实，让您可以衡量 LLM 评判的一致性和准确性。

步骤 3：制定有效的提示

即时工程对于有效指导 LLM 评委至关重要。每个提示都应清晰、具体且符合您的评估标准。以下是每种评估类型的示例：

成对比较提示

 
You will be shown two responses to the same question. Choose the response that is more helpful, relevant, and detailed. If both responses are equally good, mark them as a tie.

Question: [Insert question here]
Response A: [Insert Response A]
Response B: [Insert Response B]

Output: "Better Response: A" or "Better Response: B" or "Tie"

直接评分提示

 
Evaluate the following response for politeness. A polite response is respectful, considerate, and avoids harsh language. Return "Polite" or "Impolite."

Response: [Insert response here]

Output: "Polite" or "Impolite"

基于参考的评估提示

 
Compare the following response to the provided reference answer. Evaluate if the response is factually correct and conveys the same meaning. Label as "Correct" or "Incorrect."

Reference Answer: [Insert reference answer here]
Generated Response: [Insert generated response here]

Output: "Correct" or "Incorrect"

以这种方式编写提示可以减少歧义，并使 LLM 评委能够准确了解如何评估每个答案。为了进一步提高提示的清晰度，请将每次评估的范围限制在一两个品质（例如相关性和细节），而不是在单个提示中混合多个因素。

步骤 4：测试和迭代

创建提示和数据集后，通过在标记的数据集上运行 LLM Judge 来评估它。将 LLM 的输出与您分配的地面实况标签进行比较，以检查一致性和准确性。评估的关键指标包括：

平台精度：正确的正面评价的百分比。
记得：LLM 正确识别的真实阳性百分比。
准确性：正确评估的总体百分比。

测试有助于识别 LLM 评委表现中的任何不一致之处。例如，如果评委经常将有用的回答错误地标记为无用的，则您可能需要改进评估提示。从小样本开始，然后在迭代过程中增加数据集的大小。

在此阶段，请考虑尝试不同的提示结构或使用多个 LLM 进行交叉验证。例如，如果一个模型往往冗长，请尝试使用更简洁的 LLM 模型进行测试，看看结果是否更接近您的基本事实。提示修订可能涉及调整标签、简化语言，甚至将复杂的提示分解为更小、更易于管理的提示。

法规实施：将法学硕士作为法官付诸实践

本部分将指导您使用 Python 设置和实施 LLM-as-a-Judge 框架，以及拥抱脸。从设置您的 LLM 客户端到处理数据和运行评估，本节将涵盖整个流程。

设置你的 LLM 客户端

要使用 LLM 作为评估器，我们首先需要对其进行配置以用于评估任务。这涉及设置 LLM 模型客户端，以便使用 Hugging Face Hub 上提供的预训练模型执行推理和评估任务。在这里，我们将使用 huggingface_hub 以简化设置。

 
import pandas as pd
from huggingface_hub import InferenceClient

# Initialize the LLM client with a specific model repository
repo_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
llm_client = InferenceClient(model=repo_id, timeout=120)

在此设置中，模型初始化时会设置超时限制，以处理扩展的评估请求。请务必替换 repo_id 使用您所选模型的正确存储库 ID。

加载和准备数据

设置 LLM 客户端后，下一步是加载并准备评估数据。我们将使用 pandas 用于数据处理和 datasets 库加载任何预先存在的数据集。下面，我们准备一个包含问题和答案的小型数据集以供评估。

 
import pandas as pd
from datasets import load_dataset

# Load a sample dataset (replace with your dataset)
data = load_dataset("your_dataset_id")["train"]

# Extract relevant fields for evaluation
df = pd.DataFrame({
    'question': data['question_field'],
    'answer': data['answer_field']
})
df.head()

确保数据集包含与您的评估标准相关的字段，例如问答对或预期的输出格式。

与法学硕士法官一起评估

加载并准备好数据后，我们可以创建函数来评估响应。此示例演示了一个根据提供的问答对评估答案的相关性和准确性的函数。

 
def evaluate_answer(question, answer):
    # Craft a prompt to evaluate relevance and accuracy
    prompt = f"Evaluate the response's relevance and accuracy:\nQuestion: {question}\nAnswer: {answer}"
    result = llm_client.text_generation(prompt=prompt, max_new_tokens=50)
    return result

# Test the function with an example
question = "How does the FED's actions impact inflation?"
answer = "When the FED buys bonds, it can lead to..."
evaluation = evaluate_answer(question, answer)
print("LLM Evaluation:", evaluation)

此功能将问答对发送给 LLM，LLM 将根据评估提示做出判断。您可以通过修改提示中指定的标准（例如“相关性和语气”或“简洁性”）将此提示适应其他评估任务。

实现成对比较

如果您想要比较两个模型输出，LLM 可以充当答案的评判者。我们调整了评估提示，以指示 LLM 根据指定的标准选择两个答案中更好的一个。

 
def evaluate_pairwise(question, answer_a, answer_b):
    # Craft a prompt for pairwise comparison
    prompt = (
        f"Given the question below, determine which response is more relevant and detailed.\n\n"
        f"Question: {question}\n\n"
        f"Response A: {answer_a}\n\n"
        f"Response B: {answer_b}\n\n"
        "Choose the better response: A or B."
    )
    result = llm_client.text_generation(prompt=prompt, max_new_tokens=10)
    return result

# Example pairwise comparison
question = "What is the impact of the FED's bond-buying actions?"
answer_a = "The FED's actions can increase the money supply."
answer_b = "The FED's bond purchases generally raise inflation."
comparison = evaluate_pairwise(question, answer_a, answer_b)
print("Better Response:", comparison)

此功能提供了一种评估和排序响应的实用方法，这在 A/B 测试场景中优化模型响应特别有用。

实用技巧和挑战

虽然 LLM-as-a-Judge 框架是一个强大的工具，但一些实际的考虑可以帮助提高其性能并随着时间的推移保持准确性。

快速制作的最佳实践

制定有效的提示是准确评估的关键。以下是一些实用技巧：

避免偏见：LLM 可能会根据提示结构表现出偏好偏差。避免在提示中建议“正确”答案，并确保问题是中性的。
减少冗长偏见：法学硕士可能更喜欢更详细的回复。如果回复内容冗长不是标准，请指定简洁性。
尽量减少立场偏见：在成对比较中，定期随机化答案的顺序，以减少对第一或第二个答案的位置偏差。

例如，不要说“选择下面的最佳答案”，而是直接指定标准：“选择提供清晰简洁解释的答案”。

限制和缓解策略

虽然法学硕士法官可以复制类似人类的判断能力，但他们也有局限性：

任务复杂性：某些任务，尤其是需要数学或深度推理的任务，可能超出法学硕士（LLM）的能力范围。对于需要精确事实知识的任务，使用更简单的模型或外部验证器可能会有所帮助。
意外的偏见：法学硕士评委可能会根据措辞表现出偏见，称为“立场偏见”（偏向某些立场的回答）或“自我提升偏见”（偏向与之前相似的答案）。为了减轻这些偏见，请避免立场假设，并监控评估趋势以发现不一致之处。
输出结果歧义：如果 LLM 产生模糊的评估，请考虑使用需要是/否或正/负分类的二元提示来完成更简单的任务。

结语

LLM-as-a-Judge 框架提供了一种灵活、可扩展且经济高效的方法来评估 AI 生成的文本输出。通过适当的设置和周到的提示设计，它可以在各种应用程序中模拟类似人类的判断，从聊天机器人到摘要器再到 QA 系统。

通过仔细的监控、及时的迭代和对局限性的认识，团队可以确保他们的 LLM 评委与现实世界的应用需求保持一致。

相关话题：自动化替代人工评估建立你的法学硕士法官聊天机器人评价体系人工审核法学硕士法官专业可扩展性

阿尤什·米塔尔

在过去的五年里，我一直沉浸在机器学习和深度学习的迷人世界中。我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献，特别关注人工智能/机器学习。我持续的好奇心也吸引了我对自然语言处理的兴趣，这是我渴望进一步探索的领域。

联合人工智能