人工智能

超越基准：为什么人工智能评估需要现实检验

Published May 12, 2025

Updated April 26, 2026

Dr. Tehseen Zia

如果您最近一直关注人工智能的发展，您可能已经看到许多报道了人工智能模型在基准测试中取得的突破性成就。从 ImageNet 图像识别任务到翻译和医疗图像诊断等方面，基准测试长期以来一直是衡量人工智能性能的金标准。然而，尽管这些数字令人印象深刻，但它们并不总是能够捕捉到现实世界应用的复杂性。一个在基准测试中表现完美的模型，在现实世界环境中测试时仍可能存在不足。本文将探讨为什么传统基准测试无法捕捉人工智能的真实价值，并探索更好地反映人工智能在现实世界中部署的动态、伦理和实际挑战的替代评估方法。

基准的吸引力

多年来，基准测试一直是人工智能评估的基础。它们提供了静态数据集，用于衡量特定任务，如对象识别或机器翻译。例如，ImageNet 是一个广泛使用的基准测试，用于测试对象分类，而 BLEU 和 ROUGE 评分用于评估机器生成文本的质量，方法是将其与人工编写的参考文本进行比较。这些标准化测试允许研究人员比较进展并在该领域创造健康的竞争。基准测试在推动人工智能领域的重大进展方面发挥了关键作用。例如，ImageNet 竞赛通过展示显著的准确性改进，发挥了深度学习革命的关键作用。
然而，基准测试通常简化了现实。由于人工智能模型通常是为了在固定条件下改进单一的明确定义任务而训练的，这可能导致过度优化。为了实现高分，模型可能依赖于基准测试中存在的数据模式，但这些模式在基准测试之外可能不成立。一个著名的例子是一个视觉模型，训练用于区分狼和哈士奇。相反，模型没有学习区分动物的特征，而是依赖于训练数据中常与狼相关的雪景。因此，当模型被呈现一个哈士奇在雪中的图像时，它自信地将其误标为狼。这展示了如何基准测试的过度拟合可能导致有缺陷的模型。正如 Goodhart 法则所述，“当一个衡量标准成为目标时，它就不再是一个好的衡量标准。”因此，当基准测试分数成为目标时，人工智能模型说明了 Goodhart 法则：它们在排行榜上产生令人印象深刻的分数，但在处理现实世界挑战时却苦苦挣扎。

人类期望与指标分数

基准测试的一个最大限制是，它们通常无法捕捉人类真正关心的内容。考虑机器翻译。一个模型可能在 BLEU 指标上得分很高，BLEU 指标衡量机器生成的翻译与参考翻译之间的重叠。虽然该指标可以衡量翻译的可信度，但它不考虑流畅度或意义。一个翻译可能得分很低，尽管它更自然或更准确，只是因为它使用了与参考翻译不同的措辞。人类用户关心翻译的意义和流畅度，而不仅仅是与参考翻译的精确匹配。同样的问题也适用于文本摘要：高 ROUGE 分数不能保证摘要是连贯的或捕捉到了人类读者期望的关键点。
对于生成式人工智能模型，问题变得更加具有挑战性。例如，大型语言模型（LLM）通常使用基准测试 MMLU 来测试其回答多个领域问题的能力。虽然基准测试可能有助于测试 LLM 的性能，但它不能保证可靠性。这些模型仍然可以 “幻觉”，呈现出虚假但听起来合理的信息。这种差距并不是由专注于正确答案而不评估真实性、上下文或连贯性的基准测试轻易检测到的。在一个备受关注的案例中，一个用于起草法律文件的 AI 助手引用了完全虚假的法院案例。AI 在纸面上看起来令人信服，但未能满足基本的人类期望，即真实性。

静态基准在动态环境中的挑战

适应不断变化的环境

静态基准测试在受控条件下评估人工智能的性能，但现实世界的场景是不可预测的。例如，一个对话式人工智能可能在基准测试中表现出色，回答脚本化的单轮问题，但在多步对话中，包括后续问题、俚语或拼写错误时，可能会苦苦挣扎。同样，自动驾驶汽车通常在理想条件下表现良好，但在异常情况下可能会失败，例如在贫弱的照明、恶劣天气或意外障碍下。例如，一个带有贴纸的停车标志可能会混淆汽车的视觉系统，导致误解。这些例子强调了静态基准测试不能可靠地衡量现实世界的复杂性。

伦理和社会考虑

传统基准测试通常无法评估人工智能的伦理性能。一个图像识别模型可能实现高准确率，但误识某些族裔群体的个体，这是由于有偏见的训练数据。同样，语言模型可能在语法和流畅度方面得分很高，但生成有偏见或有害的内容。这些问题在基准测试指标中没有反映出来，但在现实世界应用中具有重大后果。

无法捕捉细微差别

基准测试非常适合检查表面技能，例如模型是否可以生成语法正确的文本或真实的图像。但是，它们通常难以处理更深层次的品质，例如常识推理或语境适当性。例如，一个模型可能在基准测试中表现出色，生成完美的句子，但如果该句子事实上是错误的，那么它就是无用的。人工智能需要了解何时和如何说某些话，而不仅仅是说什么。基准测试很少测试这种水平的智慧，这对于聊天机器人或内容创作等应用至关重要。

语境适应

人工智能模型通常难以适应新语境，特别是当面临训练集以外的数据时。基准测试通常使用与模型训练数据类似的数据。这意味着它们没有充分测试模型处理新颖或意外输入的能力——这是现实世界应用中的一个关键要求。例如，一个聊天机器人可能在基准测试问题上表现出色，但在用户询问无关紧要的事情时，例如俚语或小众话题，可能会挣扎。

推理和推断

虽然基准测试可以衡量模式识别或内容生成，但它们通常在更高级的推理和推断方面存在不足。人工智能需要做的不仅仅是模仿模式。它应该了解含义，建立逻辑联系，并推断出新信息。例如，一个模型可能生成事实上正确的响应，但无法将其逻辑地连接到更广泛的对话中。当前的基准测试可能无法完全捕捉这些高级认知技能，从而使我们对人工智能能力的理解不完整。

超越基准：一种新的人工智能评估方法

为了弥合基准测试性能和现实世界成功之间的差距，人们正在探索一种新的人工智能评估方法。以下是一些正在流行的策略：

人机反馈环: 与仅依赖自动化指标不同，人机反馈环让人类评估者参与评估过程。这可能意味着让专家或最终用户评估人工智能的输出，评估其质量、有用性和适当性。人类可以更好地评估基准测试中无法评估的方面，例如语气、相关性和伦理考虑。
现实世界部署测试: 人工智能系统应该在尽可能接近现实世界条件的环境中进行测试。例如，自动驾驶汽车可以在模拟道路上进行模拟测试，包括不可预测的交通场景，而聊天机器人可以在真实环境中部署，以处理多样化的对话。这确保模型在它们实际面临的条件下进行评估。
鲁棒性和压力测试: 测试人工智能系统在异常或对抗性条件下的行为至关重要。这可能涉及测试图像识别模型，使用失真或噪声图像，或使用长、复杂的对话来评估语言模型。通过了解人工智能在压力下的行为，我们可以更好地为其准备现实世界的挑战。
多维评估指标: 与依赖单一基准测试分数不同，人工智能应该在一系列指标上进行评估，包括准确性、公平性、鲁棒性和伦理考虑。这种整体方法提供了对人工智能模型的优势和劣势的更全面理解。
特定领域测试: 评估应该根据人工智能将要部署的特定领域进行定制。例如，医疗人工智能应该使用由医疗专业人员设计的案例研究进行测试，而金融市场的人工智能应该在经济波动期间评估其稳定性。

结论

虽然基准测试推动了人工智能研究的进展，但它们在捕捉现实世界性能方面存在不足。随着人工智能从实验室转向实际应用，人工智能评估应该以人为本和整体为导向。在现实世界条件下进行测试，融入人机反馈，优先考虑公平性和鲁棒性至关重要。目标不是登上排行榜，而是开发可靠、适应性强、在动态复杂世界中有价值的人工智能。

Dr. Tehseen Zia

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授，拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉，他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目，并担任人工智能顾问。

Unite.AI

超越基准：为什么人工智能评估需要现实检验

基准的吸引力

人类期望与指标分数

静态基准在动态环境中的挑战

适应不断变化的环境

伦理和社会考虑

无法捕捉细微差别

语境适应

推理和推断

超越基准：一种新的人工智能评估方法

结论

You may like