人工智能

超越基准：为什么人工智能评估需要现实检验

发布时间 2025 年 5 月 12 日

德辛·齐亚博士

如果您最近一直关注人工智能，您可能已经看到过报道人工智能模型突破性成就并创下基准记录的头条新闻。从 ImageNet 图像识别任务到在翻译和医学影像诊断中取得超越人类的成绩，基准测试长期以来一直是衡量人工智能性能的黄金标准。然而，尽管这些数字令人印象深刻，但它们并不总是能够捕捉到现实世界应用的复杂性。一个在基准测试中表现完美的模型，在实际环境中测试时仍然可能表现不佳。在本文中，我们将深入探讨传统基准测试为何无法捕捉人工智能的真正价值，并探索能够更好地反映在现实世界中部署人工智能的动态、伦理和实践挑战的替代评估方法。

基准的吸引力

多年来，基准一直是人工智能评估的基础。它们提供静态数据集，用于衡量特定任务，例如对象识别或机器翻译。影像网例如，是测试对象分类的广泛使用的基准，而布鲁以及 RED 通过与人工撰写的参考文本进行比较，对机器生成的文本质量进行评分。这些标准化测试使研究人员能够比较进展，并在该领域创造良性竞争。基准测试在推动该领域的重大进步方面发挥了关键作用。例如，ImageNet 竞赛播放通过显著提高准确性，在深度学习革命中发挥着至关重要的作用。

然而，基准测试往往会简化现实。由于人工智能模型通常被训练来在固定条件下改进单一定义明确的任务，这可能会导致过度优化。为了获得高分，模型可能会依赖于超出基准测试范围的数据集模式。一个著名的例子是一个经过训练的视觉模型，用于区分狼和哈士奇。该模型没有学习区分动物的特征，而是依赖于训练数据中通常与狼相关的雪景背景。结果，当模型看到雪地里的哈士奇时，它自信地将其误认为是狼。这展示了过度拟合基准如何导致模型错误。正如古德哈特定律指出，“当一项衡量标准成为目标时，它就不再是一项好的衡量标准。”因此，当基准分数成为目标时，人工智能模型就体现了古德哈特定律：它们在排行榜上取得了令人印象深刻的成绩，但在应对现实世界的挑战时却举步维艰。

人类期望与指标分数

基准测试的最大局限性之一是它们常常无法捕捉到人类真正在意的东西。以机器翻译为例。一个模型可能在 BLEU 指标上得分很高，该指标衡量机器生成的翻译与参考翻译之间的重叠度。虽然该指标可以衡量翻译在词语重叠方面的可信度，但它并不考虑流畅度或含义。翻译可能得分很低，尽管它更自然甚至更准确，仅仅是因为它使用了与参考不同的措辞。然而，人类用户关心的是翻译的含义和流畅度，而不仅仅是与参考的完全匹配。同样的问题也适用于文本摘要：高 ROUGE 分数并不能保证摘要连贯或抓住人类读者期望的要点。

对于生成式人工智能模型来说，这个问题变得更加具有挑战性。例如，大型语言模型 (LLM) 通常在基准上进行评估百万美元测试它们跨领域回答问题的能力。虽然基准测试可能有助于测试法学硕士（LLM）的回答问题能力，但它并不能保证可靠性。这些模型仍然可能“幻觉的”，呈现虚假但听起来似乎合理的事实。这种差距很难被那些只关注正确答案而不评估真实性、语境或连贯性的基准所发现。在一个广为人知的案件一位人工智能助手被用来起草一份法律摘要，其中引用了完全虚假的法庭案件。该人工智能在纸面上看起来令人信服，但却未能达到人类对真实性的基本期望。

动态环境中静态基准测试的挑战

适应不断变化的环境

静态基准测试评估的是受控条件下的人工智能性能，但现实世界的场景是不可预测的。例如，对话式人工智能可能在基准测试中擅长回答脚本化的单轮问题，但在包含后续问题、俚语或拼写错误的多步骤对话中却表现不佳。同样，自动驾驶汽车在理想条件下通常在物体检测测试中表现良好，但失败在特殊情况下，例如光线不足、恶劣天气或意外障碍物。例如，用贴纸改变的停车标志可以迷惑汽车的视觉系统，导致误解。这些例子凸显了静态基准无法可靠地衡量现实世界的复杂性。

道德和社会考虑

传统的基准往往无法评估人工智能的道德表现。图像识别模型可能达到很高的准确率，但误认由于训练数据存在偏见，某些族裔的个体可能会受到影响。同样，语言模型在语法和流利度方面得分较高，但同时也会产生带有偏见或有害的内容。这些问题虽然没有反映在基准指标中，但在实际应用中会产生重大影响。

无法捕捉细微的差别

基准测试擅长检验表面技能，例如模型能否生成语法正确的文本或逼真的图像。但它们往往难以检验更深层次的品质，例如常识推理或语境恰当性。例如，一个模型可能在基准测试中表现出色，能够生成完美的句子，但如果这句话在事实上是错误的，它就毫无用处。人工智能需要理解 ，尤其是 以及 形成一种 说点什么，不仅仅是什么可以说。基准测试很少测试这种级别的智能，而这对于聊天机器人或内容创建等应用程序来说至关重要。

情境适应

人工智能模型通常难以适应新的环境，尤其是在面对训练集之外的数据时。基准测试通常采用与模型训练时类似的数据进行设计。这意味着它们无法全面测试模型处理新奇或意外输入的能力——而这在实际应用中是一项关键要求。例如，聊天机器人在基准测试问题上可能表现出色，但在用户询问无关内容（例如俚语或小众话题）时却表现不佳。

推理和推论

虽然基准测试可以衡量模式识别或内容生成，但它们往往在更高层次的推理和推论方面有所欠缺。人工智能需要做的不仅仅是模仿模式。它应该理解含义，建立逻辑联系，并推断出新的信息。例如，一个模型可能会生成一个事实上正确的答案，但却无法将其与更广泛的对话进行逻辑连接。当前的基准测试可能无法完全涵盖这些高级认知技能，导致我们对人工智能能力的了解不够全面。

超越基准：人工智能评估的新方法

为了弥合基准性能与实际成功之间的差距，一种新的人工智能评估方法正在兴起。以下是一些越来越受关注的策略：

人机反馈： 不要仅仅依赖自动化指标，而要让人工评估员参与其中。这意味着让专家或最终用户评估人工智能输出的质量、实用性和恰当性。与基准相比，人类能够更好地评估语气、相关性和道德考量等方面。
真实世界部署测试： 人工智能系统应在尽可能贴近现实的环境中进行测试。例如，自动驾驶汽车可以在交通状况难以预测的模拟道路上进行测试，而聊天机器人则可以部署在真实环境中，处理各种对话。这确保了模型在实际条件下进行评估。
稳健性和压力测试： 在异常或对抗条件下测试人工智能系统至关重要。这可能包括使用失真或噪声图像测试图像识别模型，或使用冗长复杂的对话评估语言模型。通过了解人工智能在压力下的行为，我们可以更好地让它应对现实世界的挑战。
多维评估指标： 不要依赖单一的基准分数，而要从一系列指标来评估人工智能，包括准确性、公平性、稳健性和伦理考量。这种整体方法可以更全面地了解人工智能模型的优势和劣势。
特定领域测试： 评估应根据人工智能的具体部署领域进行定制。例如，医疗人工智能应该在由医疗专业人员设计的案例研究中进行测试，而金融市场的人工智能则应评估其在经济波动期间的稳定性。

底线

虽然基准测试推动了人工智能研究的发展，但它们在捕捉现实世界的表现方面却存在不足。随着人工智能从实验室走向实际应用，人工智能评估应该以人为本，并兼顾全局。在真实环境中进行测试、融入人类反馈，并优先考虑公平性和稳健性至关重要。目标并非争霸排行榜，而是开发出在动态复杂世界中可靠、适应性强且有价值的人工智能。

德辛·齐亚博士

Tehseen Zia 博士是伊斯兰堡 COMSATS 大学的终身副教授，拥有奥地利维也纳科技大学的人工智能博士学位。他专注于人工智能、机器学习、数据科学和计算机视觉，在著名科学期刊上发表论文，做出了重大贡献。 Tehseen 博士还作为首席研究员领导了多个工业项目，并担任人工智能顾问。

联合人工智能

超越基准：为什么人工智能评估需要现实检验

基准的吸引力

人类期望与指标分数

动态环境中静态基准测试的挑战

适应不断变化的环境

道德和社会考虑

无法捕捉细微的差别

情境适应

推理和推论

超越基准：人工智能评估的新方法

底线

你可能会喜欢