人工智能
超越基准:为什么人工智能评估需要现实检查

如果您最近一直关注人工智能,您可能已经看到报道了人工智能模型在基准测试中取得突破性成就的头条新闻。从ImageNet图像识别任务到在翻译和医疗图像诊断中取得超人类的成绩,基准测试长期以来一直是衡量人工智能性能的金标准。然而,尽管这些数字可能令人印象深刻,但它们并不总是能够捕捉到现实世界应用的复杂性。一个在基准测试中表现完美的模型仍可能在现实世界环境中遇到困难。在本文中,我们将探讨为什么传统基准测试无法捕捉人工智能的真正价值,并探索更好地反映部署人工智能在现实世界中的动态、伦理和实际挑战的替代评估方法。
基准测试的吸引力
多年来,基准测试一直是人工智能评估的基础。它们提供了静态数据集,旨在衡量特定任务,如对象识别或机器翻译。例如,ImageNet 是一个广泛用于测试对象分类的基准测试,而 BLEU 和 ROUGE 评估机器生成文本的质量,通过将其与人工编写的参考文本进行比较。这些标准化测试使研究人员能够比较进展并在该领域创造健康的竞争。基准测试在推动人工智能领域的重大进步方面发挥了关键作用。例如,ImageNet竞赛 发挥了 深度学习革命的关键作用,展示了显著的准确性改进。
然而,基准测试通常简化了现实。由于人工智能模型通常被训练为在固定条件下提高单一任务的性能,这可能导致过度优化。为了获得高分,模型可能依赖于基准测试中不成立的数据模式。一个著名的 例子 是一个视觉模型,用于区分狼和哈士奇犬。相反,模型没有学习区分动物的特征,而是依赖于训练数据中常与狼相关的雪地背景。因此,当模型被呈现一张哈士奇犬在雪中的图像时,它自信地将其误标记为狼。这展示了如何过度拟合基准测试可能导致有缺陷的模型。正如 Goodhart的法则 所述,“当一个衡量标准成为目标时,它就不再是一个好的衡量标准。”因此,当基准测试分数成为目标时,人工智能模型说明了Goodhart的法则:它们在排行榜上取得了令人印象深刻的分数,但在处理现实世界挑战时却苦苦挣扎。
人类期望与指标得分
基准测试的一个最大局限性是,它们通常无法捕捉人类真正关心的内容。考虑机器翻译。一个模型可能在BLEU指标上取得良好的成绩,该指标衡量机器生成的翻译与参考翻译之间的重叠。虽然该指标可以衡量翻译在词汇层面的可信度,但它并不能考虑流畅度或含义。一个翻译可能因为使用了与参考翻译不同的措辞而获得低分,即使它更自然或更准确。人类用户关心翻译的含义和流畅度,而不仅仅是与参考翻译的精确匹配。同样的问题也适用于文本摘要:高ROUGE评分并不保证摘要是连贯的或捕捉了人类读者期望的关键点。
对于生成式人工智能模型,问题变得更加具有挑战性。例如,大型语言模型(LLM)通常使用 MMLU 基准测试来评估其回答跨多个领域的问题的能力。虽然基准测试可以帮助测试LLM回答问题的性能,但它不能保证可靠性。这些模型仍然可以 “产生幻觉”,呈现出虚假但听起来很有道理的“事实”。基准测试无法轻松检测到这种差距,因为它们关注的是正确答案,而不是真实性、上下文或连贯性。在一个备受关注的 案例 中,一个用于起草法律文件的AI助手引用了完全虚构的法院案例。AI在纸面上看起来令人信服,但未能满足基本的人类期望,即真实性。
静态基准测试在动态环境中的挑战
-
适应不断变化的环境
静态基准测试评估人工智能性能的条件是受控的,但现实世界的场景是不可预测的。例如,一个对话式人工智能可能在基准测试中表现出色,但在多步骤对话中遇到跟进问题、俚语或拼写错误时却苦苦挣扎。同样,自动驾驶汽车通常在理想条件下的物体检测测试中表现良好,但在 异常情况 下,如差的照明条件、恶劣天气或意外障碍时却失败。例如,一个带有贴纸的停车标志可能会 混淆 汽车的视觉系统,导致误解。这些例子强调了静态基准测试不能可靠地衡量现实世界的复杂性。
-
伦理和社会考虑
传统基准测试通常无法评估人工智能的伦理表现。一个图像识别模型可能实现高准确率,但 误识别 来自某些族裔群体的个体,因为训练数据存在偏差。同样,语言模型可能在语法和流畅度方面表现良好,但产生有偏见或有害的内容。这些问题在基准测试指标中没有反映,但在现实世界应用中具有重大后果。
-
无法捕捉细微差别
基准测试擅长检查表面技能,如模型是否可以生成语法正确的文本或真实的图像。但它们通常难以处理更深层次的品质,如常识推理或上下文适当性。例如,一个模型可能在基准测试中表现出色,但生成的句子在事实上是错误的,那么它就是无用的。人工智能需要了解何时和如何说某些内容,而不仅仅是说什么。基准测试很少测试这种级别的智能,这对于聊天机器人或内容创作等应用至关重要。
-
上下文适应
人工智能模型通常难以适应新环境,尤其是在面对训练集以外的数据时。基准测试通常使用与模型训练数据类似的数据。这意味着它们没有充分测试模型处理新颖或意外输入的能力——这是现实世界应用中的一个关键要求。例如,一个聊天机器人可能在基准测试问题上表现出色,但当用户问及与模型训练数据无关的问题时却苦苦挣扎。
-
推理和推断
虽然基准测试可以衡量模式识别或内容生成,但它们通常在更高层次的推理和推断方面存在不足。人工智能需要做的不仅仅是模仿模式。它应该了解含义,建立逻辑联系,并推断出新信息。例如,一个模型可能生成一个事实上正确的响应,但未能将其逻辑地连接到更广泛的对话中。当前的基准测试可能无法完全捕捉这些高级认知技能,从而使我们对人工智能能力的理解不完整。
超越基准测试:人工智能评估的新方法
为了弥合基准测试性能与现实世界成功之间的差距,人工智能评估的新方法正在出现。以下是一些正在流行的策略:
- 人机反馈环: 不仅仅依赖自动化指标,还应让人类评估者参与评估过程。这可能意味着让专家或最终用户评估人工智能输出的质量、有用性和适当性。人类可以更好地评估基准测试无法捕捉的方面,如语气、相关性和伦理考虑。
- 现实世界部署测试: 人工智能系统应该在尽可能接近现实世界条件的环境中进行测试。例如,自动驾驶汽车可以在模拟道路上进行试验,包括不可预测的交通场景,而聊天机器人可以在实时环境中部署,以处理多样化的对话。这确保模型在实际面临的条件下进行评估。
- 鲁棒性和压力测试: 必须在异常或对抗条件下测试人工智能系统。这可能涉及使用失真或噪音图像测试图像识别模型,或使用长、复杂的对话测试语言模型。通过了解人工智能在压力下的行为,我们可以更好地为其准备应对现实世界的挑战。
- 多维评估指标: 不应仅依赖单一基准测试得分,而应在多个指标上评估人工智能,包括准确性、公平性、鲁棒性和伦理考虑。这种整体方法提供了对人工智能模型的优势和劣势更全面的理解。
- 特定领域测试: 评估应根据人工智能将要部署的特定领域进行定制。例如,医疗人工智能应由医疗专业人员设计的案例研究进行测试,而金融市场的人工智能应在经济波动期间进行评估其稳定性。
结论
虽然基准测试推动了人工智能研究的进步,但它们在捕捉现实世界性能方面存在不足。随着人工智能从实验室转向实际应用,人工智能评估应以人类为中心和整体。现实世界条件下的测试、人类反馈的整合以及公平性和鲁棒性的优先考虑至关重要。目标不是登上排行榜,而是开发可靠、适应性强、在动态复杂世界中有价值的人工智能。












