人工智能

亚马逊Alexa首席研究员认为图灵测试已经过时

发布于 2021年1月3日

更新于 2026年5月25日

作者

Daniel Nelson

亚马逊Alexa的副总裁和首席科学家罗希特·普拉萨德（Rohit Prasad）最近表示，长期以来用于衡量人工智能模型复杂性的图灵测试应该被退役，不再作为人工智能的基准。

计算机科学家和数学家阿兰·图灵（Alan Turing）最初在70多年前提出了图灵测试的概念。图灵测试的目的是为了回答机器是否能够像人类一样“思考”的问题。为了回答这个问题，图灵认为，如果机器能够表现出如此复杂的对话行为，以至于人类观察者无法区分计算机的对话和人类的对话，那么机器就应该被认为是具有思考能力的。

图灵测试的局限性

普拉萨德认为，图灵测试在很多方面都是有限的，图灵本人也曾在他的初步论文中提到了一些这些局限性。随着人工智能越来越多地融入我们生活的各个方面，人们越来越关心的是他们与人工智能的交互是否无缝，而不是人工智能是否能被区分为人类，普拉萨德认为。因此，图灵测试应该被认为是过时的，应该被更有用的基准所取代。

普拉萨德指出，许多早期的聊天机器人都是以通过图灵测试为目标而设计的，近年来，一些聊天机器人已经能够成功地欺骗超过三分之一的人类评判者（这是通过图灵测试所需的门槛）。然而，能够成功地模仿人类的语音模式并不意味着机器可以真正被认为是“智能”的。人工智能模型可以在某一领域非常擅长，但在其他领域却非常缺乏，根本没有任何形式的通用智能。尽管如此，图灵测试仍然是聊天机器人和数字助手常用的基准，普拉萨德指出，商业领袖和记者不断地问他什么时候亚马逊的Alexa会能够通过图灵测试。

根据普拉萨德的说法，使用图灵测试来评估机器智能的主要问题之一是，它几乎完全忽略了机器查找信息和执行快速计算的能力。人工智能程序会在回答复杂的数学和地理问题时注入人工暂停，以欺骗人类，但它们几乎可以立即回答这些问题。除此之外，图灵测试还没有考虑到人工智能使用外部传感器收集的数据的能力，忽略了人工智能如何通过视觉和运动算法与周围世界交互，只依赖于文本通信。

创建新的基准

普拉萨德认为，应该创建新的衡量智能的方法，这些方法更适合评估一种通用的智能。这些测试应该反映人工智能在现代社会中的实际使用和人们使用它的目标。这些测试应该能够确定人工智能如何增强人类的智能和改善人们的日常生活。此外，测试应该了解人工智能如何表现出类似人类的智能特征，包括语言能力、自我监督和“常识”。

当前和重要的人工智能研究领域，如推理、公平、对话和感知理解，不是由图灵测试评估的，但它们可以通过各种方式来衡量。普拉萨德解释说，衡量这些智能特征的一种方法是将挑战分解为组成任务。另一种评估方法是创建一个大规模的现实世界挑战，用于人机交互。

当亚马逊创建Alexa Prize时，它创建了一个评分标准，要求社交机器人与人类交谈20分钟。机器人将根据其对各种话题（如技术、体育、政治和娱乐）进行连贯对话的能力来评估。客户负责在开发阶段为机器人评分，根据他们是否希望再次与机器人交谈来评分。在最后一轮中，独立的评委将使用5点评分系统来评估机器人。评委使用的评分标准依赖于允许人工智能表现出重要的人类属性（如同理心）的方法。

最终，普拉萨德认为，人工智能驱动的设备（如Alexa）的日益普及代表了一个重要的机会来衡量人工智能的进步，但我们需要不同的指标来利用这一新机会。

“这种人工智能需要在大量、不断增加的任务中成为专家，这只可能是通过更广泛的学习能力，而不是特定任务的智能，”普拉萨德解释道。“因此，在接下来的十年和更长的时间里，人工智能服务的实用性，包括其对话式和主动式辅助能力，将是值得测试的。”

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

亚马逊Alexa首席研究员认为图灵测试已经过时

图灵测试的局限性

创建新的基准

发现更多