存根 亚马逊 Alexa 首席研究员认为图灵测试已经过时 - Unite.AI
关注我们.

人工智能

亚马逊 Alexa 首席研究员认为图灵测试已经过时

mm
更新 on

亚马逊副总裁兼 Alexa 首席科学家罗希特·普拉萨德 (Rohit Prasad) 最近指出图灵测试长期用于衡量人工智能模型复杂程度的指标应该不再作为人工智能的基准。

计算机科学家和数学家艾伦·图灵最初在 70 多年前提出了图灵测试的概念。图灵测试的目的是帮助回答机器智能的问题,确定机器是否具有人类意义上的“思考”能力。为了回答这个问题,图灵认为,如果机器能够表现出如此复杂的对话行为,以至于人类观察者无法区分计算机的对话和人类的对话,那么机器应该被认为具有思考能力。

图灵测试的局限性

普拉萨德认为图灵测试在很多方面都受到限制,图灵本人甚至评论了其中一些限制 在他的最初论文中。 普拉萨德认为,随着人工智能越来越融入我们生活的方方面面,人们不再关心它与人类没有区别,而是更关心他们与人工智能的无缝互动。 因此,图灵测试应该被认为已经过时,并被更有用的基准测试所取代。

普拉萨德指出,许多早期的聊天机器人在设计时就考虑到了通过图灵测试的情况,近年来,一些聊天机器人一直成功地欺骗了超过三分之一的人类法官(通过图灵测试所需的标准)。 然而,能够成功模仿人类的言语模式 并不意味着机器可以真正被认为是“智能”的。 人工智能模型可能在某一领域极其精通,但在其他领域却极其缺乏,不具备任何形式的通用智能。 尽管如此,图灵测试仍然是聊天机器人和数字助理的常用基准,普拉萨德指出,商界领袖和记者不断询问 Alexa 何时能够通过图灵测试。

普拉萨德认为,使用图灵测试评估机器智能的主要问题之一是它几乎完全削弱了机器查找信息和执行闪电般快速计算的能力。 人工智能程序会在回答复杂的数学和地理问题时注入人为的停顿来欺骗人类,但它们几乎可以立即得到这些问题的答案。 除此之外,图灵测试没有考虑到人工智能使用外部传感器收集的数据的能力不断增强,忽略了人工智能如何通过视觉和运动算法与周围的世界互动,仅依靠文本通信。

创建新基准

普拉萨德认为,应该创建新的智力测量形式,即更适合评估一般智力类型的方法。 这些测试应该反映人工智能在现代社会中的实际应用情况以及人们使用它的目标。 这些测试应该能够确定人工智能在多大程度上增强了人类智力以及人工智能在多大程度上改善了人们的日常生活。 此外,测试应该了解人工智能如何表现出类似人类的智能特征,包括语言熟练程度、自我监督和“常识”。

当前人工智能研究的重要领域,如推理、公平性、对话和感官理解等,并不是通过图灵测试来评估的,但可以通过多种方式进行测量。 普拉萨德解释说,衡量这些智力特征的一种方法是将挑战分解为组成任务。 另一种评估方法是为人机交互创建大规模的现实世界挑战。

当亚马逊创建 Alexa 奖时,它创建了一个标准,要求社交机器人与人类交谈 20 分钟。 这些机器人将根据其就技术、体育、政治和娱乐等各种话题进行连贯对话的能力进行评估。 客户负责在开发阶段对机器人进行评分,根据他们再次与机器人聊天的愿望为其分配分数。 在最后一轮中,独立评委负责使用 5 分制对机器人进行评分。 评委们使用的标准依赖于让人工智能在适当的情况下表现出重要的人类属性(例如同理心)的方法。

最终,普拉萨德认为,Alexa 等人工智能设备的日益普及代表了衡量人工智能进步的重要机会,但我们需要不同的指标来利用这一新机会。

普拉萨德解释说:“这样的人工智能需要成为大量、不断增加的任务的专家,这只有通过更通用的学习能力而不是针对特定任务的智能才能实现。” “因此,在未来十年及更长的时间里,人工智能服务的实用性,以及它们在环境设备上的对话和主动协助能力,是一个值得测试的地方。”

 

博主和程序员,擅长 机器学习 深度学习 主题。 丹尼尔希望帮助其他人利用人工智能的力量造福社会。