AI 入门 101
什么是图灵测试以及为什么它很重要?

如果您接触过人工智能(AI),您无疑听说过“图灵测试”。这是由阿兰·图灵(Alan Turing)在1950年首次提出的测试,旨在成为判断人工智能是否达到人类智能水平的终极实验。从概念上讲,如果人工智能能够通过测试,则意味着它已经达到与人类智能相当或无法区分的智能水平。
我们将探讨阿兰·图灵是谁,什么是图灵测试,为什么它很重要,以及为什么图灵测试的定义可能需要演变。
阿兰·图灵是谁?
图灵是一位具有前瞻性思想的英国数学家,他因其开创性的工作而受到认可。
1935年,22岁的图灵因其概率理论研究获得了剑桥大学国王学院的研究员职位。他的抽象数学思想使他转向了一个尚未被发明的领域。
1936年,图灵发表了一篇论文,现被认为是计算机科学的基础。这是他发明了“通用机”的概念,即可以解码和执行任何一组指令的机器。
1939年,图灵被英国政府的密码破解部门招募。在那时,德国使用一种称为恩尼格玛机的机器来加密所有军事和海军信号。图灵迅速开发了一台新机器(炸弹机),它能够在工业规模上破解恩尼格玛信息。这种发展被认为是帮助阻止纳粹德国侵略的关键因素。
1946年,图灵回到他在1936年发表的革命性想法上,致力于开发一台能够执行各种计算的电子计算机。他设计了一个名为自动计算引擎(ACE)的详细设计。
1950年,图灵发表了一篇开创性的论文,提出了“机器能思考吗?”的问题。这篇论文彻底改变了计算机科学和人工智能的发展。
1952年,在一名年轻人向警察举报后,图灵因其同性恋活动被判犯有严重不端行为。由于此事,他的政府安全许可被撤销,职业生涯也被毁灭。为了惩罚他,他被化学阉割。
他的生活被毁后,他于1954年6月8日被他的清洁工人在家中发现。他在前一天死于氰化物中毒。他的尸体旁边有一半吃掉的苹果。验尸官的结论是自杀。
幸运的是,他的遗产继续存在。
什么是图灵测试?
1950年,阿兰·图灵在《心智》杂志上发表了一篇题为“计算机和智能”的论文。在这篇详细的论文中,提出了“机器能思考吗?”的问题。该论文建议放弃定义机器是否能思考的尝试,而是使用“模仿游戏”来测试机器。这是一个简单的游戏,由三个人玩:
- 一个男人(A)
- 一个女人(B)
- 和一个审问者(C),可以是任何性别。
游戏的概念是,审问者与男人(A)和女人(B)分开,目标是让审问者确定谁是男人,谁是女人。在这种情况下,男人的目标(A)是欺骗审问者,而女人(B)可以尝试帮助审问者(C)。为了使其公平,不能使用任何口头提示,相反,只能使用打字的问题和答案。问题变成了:审问者如何知道谁值得信任?
审问者只知道他们的标签X和Y,并在游戏结束时简单地陈述“X是A,Y是B”或“X是B,Y是A”。
问题变成了,如果我们移除男人(A)或女人(B),并用一个智能机器代替,机器是否可以使用其人工智能系统欺骗审问者(C),使其相信机器是男人或女人?这本质上是图灵测试的性质。
换句话说,如果您不知不觉地与人工智能系统进行通信,并假设您所交谈的“实体”是人类,人工智能是否能够无限期地欺骗您?
为什么图灵测试很重要
在阿兰·图灵的论文中,他暗示了他相信图灵测试最终会被击败。他说:“到2000年,我相信在大约50年内,将能够编程计算机,使其具有大约10^9的存储容量,以便它们可以玩模仿游戏如此之好,以至于平均审问者在5分钟的提问后,不会有超过70%的机会做出正确的识别。”
通过现代视角来看,似乎完全有可能人工智能系统能够在5分钟内欺骗人类。我们有多少次与支持聊天机器人交互,而不知道聊天机器人是人类还是机器人?
有很多关于图灵测试被通过的报道。2014年,一个名为尤金·古斯曼的聊天机器人程序,模拟一个13岁的乌克兰男孩,据说通过了图灵测试,在雷丁大学组织的活动中。聊天机器人显然说服了33%的伦敦皇家学会的法官相信它是人类。然而,批评者迅速指出测试的不充分之处,例如测试时间只有5分钟,以及缺乏证据来支持这一成就。
2018年,谷歌的Duplex预约系统在谷歌助手的帮助下,打电话到一家美发店预约理发。在这种情况下,人工智能系统没有自我介绍为人工智能,并在与美发店接待员交谈时假装成人类。在短暂的交流后,成功预约了理发,并且双方挂断了电话。
然而,在自然语言处理(NLP)的时代,其子领域包括自然语言理解(NLU)和自然语言解释(NLI),我们需要问,如果机器在不完全理解其所说内容的背景的情况下提问和回答,那么机器是否真正具有智能?
如果您查看沃森背后的技术,这是由IBM开发的,可以回答自然语言问题的计算机系统,旨在击败《危险边缘》冠军,那么就会清楚,沃森能够通过下载大量互联网知识(包括200万页的信息和各种来源,包括维基百科)而不真正理解语言背景来击败世界冠军。在游戏过程中,沃森无法访问互联网,但这对一个可以在游戏开始前访问所有人类知识的AI来说只是一个小限制。
与搜索引擎类似,关键词和参考点被创建。如果人工智能可以达到这种水平的理解,那么根据当前的技术进步,仅仅欺骗人类5或10分钟就不算是设定很高的标准了。
图灵测试是否应该演变?
图灵测试在经受时间考验方面做得非常出色。然而,人工智能自1950年以来已经经历了显著的发展。每当人工智能实现我们认为只有人类才能做到的事情时,我们就会将标准提高。
回顾人工智能的历史,判断人工智能是否能够达到人类智能水平的最终标准几乎总是基于它是否能够在各种游戏中击败人类。1949年,克劳德·香农发表了他关于如何使计算机玩国际象棋的想法,因为这被认为是人类智能的巅峰。
直到1996年2月10日,世界象棋冠军加里·卡斯帕罗夫在与IBM计算机Deep Blue的一场三小时的比赛中输掉了第一局。没过多久,国际象棋就不再被认为是人类智能的巅峰。国际象棋被围棋取代,围棋是一种起源于3000年前的中国游戏。人工智能达到人类智能水平的标准被提高了。
快进到2015年10月,AlphaGo在其首场比赛中击败了三届欧洲冠军范辉。 AlphaGo以5-0的比分赢得了首场比赛,围棋被认为是世界上最复杂的游戏,具有10^360种可能的走法。突然,标准又提高了。
最终,论点是人工智能必须能够击败大型多人在线角色扮演游戏(MMORPG)的玩家。OpenAI迅速接受了这个挑战,使用深度强化学习。
由于我们不断提高标准,我们应该重新考虑图灵测试的新现代定义。当前的测试可能过于依赖欺骗和聊天机器人的技术。可能随着机器人技术的发展,我们需要人工智能真正达到人类智能水平,能够在现实世界中与我们交互和“生活”,而不是在游戏环境或模拟环境中。
如果机器人能够与我们交谈,提出想法和解决方案,可能只有到那时,图灵测试才会被通过。图灵测试的最终版本可能是当人工智能接近人类并试图说服我们它是自我意识的时。到那时,我们将实现人工智能的最终目标:通用人工智能(AGI)。届时,人工智能将迅速超过人类的智能。












