人工智能
如何重新定义智能:大型语言模型的挑战

有一句古老的谚语:如果它看起来像鸭子,游泳像鸭子,叫声像鸭子,那么它很可能就是一只鸭子。这一简单的推理方式,常常被归因于印第安纳州的诗人詹姆斯·惠特科姆·莱利,几个世纪以来一直影响着我们对人工智能的思考。认为行为足以识别智能的观念,激发了阿兰·图灵著名的“模仿游戏”,现在被称为图灵测试。
图灵建议,如果一个人无法判断他们是否正在与机器或另一个人交谈,那么机器就可以被认为是智能的。鸭子测试和图灵测试都表明,重要的不是系统内部的东西,而是它的行为。几十年来,这个测试指导了人工智能的发展。但是,随着大型语言模型(LLM)的出现,情况已经改变。这些系统可以生成流畅的文本,进行对话,并以令人惊讶的方式解决问题。问题不再是机器是否可以模仿人类的对话,而是这种模仿是否是真正的智能。如果一个系统可以像我们一样写作,推理和创造,我们应该称它为智能吗?或者,仅仅依靠行为来衡量智能已经不够了?
机器智能的演进
大型语言模型已经改变了我们对人工智能的思考。这些系统,从最初只能生成基本的文本响应,到现在可以解决逻辑问题,编写计算机代码,撰写故事,甚至协助创作任务,如编剧。其中一个关键的发展是它们能够通过一步一步的推理,解决复杂的问题,这被称为链式思维。通过将问题分解为更小的部分,大型语言模型可以以类似人类解决问题的方式,解决复杂的数学问题或逻辑谜题。这种能力使它们能够在高级基准测试中,例如MATH或GSM8K,达到或超过人类的表现。如今,大型语言模型还具有多模态能力。它们可以处理图像,解释医疗扫描,解释视觉谜题,并描述复杂的图表。随着这些进步,问题不再是大型语言模型是否可以模仿人类的行为,而是这种行为是否反映了真正的理解。
类似人类的思考
大型语言模型的成功正在重新定义我们对智能的理解。焦点正在从使人工智能的行为与人类一致转变为探索大型语言模型如何在处理信息的方式上模仿人类的思考。例如,在一项最近的研究中,研究人员比较了人工智能模型的内部工作机制与人类的大脑活动。研究发现,大型语言模型不仅实现了人类水平的准确率,还以类似人类大脑模式的方式组织内部信息。当人类和人工智能模型都在进行模式识别任务时,大脑扫描显示了人类参与者和人工智能模型之间的计算模式的相似性。这些模型以类似人类大脑波活动的方式,在内部层次上聚类抽象概念。这表明,成功的推理可能需要类似的组织结构,无论是在生物系统还是人工系统中。
然而,研究人员也谨慎地指出这项工作的局限性。研究涉及相对较少的人类参与者,人类和机器以不同的方式处理任务。人类处理视觉模式,而人工智能模型处理文本描述。人类和机器处理之间的相关性很有趣,但这并不证明机器以与人类相同的方式理解概念。
还有明显的性能差异。虽然最好的人工智能模型在简单模式上接近人类水平的准确率,但在最复杂的任务中,相比人类参与者,其表现下降更加明显。这表明,尽管在组织结构上有相似之处,但人类和机器在处理抽象概念的方式上可能仍然存在根本的差异。
怀疑的观点
尽管有这些令人印象深刻的发现,一种强烈的论点认为,大型语言模型只不过是非常擅长模仿的系统。这一观点来自哲学家约翰·塞尔的“中文房间”思想实验,它说明了为什么行为可能不等同于理解。
在这个思想实验中,塞尔要求我们想象一个人被锁在一个房间里,只会说英语。这个人接收到中文符号,并使用英语规则书来操作这些符号并产生响应。从房间外部看来,他的响应看起来就像母语者一样。然而,塞尔认为这个人对中文一无所知。他只是遵循规则,而没有真正的理解。
批评者将同样的逻辑应用于大型语言模型。他们认为这些系统是“随机鹦鹉”,它们根据训练数据中的统计模式生成响应,而不是真正的理解。术语“随机”指的是它们的概率性质,而“鹦鹉”则强调了它们的模仿行为,而不是真正的理解。
大型语言模型的一些技术局限性也支持这一论点。这些模型经常生成“幻觉”,看似合理但完全错误、误导性和无意义的响应。这是因为它们选择统计上合理的词语,而不是咨询内部知识库或理解真伪。此外,这些模型还会复制人类的错误和偏见。它们会被人类轻易忽略的无关信息所混淆,并表现出种族和性别偏见,因为它们是在包含这些偏见的数据中学习的。另一个明显的局限性是“位置偏差”,模型过度强调长文档的开始或结尾,而忽略中间的内容。这一“迷失在中间”的现象表明,这些系统处理信息的方式与人类非常不同,人类可以在整个文档中保持注意力。
这些局限性凸显了一个核心挑战:虽然大型语言模型在识别和复制语言模式方面非常出色,但这并不意味着它们真正理解意义或现实世界的背景。
什么才是智能?
辩论最终归结于我们如何定义智能。如果智能是指生成连贯语言、解决问题和适应新情况的能力,那么大型语言模型已经达到了这一标准。然而,如果智能需要自我意识、真正的理解或主观体验,那么这些系统仍然不够。
困难在于,我们缺乏明确或客观的方法来衡量像理解或意识这样的品质。在人类和机器中,我们都从行为中推断它们。鸭子测试和图灵测试曾经提供了优雅的答案,但是在大型语言模型的时代,它们可能不再适用。这些系统的能力迫使我们重新思考什么才是真正的智能,以及我们的传统定义是否与技术现实保持同步。
结论
大型语言模型正在挑战我们对人工智能智能的定义。它们可以模仿推理,生成想法,并执行曾经被认为是人类独有的任务。然而,它们缺乏真正的人类思维所具有的意识和基础。它们的崛起迫使我们不仅要问机器是否表现得很智能,还要问智能本身到底是什么意思。












