存根 DeepMind:人工智能可能继承人类认知局限性,可从“正规教育”中受益 - Unite.AI
关注我们.

人工智能

DeepMind:人工智能可能继承人类认知局限性,可以从“正规教育”中受益

mm
更新 on

DeepMind 和斯坦福大学的一项新合作表明,人工智能在抽象推理方面通常并不比人类更好,因为机器学习模型从现实世界的人类示例中获得推理架构,而这些示例是基于实际背景的(人工智能无法体验到这一点) ),但也受到我们自身认知缺陷的阻碍。

事实证明,这可能是许多人希望从机器学习系统中获得卓越的“蓝天”思维和智力起源质量的障碍,并说明了人工智能在多大程度上反映了人类经验,并且易于思考(和推理)在告知它的人类界限之内。

研究人员认为,人工智能模型可以从抽象推理的预训练中受益,将其比作“正规教育”,然后再开始处理现实世界的任务。

该文件指出:

“人类是不完美的推理者。 我们对与我们对世界的理解一致的实体和情况进行最有效的推理。

“我们的实验表明,语言模型反映了这些行为模式。 语言模型在逻辑推理任务上的表现并不完美,但这种表现取决于内容和上下文。 最值得注意的是,这样的模型通常会在人类失败的情况下失败——当刺激变得过于抽象或与先前对世界的理解相冲突时。

为了测试超大规模、GPT 级别的自然语言处理 (NLP) 模型可能受到此类限制的影响程度,研究人员对合适的模型进行了一系列三项测试,得出结论*:

“我们发现最先进的大型语言模型(有 7 或 70 亿 参数)反映了在这些任务中在人类身上观察到的许多相同模式——与人类一样,模型对可信情况的推理比不现实或抽象的情况更有效。

“我们的研究结果对于理解这些认知效应以及影响语言模型性能的因素具有重要意义。”

该论文认为,在人工智能中创造推理技能而不给予其现实世界的物质经验的好处,将这些技能融入到上下文中,可能会限制此类系统的潜力,观察到 “扎根的经验……可能支撑着一些人类信念和推理”.

作者认为,人工智能被动地体验语言,而人类则将其视为社交交流的主动和核心组成部分,并且这种主动参与(需要传统的惩罚和奖励社会系统)可能是理解语言意义的“关键”。就像人类一样。

研究人员观察到:

“因此,语言模型和人类之间的一些差异可能源于人类丰富的、基础的、交互式的体验与模型的贫乏体验之间的差异。”

他们建议,一种解决方案可能是一段“预训练”期,就像人类在学校和大学系统中经历的那样,然后再对核心数据进行训练,最终构建有用且通用的语言模型。

这一时期的“正规教育”(正如研究人员所类比)将不同于传统的机器学习预训练(这是一种通过重复使用半训练模型或从完全训练模型导入权重来减少训练时间的方法,作为“助推器”来启动训练过程)。

相反,它将代表一段持续学习的时期,旨在以纯粹抽象的方式发展人工智能的逻辑推理技能,并以与鼓励大学生在学位教育过程中鼓励的方式大致相同的方式发展关键能力。

作者表示,“一些结果表明,这可能并不像听起来那么牵强”。

标题为 语言模型显示了类似人类的内容对推理的影响,来自 DeepMind 的六名研究人员,以及 DeepMind 和斯坦福大学的一名研究人员。

检测

人类通过实例学习抽象概念,所采用的“隐含重要性”方法与通常帮助语言学习者通过助记符记忆词汇和语言规则的方法大致相同。 最简单的例子是教授深奥的物理学原理 想象“旅行场景” 用于火车和汽车。

为了测试超大规模语言模型的抽象推理能力,研究人员设计了一组三种语言/语义测试,这对人类来说也具有挑战性。 测试采用“零样本”(没有任何已解决的示例)和“五样本”(有五个先前已解决的示例)。

第一个任务涉及自然语言推理(NLI),其中主体(一个人,或者在本例中是一种语言模式)接收两个句子,一个“前提”和一个似乎是从前提推导出来的“假设”。 例如 X 小于 Y,假设:Y 大于 X(必需).

对于自然语言推理任务,研究人员评估了语言模型 龙猫 (一个70亿个参数模型)和7B(同一模型的7亿参数版本),发现对于一致的示例(即那些不是胡说八道的示例),只有较大的龙猫模型获得的结果比纯粹的机会更高; 他们注意到:

“这表明存在强烈的内容偏差:模型更喜欢以符合先前预期的方式完成句子,而不是符合逻辑规则的方式”。

Chinchilla 在 NLI 任务中的 70 亿参数表现。 研究人员表示,该模型及其精简版 7B 都表现出“严重的信念偏差”。

Chinchilla 在 NLI 任务中的 70 亿参数表现。 研究人员表示,该模型及其精简版 7B 都表现出“严重的信念偏差”。 资料来源:https://arxiv.org/pdf/2207.07051.pdf

三段论

第二个任务提出了一个更复杂的挑战,三段论 - 两个真实陈述显然暗示第三个陈述的论证(这可能是也可能不是从前两个陈述推断出的逻辑结论):

从论文的测试材料来看,有各种“现实”和矛盾或荒谬的三段论。

在这里,人类非常容易犯错,而旨在例证逻辑原理的构造几乎立即(也许是永久地)被人类对正确答案的“信念”所纠缠和困惑。 应该 成为。

作者指出,一个 来自1983的研究 证明参与者对三段论的结论是否符合他们自己的信念存在偏见,观察到:

“如果结论可信,参与者更有可能(90%的时间)错误地认为无效的三段论是有效的,因此主要依赖于信念而不是抽象推理。”

在对 Chinchilla 进行一系列不同的三段论测试时,研究人员发现,其中许多三段论的结论都是错误的蕴涵 “信念偏见驱动了几乎所有零样本决策”。 如果语言模型发现一个与现实不一致的结论,那么该模型(作者指出,即使最终论点都是上一个陈述的逻辑上的逻辑上的逻辑上的综合,该模型都对声明最终论点无效。

龙猫的零射门结果(零射击是大多数测试对象在解释指导规则后都会受到这些挑战的方式),说明了计算机的计算能力和NLP模型在这种新生逻辑的能力之间的巨大海湾挑战。

龙猫的零射击结果(零射击是大多数测试对象在解释指导规则后接受这些挑战的方式),说明了计算机的计算能力和 NLP 模型导航这种“新生”的能力之间的巨大鸿沟逻辑的挑战。

沃森选择任务

第三次测试更具挑战性 Wason选择任务 将逻辑问题重新构成了许多不同的迭代术,以供语言模型解决。

沃森任务,设计 在1968,显然非常简单:向参与者展示四张卡片,并告知任意规则,例如“如果一张卡片的一侧有“D”,则另一侧有“3”。” 四个可见的卡面显示“D”、“F”、“3”和“7”。

然后,受试者被询问需要翻开哪些卡片来验证规则是对还是错。

本例中的正确解决方案是翻转卡片“D”和“7”。 在早期测试中,发现虽然大多数(人类)受试者会正确选择“D”,但他们更有可能选择“3”而不是“7”,从而混淆了 对立的 规则(“非 3 意味着非 D”)与 交谈 (“3”暗示“D”,这在逻辑上不是暗示的)。

作者指出,先验信念有可能介入人类受试者的逻辑过程,并进一步指出,即使是学术数学家和本科数学家在这项任务上的得分也普遍低于 50%。

然而,当 Wason 任务的模式以某种方式反映人类的实践经验时,传统上性能会相应提高。

作者根据早期实验观察到:

“如果卡片显示年龄和饮料,并且规则是“如果他们喝酒,则必须年满21岁”,并带有'啤酒','soda','25','16',16',','XNUMX',绝大多数参与者正确选择检查显示“啤酒”和“ XNUMX”的卡片。

为了测试语言模型在 Wason 任务上的表现,研究人员创建了各种现实和任意的规则,其中一些以“无意义”单词为特色,看看人工智能是否可以穿透内容的上下文来预测要翻转哪些“虚拟卡片”。

测试中出现了许多沃森选择任务谜题中的一些。

测试中出现了许多沃森选择任务谜题中的一些。

对于 Wason 测试,该模型在“现实”(非废话)任务上的表现与人类相当。

Chinchilla 的零样本 Wason 选择任务结果,模型的表现远高于机会,至少对于“现实”规则来说是这样。

Chinchilla 的零样本 Wason 选择任务结果,模型的表现远高于机会,至少对于“现实”规则来说是这样。

论文评论:

“这反映了人类文献中的发现:当沃森任务是根据现实情况构建时,人类在回答沃森任务时比关于抽象属性的任意规则要准确得多。”

正规教育

本文的发现在我们自身的局限性的背景下,通过应计力的现实世界数据集将Hyperscale NLP系统的推理潜力(我们似乎都传递给了模型。 由于我们大多数人不是天才,因此我们自己的参数的模型也不是我们自己的模型。

此外,新研究的结论是,我们至少拥有持续的形成性教育阶段的优势,以及构成人类当务之急的额外社会、经济、甚至性动机。 NLP模型所能得到的都是这些环境因素作用的综合结果,而且它们似乎符合一般人而不是特殊的人类。

作者指出:

“我们的研究结果表明,只要训练一个大型变压器来模仿人类文化产生的语言,就可以产生内容效应,而不需要结合这些人类特有的内部机制。

“换句话来说,语言模型和人类都会产生这些内容偏差——但它们的架构、经验和训练目标看似非常不同。”

因此,他们提出了一种纯粹推理的“入门训练”, 如图 提高数学和一般推理的模型性能。 他们进一步指出,语言模型也经过了训练或调整 更好地遵循指示 在抽象或概括的层面上,并且 验证、纠正或消除偏差 他们自己的输出。

 

* 我将内联引用转换为超链接。

首次发布于 15 年 2022 月 XNUMX 日。