DeepMind：AI 可能继承人类的认知局限性，可能从“正式教育”中受益

Published July 15, 2022

Updated April 28, 2026

Martin Anderson

DeepMind 和斯坦福大学的一项新合作表明，AI 在抽象推理方面可能并不比人类更好，因为机器学习模型从现实世界中获得推理架构，这些架构基于实际背景（AI 无法体验），但也受到我们自己的认知缺陷的限制。

如果得到证明，这可能代表了一个障碍，阻碍了许多人对机器学习系统的“蓝天”思维和智力起源的期望，并说明了 AI 反映人类经验的程度，以及 AI 容易在人类界限内思考和推理，这些界限已经影响了 AI 的发展。

研究人员建议，AI 模型可以通过在处理现实世界任务之前进行抽象推理的预训练来受益，类似于“正式教育”。

该论文指出：

‘人类是不完美的推理者。我们最有效地推理与我们对世界的理解一致的实体和情况。 ‘

‘我们的实验表明，语言模型模仿这些行为模式。语言模型在逻辑推理任务中表现不完美，但这种表现取决于内容和背景。最值得注意的是，这些模型通常在人类也会失败的情况下失败——当刺激变得太抽象或与对世界的先前理解相冲突时。’

为了测试超大规模、GPT 级自然语言处理 (NLP) 模型可能受到此类限制的程度，研究人员对合适的模型进行了一系列三项测试，得出结论：

‘我们发现，目前最先进的、大型语言模型（具有 7 或 70 亿参数）反映了人类在这些任务中观察到的许多相同的模式——与人类一样，模型更有效地推理可信的情况，而不是不现实或抽象的情况。 ‘

‘我们的发现对理解这些认知效应和影响语言模型性能的因素具有重要意义。’

该论文表明，创建不具备与推理技能相关的实际世界、肉体体验的 AI 推理技能可能会限制此类系统的潜力，观察到“基于经验的体验… 可能是人类某些信念和推理的基础”。

作者认为，AI 以被动方式体验语言，而人类则将其作为社会交流的主动和核心组成部分，并且这种主动参与（涉及惩罚和奖励的传统社会制度）可能是“理解人类意义的关键”。

研究人员观察到：

‘语言模型和人类之间的一些差异可能源于人类丰富、基于经验、交互式的体验与模型体验之间的差异。’

他们建议，解决方案之一可能是预训练期，就像人类在学校和大学系统中经历的那样，在训练核心数据以构建有用的和多功能语言模型之前。

这种“正式教育”（研究人员进行了类比）将不同于传统的机器学习预训练（这是通过重用半训练模型或从完全训练的模型中导入权重来减少训练时间的一种方法，作为“启动器”来启动训练过程）。

相反，它将代表一种持续的学习过程，旨在以纯粹抽象的方式开发 AI 的逻辑推理技能，并以与大学生在学位教育期间所鼓励的方式发展批判性能力。

“几个结果”，作者指出，“表明这可能并不像听起来那么荒谬”。

该论文题为 语言模型表现出类似人类的内容效应推理，来自 DeepMind 的六位研究人员和一位隶属于 DeepMind 和斯坦福大学的研究人员。

人类通过实际例子学习抽象概念，使用类似于语言学习者通过联想记忆词汇和语言规则的方法。最简单的例子是通过“旅行场景”来教授抽象的物理原理。

为了测试超大规模语言模型的抽象推理能力，研究人员设计了一系列三项语言和语义测试，这些测试对人类来说也具有挑战性。这些测试以“零次”（无已解决示例）和“五次”（有五个已解决示例）进行。

第一项任务与自然语言推理 (NLI) 相关，主题（人或语言模型）接收两个句子，一个“前提”和一个“假设”，看似从前提中推导出来。例如 X 小于 Y，假设：Y 大于 X（蕴涵）。

对于自然语言推理任务，研究人员评估了语言模型 Chinchilla（70 亿参数模型）和 7B（同一模型的 7 亿参数版本），发现对于一致的示例（即不是无意义的示例），只有更大的 Chinchilla 模型获得了超过偶然性的结果；他们指出：

‘这表明存在强烈的内容偏见：模型更喜欢以符合先前期望的方式完成句子，而不是以符合逻辑规则的方式完成。’

…（内容太长，省略部分内容）…

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI