人工智能

人工智能推理的幻觉：苹果公司的研究和对人工智能思考能力的辩论

Published June 28, 2025

Updated April 26, 2026

Dr. Assad Abbas

The Illusion of AI Reasoning: Apple’s Study and the Debate Over AI’s Thinking Abilities

人工智能（AI）现在已经成为我们日常生活的一部分。它为语音助手提供支持，运行聊天机器人，并帮助做出医疗保健、银行和商业等行业的关键决策。像 OpenAI 的 GPT-4 和 Google 的 Gemini 这样的高级系统通常被认为能够提供智能、类似人类的响应。许多人认为这些模型可以像人类一样推理和思考。

然而，苹果公司 2025 年的研究挑战了这种观点。他们的研究质疑这些大型推理模型（LRMs）是否真正具有思考能力。该研究得出结论，这些人工智能可能不使用真正的推理，而是依赖于模式匹配。这些模型从其训练数据中识别和重复模式，而不是创建新的逻辑或理解。

苹果公司使用经典逻辑谜题测试了几种领先的 AI 模型。结果出乎意料。在简单任务中，标准模型有时比更先进的推理模型表现得更好。在中等复杂度的谜题中，LRM 显示出了一些优势。但是，当谜题变得更加复杂时，两种类型的模型都失败了。即使给出了正确的步骤解决方案，模型也无法可靠地遵循它。

苹果公司的发现在 AI 社区引发了辩论。一些专家同意苹果公司的观点，认为这些模型只给出了思考的幻觉。其他人认为测试可能没有完全捕捉到 AI 的能力，并且需要更有效的方法。现在的关键问题是：人工智能是否真正能够推理，还是只是高级模式匹配？

这个问题对每个人都很重要。随着人工智能变得更加普遍，了解这些系统可以做什么和不能做什么至关重要。

什么是大型推理模型（LRMs）？

LRM 是一种旨在通过一步一步地显示推理来解决问题的人工智能系统。与标准语言模型不同，标准语言模型根据预测下一个词来生成答案，LRM 旨在提供逻辑解释。这使得它们适用于需要多步推理和抽象思考的任务。

LRM 在大型数据集上进行训练，包括书籍、文章、网站和其他文本内容。这种训练使模型能够理解语言模式和常见于人类推理的逻辑结构。通过显示它们如何得出结论，LRM 预计会提供更清晰和可靠的结果。

这些模型很有前景，因为它们可以处理各个领域的复杂任务。目标是提高决策的透明度，特别是在依赖准确和逻辑结论的关键领域。

然而，人们担心 LRM 是否真正推理。一些人认为这些模型可能使用模式匹配，而不是以类似人类的方式思考。这引发了人们对人工智能系统的真正限制以及它们是否只是模仿推理的疑问。

苹果公司的研究：测试人工智能推理和思考的幻觉

为了回答 LRM 是否推理或只是高级模式匹配器的问题，苹果公司的研究团队设计了一系列使用经典逻辑谜题的实验。这些包括汉诺塔、河流过渡和积木世界问题，这些问题长期以来一直被用来测试人类的逻辑思维。该团队选择了这些谜题，因为它们的复杂度可以调整。这使他们能够在不同难度水平下评估标准语言模型和 LRM。

苹果公司测试人工智能推理的方法与传统基准不同，传统基准通常专注于数学或编码任务。这些测试可能受到模型在训练期间接触类似数据的影响。相反，苹果公司的团队使用了允许他们控制复杂性同时保持一致逻辑结构的谜题。这种设计使他们能够观察不仅仅是最终答案，还有模型采取的推理步骤。

该研究显示了三个不同的性能水平：

简单任务

在基本问题上，标准语言模型有时比更先进的推理模型表现得更好。这些任务足够简单，以至于更简单的模型可以更高效地生成正确答案。

中等复杂任务

随着谜题复杂度的增加，LRM 显示出了一些优势。这些模型旨在提供结构化推理和一步一步的解释，因此它们能够遵循推理过程并提供更准确的解决方案。

高复杂任务

当面对更困难的问题时，两种类型的模型都完全失败了。尽管模型具有足够的计算资源，但它们无法解决任务。它们的准确率降至零，表明它们无法处理这些问题所需的复杂度。

模式匹配或真正推理？

进一步分析后，研究人员发现了对模型推理的更多担忧。模型提供的答案在很大程度上取决于问题的呈现方式。小的变化，例如改变数字或变量名称，可以导致完全不同的答案。这种不一致性表明模型依赖于从训练数据中学习的模式，而不是应用逻辑推理。

该研究表明，即使提供了明确的算法或一步一步的说明，模型在复杂性增加时也经常无法正确使用它们。它们的推理痕迹显示，模型不一致地遵循规则或逻辑。相反，它们的解决方案根据输入的表面变化而变化，而不是问题的实际结构。

苹果公司的团队得出结论，所谓的推理往往只是高级模式匹配。虽然这些模型可以通过识别熟悉的模式来模仿推理，但它们并没有真正理解任务或以类似人类的方式应用逻辑。

正在进行的辩论：人工智能是否真正推理或只是模仿思考？

苹果公司的研究在人工智能社区引发了关于 LRM 是否真正推理的辩论。许多专家现在支持苹果公司的发现，认为这些模型制造了推理的幻觉。他们认为，即使在面对复杂或新任务时，即使给出了正确的说明或算法，标准语言模型和 LRM 也会挣扎。这表明推理往往只是从训练数据中识别和重复模式的能力，而不是真正的理解。

在另一方面，像 OpenAI 这样的公司和一些研究人员认为他们的模型可以推理。他们指出这些模型在标准化测试中的高性能，例如 LSAT 和具有挑战性的数学考试。例如，OpenAI 的 GPT-4 在 LSAT 测试中得分达到 88 百分位。一些人将这种强大的性能解释为推理能力的证据。支持这一观点的人认为，这样的结果表明人工智能模型可以推理，至少在某些情况下是如此。

然而，苹果公司的研究质疑了这种观点。研究人员认为，高分并不一定表明准确的理解或推理。当前的基准可能没有完全捕捉到推理能力，并且可能受到模型在训练期间接触的数据的影响。在许多情况下，模型可能只是从训练数据中重复模式，而不是真正推理新的问题。

这种辩论具有实际的影响。如果人工智能模型不真正推理，它们可能不适合需要逻辑决策的任务。这在医疗保健、金融和法律等领域尤为重要，因为错误可能会产生严重的后果。例如，如果人工智能模型无法将逻辑应用于新的或复杂的医疗病例，错误更有可能发生。同样，在金融领域缺乏推理能力的人工智能系统可能会做出糟糕的投资选择或错误判断风险。

苹果公司的发现还警告说，虽然人工智能模型对内容生成和数据分析等任务很有帮助，但在需要深入理解或批判性思维的领域应谨慎使用。一些专家认为缺乏适当的推理是一种重大限制，而其他人则认为模式识别本身仍然可以为许多实际应用提供价值。

人工智能推理的未来

人工智能推理的未来仍然不确定。一些研究人员认为，随着更多的训练、更好的数据和改进的模型架构，人工智能将继续发展真正的推理能力。其他人更为怀疑，认为当前的人工智能模型可能永远局限于模式匹配，永远不会像人类一样推理。

研究人员目前正在开发新的评估方法来评估人工智能模型处理以前未遇到的问题的能力。这些测试旨在评估人工智能是否可以批判性地思考并以人类可以理解的方式解释其推理。如果成功，这些测试可以更准确地了解人工智能如何推理，并帮助研究人员开发更好的模型。

人们对开发结合模式识别和推理优势的混合模型的兴趣日益增长。这些模型将使用神经网络进行模式匹配，并使用符号推理系统进行更复杂的任务。据报道，苹果公司和 NVIDIA 都正在探索这些混合方法，这可能会导致能够真正推理的人工智能系统。

结论

苹果公司 2025 年的研究提出了关于人工智能推理能力的真正性质的重要问题。虽然像 LRM 这样的人工智能模型在各个领域显示出巨大的希望，但该研究警告说，它们可能不具备真正的理解或类似人类的推理。相反，它们依赖于模式识别，这限制了它们在需要更复杂的认知过程的任务中的有效性。

人工智能继续塑造未来，使其成为我们生活的重要组成部分。认识到人工智能的优势和局限性至关重要。通过改进测试方法和管理我们的期望，我们可以负责任地使用人工智能。这将确保人工智能补充人类的决策，而不是取代它。

Dr. Assad Abbas

阿萨德·阿巴斯博士（Dr. Assad Abbas）是巴基斯坦伊斯兰堡COMSATS大学的终身副教授，他在美国北达科他州立大学获得了博士学位。他的研究重点是包括云计算、雾计算、边缘计算、大数据分析和人工智能在内的先进技术。阿巴斯博士在著名的科学期刊和会议上发表了大量的论文，并做出了重要的贡献。他也是 MyFastingBuddy 的创始人。