研究揭示当复杂性增加时LLMs默认采用简单推理
一个研究团队于11月20日发表了一项全面研究,分析了来自大型语言模型(LLMs)的超过192,000条推理轨迹,揭示出AI系统依赖的是浅层、线性的策略,而非人类自然采用的层次化认知过程。该研究团队检查了18种不同模型在文本、视觉和音频推理任务上的表现,并将其方法与专门为研究收集的54条人类出声思维轨迹进行了比较。该分析建立了一个包含28个认知要素的分类法,涵盖了计算约束、元认知控制、知识表征和转换操作——提供了一个框架,用于评估模型是否得出正确答案,以及它们如何得出这些结论。认知架构的根本差异人类推理始终展现出层次化嵌套和元认知监控——即反思和调节自身思维过程的能力。人类能够流畅地将信息组织成嵌套结构,同时积极追踪自己在复杂问题中的进展。LLMs主要使用浅层前向链推理,一步步地处理问题,缺乏人类认知特有的层次化组织或自我反思。这种差异在任务结构不良或模糊不清时最为明显,此时人类的适应能力显著优于AI方法。研究发现,语言模型具备与成功推理相关的行为组件,但往往无法自发地部署它们。性能因问题类型差异巨大:困境推理表现出最高的方差,较小模型表现明显挣扎;而逻辑推理表现中等,较大模型通常优于较小模型。模型表现出反直觉的弱点,能在复杂任务上成功,却在更简单的变体上失败。通过引导式推理提升性能研究团队开发了测试时推理引导技术,能自动构建成功的认知结构,当提示模型采用更类人的推理方法时,在复杂问题上的性能提升高达66.7%。这一发现表明,LLMs具备更复杂推理的潜在能力,但需要明确的引导才能有效运用。随着任务复杂性增加,人类与AI推理之间的差距变得更大。虽然模型可以通过单纯的前向链推理处理直接的问题,但它们难以应对人类在面对模糊或多层次挑战时自然部署的那种递归式、自我监控的策略。该研究公开可用的数据集为未来比较人工智能与人类智能的研究提供了基准。通过绘制28个不同的认知要素,该框架使研究人员能够精确定位AI推理在何处失效,而不仅仅是测量准确率分数。对AI发展的启示这些发现突显了当前AI系统的一个根本性局限:计算能力与真正认知复杂性之间的差距。在庞大数据集上训练的模型可以通过模式匹配在许多任务上得到正确答案,但缺乏人类问题解决所特有的反思性、层次化思维。这项研究基于对多个领域发现的AI推理局限性日益增长的关切。引导式推理带来的性能提升表明,更好的提示策略和架构修改可能有助于模型更有效地调用其潜在的推理能力。该研究最重要的贡献可能在于其详细的认知要素分类法,为研究人员和开发者提供了具体的改进目标。该框架没有将推理视为单一的整体能力,而是将其分解为可测量的组成部分,可以通过训练修改或提示工程技术分别加以解决。