人工智能4 months ago
研究揭示LLM在复杂性增加时默认使用简单推理
一组研究人员发表了一项全面研究,于11月20日分析了来自大型语言模型(LLM)的192,000多条推理轨迹,揭示了AI系统依赖于浅层、线性策略,而不是人类自然采用的人脑认知过程。研究团队检查了18种不同的模型,涵盖文本、视觉和音频推理任务,并将其方法与专门为该研究收集的54条人类思考轨迹进行比较。分析建立了一个包含计算约束、元认知控制、知识表示和转换运算的28个认知元素的分类法——提供了一个框架来评估不仅模型是否产生正确答案,还有它们如何得出这些结论。认知架构的根本差异人类推理一致地表现出分层嵌套和元认知监控——反思和调节自己的思考过程的能力。人类流畅地将信息组织成嵌套结构,同时积极跟踪他们在复杂问题中的进度。LLM主要使用浅层向前链接,逐步解决问题,而没有人类认知的分层组织或自我反思。当任务不明确或模糊时,人类的适应性显著优于AI方法,这种差异变得最为明显。研究发现,语言模型具有与成功推理相关的行为组件,但通常无法自发地部署它们。性能因问题类型而大不相同:困境推理表现出最高的方差,小型模型挣扎显著,而逻辑推理表现出中等性能,大型模型通常优于小型模型。模型表现出违反直觉的弱点,在复杂任务上成功,但在更简单的变体上失败。通过引导推理提高性能研究团队开发了测试时推理指导,自动搭建成功的认知结构,证明了当模型被提示采用更类似人类的推理方法时,复杂问题的性能可以提高多达66.7%。这一发现表明,LLM具有更复杂推理的潜在能力,但需要明确的指导来有效地使用它们。人类和AI推理之间的差距随着任务复杂性的增加而扩大。虽然模型可以通过单独的向前链接来处理直接的问题,但它们在处理人类自然部署的递归、自我监控策略时会挣扎,尤其是在面对模糊或多层次的挑战时。该研究的公开可用数据集为比较人工智能和人类智能的未来研究提供了基线。通过绘制28个不同的认知元素,该框架使研究人员能够准确指出AI推理在哪里出现问题,而不是简单地衡量准确性得分。对AI开发的影响发现强调了当前AI系统的一个基本局限性:计算能力和真正的认知复杂性之间的差距。训练在大量数据集上的模型可以通过模式匹配的方式得出许多任务的正确答案,但缺乏反思性、分层的思考,这是人类问题解决的特征。这项研究建立在多个领域中确定的AI推理局限性的日益增长的担忧之上。引导推理的性能改进表明,更好的提示策略和架构修改可以帮助模型更有效地访问其潜在的推理能力。该研究最重要的贡献可能是其详细的认知元素分类法,为研究人员和开发人员提供了具体的改进目标。该框架将推理分解为可衡量的组件,这些组件可以通过训练修改或提示工程技术单独解决,而不是将推理视为一个整体的能力。