人工智能
链式思考的终结?CoreThink和加州大学研究人员提出了人工智能推理的范式转变

多年来,人工智能领域的竞争一直围绕着规模展开。更大的模型、更多的GPU、更长的提示。OpenAI、Anthropic和Google带头开发了大型语言模型(LLM)、强化学习微调和链式思考提示等技术,旨在通过逐步拼出答案来模拟推理。
但是,一篇来自CoreThink AI和加州大学研究人员的新技术白皮书《CoreThink:一个符号推理层,用于处理长时间任务的LLM》认为,这种范式可能已经达到其极限。作者们提出了一项挑衅性主张:LLM是强大的统计文本生成器,但它们并不是推理引擎。而链式思考,这种最常用的方法来暗示相反的观点,更多的是表演性而非真正的逻辑。
作为回应,团队介绍了《通用符号》,一种神经符号推理层,旨在插入现有模型。他们的评估显示,跨广泛的推理基准测试中都取得了显著的改进——无需重新训练或额外的GPU成本。如果得到验证,这种方法可能标志着人工智能系统设计用于逻辑和决策的转折点。
什么是链式思考——以及为什么它很重要
链式思考(CoT)提示已经成为现代人工智能中最广泛采用的技术之一。通过要求模型在提供答案之前写出其推理步骤,研究人员发现他们可以经常提高基准分数,特别是在数学、编码和规划等领域。表面上看,这似乎是一个突破。
然而,该报告强调了这种方法的局限性。CoT解释可能看起来令人信服,但研究表明,它们往往不忠于模型实际计算的内容,而是在事后为输出进行辩护,而不是揭示真正的逻辑。这在现实世界中带来了风险。在医学领域,一个合理的叙述可能掩盖对虚假相关性的依赖,导致危险的误诊。在法律领域,虚构的理由可能被误认为是真正的理由,威胁着正当程序和问责制。
该论文进一步强调了低效率:CoT链在简单问题上经常变得过度冗长,而在复杂问题上则会收缩为浅层推理。结果是浪费计算资源,在许多情况下还会降低准确性。作者得出结论,链式思考是“表演性的,而非机械性的”——一种表面层面的展示,制造了可解释性的幻觉,而不是真正提供可解释性。
符号人工智能:从早期梦想到新复兴
对CoT的批评引发了人们对符号人工智能历史的回顾。在其早期,人工智能研究围绕着基于规则的系统展开,这些系统以明确的逻辑形式编码知识。像MYCIN这样的专家系统试图通过应用手工制作的规则来诊断疾病,而欺诈检测系统则依赖于大量的逻辑集来捕捉异常。
符号人工智能具有不可否认的优势:其推理的每一步都是透明且可追踪的。但是,这些系统是脆弱的。编码成千上万条规则需要巨大的劳动力,而且它们在面对新情况时会挣扎。批评者如Hubert Dreyfus认为,人类智慧依赖于依赖于上下文的、无法编码的知识,而任何规则集都无法捕捉到这一点。到20世纪90年代,符号方法让位给了数据驱动的神经网络。
近年来,人们试图通过神经符号人工智能将两种世界的优势结合起来。这种想法很简单:让神经网络处理混乱的、感知输入,如图像或文本,而符号模块则提供结构化的推理和逻辑保证。但是,大多数这些混合体都难以融合。符号骨架太过僵硬,而神经模块往往会破坏一致性。结果是复杂的、笨重的系统,无法提供所承诺的可解释性。
通用符号:一种新的推理层
CoreThink的通用符号推理器(GSR)旨在通过一种不同的方法来克服这些局限性。GSR不将语言转换为僵硬的形式结构或高维嵌入,而是完全在自然语言中运行。推理的每一步都用文字表达,确保上下文、细微差别和模态得到保留。这意味着“必须”和“应该”等差异会被保留在推理过程中,而不是被抽象掉。
该框架通过在自然语言中本地解析输入、通过语言转换应用逻辑约束并产生全文推理跟踪来工作,这些跟踪保持完全可读。出现矛盾或错误时,它们会直接在推理路径中被突出显示,允许透明度和调试。为了保持效率,系统会修剪不必要的步骤,实现稳定的长时间推理,而无需GPU扩展。
由于它作为一个层而不是需要重新训练,因此GSR可以应用于现有的基础模型。在评估中,它一致地在推理任务中实现了30%至60%的准确性改进,所有这些都没有增加训练成本。
基准测试结果
改进最好通过基准测试来说明。在LiveCodeBench v6中,CoreThink实现了66.6%的通过率,远远高于其类别中的领先模型。在SWE-Bench Lite中,一个从GitHub存储库中提取的现实世界错误修复基准测试中,该系统达到62.3%的准确率,是迄今为止报告的最高结果。在ARC-AGI-2中,一个抽象推理的最具挑战性的测试中,它得分24.4%,远远超过了Claude和Gemini等前沿模型,这些模型仍然低于6%。
这些数字反映的不仅仅是原始准确率。在详细的案例研究中,符号层使模型能够以不同的方式行事。例如,在scikit-learn的ColumnTransformer中,基线模型提出了一个掩盖错误的表面补丁,而CoreThink增强的系统则找到了根源问题并彻底解决了它。在一个困难的LeetCode挑战中,基线模型误用了动态编程并完全失败,而符号推理层则纠正了有缺陷的状态表示并产生了一个可行的解决方案。
它如何融入符号复兴
通用符号加入了一场日益增长的尝试,旨在将结构重新引入人工智能推理。经典的符号人工智能展示了透明度的价值,但无法适应新颖性。传统的神经符号混合体承诺了平衡,但往往变得笨重。将搜索功能添加到LLM上的规划堆栈最初带来了希望,但随着任务规模的扩大而崩溃。
最近的进展表明,新的混合体具有潜力。例如,DeepMind的AlphaGeometry已经证明,符号结构可以在几何问题上超越纯神经模型。CoreThink的方法延续了这一趋势。在其ARC-AGI管道中,确定性对象检测和符号模式抽象与神经执行相结合,产生的结果远远超过了仅LLM系统的结果。在工具使用中,符号层有助于维护上下文并执行约束,允许更可靠的多回合规划。
关键区别在于,通用符号不依赖于僵硬的逻辑或大量重新训练。通过直接在语言中推理,它保持灵活性同时保留可解释性。这使其比早期的混合体更轻量,并且对于企业应用的集成至关重要。
为什么它很重要
如果链式思考只是推理的幻觉,那么人工智能行业面临着紧迫的挑战。企业不能依赖于仅仅看起来在推理的系统,特别是在医学、法律和金融等高风险环境中。该论文表明,真正的进步将来自于重新思考推理的基础,而不是进一步扩大模型规模。
通用符号就是这样的基础。它提供了一个轻量级、可解释的层,可以增强现有模型而无需重新训练,产生真正的推理改进,而不是表面层面的叙述。对于更广泛的人工智能社区来说,它标志着可能的范式转变:符号推理的回归,不是作为脆弱的规则集,而是作为神经学习的灵活伴侣。
正如作者所说:“我们不需要添加更多参数来获得更好的推理——我们需要重新思考基础。”












