人工智能
Meta 的 COCONUT:一种不需要语言的 AI 方法

当研究人员首次发现大型语言模型(LLMs)可以通过 链式思维提示“思考”每一步时,这是一个突破性的时刻 – 最终,我们可以窥视这些黑盒的推理过程。但是,如果我告诉你,让 AI 模型以自然语言“思考”可能会阻碍它们呢?
这就是 Meta 和 UC San Diego 的研究人员通过他们的 新型 COCONUT(连续思维链)方法 发现的内容。
想象一下,你试图解决一个复杂的数学问题,同时被迫大声地讲出每一步。很烦人,对吧?现在,你越来越接近理解语言模型面临的核心挑战。
当我们让 AI 模型通过自然语言推理时:
- 它们生成的大多数标记只是语言胶水 – 像“因此”、“下一步”和“结果”这样的词,它们不添加任何推理值
- 关键的决策点被迫提交特定的词
- 模型花费了大量的计算努力来维持语法一致性,而不是实际的问题解决
研究人员在神经成像研究中发现了有趣的东西:当人类处理复杂的推理任务时,我们大脑的语言中心往往出奇地安静。然而,我们一直在构建相反的 AI 系统 – 强迫它们将每一步推理翻译成词语。
想想你如何解决一个谜题。你的脑海可能同时探索多种可能性,维持模糊的假设,只有当你分享解决方案时才会将思想凝固成语言。但传统的链式思维方法强迫 AI 模型对每个中间步骤进行口头表达,造成了“语言瓶颈”。
这种洞察力引发了一个令人信服的问题:如果我们可以让 AI 模型以其“本土语言” – 高维空间的隐藏状态 – 推理,而不是强迫它们将一切翻译成标记呢?
了解 COCONUT 的创新
想象一下,你的思想与实际的大脑过程之间的差异。这种差异 – 即言语化思想和神经活动之间的差异 – 正是 Meta 研究人员通过 COCONUT 所利用的内容。
COCONUT 的真正突破在于,它让 AI 模型以两种不同的方式“思考”,就像人类一样。想想你解决一个复杂的谜题时 – 你不会在脑海中讲出每一步,对吧?相反,你:
- 吸收问题:你接受信息(比如阅读谜题规则)
- 默默思考:你的大脑在没有语言的情况下探索多种可能性
- 分享解决方案:只有当你向他人解释你的思考时,才会使用语言
COCONUT 为 AI 模型提供了这种自然的灵活性。与其强迫它们“大声说出”每个想法(像传统方法一样),它让它们在自己的神经空间中“思考” – 研究人员称之为“潜在空间”。
模型在两种模式之间平滑切换:
- 当它需要理解问题或给出答案时,它使用常规语言
- 但对于实际的思考过程?它使用纯粹的神经模式,不受词语的约束

图片:Meta
训练之旅
COCONUT 最令人着迷的方面之一是其训练课程。使其特殊的是它如何映射自然学习进展。想想我们如何教授复杂的技能 – 你不会一下子把某人推入深水中。相反,你逐渐建立,随着他们掌握每个层次而增加复杂性。
研究人员对 COCONUT 采取了这种方法:
第一阶段:基础
首先,模型像其他 AI 一样学习 – 通过传统的链式思维推理。这给了它对基础知识的扎实理解。
第二阶段:过渡
这里是事情变得有趣的地方。逐渐地,书面推理步骤被连续的思想所取代。想象一下,慢慢地移除训练轮,让模型发展自己的内部思维模式。
第三阶段:平衡
最后,模型学会了无缝地在深度思维的潜在空间和清晰的语言之间切换。
在训练过程中,模型发展出了没有人明确编程的能力 – 比如同时考虑多条推理路径。这种出现的行为尤其令人兴奋,因为它表明我们可能正在接近更自然的 AI 推理形式。正是这些意外的发展往往会带来最大的突破。
记得我之前提到的神经成像研究吗?它们显示,人类的大脑在处理复杂推理任务时往往不会大量激活语言中心。COCONUT 似乎正在发展类似的模式 – 在其本土神经空间中深入思考,只有在需要时才转换为语言进行交流。
数字背后的故事
研究中有几个关键发现脱颖而出:
- 数学单词问题(GSM8k): 在这里,COCONUT 达到了 34.1% 的准确率。虽然这低于传统的链式思维(42.9%),但它明显优于基线方法。
- 逻辑推理(ProntoQA): COCONUT 达到了 99.8% 的准确率,略高于传统链式思维的 98.8%。但这里的关键是 – 它只使用了 9 个标记,而 CoT 使用了 92.5 个。
- 复杂规划(ProsQA): 最令人印象深刻的结果来自这个高级推理测试。COCONUT 达到了 97% 的准确率,而传统方法只达到 77.5%。而且,它以令人惊讶的效率做到了这一点 – 14.2 个标记,而不是 49.4 个。
这些结果令人乐观的原因不仅仅是原始数字 – 而是它们揭示了不同类型的思考。虽然 COCONUT 可能仍在数学推理方面找到自己的立足点,但它在需要复杂逻辑规划和推理的任务中表现出色。
COCONUT 代表了对 AI 系统如何推理的根本性重新思考,它让我们更接近更自然、更高效、更强大的 AI 形式。从基于语言的推理到连续思维的旅程,是朝着更有能力和更高效的 AI 系统迈出的一步。
