Meta 的 COCONUT：一种不需要语言的 AI 方法

Published December 16, 2024

Updated April 3, 2026

Alex McFarland

当研究人员首次发现大型语言模型（LLMs）可以通过链式思维提示“思考”每一步时，这是一个突破性的时刻 – 最终，我们可以窥视这些黑盒的推理过程。但是，如果我告诉你，让 AI 模型以自然语言“思考”可能会阻碍它们呢？

这就是 Meta 和 UC San Diego 的研究人员通过他们的新型 COCONUT（连续思维链）方法发现的内容。

想象一下，你试图解决一个复杂的数学问题，同时被迫大声地讲出每一步。很烦人，对吧？现在，你越来越接近理解语言模型面临的核心挑战。

当我们让 AI 模型通过自然语言推理时：

研究人员在神经成像研究中发现了有趣的东西：当人类处理复杂的推理任务时，我们大脑的语言中心往往出奇地安静。然而，我们一直在构建相反的 AI 系统 – 强迫它们将每一步推理翻译成词语。

想想你如何解决一个谜题。你的脑海可能同时探索多种可能性，维持模糊的假设，只有当你分享解决方案时才会将思想凝固成语言。但传统的链式思维方法强迫 AI 模型对每个中间步骤进行口头表达，造成了“语言瓶颈”。

这种洞察力引发了一个令人信服的问题：如果我们可以让 AI 模型以其“本土语言” – 高维空间的隐藏状态 – 推理，而不是强迫它们将一切翻译成标记呢？

了解 COCONUT 的创新

想象一下，你的思想与实际的大脑过程之间的差异。这种差异 – 即言语化思想和神经活动之间的差异 – 正是 Meta 研究人员通过 COCONUT 所利用的内容。

COCONUT 的真正突破在于，它让 AI 模型以两种不同的方式“思考”，就像人类一样。想想你解决一个复杂的谜题时 – 你不会在脑海中讲出每一步，对吧？相反，你：

COCONUT 为 AI 模型提供了这种自然的灵活性。与其强迫它们“大声说出”每个想法（像传统方法一样），它让它们在自己的神经空间中“思考” – 研究人员称之为“潜在空间”。

模型在两种模式之间平滑切换：

图片：Meta

COCONUT 最令人着迷的方面之一是其训练课程。使其特殊的是它如何映射自然学习进展。想想我们如何教授复杂的技能 – 你不会一下子把某人推入深水中。相反，你逐渐建立，随着他们掌握每个层次而增加复杂性。

研究人员对 COCONUT 采取了这种方法：

首先，模型像其他 AI 一样学习 – 通过传统的链式思维推理。这给了它对基础知识的扎实理解。

这里是事情变得有趣的地方。逐渐地，书面推理步骤被连续的思想所取代。想象一下，慢慢地移除训练轮，让模型发展自己的内部思维模式。

最后，模型学会了无缝地在深度思维的潜在空间和清晰的语言之间切换。

在训练过程中，模型发展出了没有人明确编程的能力 – 比如同时考虑多条推理路径。这种出现的行为尤其令人兴奋，因为它表明我们可能正在接近更自然的 AI 推理形式。正是这些意外的发展往往会带来最大的突破。

记得我之前提到的神经成像研究吗？它们显示，人类的大脑在处理复杂推理任务时往往不会大量激活语言中心。COCONUT 似乎正在发展类似的模式 – 在其本土神经空间中深入思考，只有在需要时才转换为语言进行交流。

研究中有几个关键发现脱颖而出：

数学单词问题（GSM8k）： 在这里，COCONUT 达到了 34.1% 的准确率。虽然这低于传统的链式思维（42.9%），但它明显优于基线方法。
逻辑推理（ProntoQA）： COCONUT 达到了 99.8% 的准确率，略高于传统链式思维的 98.8%。但这里的关键是 – 它只使用了 9 个标记，而 CoT 使用了 92.5 个。
复杂规划（ProsQA）： 最令人印象深刻的结果来自这个高级推理测试。COCONUT 达到了 97% 的准确率，而传统方法只达到 77.5%。而且，它以令人惊讶的效率做到了这一点 – 14.2 个标记，而不是 49.4 个。

这些结果令人乐观的原因不仅仅是原始数字 – 而是它们揭示了不同类型的思考。虽然 COCONUT 可能仍在数学推理方面找到自己的立足点，但它在需要复杂逻辑规划和推理的任务中表现出色。

COCONUT 代表了对 AI 系统如何推理的根本性重新思考，它让我们更接近更自然、更高效、更强大的 AI 形式。从基于语言的推理到连续思维的旅程，是朝着更有能力和更高效的 AI 系统迈出的一步。

Related Topics:chain of thought reasoning LLMs

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。