Connect with us

人工智能

从 OpenAI 的 O3 到 DeepSeek 的 R1:如何通过模拟思维使大型语言模型进行更深入的思考

mm

大型语言模型(LLMs)已经经历了显著的发展。最初仅作为简单的文本生成和翻译工具,现今它们被应用于研究、决策和复杂问题解决。这种转变的关键因素是 LLMs 日益增长的能力,即通过分解问题、评估多种可能性和动态完善其响应来进行更系统的思考。这些模型不再仅仅预测序列中的下一个单词,而是能够执行结构化的推理,使其更擅长处理复杂任务。像 OpenAI 的 O3Google 的 GeminiDeepSeek 的 R1 这样的领先模型整合了这些能力,以增强其处理和分析信息的能力。

理解模拟思维

人类在做出决定之前会自然地分析不同的选项。不论是规划一个假期还是解决一个问题,我们经常在脑海中模拟不同的计划,以评估多种因素,权衡利弊,并根据需要调整我们的选择。研究人员正在将这种能力整合到 LLMs 中,以增强其推理能力。这里,模拟思维基本上指的是 LLMs 进行系统推理的能力,然后再生成答案。这与简单地从存储的数据中检索响应形成对比。一个有用的类比是解决数学问题:

  • 基本的 AI 可能会识别一个模式并快速生成答案,而不验证它。
  • 使用模拟推理的 AI 将会一步一步地工作,检查错误,并在响应之前确认其逻辑。

思维链:教 AI 按步骤思考

如果 LLMs 需要像人类一样执行模拟思维,它们必须能够将复杂问题分解为较小、顺序的步骤。这就是 思维链(CoT) 技术发挥关键作用的地方。
CoT 是一种提示方法,指导 LLMs 按照方法论地解决问题。与其跳到结论,这种结构化的推理过程使 LLMs 能够将复杂问题分解为更简单、可管理的步骤,并一步一步地解决它们。
例如,在解决数学中的一个字问题时:

  • 基本的 AI 可能会尝试将问题与以前看到的例子进行匹配,并提供一个答案。
  • 使用思维链推理的 AI 将会概述每一步,逻辑地工作通过计算,然后到达最终解决方案。

这种方法在需要逻辑推导、多步骤问题解决和上下文理解的领域中是有效的。虽然早期模型需要人类提供的推理链,像 OpenAI 的 O3 和 DeepSeek 的 R1 这样的高级 LLMs 可以自适应地学习和应用 CoT 推理。

领先 LLMs 如何实现模拟思维

不同的 LLMs 以不同的方式采用模拟思维。以下是 OpenAI 的 O3、Google DeepMind 的模型和 DeepSeek-R1 执行模拟思维的概述,以及它们各自的优势和局限性。

OpenAI O3:像国际象棋选手一样思考

虽然 OpenAI 的 O3 模型的确切细节仍未公开,研究人员 相信 它使用了一种类似于 蒙特卡罗树搜索(MCTS) 的技术,这是一种在 AI 驱动的游戏(如 AlphaGo)中使用的策略。像国际象棋选手分析多个动作然后决定一样,O3 探索不同的解决方案,评估其质量,并选择最有前途的一个。
与早期仅依赖模式识别的模型不同,O3 主动生成和完善推理路径,使用 CoT 技术。在推理期间,它执行额外的计算步骤来构造多个推理链。这些链然后由一个评估模型评估——可能是一个奖励模型,旨在确保逻辑一致性和正确性。最终的响应是基于一个评分机制选择的,以提供一个经过深思熟虑的输出。
O3 跟随一个结构化的多步骤过程。最初,它在大量的人类推理链数据集上进行微调,内化逻辑思维模式。在推理时间,O3 为给定的问题生成多个解决方案,根据正确性和一致性对它们进行排名,并在需要时完善最好的一个。虽然这种方法使 O3 能够在响应之前自我纠正并提高准确性,但权衡是计算成本——探索多种可能性需要大量的处理能力,使其变慢且更耗资源。然而,O3 在动态分析和问题解决方面表现出色,使其成为当今最先进的 AI 模型之一。

Google DeepMind:像编辑一样完善答案

DeepMind 已经开发了一种新的方法,称为“心智进化”,它将推理视为一个迭代完善的过程。与其分析多种未来情景,这个模型更像一个编辑,完善各种草稿。模型生成多个可能的答案,评估其质量,并完善最好的一个。
这种过程的灵感来自遗传算法,确保通过迭代获得高质量的响应。它特别适用于结构化任务,例如逻辑谜题和编程挑战,其中明确的标准决定了最佳答案。
然而,这种方法有一些局限性。由于它依赖于外部评分系统来评估响应质量,因此可能难以处理抽象推理,没有明确的对或错答案。与 O3 不同,O3 在实时进行动态推理,而 DeepMind 的模型则专注于完善现有的答案,使其对于开放式问题的灵活性较低。

DeepSeek-R1:像学生一样学习推理

DeepSeek-R1 采用了一种基于强化学习的方法,允许它随着时间的推移发展推理能力,而不是实时评估多个响应。与其依赖预先生成的推理数据,DeepSeek-R1 通过解决问题、接收反馈和迭代改进来学习——类似于学生通过练习来提高问题解决能力。
该模型遵循一个结构化的强化学习循环。它从一个基本模型开始,例如 DeepSeek-V3,并被提示一步一步地解决数学问题。每个答案都通过直接代码执行来验证,绕过了对额外模型进行正确性验证的需求。如果解决方案是正确的,模型会被奖励;如果它是错误的,模型会被惩罚。这个过程被广泛重复,使 DeepSeek-R1 能够完善其逻辑推理能力,并随着时间的推移优先考虑更复杂的问题。
这种方法的一个关键优势是效率。与 O3 不同,O3 在推理时间执行广泛的推理,DeepSeek-R1 在训练期间嵌入推理能力,使其更快、更具成本效益。它高度可扩展,因为它不需要大量标记的数据集或昂贵的验证模型。
然而,这种基于强化学习的方法有一些权衡。由于它依赖于具有可验证结果的任务,因此在数学和编码方面表现出色。然而,它可能难以处理法律、道德或创造性问题解决中的抽象推理。虽然数学推理可能转移到其他领域,但其更广泛的适用性仍然不确定。

表格: OpenAI 的 O3、DeepMind 的心智进化和 DeepSeek 的 R1 之间的比较

AI 推理的未来

模拟推理是使 AI 更可靠和智能的重要一步。随着这些模型的演进,焦点将从简单地生成文本转移到开发强大的问题解决能力,这些能力与人类的思维方式非常相似。未来的进步可能将重点放在使 AI 模型能够识别和纠正错误、将其与外部工具集成以验证响应以及在面临模糊信息时识别不确定性。然而,一个关键的挑战是平衡推理深度与计算效率。最终的目标是开发能够深思熟虑地考虑其响应的 AI 系统,确保准确性和可靠性,就像人类专家在采取行动之前仔细评估每个决定一样。

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。