人工智能

DeepMind 的心智演化：赋予大型语言模型解决现实世界问题的能力

Published February 6, 2025

Updated April 3, 2026

Dr. Tehseen Zia

近年来，人工智能（AI）已成为推动各个行业创新的一种实用工具。在这一进步的前沿是大型语言模型（LLMs），它们以能够理解和生成人类语言而闻名。虽然LLMs在对话式AI和内容创作等任务中表现良好，但它们经常难以应对需要结构化推理和规划的复杂现实世界挑战。

例如，如果你要求LLMs计划一个涉及协调航班时间表、会议时间、预算约束和充足休息的多城市商务旅行，它们可以为每个方面提供建议。然而，它们经常面临将这些方面整合在一起以有效平衡竞争优先级的挑战。这种局限性变得更加明显，因为LLMs被越来越多地用于构建能够自主解决现实世界问题的AI代理。

Google DeepMind最近开发了一种解决方案来解决这个问题。受自然选择的启发，这种方法被称为心智演化，通过迭代适应来改进问题解决策略。通过实时引导LLMs，它允许它们有效地处理复杂的现实世界任务，并适应动态场景。在本文中，我们将探讨这种创新方法的工作原理、其潜在应用以及它对AI驱动问题解决的未来意味着什么。

为什么LLMs难以处理复杂推理和规划

LLMs被训练为通过分析大型文本数据集（如书籍、文章和在线内容）中的模式来预测句子的下一个词。这使它们能够生成看似合乎逻辑和语境相关的响应。然而，这种训练是基于模式识别而非理解意义。因此，LLMs可以产生看似合乎逻辑的文本，但在需要更深层次推理或结构化规划的任务中却难以应对。

核心限制在于LLMs处理信息的方式。它们专注于概率或模式，而非逻辑，这意味着它们可以处理孤立的任务——如建议航班选项或酒店推荐——但在这些任务需要整合到一个连贯的计划时却会失败。这也使得它们难以随着时间的推移保持上下文。复杂任务通常需要跟踪以前的决策，并在新信息出现时进行适应。然而，LLMs倾向于在延长的交互中失去焦点，导致输出变得零碎或不一致。

心智演化的工作原理

DeepMind的心智演化通过采用自然演化的原理来解决这些缺陷。与其为复杂的查询生成单一响应，这种方法生成多个潜在的解决方案，迭代地改进它们，并通过结构化的评估过程选择最佳结果。例如，考虑一个团队为项目集思广益的想法。有些想法很好，有些则不太好。团队评估所有的想法，保留最好的并丢弃其余的。然后，他们改进最好的想法，引入新的变体，并重复这个过程，直到他们找到最佳解决方案。心智演化将这个原理应用于LLMs。

以下是它的工作原理：

生成： 过程从LLM为给定的问题创建多个响应开始。例如，在旅行规划任务中，模型可能会根据预算、时间和用户偏好草拟各种行程安排。
评估： 每个解决方案都会根据适应度函数进行评估，适应度函数是指该任务的要求被满足的程度。低质量的响应被丢弃，而最有前途的候选项则进入下一个阶段。
改进： 心智演化的一个独特创新是LLM中两种人格之间的对话：作者和批评家。作者提出解决方案，而批评家则识别出缺陷并提供反馈。这种结构化的对话反映了人类如何通过批评和修订来改进想法。例如，如果作者建议一个包含超出预算的餐厅访问的旅行计划，批评家会指出这一点。作者然后修改计划以解决批评家的担忧。这种过程使LLMs能够进行深入分析，这是以前使用其他提示技术无法做到的。
迭代优化： 改进的解决方案经过进一步的评估和重组以产生精细的解决方案。

通过重复这个循环，心智演化迭代地提高解决方案的质量，使LLMs能够更有效地处理复杂的挑战。

心智演化在行动

DeepMind在基准测试如TravelPlanner和Natural Plan上测试了这种方法。使用这种方法，Google的Gemini在TravelPlanner上实现了95.2%的成功率，这比基线的5.6%有了显著的提高。使用更先进的Gemini Pro，成功率提高到了几乎99.9%。这种变革性的性能展示了心智演化在解决实际挑战方面的有效性。

有趣的是，模型的有效性会随着任务复杂性的增加而提高。例如，虽然单次方法难以处理涉及多个城市的多日行程，但心智演化始终优于其他方法，并且即使约束增加也能保持高成功率。

挑战和未来方向

尽管心智演化取得了成功，但它并非没有局限性。这种方法需要大量的计算资源，因为它需要迭代的评估和改进过程。例如，使用心智演化解决TravelPlanner任务消耗了300万个令牌和167个API调用——远远超过了传统方法。然而，这种方法仍然比穷举搜索等蛮力策略更高效。

另外，设计有效的适应度函数对于某些任务来说可能是一项具有挑战性的任务。未来研究可能会专注于优化计算效率，并将这种技术扩展到更广泛的问题领域，例如创意写作或复杂决策。

另一个有趣的研究领域是将领域特定的评估器集成到模型中。例如，在医疗诊断中，将专家知识纳入适应度函数中，可以进一步提高模型的准确性和可靠性。

超越规划的应用

虽然心智演化主要在规划任务中进行评估，但它也可以应用于各种领域，包括创意写作、科学发现，甚至代码生成。例如，研究人员引入了一个名为StegPoet的基准测试，它挑战模型在诗歌中编码隐藏的消息。虽然这项任务仍然具有挑战性，但心智演化超过了传统方法，实现了最高79.2%的成功率。

在自然语言中适应和演化解决方案的能力为解决难以形式化的问题（如改进工作流程或生成创新产品设计）开启了新的可能性。通过利用进化算法的力量，心智演化为增强LLMs的问题解决能力提供了一个灵活且可扩展的框架。

结论

DeepMind的心智演化引入了一种实用有效的方法来克服LLMs的关键局限性。通过使用受自然选择启发的迭代改进，它增强了这些模型处理需要结构化推理和规划的复杂、多步骤任务的能力。这种方法已经在诸如旅行规划等具有挑战性的场景中展示了显著的成功，并在包括创意写作、科学研究和代码生成在内的各个领域显示出前景。虽然高计算成本和设计良好的适应度函数的需求等挑战仍然存在，但这种方法为提高AI能力提供了一个可扩展的框架。心智演化为更强大的AI系统铺平了道路，这些系统能够推理和规划以解决现实世界的挑战。