人工智能
DeepMind 的思维进化:赋予大型语言模型解决现实世界问题的能力
近年来,人工智能(AI)已经成为推动各个行业创新的一种实用工具。在这一进步的前沿是大型语言模型(LLMs),它们以能够理解和生成人类语言而闻名。虽然LLMs在对话式AI和内容创作等任务中表现良好,但它们经常难以应对需要结构化推理和规划的复杂现实世界挑战。
例如,如果你要求LLMs计划一个涉及协调航班时间表、会议时间、预算约束和充足休息的多城市商务旅行,它们可以为每个方面提供建议。然而,它们经常面临将这些方面整合在一起以有效平衡相互竞争的优先级的挑战。这种局限性变得更加明显,因为LLMs被越来越多地用于构建能够自主解决现实世界问题的AI代理。
Google DeepMind最近开发了一种解决方案来解决这个问题。受自然选择的启发,这种方法被称为思维进化,通过迭代适应来改进问题解决策略。通过实时引导LLMs,它允许它们有效地处理复杂的现实世界任务,并适应动态场景。在本文中,我们将探讨这种创新方法的工作原理、其潜在应用以及它对AI驱动问题解决的未来意味着什么。
为什么LLMs难以处理复杂推理和规划
LLMs被训练来通过分析大型文本数据集(如书籍、文章和在线内容)中的模式来预测句子的下一个词。这使得它们能够生成看似合乎逻辑和语境适当的响应。然而,这种训练是基于模式识别而不是理解意义。因此,LLMs可以生成看似合乎逻辑的文本,但难以处理需要更深层次推理或结构化规划的任务。
LLMs处理信息的核心限制在于,它们专注于概率或模式,而不是逻辑,这意味着它们可以处理孤立的任务——比如建议航班选项或酒店推荐——但在这些任务需要整合到一个连贯的计划时会失败。这也使得它们难以随着时间的推移保持上下文。复杂任务通常需要跟踪以前的决策,并在新信息出现时适应。然而,LLMs倾向于在延长的交互中失去焦点,导致输出碎片化或不一致。
思维进化的工作原理
DeepMind的思维进化通过采用自然进化的原理来解决这些缺陷。与其为复杂的查询生成单一的响应,这种方法生成多个潜在的解决方案,迭代地改进它们,并通过结构化的评估过程选择最佳的结果。例如,考虑一个团队为项目集思广益。有些想法很好,有些则不太好。团队评估所有的想法,保留最好的并丢弃其余的。然后,他们改进最好的想法,引入新的变体,并重复这个过程,直到他们找到最佳的解决方案。思维进化将这个原理应用于LLMs。
以下是它的工作原理:
- 生成:该过程从LLM为给定的问题创建多个响应开始。例如,在旅行规划任务中,模型可能会根据预算、时间和用户偏好草拟各种行程安排。
- 评估:每个解决方案都会根据适应度函数进行评估,适应度函数衡量该解决方案满足任务要求的程度。质量较低的响应被丢弃,而最有前途的候选者则进入下一阶段。
- 改进:思维进化的一个独特创新是LLM中两个角色之间的对话:作者和批评家。作者提出解决方案,而批评家则找出缺陷并提供反馈。这种结构化的对话反映了人类通过批评和修订来改进想法的方式。例如,如果作者建议一个包含超出预算的餐厅访问的旅行计划,批评家会指出这一点。然后,作者修改计划以解决批评家的担忧。这种过程使LLM能够执行以前使用其他提示技术无法执行的深入分析。
- 迭代优化:改进的解决方案经过进一步的评估和重组以产生精细的解决方案。
通过重复这个循环,思维进化迭代地提高解决方案的质量,使LLM能够更有效地处理复杂的挑战。
思维进化在行动
DeepMind在基准测试中测试了这种方法,例如TravelPlanner和Natural Plan。使用这种方法,Google的Gemini在TravelPlanner上实现了95.2%的成功率,这比基线的5.6%有了显著的改进。使用更先进的Gemini Pro,成功率增加到几乎99.9%。这种转型性能展示了思维进化在解决实际挑战方面的有效性。
有趣的是,该模型的有效性会随着任务复杂性的增加而提高。例如,虽然单次方法难以处理涉及多个城市的多日行程,但思维进化始终优于其他方法,即使约束增加也能保持高成功率。
挑战和未来方向
尽管思维进化取得了成功,但它并非没有局限性。这种方法需要大量的计算资源,因为它涉及迭代的评估和改进过程。例如,使用思维进化解决TravelPlanner任务需要300万个令牌和167个API调用,远远超过了传统方法。然而,这种方法仍然比暴力策略(如穷举搜索)更高效。
另外,设计有效的适应度函数对于某些任务来说可能是一项具有挑战性的任务。未来的研究可能会专注于优化计算效率,并将该技术扩展到更广泛的问题领域,例如创意写作或复杂决策。
另一个有趣的研究领域是集成领域特定的评估器。例如,在医疗诊断中,将专家知识纳入适应度函数中可以进一步提高模型的准确性和可靠性。
规划以外的应用
虽然思维进化主要在规划任务中进行评估,但它也可以应用于各种领域,包括创意写作、科学发现,甚至代码生成。例如,研究人员引入了一个名为StegPoet的基准测试,该测试挑战模型在诗歌中编码隐藏的消息。虽然这个任务仍然具有挑战性,但思维进化通过实现高达79.2%的成功率,超过了传统的方法。
在自然语言中适应和演化解决方案的能力为解决难以形式化的问题(如改进工作流程或生成创新产品设计)开启了新的可能性。通过利用进化算法的力量,思维进化为增强LLM的问题解决能力提供了一个灵活且可扩展的框架。
结论
DeepMind的思维进化引入了一种实用且有效的方法来克服LLM的关键局限性。通过使用受自然选择启发的迭代改进,它增强了这些模型处理需要结构化推理和规划的复杂、多步骤任务的能力。这种方法已经在诸如旅行规划等具有挑战性的场景中展示了显著的成功,并在包括创意写作、科学研究和代码生成在内的各个领域显示出前景。虽然高计算成本和设计良好的适应度函数的需求等挑战仍然存在,但这种方法为提高AI能力提供了一个可扩展的框架。思维进化为更强大的AI系统铺平了道路,这些系统能够推理和规划以解决现实世界的挑战。












