AI 模型与平台
DeepMind 的 Mind Evolution:赋予大型语言模型实世界问题解决能力
近年来,人工智能(AI)已成为推动各行业创新发展的实用工具。其中,大型语言模型(LLMs)因其理解和生成人类语言的能力而受到关注。然而,LLMs 在处理需要结构化推理和规划的复杂现实世界挑战时往往表现不佳。
例如,如果你要求 LLMs 计划一趟涉及多个城市、航班时刻、会议时间、预算限制和充足休息的商务旅行,它们可能会对每个方面提供建议。然而,它们通常难以将这些方面整合起来,以有效地平衡相互竞争的优先事项。这种局限性在 LLMs 被用于构建能够独立解决现实世界问题的 AI 代理时变得更加明显。
Google DeepMind最近开发了一种解决方案来解决这个问题。受自然选择的启发,这种方法被称为Mind Evolution,通过迭代适应来改进问题解决策略。通过实时引导LLMs,它使它们能够有效地处理复杂的现实世界任务,并适应动态场景。在本文中,我们将探讨这种创新方法的工作原理、其潜在应用以及它对AI驱动问题解决的未来意味着什么。
为什么LLMs难以处理复杂推理和规划
LLMs通过分析大型文本数据集(如书籍、文章和在线内容)中的模式来预测句子的下一个词,从而进行训练。这使它们能够生成看似逻辑和上下文相关的响应。然而,这种训练是基于模式识别而不是理解意义。因此,LLMs可以生成看似逻辑的文本,但在需要更深层次推理或结构化规划的任务中却难以应对。
核心限制在于LLMs处理信息的方式。它们关注概率或模式,而不是逻辑,这意味着它们可以处理孤立的任务(如建议航班选项或酒店推荐),但在这些任务需要整合到一个连贯的计划中时却难以应对。这也使得它们难以在长时间内保持上下文。复杂任务通常需要跟踪以前的决定,并根据新信息进行适应。然而,LLMs往往在延长的交互中失去焦点,导致输出碎片化或不一致。
如何工作的Mind Evolution
DeepMind的Mind Evolution通过采用自然进化的原理来解决这些局限性。与其为复杂的查询生成单一响应,这种方法生成多个潜在的解决方案,迭代地改进它们,并通过结构化的评估过程选择最好的结果。例如,考虑一个团队为项目集思广益的想法。有些想法很好,其他的则不太好。团队评估所有的想法,保留最好的并丢弃其余的。然后,他们改进最好的想法,引入新的变体,并重复这个过程,直到找到最好的解决方案。Mind Evolution将这个原理应用于LLMs。
以下是它的工作原理:
- 生成: 过程从LLM为给定的问题生成多个响应开始。例如,在旅行规划任务中,模型可能会根据预算、时间和用户偏好制定各种行程安排。
- 评估: 每个解决方案都根据适应度函数进行评估,适应度函数衡量解决方案满足任务要求的程度。低质量的响应被丢弃,而最有前途的候选者进入下一阶段。
- 改进: Mind Evolution的一个独特创新是LLM中两个角色之间的对话:作者和批评家。作者提出解决方案,而批评家则找出缺陷并提供反馈。这种结构化的对话模仿了人类通过批评和修订来改进想法的方式。例如,如果作者建议一个超出预算的旅行计划,批评家会指出这一点。作者然后修改计划以解决批评家的担忧。这个过程使LLMs能够进行深入分析,这是以前使用其他提示技术无法做到的。
- 迭代优化: 改进的解决方案经过进一步的评估和重组,以产生更精细的解决方案。
通过重复这个循环,Mind Evolution迭代地改进解决方案的质量,使LLMs能够更有效地处理复杂的现实世界任务。
Mind Evolution在行动
DeepMind在基准测试(如TravelPlanner和Natural Plan)上测试了这种方法。使用这种方法,Google的Gemini在TravelPlanner上实现了95.2%的成功率,这比基线的5.6%有了显著的改进。使用更先进的Gemini Pro,成功率甚至提高到了99.9%。这种变革性的性能展示了Mind Evolution在解决实际挑战方面的有效性。
有趣的是,模型的有效性会随着任务复杂性的增加而提高。例如,虽然单次方法难以处理涉及多个城市的多日行程,但Mind Evolution始终优于其他方法,并且即使约束增加,也能保持高成功率。
挑战和未来方向
尽管Mind Evolution取得了成功,但它并非没有局限性。这种方法需要大量的计算资源,因为它涉及迭代的评估和改进过程。例如,使用Mind Evolution解决TravelPlanner任务需要300万个令牌和167个API调用,这比传统方法要多得多。然而,这种方法仍然比暴力搜索等蛮力策略更高效。
另外,设计有效的适应度函数对于某些任务来说可能是一个具有挑战性的任务。未来的研究可能会集中在优化计算效率和扩大该技术的适用范围,以解决更广泛的问题,例如创意写作或复杂决策。
另一个有趣的研究领域是将领域特定的评估器集成到该技术中。例如,在医疗诊断中,将专家知识纳入适应度函数中,可以进一步提高模型的准确性和可靠性。
规划以外的应用
虽然Mind Evolution主要是在规划任务中进行评估,但它可以应用于各种领域,包括创意写作、科学发现,甚至代码生成。例如,研究人员引入了一个名为StegPoet的基准测试,挑战模型在诗歌中编码隐藏的消息。虽然这个任务仍然具有挑战性,但Mind Evolution通过实现最高79.2%的成功率超过了传统方法。
通过自然语言适应和演化解决方案,Mind Evolution为解决难以形式化的问题(如改进工作流程或生成创新产品设计)开启了新的可能性。通过利用进化算法的力量,Mind Evolution为增强LLMs的问题解决能力提供了一个灵活且可扩展的框架。
结论
DeepMind的Mind Evolution引入了一种实用且有效的方法来克服LLMs的关键局限性。通过使用受自然选择启发的迭代改进,Mind Evolution增强了LLMs处理需要结构化推理和规划的复杂、多步骤任务的能力。这种方法已经在具有挑战性的场景(如旅行规划)中展示了显著的成功,并在多个领域(包括创意写作、科学研究和代码生成)显示出前景。虽然高计算成本和设计良好的适应度函数的需求等挑战仍然存在,但这种方法为增强AI能力提供了一个可扩展的框架。Mind Evolution为更强大的AI系统奠定了基础,这些系统能够推理和规划以解决现实世界的挑战。












