人工智能

从意图到执行：Microsoft 如何将大型语言模型转化为面向行动的 AI

Published January 11, 2025

Updated April 26, 2026

Dr. Tehseen Zia

大型语言模型（LLMs）已经改变了我们处理自然语言处理的方式。它们可以回答问题，编写代码，并进行对话。然而，当涉及到现实世界的任务时，它们却力不从心。例如，一个 LLM 可以指导您购买一件夹克，但无法代表您下单。这一思维和行动之间的差距是一个主要的局限性。人们不仅需要信息，他们还想要结果。

为了弥补这一差距，Microsoft 正在将 LLMs 转化为面向行动的 AI 代理。通过使它们能够规划、分解任务并与现实世界进行交互，它们赋予 LLMs 管理实际任务的能力。这一转变有可能重新定义 LLMs 的功能，将它们转化为自动化复杂工作流程和简化日常任务的工具。让我们来看看使这一切成为可能所需的内容以及 Microsoft 如何解决这个问题。

LLMs 需要什么来采取行动

为了在现实世界中执行任务，LLMs 需要超越对文本的理解。它们必须与数字和物理环境交互，同时适应不断变化的条件。以下是它们需要的一些功能：

理解用户意图

为了有效地采取行动，LLMs 需要理解用户的请求。像文本或语音命令这样的输入往往是模糊或不完整的。系统必须使用其知识和请求的上下文填补空白。多步骤的对话可以帮助完善这些意图，确保 AI 在采取行动之前理解用户的需求。

将意图转化为行动

在理解任务之后，LLMs 必须将其转化为可执行的步骤。这可能涉及点击按钮、调用 API 或控制物理设备。LLMs 需要根据任务的具体要求修改其行为，适应环境，并解决随之而来的挑战。

适应变化

现实世界的任务并不总是按计划进行。LLMs 需要预测问题，调整步骤，并在出现问题时找到替代方案。例如，如果必要的资源不可用，系统应该找到另一种方法来完成任务。这一灵活性确保了当事情发生变化时，流程不会停滞。

专注于特定任务

虽然 LLMs 是为通用使用而设计的，但专门化使它们更加高效。通过专注于特定任务，这些系统可以使用较少的资源提供更好的结果。这对于计算能力有限的设备（如智能手机或嵌入式系统）尤为重要。

通过开发这些技能，LLMs 可以超越简单的信息处理。它们可以采取有意义的行动，为 AI 无缝地集成到日常工作流程中铺平了道路。

Microsoft 如何转化 LLMs

Microsoft 创建面向行动的 AI 的方法遵循一个结构化的过程。主要目标是使 LLMs 能够理解命令、有效地规划并采取行动。以下是他们的做法：

步骤 1：收集和准备数据

在第一阶段，他们收集了与其特定用例相关的数据：UFO 代理（如下所述）。数据包括用户查询、环境详细信息和任务特定操作。收集了两种类型的数据：首先，他们收集了任务计划数据，帮助 LLMs 概述完成任务所需的高级步骤。例如，“在 Word 中更改字体大小”可能涉及选择文本和调整工具栏设置等步骤。其次，他们收集了任务操作数据，允许 LLMs 将这些步骤转化为精确的指令，例如点击特定按钮或使用键盘快捷方式。

这种组合为模型提供了全局视图和详细指令，使其能够有效地执行任务。

步骤 2：训练模型

数据收集完成后，LLMs 通过多个训练会话进行了改进。在第一步中，LLMs 通过教授它们如何将用户请求分解为可执行的步骤来进行任务规划。然后使用专家标记的数据来教它们如何将这些计划转化为特定的操作。为了进一步增强其解决问题的能力，LLMs 参与了自我增强的探索过程，使它们能够处理未解决的任务并为持续学习生成新的示例。最后，应用了强化学习，利用成功和失败的反馈来进一步改进其决策。

步骤 3：离线测试

训练完成后，模型在受控环境中进行测试，以确保可靠性。使用诸如任务成功率（TSR）和步骤成功率（SSR）等指标来衡量性能。例如，测试日历管理代理可能涉及验证其安排会议和发送邀请而不出现错误的能力。

步骤 4：集成到真实系统中

一旦验证，模型就被集成到代理框架中。这使得它能够与现实世界环境交互，例如点击按钮或导航菜单。像 UI 自动化 API 这样的工具帮助系统动态地识别和操作用户界面元素。

例如，如果任务是突出显示 Word 中的文本，代理会识别突出显示按钮，选择文本并应用格式。一个记忆组件可以帮助 LLM 跟踪过去的操作，使其能够适应新的场景。

步骤 5：真实世界测试

最后一步是在线评估。在这里，系统在真实世界场景中进行测试，以确保它可以处理意外的变化和错误。例如，客户支持机器人可能会指导用户完成密码重置过程，同时适应不正确的输入或缺失的信息。这种测试确保 AI 是强大的，并且准备好用于日常使用。

一个实用的例子：UFO 代理

为了展示面向行动的 AI 的工作原理，Microsoft 开发了 UFO 代理。该系统旨在执行 Windows 环境中的真实任务，将用户请求转化为完成的操作。

在其核心，UFO 代理使用 LLM 来解释请求并计划操作。例如，如果用户说“在此文档中突出显示‘重要’一词”，则代理与 Word 交互以完成任务。它收集上下文信息，例如 UI 控件的位置，并使用这些信息来计划和执行操作。

UFO 代理依赖于诸如 Windows UI 自动化（UIA）API 之类的工具。该 API 扫描应用程序以查找控件元素，例如按钮或菜单。对于“将文档保存为 PDF”等任务，代理使用 UIA 来识别“文件”按钮，找到“保存为”选项并执行必要的步骤。通过结构化数据的一致性，系统确保从训练到真实应用的平稳运行。

克服挑战

虽然这是一个令人兴奋的发展，但创建面向行动的 AI 并非没有挑战。可扩展性是一个主要问题。训练和部署这些模型以执行多种任务需要大量资源。确保安全性和可靠性同样重要。模型必须在不产生意外后果的情况下执行任务，特别是在敏感环境中。而且，随着这些系统与私人数据交互，保持围绕隐私和安全的道德标准也至关重要。

Microsoft 的路线图专注于提高效率、扩大用例并保持道德标准。随着这些进步，LLMs 可能会重新定义 AI 与世界交互的方式，使其更加实用、适应性强、面向行动。

AI 的未来

将 LLMs 转化为面向行动的代理可能是一场游戏规则的改变。这些系统可以自动执行任务、简化工作流程并使技术更加易于使用。Microsoft 在面向行动的 AI 和 UFO 代理等工具上的工作只是刚刚开始。随着 AI 的不断发展，我们可以期待更智能、更有能力的系统，它们不仅仅与我们交互——它们还能完成工作。

Dr. Tehseen Zia

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授，拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉，他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目，并担任人工智能顾问。

Unite.AI

从意图到执行：Microsoft 如何将大型语言模型转化为面向行动的 AI

LLMs 需要什么来采取行动

理解用户意图

将意图转化为行动

适应变化

专注于特定任务