AI 工具 101

大型行动模型（LAMs）: 人工智能交互的下一个前沿

发布于 2024年5月6日

更新于 2026年5月21日

作者

Dr. Tehseen Zia

几乎一年前，DeepMind 的联合创始人穆斯塔法·苏莱曼（Mustafa Suleyman）预测，生成式人工智能的时代即将让位于更具交互性的系统，这些系统能够通过与软件应用程序和人力资源的交互来执行任务。今天，我们开始看到这一愿景的实现，随着 Rabbit AI 的新人工智能操作系统 R1 的开发，这个系统已经展示了监控和模拟人类与应用程序交互的令人印象深刻的能力。在 R1 的核心是大型行动模型（LAM），这是一种先进的 AI 助手，能够理解用户的意图并代表用户执行任务。虽然之前以其他术语如交互式人工智能和大型代理模型而闻名，但 LAM 的概念正在获得动力，成为人工智能交互中的关键创新。本文探讨了 LAM 的细节，比较了 LAM 和传统的大型语言模型（LLMs），介绍了 Rabbit AI 的 R1 系统，并研究了 Apple 如何朝着 LAM 感知能力的方向发展。它还讨论了 LAM 的潜在应用和面临的挑战。

理解大型行动或代理模型（LAMs）

LAM 是一种先进的 AI 代理，旨在理解人类的意图并执行特定的目标。这些模型擅长于理解人类的需求，规划复杂的任务，并与各种模型、应用程序或人员交互以执行他们的计划。LAM 超越了简单的 AI 任务，如生成响应或图像；它们是完整的系统，旨在处理复杂的活动，如规划旅行、安排约会和管理电子邮件。例如，在旅行规划中，LAM 将与天气应用程序协调以获取预报，与航班预订服务交互以找到合适的航班，并与酒店预订系统交互以确保住宿。与许多传统的 AI 模型不同，仅依赖于神经网络，LAM 采用了混合方法，结合了神经符号编程。这种神经符号编程的集成有助于逻辑推理和规划，而神经网络则有助于识别复杂的感知模式。这种混合方法使 LAM 能够处理广泛的任务，标志着人工智能交互中的细致发展。

比较 LAM 和 LLM

相比之下，LLM 是一种 AI 代理，擅长于解释用户提示并生成基于文本的响应，主要帮助处理语言处理任务。然而，它们的范围通常仅限于文本相关活动。另一方面，LAM 扩展了人工智能的能力，使其能够执行复杂的操作以实现特定的目标。例如，虽然 LLM 可能有效地根据用户指示草拟一封电子邮件，但 LAM 更进一步，不仅草拟电子邮件，还理解上下文，决定合适的响应，并管理电子邮件的传递。

此外，LLM 通常旨在预测文本序列中的下一个标记并执行书面指令。相比之下，LAM 不仅具备语言理解能力，还具备与各种应用程序和现实世界系统（如 IoT 设备）交互的能力。它们可以执行物理操作，控制设备，并管理需要与外部环境交互的任务，例如预订约会或预订。这种语言技能与实际执行的集成使 LAM 能够在比 LLM 更多样化的场景中运行。

LAM 在行动: 兔子 R1

Rabbit R1 是 LAM 在实践中的一个主要例子。这个人工智能设备可以通过一个用户友好的界面管理多个应用程序。配备了 2.88 英寸的触摸屏、旋转摄像头和滚轮，R1 采用与 Teenage Engineering 合作设计的流线型圆形机身。它运行在 2.3GHz 的 MediaTek 处理器上，配备 4GB 的内存和 128GB 的存储空间。

R1 的核心是其 LAM，它智能地监控应用程序功能，并简化了复杂的任务，如控制音乐、预订交通、订购杂货和发送消息，所有这些都可以从一个交互点完成。这样，R1 消除了在多个应用程序或多个登录之间切换以执行这些任务的麻烦。

R1 中的 LAM最初是通过观察人类与流行应用程序（如 Spotify 和 Uber）交互来训练的。这种训练使 LAM 能够导航用户界面，识别图标并处理事务。这种广泛的训练使 R1 能够流畅地适应几乎任何应用程序。此外，一个特殊的训练模式允许用户引入和自动化新任务，持续扩大 R1 的功能范围，使其成为人工智能交互领域中的一个动态工具。

苹果公司在 Siri 中推出 LAM 感知能力

苹果公司的 AI 研究团队最近分享了他们通过一项新计划提高 Siri 能力的见解，这项计划类似于 LAM。该计划在一篇关于 Reference Resolution As Language Modeling（ReALM）的研究论文中概述，旨在提高 Siri 解决对话上下文、处理屏幕上的视觉内容和检测环境活动的能力。ReALM 采用的处理用户界面（UI）输入的方法与 Rabbit AI 的 R1 中观察到的功能类似，表明苹果公司有意图提高 Siri 与用户交互的能力。

这种发展表明苹果公司正在考虑采用 LAM 技术来改进用户与其设备的交互方式。虽然没有关于部署 ReALM 的明确公告，但提高 Siri 与应用程序交互的潜力表明了在使助手更直观和响应方面的有希望进展。

LAM 的潜在应用

LAM 有可能将其影响范围扩展到设备交互之外，甚至可以在多个行业中提供显著的好处。

客户服务: LAM 可以通过独立处理查询和投诉来增强客户服务，并可以跨不同渠道提供个性化服务。这些模型可以使用自然语言处理查询、自动化解决方案并管理日程安排，根据客户历史记录提供个性化服务以提高满意度。
医疗保健: 在医疗保健领域，LAM 可以通过组织预约、管理处方和促进服务之间的沟通来帮助管理患者护理。它们还可以用于远程监测、解释医疗数据和在紧急情况下提醒工作人员，特别适用于慢性和老年护理管理。
金融: LAM 可以提供个性化的财务建议和管理任务，如投资组合平衡和投资建议。它们还可以监控交易以检测和防止欺诈，并与银行系统集成以快速解决可疑活动。

LAM 的挑战

尽管 LAM 具有显著的潜力，但它们面临着需要解决的几个挑战。

数据隐私和安全: 考虑到 LAM 需要访问和处理大量个人和敏感信息，确保数据隐私和安全是一个主要挑战。LAM 与多个应用程序和平台交互，引发了对这些信息的安全处理、存储和处理的担忧。
道德和监管问题: 随着 LAM 承担更自主的决策和与人类环境交互的角色，道德问题变得越来越重要。关于问责、透明度以及委托给机器的决策范围的疑问至关重要。此外，部署此类先进的 AI 系统可能会面临监管挑战，特别是在医疗保健和金融等行业。
集成的复杂性: LAM 需要与各种软件和硬件系统集成以有效执行任务。这种集成可能很复杂，尤其是在协调不同平台和服务（如实时预订航班、住宿和其他后勤细节）上的操作时，具有挑战性。
可扩展性和适应性: 虽然 LAM 被设计为适应广泛的场景和应用程序，但扩展这些解决方案以一致高效地处理多样化的现实世界环境仍然是一个挑战。确保 LAM 可以适应不断变化的条件并在不同任务和用户需求下保持性能至关重要。

结论

大型行动模型（LAMs）正在作为人工智能领域的一项重大创新出现，不仅影响设备交互，还影响更广泛的行业应用。正如 Rabbit AI 的 R1 和 Apple 对 Siri 的进步所示，LAM 为更具交互性和直观性的 AI 系统铺平了道路。这些模型有望在客户服务、医疗保健和金融等领域提高效率和个性化。

然而，LAM 的部署伴随着挑战，包括数据隐私问题、道德问题、集成复杂性和可扩展性。解决这些问题对于我们在采用 LAM 技术方面的进步至关重要，旨在以负责任和有效的方式利用其功能。随着 LAM 的不断发展，其转变数字交互的潜力仍然巨大，凸显了它们在人工智能未来的重要性。