人工智能
大型动作模型 (LAM):人工智能驱动的交互的下一个前沿

大约一年前,DeepMind 联合创始人 Mustafa Suleyman 都曾预测 那个时代 生成式人工智能 很快就会被更具交互性的系统所取代:能够通过与软件应用程序和人力资源交互来执行任务的系统。如今,随着 兔子人工智能全新的人工智能操作系统, R1。该系统展示了监控和模拟人类与应用程序交互的令人印象深刻的能力。 R1 的核心在于 大型动作模型 (LAM),一个高级人工智能助手,擅长理解用户意图并代表他们执行任务。虽然以前被称为其他术语,例如 互动人工智能 和 大型代理模型,LAM 的概念作为人工智能驱动的交互的关键创新正在获得发展势头。本文探讨了 LAM 的细节,以及它们与传统 LAM 的区别。大型语言模型 (法学硕士),介绍 Rabbit AI 的 R1 系统,并探讨苹果公司如何向类似 LAM 的方法迈进。此外,它还探讨了 LAM 的潜在用途及其面临的挑战。
了解大型动作或代理模型 (LAM)
LAM 是一种先进的人工智能代理,旨在掌握人类意图并执行特定目标。这些模型擅长理解人类需求、规划复杂任务以及与各种模型、应用程序或人员交互来执行他们的计划。 LAM 超越了简单的 AI 任务,例如生成响应或图像;它们是成熟的系统,旨在处理复杂的活动,例如计划旅行、安排约会和管理电子邮件。例如,在旅行规划中,LAM 将与天气应用程序协调进行预测,与航班预订服务交互以查找合适的航班,并与酒店预订系统互动以确保住宿。与许多仅依赖于 神经网络,LAM 利用混合方法结合 神经符号编程。 这种整合 符号编程 有助于逻辑推理和规划,而神经网络有助于识别复杂的感官模式。这种混合使 LAM 能够解决广泛的任务,这标志着人工智能驱动交互的微妙发展。
LAM 与 LLM 的比较
与 LAM 相比,LLM 是人工智能代理,擅长解释用户提示并生成基于文本的响应,主要协助涉及语言处理的任务。然而,它们的范围通常仅限于与文本相关的活动。另一方面,LAM 将人工智能的功能扩展到语言之外,使它们能够执行复杂的操作以实现特定目标。例如,法学硕士可以根据用户指示有效地起草电子邮件,而法学硕士则更进一步,不仅可以起草,还可以理解上下文、决定适当的响应以及管理电子邮件的传递。
此外,LLM 通常设计用于预测文本序列中的下一个标记并执行书面指令。相比之下,LAM 不仅具备语言理解能力,还具备与各种应用程序和现实世界系统(例如物联网设备)交互的能力。他们可以执行物理动作、控制设备以及管理需要与外部环境交互的任务,例如预约或预订。这种语言技能与实际执行的结合使得 LAM 能够比 LLM 更多样化的场景进行操作。
LAM 的实际应用:Rabbit R1
这个 兔子R1 是 LAM 实际应用的一个典型例子。这款人工智能设备可以通过一个用户友好的界面管理多个应用程序。 R2.88 配备 1 英寸触摸屏、旋转摄像头和滚轮,采用与 Teenage Engineering 合作打造的时尚圆形底盘。它采用 2.3GHz MediaTek 处理器,并配有 4GB 内存和 128GB 存储空间。
R1 的核心在于其 LAM,它可以智能地监控应用程序功能,并简化复杂的任务,例如控制音乐、预订交通、订购杂货和发送消息,所有这些都通过单点交互进行。这样,R1 消除了在多个应用程序之间切换或多次登录来执行这些任务的麻烦。
R1 中的 LAM 最初是通过观察人类与 Spotify 和 Uber 等流行应用程序的交互来进行训练的。通过此次培训,LAM 能够导航用户界面、识别图标和处理事务。这种广泛的培训使 R1 能够流畅地适应几乎任何应用。此外,特殊的训练模式允许用户引入和自动化新任务,不断扩大 R1 的功能范围,使其成为人工智能交互领域的动态工具。
苹果在 Siri 中推进 LAM 功能
苹果的人工智能研究团队最近分享了他们通过一项类似于语言辅助学习(LAM)的新计划来提升 Siri 能力的见解。该计划在一篇研究论文中进行了概述。 参考解析作为语言建模 (ReALM)旨在提升 Siri 理解对话语境、处理屏幕视觉内容以及检测周围活动的能力。ReALM 处理用户界面 (UI) 输入的方法与 Rabbit AI R1 的功能相似,展现了 Apple 致力于增强 Siri 对用户交互理解的决心。
这种发展 表示 苹果正在考虑采用 LAM 技术来改进用户与设备的交互方式。尽管目前尚未明确宣布部署 ReALM,但其显著增强 Siri 与应用交互的潜力,预示着在提升 Siri 的直观性和响应速度方面将取得重大进展。
LAM 的潜在应用
LAM 的潜力不仅限于增强用户和设备之间的交互;它们可以为多个行业带来显着的效益。
- 客户服务: LAM 可以通过独立处理不同渠道的查询和投诉来增强客户服务。这些模型可以使用自然语言处理查询、自动解决问题并管理调度,根据客户历史记录提供个性化服务以提高满意度。
- 卫生保健: 在医疗保健领域,LAM 可以通过组织预约、管理处方和促进跨服务沟通来帮助管理患者护理。它们还可用于远程监控、解释医疗数据以及在紧急情况下向工作人员发出警报,特别有利于慢性病和老年护理管理。
- 财经: LAM 可以提供个性化的财务建议并管理投资组合平衡和投资建议等任务。他们还可以监控交易以检测和防止欺诈,与银行系统无缝集成以快速解决可疑活动。
LAM 的挑战
尽管 LAM 潜力巨大,但仍面临一些需要解决的挑战。
- 数据隐私和安全: 鉴于 LAM 需要广泛访问个人和敏感信息,确保数据隐私和安全是一项重大挑战。 LAM 跨多个应用程序和平台与个人数据进行交互,引发了人们对这些信息的安全处理、存储和处理的担忧。
- 道德和监管问题: 随着 LAM 在决策和与人类环境互动中发挥更加自主的作用,道德考虑变得越来越重要。有关问责制、透明度以及将决策权委托给机器的程度的问题至关重要。此外,在各个行业部署此类先进的人工智能系统可能会面临监管挑战。
- 集成的复杂性: LAM 需要与各种软件和硬件系统集成才能有效地执行任务。这种集成很复杂,管理起来也很困难,特别是在协调不同平台和服务之间的操作时,例如实时预订航班、住宿和其他后勤细节。
- 可扩展性和适应性: 虽然 LAM 旨在适应各种场景和应用,但扩展这些解决方案以一致且高效地处理多样化的现实环境仍然是一个挑战。确保 LAM 能够适应不断变化的条件并在不同的任务和用户需求中保持性能对于其长期成功至关重要。
底线
大型动作模型 (LAM) 正在成为人工智能领域的一项重大创新,它不仅影响着设备交互,还影响着更广泛的行业应用。Rabbit AI 的 R1 已将其展现出来,而 Apple 的 Siri 也对其进行了探索,LAM 正在为更具交互性和直观性的人工智能系统奠定基础。这些模型有望提升客户服务、医疗保健和金融等领域的效率和个性化。
然而,LAM 的部署也带来了挑战,包括数据隐私问题、道德问题、集成复杂性和可扩展性。随着我们进一步广泛采用 LAM 技术,旨在负责任且有效地利用其能力,解决这些问题至关重要。随着 LAM 的不断发展,它们改变数字交互的潜力仍然巨大,这凸显了它们在人工智能未来格局中的重要性。