人工智能

移动智能体：自主多模态移动设备智能体，具有视觉感知能力

发布于 2024年2月26日

更新于 2026年5月22日

作者

Kunal Kejriwal

随着多模态大语言模型（MLLM）的出现，移动设备智能体领域迎来了新的发展机遇。这些智能体能够通过文本、图像和语音与用户进行交互，提供更丰富和直观的用户体验。移动设备智能体通过利用MLLM，可以处理和综合来自不同模态的信息，提供个性化的辅助和增强用户体验。

这些智能体采用最先进的机器学习技术和自然语言处理能力，可以理解和生成类似人类的文本，并解释视觉和听觉数据。从图像中识别物体和场景到理解语音命令和分析文本情感，这些多模态智能体可以处理广泛的输入。这种技术的潜力是巨大的，提供了更复杂和上下文感知的服务，例如情感感知的虚拟助手和适应个体学习风格的教育工具。它们还可以革新无障碍技术，使技术更容易被不同语言和感官障碍的人使用。

在本文中，我们将讨论移动智能体（Mobile-Agents），一种自主的多模态移动设备智能体。它利用视觉感知技术来识别和定位移动应用程序界面的视觉和文本元素。使用这种感知的视觉上下文，移动智能体框架可以自主规划和分解复杂的操作任务，并一步步地操作移动应用程序。移动智能体框架与现有的解决方案不同，因为它不依赖于移动系统的元数据或移动应用程序的XML文件，这使得它可以更灵活地适应不同的移动操作环境和视觉中心处理。移动智能体框架采用的方法消除了对系统特定自定义的需求，从而提高了性能和降低了计算需求。

移动智能体：自主多模态移动设备智能体

在移动技术的快速发展世界中，一个开创性的概念脱颖而出：大语言模型，特别是多模态大语言模型（MLLM），能够生成各种文本、图像、视频和语音跨不同语言。MLLM框架的快速发展使得一个新的强大的应用出现：自主移动智能体。自主移动智能体是软件实体，可以独立地执行任务、收集信息或解决问题，而无需直接的人类命令，旨在遍历网络或设备以完成任务、收集信息或解决问题。

移动智能体旨在根据用户的指令和屏幕视觉来操作用户的移动设备，这需要智能体具备语义理解和视觉感知能力。然而，现有的移动智能体尚不完善，因为它们基于多模态大语言模型，甚至当前最先进的MLLM框架（如GPT-4V）缺乏视觉感知能力，以便作为高效的移动智能体。另外，虽然现有的框架可以生成有效的操作，但它们难以在屏幕上准确定位这些操作，从而限制了移动智能体在移动设备上的应用和能力。

为了解决这个问题，一些框架选择利用用户界面布局文件来帮助GPT-4V或其他MLLM实现定位能力，一些框架通过访问应用程序的XML文件来提取屏幕上的操作位置，而其他框架则使用Web应用程序的HTML代码。如我们所见，大多数这些框架依赖于访问底层和本地应用程序文件，这使得如果框架无法访问这些文件，方法几乎无效。为了解决这个问题并消除本地智能体对底层文件的依赖，开发者们致力于移动智能体，这是一种具有令人印象深刻的视觉感知能力的自主移动智能体。使用其视觉感知模块，移动智能体框架使用移动设备的截图来准确定位操作。视觉感知模块包含OCR和检测模型，负责识别屏幕上的文本并描述特定区域的内容。移动智能体框架采用精心设计的提示，并促进工具和智能体之间的高效交互，从而自动化移动设备操作。

此外，移动智能体框架旨在利用最先进的MLLM框架（如GPT-4V）的上下文能力来实现自主规划能力，使模型能够根据操作历史、用户指令和截图整体规划任务。为了进一步增强智能体识别不完整指令和错误操作的能力，移动智能体框架引入了一种自我反思方法。在精心设计的提示的指导下，智能体反思不正确和无效的操作，并在任务或指令完成后停止操作。

总的来说，移动智能体框架的贡献可以总结如下：

移动智能体作为一个自主的移动设备智能体，利用视觉感知工具来执行操作定位。它系统地规划每一步并进行自我反思。值得注意的是，移动智能体仅依赖设备截图，而不使用任何系统代码，展示了一种纯粹基于视觉技术的解决方案。
移动智能体引入了Mobile-Eval，这是一个基准，用于评估移动设备智能体。这个基准包括十个最常用的移动应用程序，以及这些应用程序的智能指令，分为三个难度级别。

移动智能体：架构和方法论

移动智能体框架的核心是一个最先进的多模态大语言模型（MLLM），即GPT-4V，一个用于文本定位任务的文本检测模块。除了GPT-4V，移动智能体还采用了一个图标检测模块，用于图标定位。

视觉感知

如前所述，GPT-4V MLLM为指令和截图提供了令人满意的结果，但它无法有效地输出操作的位置。由于这个限制，移动智能体框架需要依赖外部工具来帮助操作定位，从而促进在移动屏幕上的操作输出。

文本定位

移动智能体框架实现了一个OCR工具来检测移动屏幕上特定文本的位置，当智能体需要点击特定文本时。有三个独特的文本定位场景。

场景1：未检测到指定文本

问题：OCR无法检测到指定文本，这可能发生在复杂图像中或由于OCR的局限性。

响应：指示智能体要么重新选择文本以便手动纠正OCR的疏忽，要么选择另一种操作，例如使用不同的输入方法或执行与任务相关的其他操作。
理由：这种灵活性是必要的，以管理GPT-4V的偶尔不准确或幻觉，确保智能体仍然可以有效地继续执行。

场景2：检测到单个指定文本实例

操作：自动生成一个点击检测到的文本框中心坐标的动作。

理由：由于只检测到一个实例，正确识别的可能性很高，因此可以直接进行操作。

场景3：检测到多个指定文本实例

评估：首先，评估检测到的实例数量：

多个实例：表示屏幕上有类似内容，复杂的选择过程。

操作：要求智能体重新选择文本，旨在细化选择或调整搜索参数。

少量实例：可以采用更细致的方法，因为检测到的实例数量是可管理的。

操作：裁剪这些实例周围的区域，扩大文本检测框以捕获更多的上下文。这种扩展确保更多的信息被保留，有助于决策。

下一步：在裁剪的图像上绘制检测框，并将其呈现给智能体。这种视觉辅助有助于智能体根据上下文线索或任务要求决定与哪个实例交互。

这种结构化方法优化了OCR结果和智能体操作之间的交互，增强了系统的可靠性和适应性，在处理各种文本任务时。

图标定位

移动智能体框架实现了一个图标检测工具来定位移动屏幕上图标的位置，当智能体需要点击它时。更具体地说，框架首先要求智能体提供图像的特定属性，包括形状和颜色，然后框架使用Grounding DINO方法和提示图标来识别截图中的所有图标。最后，移动智能体使用CLIP框架来计算描述点击区域和删除图标之间的相似性，并选择相似性最高的区域进行点击。

指令执行

为了将动作转化为智能体在屏幕上的操作，移动智能体框架定义了8种不同的操作。

启动应用程序（应用程序名称）：从桌面界面启动指定的应用程序。
点击文本（文本标签）：与显示标签“文本标签”的屏幕部分交互。
与图标交互（图标描述，位置）：目标和点击指定图标区域，其中“图标描述”详细描述了图标的属性，如颜色和形状。选择“位置”选项，如顶部、底部、左侧、右侧或中心，可能结合两个选项以实现精确的导航和减少错误。
输入文本（输入文本）：在活动文本字段中输入给定的“输入文本”。
滚动上下：在当前页面的内容中导航上下。
后退：返回到之前查看的页面。
关闭：直接从当前屏幕导航回桌面。
停止：一旦任务完成，停止操作。

自主规划

移动智能体框架中的每一步操作都是迭代执行的，在每次迭代开始之前，用户需要提供输入指令，移动智能体模型使用指令来生成整个过程的系统提示。另外，在每次迭代开始之前，框架捕获一个截图并将其提供给智能体。智能体然后观察截图、操作历史和系统提示来输出下一步的操作。

自我反思

在其操作过程中，智能体可能会遇到错误，阻止它成功执行命令。为了提高指令完成率，实施了一种自我评估方法，在两个特定情况下激活。首先，如果智能体执行了有缺陷或无效的操作，阻止进展，例如当它识别出截图在操作后仍然未改变或显示错误页面时，它将被指示考虑替代操作或调整现有操作的参数。其次，智能体可能会错过复杂指令的某些元素。一旦智能体根据其初始计划执行了一系列操作后，它将被提示审查其操作序列、最新的截图和用户的指令，以评估任务是否已完成。如果发现差异，智能体被任务自动生成新的操作以完成指令。

移动智能体：实验和结果

为了全面评估其能力，移动智能体框架引入了Mobile-Eval基准，包括10个常用的应用程序，并为每个应用程序设计了三个指令。第一个操作是直接的，仅涵盖基本的应用程序操作，而第二个操作比第一个稍微复杂一些，因为它有一些额外的要求。最后，第三个操作是最复杂的，因为它包含了抽象的用户指令，用户没有明确指定要使用哪个应用程序或执行什么操作。

为了从不同的角度评估性能，移动智能体框架设计并实施了4个不同的指标。

成功率（Su或Success）：如果移动智能体完成了指令，则认为是成功。

过程评分（PS或Process Score）：过程评分指标衡量了在执行用户指令时每一步的准确性，通过将正确步骤的数量除以总步骤数来计算。

相对效率（RE或Relative Efficiency）：相对效率评分是人类手动执行指令所需的步骤数量与智能体执行相同指令所需的步骤数量之间的比率。

完成率（CR或Completion Rate）：完成率指标将框架成功完成的人类操作步骤数除以人类完成指令所需的总步骤数。CR的值为1，当智能体成功完成指令时。

结果如以下图所示。

最初，对于三个给定的任务，移动智能体分别实现了91%、82%和82%的完成率。虽然并非所有任务都被完美执行，但每个任务类别的完成率都超过了90%。此外，PS指标显示移动智能体在三个任务中始终表现出高概率的准确操作，成功率约为80%。另外，根据RE指标，移动智能体在执行操作方面表现出80%的效率，达到与人类最优相似的水平。这些结果共同证明了移动智能体作为移动设备辅助工具的能力。

以下图表展示了移动智能体理解用户命令和独立编排其操作的能力。即使在指令中没有明确的操作细节，移动智能体也能巧妙地解释用户的需求，并将其转化为可执行的任务。按照这种理解，智能体通过系统化的规划过程来执行指令。

最后的思考

在本文中，我们讨论了移动智能体，一种自主的多模态移动设备智能体，它首先利用视觉感知技术来精确地检测和定位移动应用程序界面的视觉和文本元素。使用这种感知的视觉上下文，移动智能体框架可以自主地规划和分解复杂的操作任务，并一步步地操作移动应用程序。移动智能体框架与现有的解决方案不同，因为它不依赖于移动系统的元数据或移动应用程序的XML文件，这使得它可以更灵活地适应不同的移动操作环境和视觉中心处理。移动智能体框架采用的方法消除了对系统特定自定义的需求，从而提高了性能和降低了计算需求。这种方法使得移动智能体框架能够在不依赖移动应用程序的XML文件的情况下提供更大的灵活性，专注于视觉中心处理，提高了效率并降低了计算需求。