存根 移动代理:具有视觉感知的自主多模式移动设备代理 - Unite.AI
关注我们.

人工智能

移动代理:具有视觉感知的自主多模式移动设备代理

mm

发布时间

 on

多模态大语言模型 (MLLM) 的出现开创了移动设备代理的新时代,能够通过文本、图像和语音理解世界并与之交互。这些代理标志着传统人工智能的显着进步,为用户与其设备交互提供了更丰富、更直观的方式。通过利用 MLLM,这些代理可以处理和合成来自各种模式的大量信息,使他们能够以以前难以想象的方式提供个性化帮助并增强用户体验。

这些代理由最先进的机器学习技术和先进的自然语言处理能力提供支持,使它们能够理解和生成类似人类的文本,并以极高的准确性解释视觉和听觉数据。从识别图像中的对象和场景到理解语音命令和分析文本情感,这些多模式代理能够无缝处理各种输入。这项技术的潜力是巨大的,可以提供更复杂和情境感知的服务,例如适应人类情感的虚拟助手和适应个人学习风格的教育工具。它们还有可能彻底改变可访问性,使技术更容易跨越语言和感官障碍。

在本文中,我们将讨论移动代理,这是一种自主多模式设备代理,它首先利用视觉感知工具的能力,通过移动应用程序的前端界面准确地识别和定位视觉和文本元素。利用这种感知的视觉上下文,移动代理框架自主规划和分解复杂的操作任务,并通过逐步操作在移动应用程序中导航。 Mobile-Agent 框架与现有解决方案不同,因为它不依赖于移动系统元数据或移动应用程序的 XML 文件,从而为以视觉为中心的方式增强跨不同移动操作环境的适应性提供了空间。移动代理框架采用的方法消除了对系统特定定制的要求,从而提高了性能并降低了计算要求。 

移动代理:自主多模式移动设备代理

在快节奏的移动技术世界中,一个开创性的概念脱颖而出:大型语言模型,特别是多模态大型语言模型或 MLLM,能够跨不同语言生成各种文本、图像、视频和语音。过去几年MLLM框架的快速发展催生了MLLM的一个新的、强大的应用:自主移动代理。自主移动代理是独立行动、移动和运行的软件实体,无需人类直接命令,旨在遍历网络或设备来完成任务、收集信息或解决问题。 

移动代理旨在根据用户指令和屏幕视觉效果操作用户的移动设备,这项任务要求代理同时具备语义理解和视觉感知能力。然而,现有的移动代理远非完美,因为它们基于多模态大语言模型,甚至包括 GPT-4V 在内的当前最先进的 MLLM 框架也缺乏作为高效移动代理所需的视觉感知能力。 移动代理。此外,尽管现有框架可以生成有效的操作,但它们很难准确定位这些操作在屏幕上的位置,限制了移动代理在移动设备上操作的应用和能力。 

为了解决这个问题,一些框架选择利用用户界面布局文件来协助 GPT-4V 或其他具有本地化功能的 MLLM,其中一些框架通过访问应用程序的 XML 文件来提取屏幕上的可操作位置,而其他框架则选择使用 Web 应用程序中的 HTML 代码。可以看出,这些框架大多数都依赖于访问底层和本地应用程序文件,如果框架无法访问这些文件,则该方法几乎无效。为了解决这个问题并消除本地代理对本地化方法中底层文件的依赖,开发人员研究了 Mobile-Agent,这是一种具有令人印象深刻的视觉感知能力的自主移动代理。移动代理框架利用其视觉感知模块,使用移动设备的屏幕截图来准确定位操作。视觉感知模块包含 OCR 和检测模型,负责识别屏幕内的文本并描述移动屏幕特定区域内的内容。移动代理框架采用精心设计的提示,促进工具和代理之间的有效交互,从而实现移动设备操作的自动化。 

此外,移动代理框架旨在利用 GPT-4V 等最先进的 MLLM 框架的上下文功能来实现自我规划功能,使模型能够根据操作历史记录、用户指令和屏幕截图整体规划任务。为了进一步增强代理识别不完整指令和错误操作的能力,Mobile-Agent框架引入了自我反思方法。在精心设计的提示指导下,智能体不断反思不正确和无效的操作,并在任务或指令完成后停止操作。 

总的来说,Mobile-Agent框架的贡献可以总结如下:

  1. Mobile-Agent充当自主移动设备代理,利用视觉感知工具进行操作定位。它有条不紊地计划每一步并进行内省。值得注意的是,Mobile-Agent 完全依赖于设备屏幕截图,不使用任何系统代码,展示了纯粹基于视觉技术的解决方案。
  2. Mobile-Agent 引入了 Mobile-Eval,这是一个旨在评估移动设备代理的基准。该基准测试包括十种最常用的移动应用程序,以及这些应用程序的智能说明,分为三个难度级别。

移动代理:架构和方法

移动代理框架的核心包括最先进的技术 多模态大语言模型,GPT-4V,用于文本本地化任务的文本检测模块。除了 GPT-4V 之外,Mobile-Agent 还采用图标检测模块进行图标定位。 

视觉感知

如前所述,GPT-4V MLLM 在指令和屏幕截图方面提供了令人满意的结果,但它无法有效输出操作发生的位置。由于这一限制,实现GPT-4V模型的Mobile-Agent框架需要依赖外部工具来辅助操作本地化,从而方便在移动屏幕上输出操作。 

文字本地化

移动代理框架实现了一个 OCR 工具,每当代理需要点击移动屏幕上显示的特定文本时,即可检测屏幕上相应文本的位置。存在三种独特的文本本地化场景。 

场景 1:未检测到指定文本

问题: OCR 无法检测到指定文本,这可能出现在复杂图像中或由于 OCR 限制而出现。

回应: 指示代理人:

  • 重新选择要点击的文本,以便手动更正 OCR 的疏忽,或者
  • 选择替代操作,例如使用不同的输入法或执行与手头任务相关的其他操作。

推理: 这种灵活性对于管理 GPT-4V 偶尔出现的错误或幻觉是必要的,确保代理仍然可以有效地进行。

场景 2:检测到指定文本的单个实例

操作: 自动生成点击检测到的文本框中心坐标的动作。

理由: 仅检测到一个实例时,正确识别的可能性就很高,从而可以有效地进行直接操作。

场景 3:检测到指定文本的多个实例

评定: 首先,评估检测到的实例数量:

许多实例:表示屏幕上充斥着相似的内容,使选择过程变得复杂。

行动: 请求代理重新选择文本,旨在细化选择或调整搜索参数。

少数实例: 可管理的检测数量允许采用更细致的方法。

行动: 裁剪这些实例周围的区域,向外扩展文本检测框以捕获其他上下文。这种扩展可确保保留更多信息,从而有助于决策。

下一步: 在裁剪后的图像上绘制检测框并将其呈现给代理。这种视觉辅助可帮助代理根据上下文线索或任务要求决定与哪个实例进行交互。

这种结构化方法优化了 OCR 结果与代理操作之间的交互,增强了系统在跨各种场景处理基于文本的任务时的可靠性和适应性。整个过程如下图所示。

图标本地化

Mobile-Agent 框架实现了一个图标检测工具,当代理需要在移动屏幕上单击图标时,可以定位图标的位置。更具体地说,框架首先请求代理提供图像的特定属性,包括形状和颜色,然后框架使用提示图标实现 Grounding DINO 方法来识别屏幕截图中包含的所有图标。最后, 移动代理t采用CLIP框架计算点击区域的描述之间的相似度,并计算删除的图标之间的相似度,选择相似度最高的区域进行点击。 

指令执行

为了将代理的动作转换为屏幕上的操作,移动代理框架定义了 8 种不同的操作。 

  • 启动应用程序(应用程序名称): 从桌面界面启动指定的应用程序。
  • 点击文本(文本标签): 与显示标签“文本标签”的屏幕部分进行交互。
  • 与图标交互(图标说明、位置): 定位并点击指定的图标区域,其中“图标描述”详细说明了图标的颜色和形状等属性。从顶部、底部、左侧、右侧或中心等选项中选择“位置”,可以将两者结合起来以实现精确导航并减少错误。
  • 输入文字(输入文字): 将给定的“输入文本”输入到活动文本字段中。
  • 向上和向下滚动: 向上或向下导航当前页面的内容。
  • 回去: 恢复到之前查看的页面。
  • 关: 直接从当前屏幕导航回桌面。
  • 停止: 任务完成后结束操作。

自我规划

每一步操作都由框架迭代执行,在每次迭代开始之前,需要用户提供输入指令,Mobile-Agent模型使用该指令生成整个过程的系统提示。此外,在每次迭代开始之前,框架都会捕获屏幕截图并将其提供给代理。然后代理观察屏幕截图、操作历史记录和系统提示,输出下一步操作。 

自我反省

在操作期间,代理可能会遇到阻止其成功执行命令的错误。为了提高指令完成率,实施了自我评估方法,在两种特定情况下启动。最初,如果代理执行了有缺陷或无效的操作,导致进度停止,例如当它认识到屏幕截图在操作后保持不变或显示不正确的页面时,它将被指示考虑替代操作或调整现有操作的参数。其次,代理可能会错过复杂指令的某些元素。一旦代理根据其初始计划执行了一系列操作,就会提示其检查其操作顺序、最新的屏幕截图和用户的指令,以评估任务是否已完成。如果发现差异,代理的任务是自动生成新的操作来完成指令。

移动代理:实验和结果

为了全面评估其能力,Mobile-Agent框架引入了由10个常用应用组成的Mobile-Eval基准测试,并为每个应用设计了XNUMX条指令。第一个操作很简单,仅涵盖基本的应用程序操作,而第二个操作比第一个操作稍微复杂一些,因为它有一些额外的要求。最后,第三个操作是其中最复杂的,因为它包含抽象的用户指令,用户没有明确指定要使用哪个应用程序或要执行什么操作。 

接下来,为了从不同角度评估性能,移动代理框架设计并实现了 4 个不同的指标。 

  • 苏或成功: 如果移动代理完成了指令,则认为是成功的。 
  • 过程分数或 PS: 流程分数指标衡量用户指令执行过程中每个步骤的准确性,其计算方法是将正确步骤数除以总步骤数。 
  • 相对效率或 RE: 相对效率得分是人类手动执行指令所需的步骤数与代理执行同一指令所需的步骤数之间的比率或比较。 
  • 完成率或 CR: 完成率指标将框架成功完成的人工操作步骤数除以人类完成指令所采取的步骤总数。当代理成功完成指令时,CR 的值为 1。 

结果如下图所示。 

最初,对于三项给定任务,移动代理的完成率分别为 91%、82% 和 82%。虽然并非所有任务都完美执行,但各类任务的完成率均超过 90%。此外,PS 指标显示,移动代理始终表现出为这三项任务执行准确操作的可能性很高,成功率约为 80%。此外,根据 RE 指标,移动代理在执行操作方面表现出 80% 的效率,其水平与人类最优水平相当。这些结果共同强调了移动代理作为移动设备助手的熟练程度。

下图说明了移动代理掌握用户命令并独立编排其操作的能力。即使指令中没有明确的操作细节,移动代理也能熟练地解释用户的需求,将其转换为可操作的任务。根据这种理解,代理通过系统的规划过程执行指令。

最后的思考

在本文中,我们讨论了移动代理,这是一种多模式自主设备代理,它最初利用视觉感知技术来精确检测和定位移动应用程序界面中的视觉和文本组件。考虑到这种视觉环境,移动代理框架会自动概述复杂的任务并将其分解为可管理的操作,从而逐步顺利地浏览移动应用程序。该框架从现有方法中脱颖而出,因为它不依赖于移动系统的元数据或移动应用程序的 XML 文件,从而促进跨各种移动操作系统的更大灵活性,重点关注以视觉为中心的处理。移动代理框架采用的策略消除了对特定于系统的适应的需要,从而提高了效率并减少了计算需求。

“职业工程师,心灵作家”。 Kunal 是一位技术作家,对人工智能和机器学习有着深厚的热爱和理解,致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。