Suivez nous sur

Agents mobiles : agent d'appareil mobile multimodal autonome avec perception visuelle

Intelligence Artificielle

Agents mobiles : agent d'appareil mobile multimodal autonome avec perception visuelle

mm

L'avènement des grands modèles linguistiques multimodaux (MLLM) a marqué le début d'une nouvelle ère d'agents d'appareils mobiles, capables de comprendre et d'interagir avec le monde à travers le texte, les images et la voix. Ces agents marquent une avancée significative par rapport à l’IA traditionnelle, offrant aux utilisateurs un moyen plus riche et plus intuitif d’interagir avec leurs appareils. En tirant parti du MLLM, ces agents peuvent traiter et synthétiser de grandes quantités d'informations provenant de diverses modalités, ce qui leur permet d'offrir une assistance personnalisée et d'améliorer l'expérience utilisateur d'une manière auparavant inimaginable.

Ces agents s'appuient sur des techniques d'apprentissage automatique de pointe et des capacités avancées de traitement du langage naturel, leur permettant de comprendre et de générer du texte de type humain, ainsi que d'interpréter les données visuelles et auditives avec une précision remarquable. De la reconnaissance d'objets et de scènes dans des images à la compréhension de commandes vocales et à l'analyse de sentiments textuels, ces agents multimodaux sont équipés pour gérer un large éventail d'entrées de manière transparente. Le potentiel de cette technologie est vaste, offrant des services plus sophistiqués et contextuels, tels que des assistants virtuels sensibles aux émotions humaines et des outils pédagogiques qui s'adaptent aux styles d'apprentissage individuels. Ils ont également le potentiel de révolutionner l’accessibilité, en rendant la technologie plus accessible au-delà des barrières linguistiques et sensorielles.

Dans cet article, nous parlerons de Mobile-Agents, un agent de pĂ©riphĂ©rique multimodal autonome qui exploite d'abord la capacitĂ© des outils de perception visuelle Ă  identifier et localiser avec prĂ©cision les Ă©lĂ©ments visuels et textuels avec l'interface frontale d'une application mobile. En utilisant ce contexte de vision perçu, le cadre Mobile-Agent planifie et dĂ©compose la tâche opĂ©rationnelle complexe de manière autonome et navigue Ă  travers les applications mobiles Ă  travers des opĂ©rations Ă©tape par Ă©tape. Le cadre Mobile-Agent diffère des solutions existantes car il ne s'appuie pas sur les mĂ©tadonnĂ©es du système mobile ou les fichiers XML des applications mobiles, ce qui permet une adaptabilitĂ© amĂ©liorĂ©e dans divers environnements d'exploitation mobiles d'une manière centrĂ©e sur la vision. L'approche suivie par le framework Mobile-Agent Ă©limine le besoin de personnalisations spĂ©cifiques au système, ce qui se traduit par des performances amĂ©liorĂ©es et des exigences informatiques rĂ©duites. 

Agents mobiles : agent de pĂ©riphĂ©rique mobile multimodal autonome

Dans le monde en Ă©volution rapide de la technologie mobile, un concept pionnier Ă©merge comme Ă©tant remarquable : les grands modèles linguistiques, en particulier les grands modèles linguistiques multimodaux ou MLLM, capables de gĂ©nĂ©rer un large Ă©ventail de textes, d'images, de vidĂ©os et de paroles dans diffĂ©rentes langues. Le dĂ©veloppement rapide des frameworks MLLM au cours des dernières annĂ©es a donnĂ© naissance Ă  une nouvelle et puissante application des MLLM : les agents mobiles autonomes. Les agents mobiles autonomes sont des entitĂ©s logicielles qui agissent, se dĂ©placent et fonctionnent de manière indĂ©pendante, sans avoir besoin de commandes humaines directes, conçues pour parcourir des rĂ©seaux ou des appareils afin d'accomplir des tâches, collecter des informations ou rĂ©soudre des problèmes. 

Les agents mobiles sont conçus pour faire fonctionner l'appareil mobile de l'utilisateur sur la base des instructions utilisateur et des visuels de l'Ă©cran, une tâche qui nĂ©cessite que les agents possèdent Ă  la fois des capacitĂ©s de comprĂ©hension sĂ©mantique et de perception visuelle. Cependant, les agents mobiles existants sont loin d'ĂŞtre parfaits car ils sont basĂ©s sur de grands modèles de langage multimodaux, et mĂŞme les cadres MLLM de pointe actuels, y compris GPT-4V, manquent des capacitĂ©s de perception visuelle nĂ©cessaires pour servir d'agent efficace. agent mobile. De plus, bien que les frameworks existants puissent gĂ©nĂ©rer des opĂ©rations efficaces, ils ont du mal Ă  localiser avec prĂ©cision la position de ces opĂ©rations sur l'Ă©cran, ce qui limite les applications et la capacitĂ© des agents mobiles Ă  opĂ©rer sur des appareils mobiles. 

Pour rĂ©soudre ce problème, certains frameworks ont choisi d'exploiter les fichiers de prĂ©sentation de l'interface utilisateur pour aider le GPT-4V ou d'autres MLLM avec des capacitĂ©s de localisation, certains frameworks parvenant Ă  extraire des positions exploitables Ă  l'Ă©cran en accĂ©dant aux fichiers XML de l'application alors que d'autres frameworks a choisi d'utiliser le code HTML des applications Web. Comme on peut le constater, la majoritĂ© de ces frameworks reposent sur l'accès aux fichiers d'application sous-jacents et locaux, ce qui rend la mĂ©thode presque inefficace si le framework ne peut pas accĂ©der Ă  ces fichiers. Pour rĂ©soudre ce problème et Ă©liminer la dĂ©pendance des agents locaux vis-Ă -vis des fichiers sous-jacents aux mĂ©thodes de localisation, les dĂ©veloppeurs ont travaillĂ© sur Mobile-Agent, un agent mobile autonome dotĂ© de capacitĂ©s de perception visuelle impressionnantes. Grâce Ă  son module de perception visuelle, le framework Mobile-Agent utilise des captures d'Ă©cran de l'appareil mobile pour localiser avec prĂ©cision les opĂ©rations. Le module de perception visuelle hĂ©berge des modèles d'OCR et de dĂ©tection chargĂ©s d'identifier le texte sur l'Ă©cran et de dĂ©crire le contenu dans une rĂ©gion spĂ©cifique de l'Ă©cran mobile. Le framework Mobile-Agent utilise des invites soigneusement conçues et facilite une interaction efficace entre les outils et les agents, automatisant ainsi les opĂ©rations des appareils mobiles. 

En outre, le framework Mobile-Agents vise Ă  exploiter les capacitĂ©s contextuelles des frameworks MLLM de pointe tels que GPT-4V pour obtenir des capacitĂ©s d'auto-planification qui permettent au modèle de planifier des tâches en fonction de l'historique des opĂ©rations, des instructions de l'utilisateur et des captures d'Ă©cran de manière holistique. Pour amĂ©liorer encore la capacitĂ© de l'agent Ă  identifier les instructions incomplètes et les opĂ©rations erronĂ©es, le framework Mobile-Agent introduit une mĂ©thode d'auto-rĂ©flexion. Sous la direction d'invites soigneusement conçues, l'agent rĂ©flĂ©chit systĂ©matiquement aux opĂ©rations incorrectes et invalides et arrĂŞte les opĂ©rations une fois la tâche ou l'instruction terminĂ©e. 

Globalement, les contributions du framework Mobile-Agent peuvent ĂŞtre rĂ©sumĂ©es comme suit :

  1. Mobile-Agent agit comme un agent mobile autonome, utilisant des outils de perception visuelle pour localiser les opérations. Il planifie méthodiquement chaque étape et s'appuie sur l'introspection. Il s'appuie notamment exclusivement sur des captures d'écran de l'appareil, sans aucun code système, ce qui illustre une solution entièrement basée sur des techniques de vision.
  2. Mobile-Agent présente Mobile-Eval, une référence conçue pour évaluer les agents sur appareils mobiles. Ce benchmark comprend une variété des dix applications mobiles les plus couramment utilisées, ainsi que des instructions intelligentes pour ces applications, classées en trois niveaux de difficulté.

Mobile-Agent : Architecture et Méthodologie

Ă€ la base, le framework Mobile-Agent se compose d'un Ă©tat de l'art Modèle multimodal de langage Ă©tendu, le GPT-4V, un module de dĂ©tection de texte utilisĂ© pour les tâches de localisation de texte. Outre GPT-4V, Mobile-Agent utilise Ă©galement un module de dĂ©tection d'icĂ´nes pour la localisation des icĂ´nes. 

Perception visuelle

Comme mentionnĂ© prĂ©cĂ©demment, le GPT-4V MLLM fournit des rĂ©sultats satisfaisants pour les instructions et les captures d'Ă©cran, mais il ne parvient pas Ă  indiquer efficacement l'emplacement oĂą les opĂ©rations ont lieu. En raison de cette limitation, le framework Mobile-Agent implĂ©mentant le modèle GPT-4V doit s'appuyer sur des outils externes pour aider Ă  la localisation des opĂ©rations, facilitant ainsi la sortie des opĂ©rations sur l'Ă©cran mobile. 

Localisation de texte

Le framework Mobile-Agent implĂ©mente un outil OCR pour dĂ©tecter la position du texte correspondant sur l'Ă©cran chaque fois que l'agent doit appuyer sur un texte spĂ©cifique affichĂ© sur l'Ă©cran du mobile. Il existe trois scĂ©narios uniques de localisation de texte. 

ScĂ©nario 1 : aucun texte spĂ©cifiĂ© dĂ©tectĂ©

Question: L'OCR ne parvient pas à détecter le texte spécifié, ce qui peut apparaître dans des images complexes ou en raison des limitations de l'OCR.

RĂ©ponse: Demandez Ă  l'agent de :

  • ResĂ©lectionnez le texte Ă  appuyer, permettant une correction manuelle de l'oubli de l'OCR, ou
  • Choisissez une opĂ©ration alternative, par exemple en utilisant une mĂ©thode de saisie diffĂ©rente ou en effectuant une autre action pertinente pour la tâche Ă  accomplir.

Raisonnement: Cette flexibilité est nécessaire pour gérer les inexactitudes ou les hallucinations occasionnelles du GPT-4V, garantissant ainsi que l'agent peut toujours agir efficacement.

ScĂ©nario 2 : instance unique du texte spĂ©cifiĂ© dĂ©tectĂ©e

Opération: Générez automatiquement une action pour cliquer sur les coordonnées centrales de la zone de texte détectée.

Justification: Avec une seule instance détectée, la probabilité d’une identification correcte est élevée, ce qui rend efficace la poursuite d’une action directe.

ScĂ©nario 3 : Plusieurs instances du texte spĂ©cifiĂ© dĂ©tectĂ©es

Évaluation: Tout d’abord, Ă©valuez le nombre d’instances dĂ©tectĂ©es :

De nombreux cas: Indique un écran encombré de contenu similaire, compliquant le processus de sélection.

Action: Demander à l'agent de resélectionner le texte, dans le but d'affiner la sélection ou d'ajuster les paramètres de recherche.

Quelques exemples : Un nombre gĂ©rable de dĂ©tections permet une approche plus nuancĂ©e.

Action: Recadrez les régions autour de ces instances, en élargissant les zones de détection de texte vers l'extérieur pour capturer un contexte supplémentaire. Cette expansion garantit que davantage d’informations sont préservées, ce qui facilite la prise de décision.

L'étape suivante: Dessinez des boîtes de détection sur les images recadrées et présentez-les à l'agent. Cette assistance visuelle aide l'agent à décider avec quelle instance interagir, en fonction d'indices contextuels ou des exigences de la tâche.

Cette approche structurée optimise l'interaction entre les résultats de l'OCR et les opérations des agents, améliorant ainsi la fiabilité et l'adaptabilité du système dans la gestion des tâches textuelles dans différents scénarios. L'ensemble du processus est illustré dans l'image suivante.

Localisation des icĂ´nes

Le framework Mobile-Agent implĂ©mente un outil de dĂ©tection d'icĂ´ne pour localiser la position d'une icĂ´ne lorsque l'agent doit cliquer dessus sur l'Ă©cran du mobile. Pour ĂŞtre plus prĂ©cis, le framework demande d'abord Ă  l'agent de fournir des attributs spĂ©cifiques de l'image, notamment la forme et la couleur, puis le framework implĂ©mente la mĂ©thode Grounding DINO avec l'icĂ´ne d'invite pour identifier toutes les icĂ´nes contenues dans la capture d'Ă©cran. Enfin, Mobile-Agent utilise le framework CLIP pour calculer la similaritĂ© entre la description de la rĂ©gion de clic, calcule la similaritĂ© entre les icĂ´nes supprimĂ©es et sĂ©lectionne la rĂ©gion prĂ©sentant la similaritĂ© la plus Ă©levĂ©e pour un clic. 

Exécution des instructions

Pour traduire les actions en opĂ©rations Ă  l'Ă©cran par les agents, le framework Mobile-Agent dĂ©finit 8 opĂ©rations diffĂ©rentes. 

  • Lancer l'application (nom de l'application) : Lancez l'application dĂ©signĂ©e Ă  partir de l'interface de bureau.
  • Appuyez sur Texte (Étiquette de texte) : Interagissez avec la partie d’écran affichant l’étiquette « Text Label ».
  • Interagissez avec l'icĂ´ne (description de l'icĂ´ne, emplacement) : Ciblez et appuyez sur la zone d'icĂ´ne spĂ©cifiĂ©e, oĂą « Description de l'icĂ´ne Â» dĂ©taille les attributs tels que la couleur et la forme de l'icĂ´ne. Choisissez « Emplacement Â» parmi les options telles que haut, bas, gauche, droite ou centre, en combinant Ă©ventuellement deux pour une navigation prĂ©cise et pour rĂ©duire les erreurs.
  • Saisir du texte (Saisie de texte) : Saisissez le « Texte de saisie » donnĂ© dans le champ de texte actif.
  • Faites dĂ©filer vers le haut et vers le bas : Naviguez vers le haut ou vers le bas dans le contenu de la prĂ©sente page.
  • Retourner: Revenir Ă  la page prĂ©cĂ©demment consultĂ©e.
  • Fermer: Revenez au bureau directement Ă  partir de l’écran actuel.
  • ArrĂŞt: Terminez l'opĂ©ration une fois la tâche accomplie.

Auto-planification

Chaque Ă©tape de l'opĂ©ration est exĂ©cutĂ©e de manière itĂ©rative par le framework, et avant le dĂ©but de chaque itĂ©ration, l'utilisateur doit fournir une instruction d'entrĂ©e, et le modèle Mobile-Agent utilise l'instruction pour gĂ©nĂ©rer une invite système pour l'ensemble du processus. De plus, avant le dĂ©but de chaque itĂ©ration, le framework capture une capture d'Ă©cran et la transmet Ă  l'agent. L'agent observe ensuite la capture d'Ă©cran, l'historique des opĂ©rations et les invites du système pour afficher l'Ă©tape suivante des opĂ©rations. 

Auto-réflexion

Au cours de ses opérations, l'agent peut rencontrer des erreurs l'empêchant d'exécuter correctement une commande. Afin d'améliorer le taux d'exécution des instructions, une approche d'auto-évaluation a été mise en œuvre, s'activant dans deux circonstances spécifiques. Initialement, si l'agent exécute une action erronée ou invalide interrompant la progression, par exemple lorsqu'il constate que la capture d'écran reste inchangée après l'opération ou affiche une page incorrecte, il sera invité à envisager des actions alternatives ou à ajuster les paramètres de l'opération existante. Deuxièmement, l'agent peut omettre certains éléments d'une instruction complexe. Une fois que l'agent a exécuté une série d'actions conformément à son plan initial, il sera invité à revoir sa séquence d'actions, la dernière capture d'écran et l'instruction de l'utilisateur afin de déterminer si la tâche a été effectuée. En cas d'incohérences, l'agent est chargé de générer de manière autonome de nouvelles actions pour exécuter l'instruction.

Mobile-Agent : Expériences et Résultats

Pour Ă©valuer ses capacitĂ©s de manière globale, le framework Mobile-Agent introduit le benchmark Mobile-Eval composĂ© de 10 applications couramment utilisĂ©es et conçoit trois instructions pour chaque application. La première opĂ©ration est simple et ne couvre que les opĂ©rations de base de l'application, tandis que la deuxième opĂ©ration est un peu plus complexe que la première car elle comporte des exigences supplĂ©mentaires. Enfin, la troisième opĂ©ration est la plus complexe de toutes car elle contient des instructions utilisateur abstraites, l'utilisateur ne spĂ©cifiant pas explicitement quelle application utiliser ni quelle opĂ©ration effectuer. 

En progressant, pour Ă©valuer les performances sous diffĂ©rents angles, le framework Mobile-Agent conçoit et implĂ©mente 4 mĂ©triques diffĂ©rentes. 

  • Su ou Succès : Si l'agent mobile termine les instructions, cela est considĂ©rĂ© comme un succès. 
  • Score de processus ou PS : La mĂ©trique Process Score mesure la prĂ©cision de chaque Ă©tape lors de l’exĂ©cution des instructions utilisateur et elle est calculĂ©e en divisant le nombre d’étapes correctes par le nombre total d’étapes. 
  • EfficacitĂ© relative ou RE : Le score d'efficacitĂ© relative est un rapport ou une comparaison entre le nombre d'Ă©tapes nĂ©cessaires Ă  un humain pour exĂ©cuter l'instruction manuellement et le nombre d'Ă©tapes nĂ©cessaires Ă  l'agent pour exĂ©cuter la mĂŞme instruction. 
  • Taux d'achèvement ou CR : La mĂ©trique du taux d'achèvement divise le nombre d'Ă©tapes effectuĂ©es par un humain que le framework exĂ©cute avec succès par le nombre total d'Ă©tapes effectuĂ©es par un humain pour terminer l'instruction. La valeur de CR est 1 lorsque l'agent termine l'instruction avec succès. 

Les rĂ©sultats sont dĂ©montrĂ©s dans la figure suivante. 

Initialement, pour les trois tâches données, l'agent mobile a atteint des taux d'achèvement respectifs de 91 %, 82 % et 82 %. Bien que toutes les tâches n'aient pas été parfaitement exécutées, les taux de réussite pour chaque catégorie ont dépassé 90 %. De plus, l'indicateur PS révèle que l'agent mobile affiche systématiquement une forte probabilité d'exécuter des actions précises pour les trois tâches, avec des taux de réussite d'environ 80 %. De plus, selon l'indicateur RE, l'agent mobile affiche une efficacité de 80 % dans l'exécution des opérations, à un niveau comparable à l'optimalité humaine. Ces résultats soulignent collectivement la compétence de l'agent mobile en tant qu'assistant mobile.

La figure suivante illustre la capacité de l'agent mobile à saisir les commandes de l'utilisateur et à orchestrer ses actions de manière autonome. Même en l'absence de détails opérationnels explicites dans les instructions, l'agent mobile a interprété avec précision les besoins de l'utilisateur et les a convertis en tâches réalisables. Suite à cette compréhension, l'agent a exécuté les instructions via un processus de planification systématique.

Réflexions finales

Dans cet article, nous avons présenté Mobile-Agents, un agent multimodal autonome qui utilise initialement des technologies de perception visuelle pour détecter et localiser précisément les composants visuels et textuels de l'interface d'une application mobile. Dans ce contexte visuel, le framework Mobile-Agent décrit et décompose de manière autonome les tâches complexes en actions gérables, permettant une navigation fluide et progressive dans les applications mobiles. Ce framework se distingue des méthodologies existantes car il ne dépend pas des métadonnées du système mobile ni des fichiers XML des applications mobiles, offrant ainsi une plus grande flexibilité sur différents systèmes d'exploitation mobiles, en privilégiant le traitement visuel. La stratégie employée par le framework Mobile-Agent évite toute adaptation spécifique au système, améliorant ainsi l'efficacité et réduisant les besoins de calcul.

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.