Intelligence artificielle

Agents Mobiles : Agent Autonome Multimodal de Dispositif Mobile Avec Perception Visuelle

Publié le 26 février 2024

Mis à jour le 22 mai 2026

Par

Kunal Kejriwal

L’avènement des modèles de langage multimodaux (MLLM) a marqué le début d’une nouvelle ère d’agents de dispositifs mobiles, capables de comprendre et d’interagir avec le monde à travers le texte, les images et la voix. Ces agents représentent une avancée significative par rapport à l’intelligence artificielle traditionnelle, offrant une manière plus riche et plus intuitive pour les utilisateurs d’interagir avec leurs dispositifs. En exploitant les MLLM, ces agents peuvent traiter et synthétiser d’énormes quantités d’informations provenant de diverses modalités, leur permettant d’offrir une assistance personnalisée et d’améliorer les expériences utilisateur de manière previously inimaginable.

Ces agents sont alimentés par des techniques d’apprentissage automatique de pointe et des capacités de traitement du langage naturel avancées, leur permettant de comprendre et de générer du texte similaire à celui des humains, ainsi que d’interpréter les données visuelles et auditives avec une remarquable précision. De la reconnaissance d’objets et de scènes dans les images à la compréhension de commandes vocales et à l’analyse de sentiments de texte, ces agents multimodaux sont équipés pour gérer une large gamme d’entrées de manière transparente. Le potentiel de cette technologie est vaste, offrant des services plus sophistiqués et plus sensibles au contexte, tels que des assistants virtuels accordés aux émotions humaines et des outils éducatifs qui s’adaptent aux styles d’apprentissage individuels. Ils ont également le potentiel de révolutionner l’accessibilité, en rendant la technologie plus abordable à travers les barrières linguistiques et sensorielles.

Dans cet article, nous allons discuter des Agents Mobiles, un agent autonome multimodal de dispositif mobile qui utilise d’abord la capacité d’outils de perception visuelle pour identifier et localiser avec précision les éléments visuels et textuels de l’interface d’une application mobile. En utilisant ce contexte de vision perçue, le cadre d’Agent Mobile planifie et décompose les tâches complexes de manière autonome, et navigue à travers les applications mobiles étape par étape. Le cadre d’Agent Mobile se distingue des solutions existantes car il ne repose pas sur les métadonnées du système mobile ou les fichiers XML des applications mobiles, laissant place à une adaptabilité accrue dans divers environnements d’exploitation mobiles de manière centrée sur la vision. L’approche suivie par le cadre d’Agent Mobile élimine la nécessité d’adaptations spécifiques au système, aboutissant à une meilleure efficacité et à des exigences de calcul réduites.

Agents Mobiles : Agent Autonome Multimodal de Dispositif Mobile

Dans le monde rapide de la technologie mobile, un concept pionnier émerge : les Modèles de Langage à Grande Échelle, en particulier les Modèles de Langage Multimodaux ou MLLM capables de générer une large gamme de texte, d’images, de vidéos et de parole dans différentes langues. Le développement rapide des cadres MLLM au cours des dernières années a donné naissance à une nouvelle et puissante application des MLLM : les agents mobiles autonomes. Les agents mobiles autonomes sont des entités logicielles qui agissent, se déplacent et fonctionnent de manière indépendante, sans nécessiter de commandes humaines directes, conçus pour parcourir des réseaux ou des dispositifs pour accomplir des tâches, collecter des informations ou résoudre des problèmes.

Les agents mobiles sont conçus pour fonctionner sur le dispositif mobile de l’utilisateur en fonction des instructions de l’utilisateur et des visuels de l’écran, une tâche qui nécessite que les agents possèdent à la fois une compréhension sémantique et des capacités de perception visuelle. Cependant, les agents mobiles existants sont loin d’être parfaits, car ils sont basés sur des modèles de langage multimodaux, et même les cadres MLLM actuels, y compris GPT-4V, manquent de capacités de perception visuelle nécessaires pour servir d’agent mobile efficace. De plus, bien que les cadres existants puissent générer des opérations efficaces, ils ont du mal à localiser avec précision l’emplacement de ces opérations sur l’écran, limitant les applications et la capacité des agents mobiles à fonctionner sur les dispositifs mobiles.

Pour résoudre ce problème, certains cadres ont choisi d’exploiter les fichiers de mise en page de l’interface utilisateur pour aider GPT-4V ou d’autres MLLM avec des capacités de localisation, certains cadres parvenant à extraire des positions actionnables sur l’écran en accédant aux fichiers XML de l’application, tandis que d’autres cadres ont choisi d’utiliser le code HTML des applications Web. Comme on peut le voir, la majorité de ces cadres reposent sur l’accès aux fichiers d’application sous-jacents et locaux, ce qui rend la méthode presque inefficace si le cadre ne peut pas accéder à ces fichiers. Pour résoudre ce problème et éliminer la dépendance des agents locaux aux fichiers sous-jacents sur les méthodes de localisation, les développeurs ont travaillé sur l’Agent Mobile, un agent mobile autonome doté de remarquables capacités de perception visuelle. En utilisant son module de perception visuelle, le cadre d’Agent Mobile utilise des captures d’écran du dispositif mobile pour localiser avec précision les opérations. Le module de perception visuelle abrite des modèles de détection d’OCR et de reconnaissance d’objets qui sont responsables de l’identification de texte dans l’écran et de la description du contenu dans une région spécifique de l’écran mobile. Le cadre d’Agent Mobile emploie des invites soigneusement conçues et facilite une interaction efficace entre les outils et les agents, automatisant ainsi les opérations du dispositif mobile.

De plus, le cadre d’Agent Mobile vise à exploiter les capacités contextuelles des cadres MLLM de pointe comme GPT-4V pour atteindre des capacités d’auto-planification qui permettent au modèle de planifier des tâches en fonction de l’historique des opérations, des instructions de l’utilisateur et des captures d’écran de manière holistique. Pour améliorer encore la capacité de l’agent à identifier les instructions incomplètes et les opérations incorrectes, le cadre d’Agent Mobile introduit une méthode d’auto-réflexion. Sous la direction d’invites soigneusement conçues, l’agent réfléchit sur les opérations incorrectes et non valides de manière cohérente et arrête les opérations une fois la tâche ou l’instruction terminée.

Dans l’ensemble, les contributions du cadre d’Agent Mobile peuvent être résumées comme suit :

L’Agent Mobile agit comme un agent autonome de dispositif mobile, utilisant des outils de perception visuelle pour effectuer une localisation d’opération. Il planifie méthodiquement chaque étape et s’engage dans une introspection. Notamment, l’Agent Mobile repose exclusivement sur des captures d’écran du dispositif, sans utiliser de code système, montrant une solution basée uniquement sur des techniques de vision.
L’Agent Mobile introduit Mobile-Eval, un référentiel conçu pour évaluer les agents de dispositif mobile. Ce référentiel comprend une variété des dix applications mobiles les plus couramment utilisées, ainsi que des instructions intelligentes pour ces applications, classées en trois niveaux de difficulté.

Agent Mobile : Architecture et Méthodologie

Au cœur du cadre d’Agent Mobile se trouve un modèle de langage multimodal de pointe, le GPT-4V, un module de détection de texte utilisé pour les tâches de localisation de texte. En plus du GPT-4V, l’Agent Mobile emploie également un module de détection d’icône pour la localisation d’icône.

Perception Visuelle

Comme mentionné précédemment, le MLLM GPT-4V donne des résultats satisfaisants pour les instructions et les captures d’écran, mais il échoue à sortir l’emplacement effectif où les opérations ont lieu. En raison de cette limitation, le cadre d’Agent Mobile mettant en œuvre le modèle GPT-4V a besoin de s’appuyer sur des outils externes pour aider à la localisation d’opération, facilitant ainsi les opérations de sortie sur l’écran mobile.

Localisation de Texte

Le cadre d’Agent Mobile met en œuvre un outil OCR pour détecter la position du texte correspondant sur l’écran chaque fois que l’agent doit appuyer sur un texte spécifique affiché sur l’écran mobile. Il existe trois scénarios de localisation de texte uniques.

Scénario 1 : Aucun Texte Spécifié Détecté

Problème : L’OCR échoue à détecter le texte spécifié, ce qui peut se produire dans des images complexes ou en raison des limitations de l’OCR.

Réponse : Instruire l’agent pour soit :

Réselectionner le texte pour l’appuyer, permettant une correction manuelle de l’omission de l’OCR, ou
Choisir une opération alternative, telle que l’utilisation d’une autre méthode d’entrée ou la réalisation d’une autre action pertinente pour la tâche en cours.

Raisonnement : Cette flexibilité est nécessaire pour gérer les erreurs occasionnelles ou les hallucinations de GPT-4V, garantissant que l’agent puisse toujours progresser de manière efficace.

Scénario 2 : Instance Unique de Texte Spécifié Détectée

Opération : Générer automatiquement une action pour cliquer sur les coordonnées centrales de la boîte de texte détectée.

Justification : Avec une seule instance détectée, la probabilité d’identification correcte est élevée, ce qui rend efficace de procéder à une action directe.

Scénario 3 : Multiple Instances de Texte Spécifié Détectées

Évaluation : Tout d’abord, évaluer le nombre d’instances détectées :

Nombreuses Instances : Indique un écran encombré de contenu similaire, compliquant la sélection.

Action : Demander à l’agent de réselectionner le texte, visant à raffiner la sélection ou à ajuster les paramètres de recherche.

Peu d’Instances : Un nombre gérable de détections permet une approche plus nuancée.

Action : Recadrer les régions autour de ces instances, en élargissant les boîtes de détection de texte vers l’extérieur pour capturer plus de contexte. Cette expansion garantit que plus d’informations sont préservées, aidant dans la prise de décision.

Étape suivante : Dessiner des boîtes de détection sur les images recadrées et les présenter à l’agent. Cette aide visuelle aide l’agent à décider laquelle des instances interagir, en fonction d’indices contextuels ou de besoins de tâche.

Cette approche structurée optimise l’interaction entre les résultats OCR et les opérations de l’agent, améliorant la fiabilité et l’adaptabilité du système dans la gestion des tâches basées sur le texte dans divers scénarios. Le processus entier est démontré dans l’image suivante.

Localisation d’Icône

Le cadre d’Agent Mobile met en œuvre un outil de détection d’icône pour localiser la position d’un icône lorsque l’agent doit cliquer dessus sur l’écran mobile. Plus précisément, le cadre demande d’abord à l’agent de fournir des attributs spécifiques de l’image, y compris la forme et la couleur, puis le cadre met en œuvre la méthode Grounding DINO avec l’icône d’invite pour identifier tous les icônes contenus dans la capture d’écran. Enfin, l’Agent Mobile utilise le cadre CLIP pour calculer la similarité entre la description de la région de clic et calcule la similarité entre les icônes supprimées, et sélectionne la région avec la similarité la plus élevée pour un clic.

Exécution d’Instruction

Pour traduire les actions en opérations sur l’écran par les agents, le cadre d’Agent Mobile définit 8 opérations différentes.

Lancer Application (Nom d’Application) : Initier l’application désignée à partir de l’interface de bureau.
Appuyer sur Texte (Étiquette de Texte) : Interagir avec la partie de l’écran affichant l’étiquette « Étiquette de Texte ».
Interagir avec Icône (Description d’Icône, Emplacement) : Cibler et appuyer sur la zone d’icône spécifiée, où « Description d’Icône » détaille des attributs tels que la couleur et la forme de l’icône. Choisir « Emplacement » parmi les options telles que haut, bas, gauche, droite ou centre, éventuellement en combinant deux pour une navigation précise et réduire les erreurs.
Saisir Texte (Texte de Saisie) : Saisir le « Texte de Saisie » donné dans le champ de texte actif.
Faire Défiler Vers le Haut et le Bas : Naviguer vers le haut ou vers le bas à travers le contenu de la page présente.
Revenir en Arrière : Revenir à la page précédemment affichée.
Fermer : Naviguer vers le bureau directement à partir de l’écran actuel.
Arrêter : Conclure l’opération une fois la tâche accomplie.

Auto-Planification

Chaque étape de l’opération est exécutée de manière itérative par le cadre, et avant le début de chaque itération, l’utilisateur est invité à fournir une instruction d’entrée, et le modèle d’Agent Mobile utilise l’instruction pour générer une invite système pour l’ensemble du processus. De plus, avant le début de chaque itération, le cadre capture une capture d’écran et la fournit à l’agent. L’agent observe alors la capture d’écran, l’historique des opérations et les invites système pour sortir l’étape suivante des opérations.

Auto-Réflexion

Pendant ses opérations, l’agent peut rencontrer des erreurs qui l’empêchent d’exécuter avec succès une commande. Pour améliorer le taux d’accomplissement des instructions, une approche d’auto-évaluation a été mise en œuvre, qui se déclenche dans deux circonstances spécifiques. Initialement, si l’agent exécute une action erronée ou non valide qui bloque la progression, telle que lorsque l’agent reconnaît que la capture d’écran reste inchangée après l’opération ou affiche une page incorrecte, il sera invité à considérer des actions alternatives ou à ajuster les paramètres de l’opération existante. Deuxièmement, l’agent peut manquer certains éléments d’une directive complexe. Une fois que l’agent a exécuté une série d’actions en fonction de son plan initial, il sera invité à examiner la séquence d’actions, la capture d’écran la plus récente et la directive de l’utilisateur pour évaluer si la tâche a été complétée. Si des écarts sont trouvés, l’agent est chargé de générer de nouvelles actions pour remplir la directive de manière autonome.

Agent Mobile : Expériences et Résultats

Pour évaluer ses capacités de manière exhaustive, le cadre d’Agent Mobile introduit le référentiel Mobile-Eval, composé de 10 applications mobiles couramment utilisées, et conçoit trois instructions pour chaque application. La première opération est simple et ne couvre que les opérations de base de l’application, tandis que la deuxième opération est un peu plus complexe que la première, car elle comporte des exigences supplémentaires. Enfin, la troisième opération est la plus complexe de toutes, car elle contient une instruction abstraite de l’utilisateur, sans spécifier explicitement quelle application utiliser ou quelle opération effectuer.

Ensuite, pour évaluer les performances sous différents angles, le cadre d’Agent Mobile conçoit et met en œuvre 4 métriques différentes.

Succès ou Réussite : Si l’agent mobile complète les instructions, il est considéré comme un succès.

Score de Processus ou PS : La métrique du Score de Processus mesure la précision de chaque étape pendant l’exécution des instructions de l’utilisateur, et elle est calculée en divisant le nombre d’étapes correctes par le nombre total d’étapes.

Efficacité Relative ou ER : Le score d’efficacité relative est un rapport entre le nombre d’étapes qu’il faut à un humain pour exécuter l’instruction manuellement et le nombre d’étapes qu’il faut à l’agent pour exécuter la même instruction.

Taux d’Achèvement ou TA : La métrique du Taux d’Achèvement divise le nombre d’étapes opérées par l’homme que le cadre complète avec succès par le nombre total d’étapes prises par un humain pour compléter l’instruction. La valeur de TA est 1 lorsque l’agent complète l’instruction avec succès.

Les résultats sont présentés dans la figure suivante.

Initialement, pour les trois tâches données, l’Agent Mobile a atteint des taux d’achèvement de 91%, 82% et 82%, respectivement. Même si toutes les tâches n’ont pas été exécutées de manière parfaite, les taux de réussite pour chaque catégorie de tâche ont dépassé 90%. De plus, la métrique PS révèle que l’Agent Mobile démontre constamment une forte probabilité d’exécuter des actions précises pour les trois tâches, avec des taux de réussite d’environ 80%. En outre, selon la métrique ER, l’Agent Mobile montre une efficacité de 80% dans l’exécution des opérations à un niveau comparable à l’optimalité humaine. Ces résultats collectifs soulignent la compétence de l’Agent Mobile en tant qu’assistant de dispositif mobile.

La figure suivante illustre la capacité de l’Agent Mobile à comprendre les commandes de l’utilisateur et à orchestrer ses actions de manière autonome. Même en l’absence de détails d’opération explicites dans les instructions, l’Agent Mobile a interprété avec compétence les besoins de l’utilisateur, les convertissant en tâches actionnables. Après cette compréhension, l’agent a exécuté les instructions via un processus de planification systématique.

Pensées Finales

Dans cet article, nous avons discuté de l’Agent Mobile, un agent autonome multimodal de dispositif mobile qui utilise d’abord la capacité d’outils de perception visuelle pour détecter et localiser avec précision les éléments visuels et textuels de l’interface d’une application mobile. Avec ce contexte de vision perçue, le cadre d’Agent Mobile planifie et décompose les tâches complexes de manière autonome, et navigue à travers les applications mobiles étape par étape. Ce cadre se distingue des solutions existantes car il ne repose pas sur les métadonnées du système mobile ou les fichiers XML des applications mobiles, permettant ainsi une plus grande flexibilité dans divers environnements d’exploitation mobiles de manière centrée sur la vision. La stratégie employée par le cadre d’Agent Mobile élimine la nécessité d’adaptations spécifiques au système, aboutissant à une meilleure efficacité et à des exigences de calcul réduites. Le cadre d’Agent Mobile facilite ainsi une plus grande flexibilité dans les applications mobiles, en s’appuyant sur le traitement visuel pour améliorer l’efficacité et réduire les demandes de calcul, permettant ainsi une meilleure interaction entre les utilisateurs et les dispositifs mobiles.

Kunal Kejriwal

Un ingénieur de profession, un écrivain de cœur. Kunal est un rédacteur technique avec une profonde affection et une compréhension de l'IA et du ML, dédié à simplifier les concepts complexes dans ces domaines grâce à sa documentation engageante et informative.