Intelligence Artificielle
Grands modèles d'action (LAM) : la prochaine frontière de l'interaction basée sur l'IA
Il y a presque un an, Mustafa Suleyman, co-fondateur de DeepMind, prédit que l'époque de IA générative allait bientôt céder la place à quelque chose de plus interactif : des systèmes capables d'effectuer des tâches en interagissant avec des applications logicielles et des ressources humaines. Aujourd'hui, nous commençons à voir cette vision prendre forme avec le développement de IA de lapinle nouveau système d'exploitation basé sur l'IA, R1. Ce système a démontré une capacité impressionnante à surveiller et à imiter les interactions humaines avec les applications. Au cœur de R1 se trouve le Modèle à grande action (LAM), un assistant d'IA avancé capable de comprendre les intentions des utilisateurs et d'exécuter des tâches en leur nom. Bien que connu auparavant sous d'autres termes tels que IA interactive et Grand modèle agent, le concept de LAM prend de l'ampleur en tant qu'innovation cruciale dans les interactions basées sur l'IA. Cet article explore les détails des LAM, en quoi ils diffèrent des modèles traditionnels.de grands modèles de langage (LLM), présente le système R1 de Rabbit AI et examine comment Apple évolue vers une approche de type LAM. Il aborde également les utilisations potentielles des LAM et les défis auxquels ils sont confrontés.
Comprendre les modèles d'action à grande échelle ou agents (LAM)
Un LAM est un agent d’IA avancé conçu pour saisir les intentions humaines et exécuter des objectifs spécifiques. Ces modèles excellent dans la compréhension des besoins humains, la planification de tâches complexes et l'interaction avec divers modèles, applications ou personnes pour réaliser leurs plans. Les LAM vont au-delà des simples tâches d’IA comme générer des réponses ou des images ; ce sont des systèmes à part entière conçus pour gérer des activités complexes telles que la planification de voyages, la prise de rendez-vous et la gestion des e-mails. Par exemple, lors de la planification de voyages, un LAM se coordonnerait avec une application météo pour les prévisions, interagirait avec les services de réservation de vols pour trouver les vols appropriés et interagirait avec les systèmes de réservation d'hôtels pour sécuriser l'hébergement. Contrairement à de nombreux modèles d'IA traditionnels qui dépendent uniquement de les réseaux de neurones, les LAM utilisent une approche hybride combinant programmation neuro-symbolique. Cette intégration de programmation symbolique facilite le raisonnement logique et la planification, tandis que les réseaux de neurones contribuent à reconnaître des modèles sensoriels complexes. Cette combinaison permet aux LAM d’aborder un large éventail de tâches, les marquant comme un développement nuancé dans les interactions basées sur l’IA.
Comparaison des LAM avec les LLM
Contrairement aux LAM, les LLM sont des agents d'IA qui excellent dans l'interprétation des invites des utilisateurs et la génération de réponses textuelles, aidant principalement dans les tâches impliquant le traitement du langage. Cependant, leur portée est généralement limitée aux activités liées aux textes. D’un autre côté, les LAM étendent les capacités de l’IA au-delà du langage, leur permettant d’effectuer des actions complexes pour atteindre des objectifs spécifiques. Par exemple, alors qu'un LLM peut rédiger efficacement un e-mail en fonction des instructions de l'utilisateur, un LAM va plus loin non seulement en rédigeant, mais également en comprenant le contexte, en décidant de la réponse appropriée et en gérant la livraison de l'e-mail.
De plus, les LLM sont généralement conçus pour prédire le prochain jeton dans une séquence de texte et pour exécuter des instructions écrites. En revanche, les LAM sont dotés non seulement d’une compréhension du langage, mais également de la capacité d’interagir avec diverses applications et systèmes du monde réel tels que les appareils IoT. Ils peuvent effectuer des actions physiques, contrôler des appareils et gérer des tâches qui nécessitent une interaction avec l'environnement externe, comme la prise de rendez-vous ou la réalisation de réservations. Cette intégration de compétences linguistiques avec une exécution pratique permet aux LAM d'opérer dans des scénarios plus diversifiés que les LLM.
Les LAM en action : le Rabbit R1
Lapin R1 constitue un excellent exemple d’utilisation pratique des LAM. Cet appareil alimenté par l'IA peut gérer plusieurs applications via une interface unique et conviviale. Equipé d'un écran tactile de 2.88 pouces, d'une caméra rotative et d'une molette de défilement, le R1 est logé dans un châssis élégant et arrondi conçu en collaboration avec Teenage Engineering. Il fonctionne sur un processeur MediaTek à 2.3 GHz, renforcé par 4 Go de mémoire et 128 Go de stockage.
Au cœur du R1 se trouve son LAM, qui supervise intelligemment les fonctionnalités des applications et simplifie les tâches complexes telles que le contrôle de la musique, la réservation du transport, la commande de courses et l'envoi de messages, le tout à partir d'un seul point d'interaction. De cette façon, R1 élimine les tracas liés au basculement entre plusieurs applications ou plusieurs connexions pour effectuer ces tâches.
Le LAM du R1 a été initialement formé en observant les interactions humaines avec des applications populaires telles que Spotify et Uber. Cette formation a permis à LAM de naviguer dans les interfaces utilisateur, de reconnaître les icônes et de traiter les transactions. Cette formation approfondie permet au R1 de s’adapter de manière fluide à pratiquement toutes les applications. De plus, un mode de formation spécial permet aux utilisateurs d'introduire et d'automatiser de nouvelles tâches, élargissant ainsi continuellement la gamme de capacités du R1 et en faisant un outil dynamique dans le domaine des interactions basées sur l'IA.
Les progrès d'Apple vers des fonctionnalités inspirées de LAM dans Siri
L'équipe de recherche en IA d'Apple a récemment partagé ses réflexions sur ses efforts visant à améliorer les capacités de Siri grâce à une nouvelle initiative, similaire à celle des LAM. Cette initiative, présentée dans un article de recherche sur Résolution de référence en tant que modélisation du langage (ReALM) vise à améliorer la capacité de Siri à comprendre le contexte conversationnel, à traiter le contenu visuel à l'écran et à détecter les activités ambiantes. L'approche adoptée par ReALM pour gérer les entrées de l'interface utilisateur (IU) est comparable aux fonctionnalités de la version R1 de Rabbit AI, illustrant ainsi la volonté d'Apple d'améliorer la compréhension des interactions utilisateur par Siri.
Ce développement indique Apple envisage l'adoption des technologies LAM pour affiner l'interaction des utilisateurs avec leurs appareils. Bien qu'aucune annonce explicite n'ait été faite concernant le déploiement de ReALM, le potentiel d'amélioration significative de l'interaction de Siri avec les applications laisse entrevoir des avancées prometteuses pour rendre l'assistant plus intuitif et réactif.
Applications potentielles des LAM
Les LAM ont le potentiel d’étendre leur impact bien au-delà de l’amélioration des interactions entre les utilisateurs et les appareils ; ils pourraient offrir des avantages significatifs dans plusieurs secteurs.
- Service client: Les LAM peuvent améliorer le service client en traitant de manière indépendante les demandes et les plaintes sur différents canaux. Ces modèles peuvent traiter les requêtes en langage naturel, automatiser les résolutions et gérer la planification, fournissant ainsi un service personnalisé basé sur l'historique du client pour améliorer la satisfaction.
- Soins de santé : Dans le domaine de la santé, les LAM peuvent aider à gérer les soins aux patients en organisant les rendez-vous, en gérant les prescriptions et en facilitant la communication entre les services. Ils sont également utiles pour la surveillance à distance, l’interprétation des données médicales et l’alerte du personnel en cas d’urgence, ce qui est particulièrement utile pour la gestion des soins chroniques et des personnes âgées.
- Finances: Les LAM peuvent offrir des conseils financiers personnalisés et gérer des tâches telles que l’équilibrage du portefeuille et les suggestions d’investissement. Ils peuvent également surveiller les transactions pour détecter et prévenir la fraude, en s'intégrant parfaitement aux systèmes bancaires pour traiter rapidement les activités suspectes.
Les défis des MAMA
Malgré leur potentiel important, les LAM sont confrontés à plusieurs défis qu’il convient de relever.
- Confidentialité et sécurité des données : Compte tenu du large accès aux informations personnelles et sensibles dont les LAM ont besoin pour fonctionner, garantir la confidentialité et la sécurité des données constitue un défi majeur. Les LAM interagissent avec les données personnelles sur plusieurs applications et plates-formes, soulevant des inquiétudes quant à la manipulation, au stockage et au traitement sécurisés de ces informations.
- Préoccupations éthiques et réglementaires : À mesure que les LAM assument des rôles plus autonomes dans la prise de décision et interagissent avec les environnements humains, les considérations éthiques deviennent de plus en plus importantes. Les questions concernant la responsabilité, la transparence et l’étendue de la prise de décision déléguée aux machines sont cruciales. De plus, le déploiement de tels systèmes d’IA avancés dans divers secteurs peut poser des problèmes réglementaires.
- Complexité de l'intégration : Les LAM nécessitent une intégration avec une variété de systèmes logiciels et matériels pour effectuer les tâches efficacement. Cette intégration est complexe et peut être difficile à gérer, en particulier lors de la coordination d'actions sur différentes plateformes et services, telles que la réservation de vols, d'hébergements et d'autres détails logistiques en temps réel.
- Évolutivité et adaptabilité : Même si les LAM sont conçus pour s'adapter à un large éventail de scénarios et d'applications, la mise à l'échelle de ces solutions pour gérer des environnements réels diversifiés de manière cohérente et efficace reste un défi. S’assurer que les LAM peuvent s’adapter aux conditions changeantes et maintenir leurs performances dans les différentes tâches et besoins des utilisateurs est crucial pour leur succès à long terme.
En résumé
Les modèles d'action à grande échelle (LAM) constituent une innovation majeure en IA, influençant non seulement les interactions entre appareils, mais aussi des applications industrielles plus larges. Illustrés par le R1 de Rabbit AI et explorés par les avancées d'Apple avec Siri, les LAM ouvrent la voie à des systèmes d'IA plus interactifs et intuitifs. Ces modèles sont appelés à améliorer l'efficacité et la personnalisation dans des secteurs tels que le service client, la santé et la finance.
Cependant, le déploiement de LAM comporte des défis, notamment des problèmes de confidentialité des données, des problèmes éthiques, des complexités d'intégration et une évolutivité. Il est essentiel de résoudre ces problèmes à mesure que nous progressons vers une adoption plus large des technologies LAM, dans le but d’exploiter leurs capacités de manière responsable et efficace. À mesure que les LAM continuent de se développer, leur potentiel pour transformer les interactions numériques reste considérable, soulignant leur importance dans le futur paysage de l’IA.








