Suivez nous sur

Grands modèles d'action (LAM) : la prochaine frontière de l'interaction basĂ©e sur l'IA

Intelligence Artificielle

Grands modèles d'action (LAM) : la prochaine frontière de l'interaction basĂ©e sur l'IA

mm

Il y a presque un an, Mustafa Suleyman, co-fondateur de DeepMind, prĂ©dit que l'Ă©poque de IA gĂ©nĂ©rative allait bientĂ´t cĂ©der la place Ă  quelque chose de plus interactif : des systèmes capables d'effectuer des tâches en interagissant avec des applications logicielles et des ressources humaines. Aujourd'hui, nous commençons Ă  voir cette vision prendre forme avec le dĂ©veloppement de IA de lapinle nouveau système d'exploitation basĂ© sur l'IA, R1. Ce système a dĂ©montrĂ© une capacitĂ© impressionnante Ă  surveiller et Ă  imiter les interactions humaines avec les applications. Au cĹ“ur de R1 se trouve le Modèle Ă  grande action (LAM), un assistant d'IA avancĂ© capable de comprendre les intentions des utilisateurs et d'exĂ©cuter des tâches en leur nom. Bien que connu auparavant sous d'autres termes tels que IA interactive et Grand modèle agent, le concept de LAM prend de l'ampleur en tant qu'innovation cruciale dans les interactions basĂ©es sur l'IA. Cet article explore les dĂ©tails des LAM, en quoi ils diffèrent des modèles traditionnels.de grands modèles de langage (LLM), prĂ©sente le système R1 de Rabbit AI et examine comment Apple Ă©volue vers une approche de type LAM. Il aborde Ă©galement les utilisations potentielles des LAM et les dĂ©fis auxquels ils sont confrontĂ©s.

Comprendre les modèles d'action à grande échelle ou agents (LAM)

Un LAM est un agent d’IA avancé conçu pour saisir les intentions humaines et exécuter des objectifs spécifiques. Ces modèles excellent dans la compréhension des besoins humains, la planification de tâches complexes et l'interaction avec divers modèles, applications ou personnes pour réaliser leurs plans. Les LAM vont au-delà des simples tâches d’IA comme générer des réponses ou des images ; ce sont des systèmes à part entière conçus pour gérer des activités complexes telles que la planification de voyages, la prise de rendez-vous et la gestion des e-mails. Par exemple, lors de la planification de voyages, un LAM se coordonnerait avec une application météo pour les prévisions, interagirait avec les services de réservation de vols pour trouver les vols appropriés et interagirait avec les systèmes de réservation d'hôtels pour sécuriser l'hébergement. Contrairement à de nombreux modèles d'IA traditionnels qui dépendent uniquement de les réseaux de neurones, les LAM utilisent une approche hybride combinant programmation neuro-symbolique. Cette intégration de programmation symbolique facilite le raisonnement logique et la planification, tandis que les réseaux de neurones contribuent à reconnaître des modèles sensoriels complexes. Cette combinaison permet aux LAM d’aborder un large éventail de tâches, les marquant comme un développement nuancé dans les interactions basées sur l’IA.

Comparaison des LAM avec les LLM

Contrairement aux LAM, les LLM sont des agents d'IA qui excellent dans l'interprétation des invites des utilisateurs et la génération de réponses textuelles, aidant principalement dans les tâches impliquant le traitement du langage. Cependant, leur portée est généralement limitée aux activités liées aux textes. D’un autre côté, les LAM étendent les capacités de l’IA au-delà du langage, leur permettant d’effectuer des actions complexes pour atteindre des objectifs spécifiques. Par exemple, alors qu'un LLM peut rédiger efficacement un e-mail en fonction des instructions de l'utilisateur, un LAM va plus loin non seulement en rédigeant, mais également en comprenant le contexte, en décidant de la réponse appropriée et en gérant la livraison de l'e-mail.

De plus, les LLM sont généralement conçus pour prédire le prochain jeton dans une séquence de texte et pour exécuter des instructions écrites. En revanche, les LAM sont dotés non seulement d’une compréhension du langage, mais également de la capacité d’interagir avec diverses applications et systèmes du monde réel tels que les appareils IoT. Ils peuvent effectuer des actions physiques, contrôler des appareils et gérer des tâches qui nécessitent une interaction avec l'environnement externe, comme la prise de rendez-vous ou la réalisation de réservations. Cette intégration de compétences linguistiques avec une exécution pratique permet aux LAM d'opérer dans des scénarios plus diversifiés que les LLM.

Les LAM en action : le Rabbit R1

Lapin R1 constitue un excellent exemple d’utilisation pratique des LAM. Cet appareil alimenté par l'IA peut gérer plusieurs applications via une interface unique et conviviale. Equipé d'un écran tactile de 2.88 pouces, d'une caméra rotative et d'une molette de défilement, le R1 est logé dans un châssis élégant et arrondi conçu en collaboration avec Teenage Engineering. Il fonctionne sur un processeur MediaTek à 2.3 GHz, renforcé par 4 Go de mémoire et 128 Go de stockage.

Au cœur du R1 se trouve son LAM, qui supervise intelligemment les fonctionnalités des applications et simplifie les tâches complexes telles que le contrôle de la musique, la réservation du transport, la commande de courses et l'envoi de messages, le tout à partir d'un seul point d'interaction. De cette façon, R1 élimine les tracas liés au basculement entre plusieurs applications ou plusieurs connexions pour effectuer ces tâches.

Le LAM du R1 a été initialement formé en observant les interactions humaines avec des applications populaires telles que Spotify et Uber. Cette formation a permis à LAM de naviguer dans les interfaces utilisateur, de reconnaître les icônes et de traiter les transactions. Cette formation approfondie permet au R1 de s’adapter de manière fluide à pratiquement toutes les applications. De plus, un mode de formation spécial permet aux utilisateurs d'introduire et d'automatiser de nouvelles tâches, élargissant ainsi continuellement la gamme de capacités du R1 et en faisant un outil dynamique dans le domaine des interactions basées sur l'IA.

Les progrès d'Apple vers des fonctionnalités inspirées de LAM dans Siri

L'équipe de recherche en IA d'Apple a récemment partagé ses réflexions sur ses efforts visant à améliorer les capacités de Siri grâce à une nouvelle initiative, similaire à celle des LAM. Cette initiative, présentée dans un article de recherche sur Résolution de référence en tant que modélisation du langage (ReALM) vise à améliorer la capacité de Siri à comprendre le contexte conversationnel, à traiter le contenu visuel à l'écran et à détecter les activités ambiantes. L'approche adoptée par ReALM pour gérer les entrées de l'interface utilisateur (IU) est comparable aux fonctionnalités de la version R1 de Rabbit AI, illustrant ainsi la volonté d'Apple d'améliorer la compréhension des interactions utilisateur par Siri.

Ce développement indique Apple envisage l'adoption des technologies LAM pour affiner l'interaction des utilisateurs avec leurs appareils. Bien qu'aucune annonce explicite n'ait été faite concernant le déploiement de ReALM, le potentiel d'amélioration significative de l'interaction de Siri avec les applications laisse entrevoir des avancées prometteuses pour rendre l'assistant plus intuitif et réactif.

Applications potentielles des LAM

Les LAM ont le potentiel d’étendre leur impact bien au-delĂ  de l’amĂ©lioration des interactions entre les utilisateurs et les appareils ; ils pourraient offrir des avantages significatifs dans plusieurs secteurs.   

  • Service client: Les LAM peuvent amĂ©liorer le service client en traitant de manière indĂ©pendante les demandes et les plaintes sur diffĂ©rents canaux. Ces modèles peuvent traiter les requĂŞtes en langage naturel, automatiser les rĂ©solutions et gĂ©rer la planification, fournissant ainsi un service personnalisĂ© basĂ© sur l'historique du client pour amĂ©liorer la satisfaction.
  • Soins de santĂ© : Dans le domaine de la santĂ©, les LAM peuvent aider Ă  gĂ©rer les soins aux patients en organisant les rendez-vous, en gĂ©rant les prescriptions et en facilitant la communication entre les services. Ils sont Ă©galement utiles pour la surveillance Ă  distance, l’interprĂ©tation des donnĂ©es mĂ©dicales et l’alerte du personnel en cas d’urgence, ce qui est particulièrement utile pour la gestion des soins chroniques et des personnes âgĂ©es.
  • Finances: Les LAM peuvent offrir des conseils financiers personnalisĂ©s et gĂ©rer des tâches telles que l’équilibrage du portefeuille et les suggestions d’investissement. Ils peuvent Ă©galement surveiller les transactions pour dĂ©tecter et prĂ©venir la fraude, en s'intĂ©grant parfaitement aux systèmes bancaires pour traiter rapidement les activitĂ©s suspectes.

Les défis des MAMA

Malgré leur potentiel important, les LAM sont confrontés à plusieurs défis qu’il convient de relever.

  • ConfidentialitĂ© et sĂ©curitĂ© des donnĂ©es : Compte tenu du large accès aux informations personnelles et sensibles dont les LAM ont besoin pour fonctionner, garantir la confidentialitĂ© et la sĂ©curitĂ© des donnĂ©es constitue un dĂ©fi majeur. Les LAM interagissent avec les donnĂ©es personnelles sur plusieurs applications et plates-formes, soulevant des inquiĂ©tudes quant Ă  la manipulation, au stockage et au traitement sĂ©curisĂ©s de ces informations.
  • PrĂ©occupations Ă©thiques et rĂ©glementaires : Ă€ mesure que les LAM assument des rĂ´les plus autonomes dans la prise de dĂ©cision et interagissent avec les environnements humains, les considĂ©rations Ă©thiques deviennent de plus en plus importantes. Les questions concernant la responsabilitĂ©, la transparence et l’étendue de la prise de dĂ©cision dĂ©lĂ©guĂ©e aux machines sont cruciales. De plus, le dĂ©ploiement de tels systèmes d’IA avancĂ©s dans divers secteurs peut poser des problèmes rĂ©glementaires.
  • ComplexitĂ© de l'intĂ©gration : Les LAM nĂ©cessitent une intĂ©gration avec une variĂ©tĂ© de systèmes logiciels et matĂ©riels pour effectuer les tâches efficacement. Cette intĂ©gration est complexe et peut ĂŞtre difficile Ă  gĂ©rer, en particulier lors de la coordination d'actions sur diffĂ©rentes plateformes et services, telles que la rĂ©servation de vols, d'hĂ©bergements et d'autres dĂ©tails logistiques en temps rĂ©el.
  • ÉvolutivitĂ© et adaptabilitĂ© : MĂŞme si les LAM sont conçus pour s'adapter Ă  un large Ă©ventail de scĂ©narios et d'applications, la mise Ă  l'Ă©chelle de ces solutions pour gĂ©rer des environnements rĂ©els diversifiĂ©s de manière cohĂ©rente et efficace reste un dĂ©fi. S’assurer que les LAM peuvent s’adapter aux conditions changeantes et maintenir leurs performances dans les diffĂ©rentes tâches et besoins des utilisateurs est crucial pour leur succès Ă  long terme.

En résumé

Les modèles d'action à grande échelle (LAM) constituent une innovation majeure en IA, influençant non seulement les interactions entre appareils, mais aussi des applications industrielles plus larges. Illustrés par le R1 de Rabbit AI et explorés par les avancées d'Apple avec Siri, les LAM ouvrent la voie à des systèmes d'IA plus interactifs et intuitifs. Ces modèles sont appelés à améliorer l'efficacité et la personnalisation dans des secteurs tels que le service client, la santé et la finance.

Cependant, le déploiement de LAM comporte des défis, notamment des problèmes de confidentialité des données, des problèmes éthiques, des complexités d'intégration et une évolutivité. Il est essentiel de résoudre ces problèmes à mesure que nous progressons vers une adoption plus large des technologies LAM, dans le but d’exploiter leurs capacités de manière responsable et efficace. À mesure que les LAM continuent de se développer, leur potentiel pour transformer les interactions numériques reste considérable, soulignant leur importance dans le futur paysage de l’IA.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.