Suivez nous sur

De Siri Ă  ReALM : le parcours d'Apple vers des assistants vocaux plus intelligents

Intelligence Artificielle

De Siri Ă  ReALM : le parcours d'Apple vers des assistants vocaux plus intelligents

mm

Depuis le lancement de Siri en 2011, Apple a toujours été à la pointe de l'innovation en matière d'assistants vocaux, s'adaptant aux besoins mondiaux des utilisateurs. L'introduction de ReALM marque un point important dans ce voyage, offrant un aperçu du rôle évolutif des assistants vocaux dans notre interaction avec les appareils. Cet article examine les effets de ReALM sur Siri et les orientations potentielles pour les futurs assistants vocaux.

L'essor des assistants vocaux : la genèse de Siri

Le voyage a commencé lorsque Apple a intégré Siri, un système d’intelligence artificielle sophistiqué, dans ses appareils, transformant ainsi la façon dont nous interagissons avec notre technologie. Issu d'une technologie développée par SRI International, Siri est devenu la référence en matière d'assistants à commande vocale. Les utilisateurs pourraient effectuer des tâches telles que des recherches sur Internet et la planification via de simples commandes vocales, repoussant ainsi les limites des interfaces conversationnelles et déclenchant une course concurrentielle sur le marché des assistants vocaux.

Siri 2.0 : une nouvelle ère d'assistants vocaux

Alors qu'Apple se prépare à la sortie de iOS 18 au Conférence mondiale des développeurs (WWDC) en juin 2024, la communauté technologique s’attend à une évolution significative de Siri. Cette nouvelle phase, appelée Série 2.0, promet de mettre au premier plan les avancées de l’IA générative, transformant potentiellement Siri en un assistant virtuel encore plus sophistiqué. Bien que les améliorations exactes restent confidentielles, le monde de la technologie est en effervescence à l'idée que Siri atteigne de nouveaux sommets en matière d'intelligence conversationnelle et d'interaction utilisateur personnalisée, en tirant parti du type de modèles d'apprentissage des langues sophistiqués observés dans des technologies comme ChatGPT. Dans ce contexte, l'introduction de ReALM, un modèle de langage compact, suggère d'éventuelles améliorations que Siri 2.0 pourrait introduire pour ses utilisateurs. Les sections suivantes discuteront du rôle de ReALM et de son influence potentielle en tant qu'étape importante dans l'avancement continu de Siri.

Dévoilement de ReALM

ReALM, qui signifie Reference Resolution As Language Modeling, est un modèle de langage spécialisé capable de déchiffrer les références contextuelles et ambiguës lors de conversations, telles que « celle-là » ou « ceci ». Il se distingue par sa capacité à traiter les références conversationnelles et visuelles, en les transformant en format texte. Cette capacité permet à ReALM d'interpréter et d'interagir avec les dispositions et les éléments d'écran de manière transparente au sein d'un dialogue, une fonctionnalité essentielle pour traiter avec précision les requêtes dans des contextes visuellement dépendants.

L'architecture de ReALM va des versions plus petites comme ReALM-80M aux plus grandes telles que ReALM-3B, optimisées pour être efficaces sur le plan informatique pour l'intégration dans les appareils mobiles. Cette efficacité permet des performances constantes avec une consommation d'énergie réduite et une moindre pression sur les ressources de traitement, ce qui est important pour prolonger la durée de vie de la batterie et fournir des temps de réponse rapides sur une variété d'appareils.

De plus, la conception de ReALM s'adapte aux mises à jour modulaires, facilitant l'intégration transparente des dernières avancées en matière de résolution de référence. Cette approche modulaire améliore non seulement l'adaptabilité et la flexibilité du modèle, mais garantit également sa viabilité et son efficacité à long terme, lui permettant de répondre aux besoins changeants des utilisateurs et aux normes technologiques sur un large éventail d'appareils.

ReALM et modèles de langage

Alors que les modèles linguistiques traditionnels comme GPT-3.5 traitant principalement du texte, ReALM emprunte une voie multimodale, similaire à des modèles tels que Gemini, en travaillant à la fois avec du texte et des visuels. Contrairement aux fonctionnalités plus larges de GPT-3.5 et GEMINI, qui gèrent des tâches telles que la génération de texte, la compréhension et la création d'images, ReALM vise particulièrement à déchiffrer les contextes conversationnels et visuels. Cependant, contrairement aux modèles multimodaux comme Gemini qui traitent directement les données visuelles et textuelles, ReALM traduit le contenu visuel des écrans en texte, en annotant les entités et leurs détails spatiaux. Cette conversion permet à ReALM d'interpréter le contenu de l'écran de manière textuelle, facilitant ainsi une identification et une compréhension plus précises des références à l'écran.

Comment ReALM pourrait transformer Siri ?

ReALM pourrait amĂ©liorer considĂ©rablement les capacitĂ©s de Siri, en le transformant en un assistant plus intuitif et contextuel. Voici quel impact cela pourrait avoir :

  • Meilleure comprĂ©hension contextuelle: ReALM se spĂ©cialise dans le dĂ©chiffrement des rĂ©fĂ©rences ambiguĂ«s dans les conversations, amĂ©liorant potentiellement considĂ©rablement la capacitĂ© de Siri Ă  comprendre les requĂŞtes dĂ©pendantes du contexte. Cela permettrait aux utilisateurs d'interagir plus naturellement avec Siri, car il pourrait saisir des rĂ©fĂ©rences telles que « rejouer cette chanson » ou « l'appeler » sans dĂ©tails supplĂ©mentaires.
  • Interaction amĂ©liorĂ©e avec l'Ă©cran: Grâce Ă  sa maĂ®trise de l'interprĂ©tation des dispositions d'Ă©cran et des Ă©lĂ©ments des dialogues, ReALM pourrait permettre Ă  Siri de s'intĂ©grer de manière plus fluide au contenu visuel d'un appareil. Siri pourrait alors exĂ©cuter des commandes liĂ©es aux Ă©lĂ©ments Ă  l'Ă©cran, telles que « ouvrir l'application Ă  cĂ´tĂ© de Mail » ou « faire dĂ©filer cette page vers le bas », Ă©tendant ainsi son utilitĂ© Ă  diverses tâches.
  • Personnalisation: En apprenant des interactions prĂ©cĂ©dentes, ReALM pourrait amĂ©liorer la capacitĂ© de Siri Ă  proposer des rĂ©ponses personnalisĂ©es et adaptatives. Au fil du temps, Siri peut prĂ©dire les besoins et les prĂ©fĂ©rences des utilisateurs, suggĂ©rant ou initiant des actions basĂ©es sur leur comportement passĂ© et leur comprĂ©hension contextuelle, Ă  la manière d'un assistant personnel compĂ©tent.
  • AccessibilitĂ© amĂ©liorĂ©e: Les capacitĂ©s de comprĂ©hension contextuelle et de rĂ©fĂ©rence de ReALM pourraient amĂ©liorer considĂ©rablement l'accessibilitĂ©, rendant la technologie plus inclusive. Siri, optimisĂ© par ReALM, pourrait interprĂ©ter avec prĂ©cision des commandes vagues ou partielles, facilitant ainsi une utilisation plus facile et plus naturelle de l'appareil pour les personnes ayant une dĂ©ficience physique ou visuelle.

ReALM et la stratégie IA d'Apple

Le lancement de ReALM reflète un aspect clé de la stratégie d'Apple en matière d'IA, en mettant l'accent sur l'intelligence sur l'appareil. Ce développement s'aligne sur la tendance plus large du secteur de l'informatique de pointe, où les données sont traitées localement sur les appareils, réduisant ainsi la latence, économisant la bande passante et sécurisant les données des utilisateurs sur l'appareil lui-même.

Le projet ReALM présente également les objectifs plus larges d'Apple en matière d'IA, en se concentrant non seulement sur l'exécution des commandes, mais également sur une compréhension et une prédiction plus approfondies des besoins des utilisateurs. ReALM représente une étape vers de futures innovations où les appareils pourraient fournir une assistance plus personnalisée et prédictive, éclairée par une compréhension approfondie des habitudes et des préférences des utilisateurs.

En résumé

Le développement d'Apple de Siri à ReALM met en évidence une évolution continue de la technologie des assistants vocaux, en se concentrant sur une meilleure compréhension du contexte et une meilleure interaction avec l'utilisateur. ReALM signifie une évolution vers une assistance vocale plus intelligente, personnalisée et soucieuse de la confidentialité, s'alignant sur la tendance du secteur de l'informatique de pointe pour un traitement et une sécurité améliorés sur l'appareil.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.