Intelligence artificielle
De Siri à ReALM : Le parcours d’Apple vers des assistants vocaux plus intelligents
Depuis le lancement de Siri en 2011, Apple a constamment été à la pointe de l’innovation dans le domaine des assistants vocaux, s’adaptant aux besoins des utilisateurs à l’échelle mondiale. L’introduction de ReALM marque un point important dans ce parcours, offrant un aperçu de l’évolution du rôle des assistants vocaux dans notre interaction avec les appareils. Cet article examine les effets de ReALM sur Siri et les directions potentielles pour les futurs assistants vocaux.
L’essor des assistants vocaux : La genèse de Siri
Le parcours a commencé lorsque Apple a intégré Siri, un système d’intelligence artificielle sophistiqué, dans ses appareils, transformant la façon dont nous interagissons avec notre technologie. Issu de la technologie développée par SRI International, Siri est devenu la référence pour les assistants vocaux. Les utilisateurs pouvaient effectuer des tâches comme des recherches sur Internet et la planification à l’aide de simples commandes vocales, repoussant les limites des interfaces conversationnelles et déclenchant une course compétitive sur le marché des assistants vocaux.
Siri 2.0 : Une nouvelle ère d’assistants vocaux
Alors qu’Apple se prépare pour la sortie de iOS 18 à la Conférence mondiale des développeurs (WWDC) en juin 2024, l’attente grandit au sein de la communauté technologique pour ce qui devrait être une évolution significative de Siri. Cette nouvelle phase, appelée Siri 2.0, promet d’apporter des avancées en matière d’intelligence artificielle générative au premier plan, transformant potentiellement Siri en un assistant virtuel encore plus sophistiqué. Bien que les améliorations exactes restent confidentielles, le monde de la technologie est en effervescence à la perspective de Siri atteignant de nouvelles hauteurs en termes d’intelligence conversationnelle et d’interaction utilisateur personnalisée, en exploitant le type de modèles d’apprentissage du langage sophistiqués que l’on voit dans des technologies comme ChatGPT. Dans ce contexte, l’introduction de ReALM, un modèle de langage compact, suggère des améliorations possibles que Siri 2.0 pourrait introduire pour ses utilisateurs. Les sections suivantes discuteront du rôle de ReALM et de son influence potentielle en tant qu’étape importante dans l’avancement continu de Siri.
Présentation de ReALM
ReALM, qui signifie Reference Resolution As Language Modeling, est un modèle de langage spécialisé capable de déchiffrer les références contextuelles et ambigües au cours des conversations, telles que « celui-là » ou « ceci ». Il se distingue par sa capacité à traiter les références conversationnelles et visuelles, les transformant en un format texte. Cette capacité permet à ReALM d’interpréter et d’interagir avec les dispositions et les éléments d’écran de manière transparente au sein d’un dialogue, une fonctionnalité critique pour gérer avec précision les requêtes dans des contextes visuellement dépendants.
L’architecture de ReALM va des versions plus petites comme ReALM-80M à des versions plus grandes comme ReALM-3B, optimisées pour être efficaces sur le plan computationnel pour une intégration dans les appareils mobiles. Cette efficacité permet une performance constante avec une utilisation réduite de puissance et moins de sollicitation des ressources de traitement, important pour prolonger la durée de vie de la batterie et fournir des temps de réponse rapides sur une variété d’appareils.
De plus, la conception de ReALM prévoit des mises à jour modulaires, facilitant l’intégration transparente des dernières avancées en matière de résolution de référence. Cette approche modulaire non seulement améliore la flexibilité et l’adaptabilité du modèle, mais assure également sa viabilité et son efficacité à long terme, lui permettant de répondre aux besoins évoluant des utilisateurs et aux normes technologiques sur un large éventail d’appareils.
ReALM vs. Les modèles de langage
Alors que les modèles de langage traditionnels comme GPT-3.5 traitent principalement le texte, ReALM adopte une approche multimodale, similaire à des modèles tels que Gemini, en travaillant avec du texte et des visuels. Contrairement aux fonctionnalités plus larges de GPT-3.5 et Gemini, qui gèrent des tâches telles que la génération de texte, la compréhension et la création d’images, ReALM est particulièrement conçu pour déchiffrer les contextes conversationnels et visuels. Cependant, contrairement aux modèles multimodaux comme Gemini qui traitent directement les données visuelles et textuelles, ReALM traduit le contenu visuel des écrans en texte, annotant les entités et leurs détails spatiaux. Cette conversion permet à ReALM d’interpréter le contenu de l’écran de manière textuelle, facilitant une identification et une compréhension plus précises des références à l’écran.
Comment ReALM pourrait transformer Siri ?
ReALM pourrait considérablement améliorer les capacités de Siri, la transformant en un assistant plus intuitif et conscient du contexte. Voici comment il pourrait avoir un impact :
- Meilleure compréhension contextuelle : ReALM se spécialise dans le déchiffrage des références ambigües dans les conversations, améliorant potentiellement de manière significative la capacité de Siri à comprendre les requêtes dépendantes du contexte. Cela permettrait aux utilisateurs d’interagir avec Siri de manière plus naturelle, car il pourrait saisir des références comme « rejouer cette chanson » ou « appeler elle » sans détails supplémentaires.
- Interaction améliorée avec l’écran : Avec sa compétence dans l’interprétation des dispositions et des éléments d’écran au sein des dialogues, ReALM pourrait permettre à Siri d’intégrer plus fluide avec le contenu visuel de l’appareil. Siri pourrait alors exécuter des commandes liées aux éléments à l’écran, comme « ouvrir l’application à côté de Mail » ou « faire défiler cette page », en élargissant son utilité dans diverses tâches.
- Personnalisation : En apprenant des interactions précédentes, ReALM pourrait améliorer la capacité de Siri à offrir des réponses personnalisées et adaptées. Au fil du temps, Siri pourrait prédire les besoins et les préférences de l’utilisateur, suggérant ou initiant des actions en fonction du comportement passé et de la compréhension contextuelle, à la manière d’un assistant personnel connaissant bien l’utilisateur.
- Amélioration de l’accessibilité : Les capacités de compréhension contextuelle et de référence de ReALM pourraient considérablement bénéficier à l’accessibilité, rendant la technologie plus inclusive. Siri, alimenté par ReALM, pourrait interpréter avec précision les commandes vagues ou partielles, facilitant une utilisation plus naturelle et plus facile des appareils pour les personnes ayant des déficiences physiques ou visuelles.
ReALM et la stratégie d’IA d’Apple
Le lancement de ReALM reflète un aspect clé de la stratégie d’IA d’Apple, mettant l’accent sur l’intelligence sur appareil. Ce développement s’inscrit dans la tendance plus large de l’industrie vers le calcul de bord, où les données sont traitées localement sur les appareils, réduisant la latence, conservant la bande passante et sécurisant les données de l’utilisateur sur l’appareil lui-même.
Le projet ReALM met également en évidence les objectifs d’IA plus larges d’Apple, axés non seulement sur l’exécution de commandes mais également sur une compréhension et une prédiction plus profondes des besoins de l’utilisateur. ReALM représente une étape vers les innovations futures où les appareils pourraient fournir un soutien plus personnalisé et prédictif, éclairé par une compréhension approfondie des habitudes et des préférences de l’utilisateur.
En résumé
Le développement d’Apple de Siri à ReALM met en évidence une évolution continue dans la technologie des assistants vocaux, axée sur une meilleure compréhension contextuelle et une interaction utilisateur améliorée. ReALM signifie un changement de cap vers des assistants vocaux plus intelligents, plus personnalisés et plus respectueux de la vie privée, s’alignant sur la tendance de l’industrie vers le calcul de bord pour un traitement et une sécurité améliorés sur les appareils.












