Intelligence artificielle

Révolutionner l’IA avec ReALM d’Apple : L’avenir des assistants intelligents

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Dans le paysage en constante évolution de l’intelligence artificielle, Apple a été discrètement pionnière dans une approche révolutionnaire qui pourrait redéfinir la façon dont nous interagissons avec nos iPhones. ReALM, ou Résolution de référence en tant que modélisation du langage, est un modèle d’IA qui promet d’apporter un nouveau niveau de conscience contextuelle et d’assistance sans faille.

Alors que le monde de la technologie vibre d’excitation autour d’OpenAI’s GPT-4 et d’autres grands modèles de langage (LLM), ReALM d’Apple représente un changement de pensée – un déplacement de la dépendance exclusive à l’IA basée sur le cloud vers une approche plus personnalisée et sur appareil. L’objectif ? Créer un assistant intelligent qui vous comprend vraiment, votre monde et la toile complexe de vos interactions numériques quotidiennes.

Au cœur de ReALM se trouve la capacité de résoudre les références – ces pronoms ambigus comme “il“, “ils” ou “ce” que les humains naviguent avec facilité grâce aux indices contextuels. Pour les assistants d’IA, cependant, cela a longtemps été un obstacle, conduisant à des malentendus frustrants et à une expérience utilisateur disjointe.

Imaginez un scénario où vous demandez à Siri de “trouver une recette saine en fonction de ce qui est dans mon réfrigérateur, mais sans les champignons – je les déteste.” Avec ReALM, votre iPhone ne comprendrait pas seulement les références à l’information à l’écran (le contenu de votre réfrigérateur) mais aussi se souvenir de vos préférences personnelles (dégoût des champignons) et du contexte plus large de la recherche d’une recette adaptée à ces paramètres.

Ce niveau de conscience contextuelle est un saut quantique par rapport à l’approche de correspondance de mots clés de la plupart des assistants d’IA actuels. En formant les LLM pour résoudre sans effort les références dans trois domaines clés – conversationnel, à l’écran et contexte – ReALM vise à créer un véritable compagnon numérique intelligent qui ressemble moins à une voix robotique et plus à une extension de vos propres processus de pensée.

Le domaine conversationnel : Se souvenir de ce qui est venu avant

L’IA conversationnelle, ReALM traite d’un défi de longue date : maintenir la cohérence et la mémoire à travers plusieurs tours de dialogue. Avec sa capacité à résoudre les références au sein d’une conversation en cours, ReALM pourrait enfin tenir la promesse d’une interaction naturelle et aller-retour avec votre assistant numérique.

Imaginez demander à Siri de “me rappeler de réserver des billets pour mes vacances lorsque je serai payé vendredi.” Avec ReALM, Siri ne comprendrait pas seulement le contexte de vos plans de vacances (potentiellement déduit d’une conversation précédente ou d’informations à l’écran) mais aurait également la conscience de relier “être payé” à votre routine de paye régulière.

Ce niveau d’intelligence conversationnelle ressemble à un véritable progrès, permettant des dialogues multi-tours sans l’ennui de devoir constamment réexpliquer le contexte ou se répéter.

Le domaine à l’écran : Donner des yeux à votre assistant

Peut-être l’aspect le plus révolutionnaire de ReALM réside-t-il dans sa capacité à résoudre les références à des entités à l’écran – une étape cruciale vers la création d’une expérience utilisateur sans mains, guidée par la voix.

La publication de recherche d’Apple discute d’une technique novatrice pour encoder les informations visuelles de l’écran de votre appareil dans un format que les LLM peuvent traiter. En reconstruisant essentiellement la disposition de votre écran dans une représentation textuelle, ReALM peut “voir” et comprendre les relations spatiales entre les différents éléments à l’écran.

Considérez un scénario où vous regardez une liste de restaurants et demandez à Siri “des directions pour celui de la rue principale.” Avec ReALM, votre iPhone ne comprendrait pas seulement la référence à une localisation spécifique mais relierait également cela à l’entité à l’écran pertinente – la liste de restaurant correspondant à cette description.

Ce niveau de compréhension visuelle ouvre un monde de possibilités, allant de l’exécution sans effort de références au sein des applications et des sites Web à l’intégration avec les interfaces AR futures et même à la perception et à la réponse aux objets et environnements réels via la caméra de votre appareil.

La publication de recherche sur le modèle ReALM d’Apple parle des détails intriqués de la façon dont le système encode les entités à l’écran et résout les références dans divers contextes. Voici une explication simplifiée des algorithmes et des exemples fournis dans la publication :

Encodage des entités à l’écran : La publication explore plusieurs stratégies pour encoder les éléments à l’écran dans un format textuel que peut traiter un LLM. Une approche consiste à regrouper les objets environnants en fonction de leur proximité spatiale et à générer des invites qui incluent ces objets regroupés. Cependant, cette méthode peut conduire à des invites excessivement longues à mesure que le nombre d’entités augmente.

L’approche finale adoptée par les chercheurs consiste à parser l’écran dans un ordre de haut en bas, de gauche à droite, en représentant la disposition dans un format textuel. Cela est réalisé via l’algorithme 2, qui trie les objets à l’écran en fonction de leurs coordonnées centrales, détermine les niveaux verticaux en regroupant les objets dans une certaine marge, et construit l’analyse à l’écran en concaténant ces niveaux avec des onglets séparant les objets sur la même ligne.

En injectant les entités pertinentes (numéros de téléphone dans ce cas) dans la représentation textuelle, le LLM peut comprendre le contexte à l’écran et résoudre les références en conséquence.

Exemples de résolution de référence : La publication fournit plusieurs exemples pour illustrer les capacités du modèle ReALM à résoudre les références dans différents contextes :

a. Références conversationnelles : Pour une demande comme “Siri, trouvez-moi une recette saine en fonction de ce qui est dans mon réfrigérateur, mais sans les champignons – je les déteste”, ReALM peut comprendre le contexte à l’écran (contenu du réfrigérateur), le contexte conversationnel (recherche d’une recette) et les préférences de l’utilisateur (dégoût des champignons).

b. Références de contexte : Dans l’exemple “Siri, jouez cette chanson qui jouait au supermarché plus tôt”, ReALM peut potentiellement capturer et identifier des extraits audio ambiants pour résoudre la référence à la chanson spécifique.

c. Références à l’écran : Pour une demande comme “Siri, rappelez-moi de réserver des billets pour les vacances lorsque je recevrai mon salaire vendredi”, ReALM peut combiner des informations provenant des routines de l’utilisateur (jour de paye), des conversations ou des sites Web à l’écran (plans de vacances) et du calendrier pour comprendre et agir sur la demande.

Ces exemples démontrent la capacité de ReALM à résoudre les références dans les contextes conversationnel, à l’écran et de contexte, permettant une interaction plus naturelle et plus fluide avec les assistants intelligents.

Le domaine de contexte

Allant au-delà des seuls contextes conversationnel et à l’écran, ReALM explore également la capacité à résoudre les références à des entités de contexte – ces événements et processus périphériques qui échappent souvent à nos assistants d’IA actuels.

Imaginez un scénario où vous demandez à Siri de “jouer cette chanson qui jouait au supermarché plus tôt.” Avec ReALM, votre iPhone pourrait potentiellement capturer et identifier des extraits audio ambiants, permettant à Siri de jouer sans effort la chanson que vous aviez en tête.

Ce niveau de conscience de contexte ressemble au premier pas vers une assistance d’IA véritablement omniprésente et consciente du contexte – un compagnon numérique qui ne comprend pas seulement vos mots mais également la riche toile de vos expériences quotidiennes.

La promesse de l’IA sur appareil : Confidentialité et personnalisation

Alors que les capacités de ReALM sont indéniablement impressionnantes, peut-être son avantage le plus significatif réside-t-il dans l’engagement à long terme d’Apple en faveur de l’IA sur appareil et de la confidentialité des utilisateurs.

Contrairement aux modèles d’IA basés sur le cloud qui dépendent de l’envoi de données utilisateur à des serveurs distants pour le traitement, ReALM est conçu pour fonctionner entièrement sur votre iPhone ou d’autres appareils Apple. Cela ne répond pas seulement aux préoccupations concernant la confidentialité des données mais ouvre également de nouvelles possibilités pour une assistance d’IA qui comprend vraiment et s’adapte à vous en tant qu’individu.

En apprenant directement à partir de vos données sur appareil – vos conversations, vos modèles d’utilisation d’applications et même vos entrées sensorielles ambiantes – ReALM pourrait potentiellement créer un assistant numérique hyper-personnalisé adapté à vos besoins, préférences et contextes uniques.

Ce niveau de personnalisation ressemble à un changement de paradigme par rapport à l’approche universelle des assistants d’IA actuels, qui ont souvent du mal à s’adapter aux particularités et aux contextes individuels des utilisateurs.

Le modèle ReALM-250M obtient des résultats impressionnants :

- Compréhension conversationnelle : 97,8
- Compréhension de tâches synthétiques : 99,8
- Performance de tâches à l’écran : 90,6
- Gestion de domaines non vus : 97,2

Les considérations éthiques

Bien sûr, avec un tel degré de personnalisation et de conscience contextuelle, vient un ensemble de considérations éthiques autour de la confidentialité, de la transparence et du potentiel pour les systèmes d’IA à influencer ou même manipuler le comportement de l’utilisateur.

Alors que ReALM acquiert une compréhension plus approfondie de notre vie quotidienne – de nos habitudes alimentaires et de consommation de médias à nos interactions sociales et préférences personnelles – il existe un risque que cette technologie soit utilisée de manière à violer la confiance de l’utilisateur ou à franchir les limites éthiques.

Les chercheurs d’Apple sont parfaitement conscients de cette tension, reconnaissant dans leur publication la nécessité de trouver un équilibre soigneux entre la fourniture d’une expérience d’IA véritablement utile et personnalisée et le respect de la confidentialité et de l’autonomie de l’utilisateur.

Ce défi n’est pas unique à Apple ou à ReALM, bien sûr – c’est une conversation que l’ensemble de l’industrie technologique doit aborder à mesure que les systèmes d’IA deviennent de plus en plus sophistiqués et intégrés dans notre vie quotidienne.

Vers une expérience d’IA plus intelligente et plus naturelle

Alors qu’Apple continue de repousser les limites de l’IA sur appareil avec des modèles comme ReALM, la promesse d’un assistant numérique véritablement intelligent et conscient du contexte se rapproche plus que jamais.

Imaginez un monde où Siri (ou quel que soit le nom de cet assistant d’IA à l’avenir) ressemble moins à une voix désincarnée du cloud et plus à une extension de vos propres processus de pensée – un partenaire qui ne comprend pas seulement vos mots mais également la riche toile de votre vie numérique, vos routines quotidiennes et vos préférences et contextes uniques.

De l’exécution sans effort de références au sein des applications et des sites Web à l’anticipation de vos besoins en fonction de votre emplacement, de votre activité et des entrées sensorielles ambiantes, ReALM représente un pas significatif vers une expérience d’IA plus naturelle et plus fluide qui efface les frontières entre nos mondes numériques et physiques.

Bien sûr, la réalisation de cette vision nécessitera plus que l’innovation technique – elle nécessitera également une approche éthique et réfléchie du développement de l’IA qui donne la priorité à la confidentialité, à la transparence et à l’autonomie de l’utilisateur.

Alors qu’Apple continue d’affiner et d’étendre les capacités de ReALM, le monde de la technologie sera sans nul doute à l’affût, impatient de voir comment ce modèle d’IA révolutionnaire façonne l’avenir des assistants intelligents et ouvre une nouvelle ère de calcul personnalisé et conscient du contexte.

Que ReALM tienne ses promesses de surpasser même le puissant GPT-4 reste à voir. Mais une chose est certaine : l’ère des assistants d’IA qui nous comprennent vraiment – nos mots, nos mondes et la riche toile de notre vie quotidienne – est en marche, et l’innovation la plus récente d’Apple pourrait bien se trouver à l’avant-garde de cette révolution.

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.

Unite.AI