Intelligence Artificielle
Un clavier mobile invisible piloté par l'IA qui vous permet de taper 157 % plus rapidement

Des chercheurs sud-coréens ont utilisé des techniques d'apprentissage automatique pour développer un clavier « invisible » pour les appareils mobiles à espace limité, permettant aux utilisateurs de taper 157.5 % plus rapidement, même si aucun clavier n'est visible à l'écran.
Réponse de l'utilisateur à la nouvelle méthode - appelé simplement Invisible Mobile Keyboard (IMK) - est signalé comme étant très positif, les utilisateurs test signalant de faibles niveaux de demande physique, mentale et temporelle lors de l'utilisation du clavier. En termes d'efficacité, IMK dépasse légèrement la méthode de saisie alternative la plus récente, atteignant un score d'avant-garde de 51.6 mots par minute.
Le clavier fantôme
Pour commencer à générer des entrées, les utilisateurs peuvent simplement commencer à taper sur l'écran, comme si un clavier était visible (mais aucun ne l'est). Rien ne s'affiche pour obstruer la vue du contenu, et les mots saisis apparaîtront dans n'importe quelle zone de texte réceptive d'où provient la saisie, et éventuellement sous la forme d'un mince flux de texte dont l'utilisateur peut vérifier l'exactitude.
Le système s'auto-étalonne à partir du moment où il reconnaît l'entrée. Ainsi, l'utilisateur peut avoir l'appareil mobile en mode paysage ou portrait, et utiliser l'intégralité de l'espace disponible sur l'écran pour taper son texte.
Dans une vidéo d'accompagnement (voir la fin de l'article et l'image ci-dessous), les auteurs de l'article illustrent le fonctionnement de l'action, bien qu'ils précisent qu'aucun clavier réel n'apparaît lors de la saisie (il n'est là qu'à des fins d'illustration dans la vidéo):

Ceci est un exemple d'IMK au stade de la collecte de données, bien qu'il fonctionne de manière identique dans l'utilisation finale. Le clavier qui apparaît est uniquement à titre indicatif et n'apparaît pas à l'utilisateur ni lors du processus de collecte des données ni lors de l'utilisation finale de l'interface. Source : https://www.youtube.com/watch?v=PuhiVGOfIR0
Saisie en tant que système de coordonnées
La recherche provient du Korea Advanced Institute of Science and Technology (KAIST) et exploite notre capacité naturelle à « tracer » où se trouve la touche suivante sur un clavier. Bien qu'il puisse sembler contre-intuitif de masquer le clavier et de s'attendre à ce que le doigt d'un utilisateur trouve la prochaine touche souhaitée, en fait, même un dactylographe moyen se dirige instinctivement vers le caractère correct.
En fait, IMK traite le clavier comme une matrice de tracé, et les auteurs ont compilé une vaste base de données d'entrées d'utilisateurs afin de fournir des données pour le décodeur de caractères neuronaux d'auto-attention (SA-NCD) du système pour s'entraîner.
SA-NCD notera la position d'une « chute de clé » et calculera la probabilité de la clé souhaitée. Au fur et à mesure que les mots s'accumulent grâce aux frappes, SA-NCD peut compiler et diviser les caractères en leurs mots constitutifs voulus, nettoyant l'entrée en direct.

L'architecture réseau de SA-NCD, où Q/K/V signifie requête, clé et valeur de l'auto-attention. Source : https://arxiv.org/pdf/2108.09030.pdf
SA-NCD n'attend pas l'achèvement d'une phrase possible, car il n'a aucune idée de la fin de la saisie de la phrase, et lorsqu'un mot ou des mots sont ajoutés à la phrase, il peut revoir et réécrire des interprétations antérieures de la phrase à la lumière des dernières contributions.
Base de données
Afin d'alimenter le processus de formation, les chercheurs ont rassemblé environ deux millions de paires de points de contact et de texte de sujets de test, qui utilisaient une interface Web simple accessible à partir d'appareils mobiles tactiles.
L'ensemble de données contient les initiales du nom de l'utilisateur, la taille de l'écran de son appareil, son âge, le type d'appareil mobile utilisé (c'est-à-dire tablette, smartphone, etc.) et les valeurs des coordonnées x et y de chaque frappe enregistrée.

Positions moyennes des keyfalls parmi les utilisateurs, avec des points de couleur identique indiquant les keyfalls des mêmes utilisateurs. L'identification des données d'un même utilisateur permet d'optimiser l'ensemble de données et d'éviter le surajustement en comparant les groupes de frappes moyens d'utilisateurs individuels, plutôt que d'entraîner les frappes d'un utilisateur les unes contre les autres.
La formation devait tenir compte des variations notables de la distance moyenne des pixels entre les coups parmi les utilisateurs. Certains utilisateurs, peut-être habitués à des claviers logiciels très exigus, maintenaient une distance moyenne entre les touches de seulement 50 pixels sur l'axe z, tandis que d'autres affichaient une moyenne de 300 pixels.
Ces différences sont essentielles, car dans le cas de l'axe Y, une erreur placerait la frappe sur la mauvaise ligne, en remplaçant, par exemple, un « I » ou un « M » par le trait « K » prévu.
Architecture et formation
SA-NCD se compose de deux modules décodeurs : un décodeur géométrique, qui calcule où sur le clavier invisible une frappe devait tomber ; et un décodeur sémantique, qui gère l'interprétation en direct du texte d'entrée.
Le décodeur géométrique utilise le GRU bidirectionnel (BiGRU), avec GRU adopté comme réseau neuronal récurrent (RNN), avec des passes avant et arrière facilitant une interprétation en constante évolution de la phrase.
La composante sémantique utilise un transformateur architecture, qui interprète l'entrée après qu'elle est passée par un processus de "masquage de confiance" conçu pour comparer l'utilisation moyenne à la nouvelle chute de clé spécifique. Le décodeur sémantique a été formé comme un modèle de langage à caractères masqués contre le Un milliard de mots de référence, une collaboration de 2014 entre Google, l'université de Cambridge et l'université d'Édimbourg.
Résultats
Lors des tests, les utilisateurs ont pu taper 157.5 % plus rapidement avec IMK qu'avec des claviers logiciels tiers sur leurs propres smartphones. En outre, il a été constaté qu'IMK surpassait les résultats obtenus par de nouvelles méthodes concurrentes, telles que les méthodes de saisie de texte basées sur les gestes, sur le toucher et à dix doigts de ces dernières années. Le document rapporte que les utilisateurs se sont montrés très satisfaits du système.
Voir la vidéo des auteurs ci-dessous afin d'en savoir plus sur IMK.