toco Um teclado móvel invisível orientado por IA que permite digitar 157% mais rápido - Unite.AI
Entre em contato

Inteligência artificial

Um teclado móvel invisível orientado por IA que permite digitar 157% mais rápido

mm
Atualização do on

Pesquisadores da Coreia do Sul usaram técnicas de aprendizado de máquina para desenvolver um teclado “invisível” para dispositivos móveis com espaço limitado, que permite aos usuários digitar 157.5% mais rápido, mesmo que nenhum teclado esteja aparente na tela.

Resposta do usuário ao Novo método – chamado simplesmente Invisible Mobile Keyboard (IMK) – é relatado como muito positivo, com usuários de teste relatando baixos níveis de demanda física, mental e temporal ao usar o teclado. Em termos de eficiência, o IMK supera levemente o mais recente método de entrada alternativo de última geração, subindo para uma pontuação de vanguarda de 51.6 palavras por minuto.

O teclado fantasma

Para começar a gerar entrada, os usuários podem simplesmente começar a digitar na tela, como se um teclado estivesse visível (embora nenhum esteja). Nada aparece para obstruir a visualização do conteúdo, e as palavras digitadas aparecerão em qualquer caixa de texto receptiva de origem da digitação e, opcionalmente, como um fluxo fino de texto que o usuário pode verificar a precisão.

O sistema se autocalibra a partir do momento em que reconhece a entrada. Portanto, o usuário pode ter o dispositivo móvel no modo paisagem ou retrato e usar todo o espaço disponível na tela para digitar seu texto.

Em um vídeo que acompanha (veja o final do artigo e a imagem logo abaixo), os autores do artigo ilustram como a ação funciona, embora esclareçam que nenhum teclado real aparece durante a entrada (está lá apenas para fins ilustrativos no vídeo):

Este é um exemplo de IMK no estágio de coleta de dados, embora opere de forma idêntica no uso final. O teclado que aparece é meramente ilustrativo, não aparecendo para o usuário nem durante o processo de coleta de dados nem na utilização final da interface. Fonte: https://www.youtube.com/watch?v=PuhiVGOfIR0

Este é um exemplo de IMK no estágio de coleta de dados, embora opere de forma idêntica no uso final. O teclado que aparece é meramente ilustrativo, não aparecendo para o usuário nem durante o processo de coleta de dados nem na utilização final da interface. Fonte: https://www.youtube.com/watch?v=PuhiVGOfIR0

Digitando como um sistema de coordenadas

A pesquisa se origina do Instituto Avançado de Ciência e Tecnologia da Coreia (KAIST) e explora nossa capacidade natural de "traçar" onde a próxima tecla está em um teclado. Embora possa parecer contra-intuitivo esconder o teclado e esperar que o dedo de um usuário encontre a próxima tecla desejada, na verdade até mesmo um digitador mediano busca instintivamente o caractere correto.

Efetivamente, o IMK trata o teclado como uma matriz de plotagem, e os autores compilaram um extenso banco de dados de entrada do usuário para fornecer dados para o decodificador de caractere neural de auto-atenção do sistema (SA-NCD) para treinar.

O SA-NCD observará a posição de uma 'queda de chave' e calculará a probabilidade de qual chave foi desejada. À medida que as palavras se acumulam por meio de pressionamentos de tecla, o SA-NCD pode compilar e dividir os caracteres em suas palavras constituintes pretendidas, limpando a entrada em tempo real.

A arquitetura de rede do SA-NCD, onde Q/K/V significa consulta, chave e valor de auto-atenção. Fonte: https://arxiv.org/pdf/2108.09030.pdf

A arquitetura de rede do SA-NCD, onde Q/K/V significa consulta, chave e valor de auto-atenção. Fonte: https://arxiv.org/pdf/2108.09030.pdf

O SA-NCD não espera a conclusão de uma possível frase, pois não tem ideia de quando a entrada da frase terminará e, à medida que uma palavra ou palavras são adicionadas à frase, ele pode revisitar e reescrever interpretações anteriores do sentença à luz da entrada mais recente.

banco de dados

Para alimentar o processo de treinamento, os pesquisadores reuniram cerca de dois milhões de pares de pontos de toque e texto de participantes do teste, que estavam usando uma interface simples baseada na Web, acessada a partir de dispositivos móveis com capacidade de toque.

O conjunto de dados contém as iniciais do nome do usuário, o tamanho da tela de seu dispositivo, sua idade, o tipo de dispositivo móvel usado (ou seja, tablet, smartphone, etc.) e os valores das coordenadas x e y de cada keyfall registrado.

Posições médias de keyfalls entre usuários, com pontos de cor idêntica significando keyfalls dos mesmos usuários. Identificar os dados do mesmo usuário ajuda a otimizar o conjunto de dados e evitar o superajuste comparando os agrupamentos médios de keyfall de usuários individuais, em vez de treinar os pressionamentos de tecla de um usuário entre si.

Posições médias de keyfalls entre usuários, com pontos de cor idêntica significando keyfalls dos mesmos usuários. Identificar os dados do mesmo usuário ajuda a otimizar o conjunto de dados e evitar o superajuste comparando os agrupamentos médios de keyfall de usuários individuais, em vez de treinar os pressionamentos de tecla de um usuário entre si.

O treinamento teve que levar em conta as variações notáveis ​​na distância média de pixel entre os traços entre os usuários. Alguns usuários, talvez aqueles acostumados a teclados de software muito apertados, mantiveram uma distância média entre as teclas de apenas 50 pixels no eixo z, enquanto outros atingiram uma média de 300 pixels.

Essas diferenças são críticas, pois no caso do eixo Y, um erro colocaria a chave na linha errada, substituindo, por exemplo, um 'I' ou um 'M' para o golpe 'K' pretendido.

Arquitetura e Treinamento

O SA-NCD consiste em dois módulos decodificadores: um decodificador geométrico, que calcula onde no teclado invisível uma tecla deveria cair; e um decodificador semântico, que lida com a interpretação ao vivo do texto de entrada.

O decodificador geométrico usa GRU bidirecional (BiGRU), com GRU adotado como Rede Neural Recorrente (RNN), com passagens para frente e para trás facilitando uma interpretação da sentença em constante mudança.

O componente semântico usa um transformador arquitetura, que interpreta a entrada depois que ela passou por um processo de 'máscara de confiança' projetado para comparar o uso médio com o novo keyfall específico. O decodificador semântico foi treinado como um modelo de linguagem de caracteres mascarados contra o Referência de um bilhão de palavras, uma colaboração de 2014 entre o Google, a Universidade de Cambridge e a Universidade de Edimburgo.

Resultados

Em testes, os usuários conseguiram digitar 157.5% mais rápido usando IMK do que com teclados de software de terceiros em seus próprios smartphones. Além disso, descobriu-se que o IMK superou os resultados obtidos por novos métodos rivais, como métodos de entrada de texto baseados em gestos, baseados em toque e dez dedos dos últimos anos. O artigo relata que os usuários demonstraram alta satisfação com o sistema.

Veja o vídeo dos autores abaixo para saber mais sobre o IMK.

[IJCAI 2021] Digite onde quiser: uma introdução ao teclado móvel invisível (explicado)