Искусственный интеллект
Интеллектуальная клавиатура для мобильных устройств, позволяющая набирать текст на 157% быстрее

Исследователи из Южной Кореи использовали методы машинного обучения для разработки “невидимой” клавиатуры для мобильных устройств с ограниченным пространством, которая позволяет пользователям набирать текст на 157,5% быстрее, даже если на экране не отображается клавиатура.
Пользовательская реакция на новый метод – называемый просто Invisible Mobile Keyboard (IMK) – оказалась очень положительной, с сообщениями от тестовых пользователей о низком уровне физических, психических и временных нагрузок при использовании клавиатуры. В плане эффективности IMK немного превосходит наиболее современный альтернативный метод ввода, достигая скорости набора текста в 51,6 слов в минуту.
Фантомная клавиатура
Чтобы начать вводить текст, пользователи могут просто начать набирать текст на экране, как если бы перед ними была видимая клавиатура (хотя на самом деле ее нет). Ничто не появляется, чтобы загородить видимость содержимого, и набранный текст появляется в любом текстовом поле, где начался ввод, и опционально как тонкая строка текста, которую пользователь может проверить на точность.
Система самонастраивается с момента распознавания ввода. Следовательно, пользователь может держать мобильное устройство в ландшафтном или портретном режиме и использовать все доступное пространство экрана для набора текста.
В сопровождающем видео (см. конец статьи, и изображение прямо ниже) авторы статьи иллюстрируют, как работает действие, хотя они уточняют, что во время ввода не появляется реальная клавиатура (она есть только для иллюстрации в видео):

Это пример IMK на этапе сбора данных, хотя он работает идентично в конечном использовании. Клавиатура, которая появляется, есть только для иллюстрации и не появляется пользователю ни во время сбора данных, ни в окончательном использовании интерфейса. Source: https://www.youtube.com/watch?v=PuhiVGOfIR0
Набор текста как система координат
Исследование проводится в Корейском институте передовых технологий и науки (KAIST) и использует нашу природную способность “построить” где находится следующая клавиша на клавиатуре. Хотя может показаться противоинтуитивным спрятать клавиатуру и ожидать, что палец пользователя найдет следующую желаемую клавишу, на самом деле даже средний наборщик интуитивно направляется к правильному символу.
По сути, IMK рассматривает клавиатуру как матрицу координат, и авторы собрали обширную базу данных пользовательского ввода, чтобы предоставить данные для обучения системы Self-Attention Neural Character Decoder (SA-NCD).
SA-NCD отмечает положение “падения клавиши” и рассчитывает вероятность того, какая клавиша была желаемой. Когда слова складываются через клавиши, SA-NCD может собрать и разбить символы на их составные намеренные слова, очищая ввод в режиме реального времени.

Архитектура сети SA-NCD, где Q/K/V обозначают запрос, ключ и значение само-внимания. Source: https://arxiv.org/pdf/2108.09030.pdf
SA-NCD не ждет завершения возможного предложения, поскольку он не знает, когда ввод предложения закончится, и когда слово или слова добавляются к фразе, он может пересмотреть и переписать ранее интерпретированные части предложения в свете последнего ввода.
База данных
Чтобы обеспечить процесс обучения, исследователи собрали около двух миллионов пар точек касания и текста от тестовых пользователей, которые использовали простой веб-интерфейс, доступный с сенсорных мобильных устройств.
База данных содержит инициалы имени пользователя, размер экрана его устройства, возраст, тип мобильного устройства (т. е. планшет, смартфон и т. д.) и значения x и y координат каждого зарегистрированного “падения клавиши”.

Средние положения падений клавиш среди пользователей, с точками одинакового цвета, обозначающими падения клавиш от одного и того же пользователя. Определение данных одного пользователя помогает оптимизировать базу данных и избежать переобучения, сравнивая средние группировки падений клавиш от отдельных пользователей, а не обучая клавиши одного пользователя против друг друга.
Обучение должно было учитывать заметные вариации среднего пиксельного расстояния между ударами среди пользователей. Некоторые пользователи, возможно, те, кто привык к очень тесным программным клавиатурам, поддерживали среднее расстояние между клавишами всего 50 пикселей на оси z, в то время как другие в среднем имели 300 пикселей.
Эти различия имеют решающее значение, поскольку в случае оси Y ошибка может поставить падение клавиши в неправильный ряд, заменив, например, “I” или “M” на желаемый удар “K”.
Архитектура и обучение
SA-NCD состоит из двух модулей декодера: геометрического декодера, который рассчитывает, где на невидимой клавиатуре должен был произойти удар клавиши; и семантического декодера, который обрабатывает интерпретацию вводимого текста в реальном времени.
Геометрический декодер использует двунаправленный GRU (BiGRU), с GRU, принятый как рекуррентная нейронная сеть (RNN), с прямыми и обратными проходами, облегчающими постоянно меняющуюся интерпретацию предложения.
Семантическая составляющая использует архитектуру Transformer, которая интерпретирует ввод после его прохождения через процесс “маскирования уверенности”, предназначенный для сравнения среднего использования с новым конкретным падением клавиши. Семантический декодер был обучен как маскированная модель языка против One Billion Word Benchmark, совместной работы 2014 года между Google, Кембриджским университетом и Университетом Эдинбурга.

Результаты
В тестах пользователи смогли набирать текст на 157,5% быстрее с помощью IMK, чем с помощью сторонних программных клавиатур на своих смартфонах. Кроме того, было обнаружено, что IMK превосходит результаты, полученные другими новыми методами, такими как жестовые, сенсорные и десятипальцевые методы ввода текста в последние годы. В статье сообщается, что пользователи показали высокую удовлетворенность системой.
Смотрите видео авторов ниже, чтобы узнать больше об IMK.










