Artificial Intelligence
Невидимая мобильная клавиатура с искусственным интеллектом, которая позволяет печатать на 157 % быстрее
Исследователи из Южной Кореи использовали методы машинного обучения для разработки «невидимой» клавиатуры для мобильных устройств с ограниченным пространством, которая позволяет пользователям печатать на 157.5% быстрее, даже если на экране клавиатура не видна.
Ответ пользователя на Новый метод — называемая просто Invisible Mobile Keyboard (IMK) — считается очень положительной: тестируемые пользователи сообщают о низком уровне физической, умственной и временной нагрузки при использовании клавиатуры. С точки зрения эффективности IMK немного опережает самый последний современный альтернативный метод ввода, поднявшись до авангардного показателя 51.6 слов в минуту.
Фантомная клавиатура
Чтобы начать генерировать ввод, пользователи могут просто начать печатать на экране, как если бы была видна клавиатура (хотя ее нет). Ничего не всплывает, что мешает просмотру содержимого, а напечатанные слова будут отображаться в любом восприимчивом текстовом поле, где происходит ввод, и, при необходимости, в виде тонкого потока текста, точность которого пользователь может проверить.
Система автоматически калибруется с момента распознавания ввода. Таким образом, пользователь может установить мобильное устройство в ландшафтном или портретном режиме и использовать все доступное пространство экрана для ввода текста.
В сопроводительном видео (см. конец статьи и изображение непосредственно ниже) авторы документа иллюстрируют, как работает действие, хотя и уточняют, что во время ввода не появляется настоящая клавиатура (она присутствует в видео только в иллюстративных целях):
Ввод как система координат
Исследование проводится Корейским передовым институтом науки и технологий (KAIST) и использует нашу естественную способность «отмечать», где на клавиатуре находится следующая клавиша. Хотя может показаться нелогичным скрывать клавиатуру и ожидать, что палец пользователя найдет следующую нужную клавишу, на самом деле даже средний машинист инстинктивно выбирает правильный символ.
По сути, IMK рассматривает клавиатуру как матрицу графика, и авторы собрали обширную базу данных пользовательского ввода, чтобы предоставить данные для декодера нейронных символов самоконтроля системы (SA-NCD) для обучения.
SA-NCD отметит положение «падения ключа» и вычислит вероятность того, какой ключ был желателен. По мере того, как слова создаются с помощью нажатия клавиш, SA-NCD может компилировать и разбивать символы на составляющие их предполагаемые слова, очищая ввод в реальном времени.
SA-NCD не ожидает завершения возможного предложения, так как он понятия не имеет, когда закончится введенное предложение, и по мере добавления слова или слов к фразе он может повторно посетить и переписать более ранние интерпретации из предложение в свете последнего ввода.
База данных
Чтобы подстегнуть процесс обучения, исследователи собрали около двух миллионов пар точек касания и текст от испытуемых, которые использовали простой веб-интерфейс, доступ к которому осуществлялся с мобильных устройств с сенсорным экраном.
Набор данных содержит инициалы имени пользователя, размер экрана его устройства, его возраст, тип используемого мобильного устройства (например, планшет, смартфон и т. д.), а также значения координат x и y для каждого зарегистрированного ключа.
Обучение должно было учитывать заметные различия в среднем расстоянии между пикселями между штрихами среди пользователей. Некоторые пользователи, возможно, привыкшие к очень тесным программным клавиатурам, поддерживали среднее расстояние между клавишами всего в 50 пикселей по оси Z, в то время как другие в среднем составляли 300 пикселей.
Эти различия имеют решающее значение, поскольку в случае оси Y ошибка приведет к тому, что клавиша будет помещена в неправильную строку, заменив, например, «I» или «M» на предполагаемый штрих «K».
Архитектура и обучение
SA-NCD состоит из двух модулей декодера: геометрический декодер, который вычисляет, где на невидимой клавиатуре должно было попасть нажатие клавиши; и семантический декодер, который обрабатывает интерпретацию входного текста в реальном времени.
Геометрический декодер использует двунаправленный GRU (БиГРУ), где GRU принят как рекуррентная нейронная сеть (RNN) с прямыми и обратными проходами, облегчающими постоянно меняющуюся интерпретацию предложения.
Семантическая составляющая использует трансформатор архитектура, которая интерпретирует входные данные после того, как они прошли через процесс «маскирования достоверности», предназначенный для сравнения среднего использования с новым конкретным набором ключей. Семантический декодер был обучен как маскированная модель символьного языка против Тест на один миллиард слов, результат сотрудничества Google, Кембриджского университета и Эдинбургского университета в 2014 году.
Итоги
В ходе тестов пользователи могли печатать на 157.5% быстрее с помощью IMK, чем с помощью сторонних программных клавиатур на своих смартфонах. Кроме того, было обнаружено, что IMK превзошел результаты, полученные конкурирующими новыми методами, такими как методы ввода текста на основе жестов, касаний и ввода текста десятью пальцами последних лет. В документе сообщается, что пользователи продемонстрировали высокую степень удовлетворенности системой.
Посмотрите видео авторов ниже, чтобы узнать больше об IMK.