заглушки Невидимая мобильная клавиатура с искусственным интеллектом, которая позволяет печатать на 157 % быстрее - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Невидимая мобильная клавиатура с искусственным интеллектом, которая позволяет печатать на 157 % быстрее

mm
обновленный on

Исследователи из Южной Кореи использовали методы машинного обучения для разработки «невидимой» клавиатуры для мобильных устройств с ограниченным пространством, которая позволяет пользователям печатать на 157.5% быстрее, даже если на экране клавиатура не видна.

Ответ пользователя на Новый метод — называемая просто Invisible Mobile Keyboard (IMK) — считается очень положительной: тестируемые пользователи сообщают о низком уровне физической, умственной и временной нагрузки при использовании клавиатуры. С точки зрения эффективности IMK немного опережает самый последний современный альтернативный метод ввода, поднявшись до авангардного показателя 51.6 слов в минуту.

Фантомная клавиатура

Чтобы начать генерировать ввод, пользователи могут просто начать печатать на экране, как если бы была видна клавиатура (хотя ее нет). Ничего не всплывает, что мешает просмотру содержимого, а напечатанные слова будут отображаться в любом восприимчивом текстовом поле, где происходит ввод, и, при необходимости, в виде тонкого потока текста, точность которого пользователь может проверить.

Система автоматически калибруется с момента распознавания ввода. Таким образом, пользователь может установить мобильное устройство в ландшафтном или портретном режиме и использовать все доступное пространство экрана для ввода текста.

В сопроводительном видео (см. конец статьи и изображение непосредственно ниже) авторы документа иллюстрируют, как работает действие, хотя и уточняют, что во время ввода не появляется настоящая клавиатура (она присутствует в видео только в иллюстративных целях):

Это пример IMK на этапе сбора данных, хотя в конечном использовании он работает точно так же. Появляющаяся клавиатура предназначена только для иллюстративных целей и не отображается пользователю ни в процессе сбора данных, ни при окончательном использовании интерфейса. Источник: https://www.youtube.com/watch?v=PuhiVGOfIR0

Это пример IMK на этапе сбора данных, хотя в конечном использовании он работает точно так же. Появляющаяся клавиатура предназначена только для иллюстративных целей и не отображается пользователю ни в процессе сбора данных, ни при окончательном использовании интерфейса.. Источник: https://www.youtube.com/watch?v=PuhiVGOfIR0

Ввод как система координат

Исследование проводится Корейским передовым институтом науки и технологий (KAIST) и использует нашу естественную способность «отмечать», где на клавиатуре находится следующая клавиша. Хотя может показаться нелогичным скрывать клавиатуру и ожидать, что палец пользователя найдет следующую нужную клавишу, на самом деле даже средний машинист инстинктивно выбирает правильный символ.

По сути, IMK рассматривает клавиатуру как матрицу графика, и авторы собрали обширную базу данных пользовательского ввода, чтобы предоставить данные для декодера нейронных символов самоконтроля системы (SA-NCD) для обучения.

SA-NCD отметит положение «падения ключа» и вычислит вероятность того, какой ключ был желателен. По мере того, как слова создаются с помощью нажатия клавиш, SA-NCD может компилировать и разбивать символы на составляющие их предполагаемые слова, очищая ввод в реальном времени.

Сетевая архитектура SA-NCD, где Q/K/V означают запрос, ключ и значение самоконтроля. Источник: https://arxiv.org/pdf/2108.09030.pdf

Сетевая архитектура SA-NCD, где Q/K/V означают запрос, ключ и значение самоконтроля. Источник: https://arxiv.org/pdf/2108.09030.pdf

SA-NCD не ожидает завершения возможного предложения, так как он понятия не имеет, когда закончится введенное предложение, и по мере добавления слова или слов к фразе он может повторно посетить и переписать более ранние интерпретации из предложение в свете последнего ввода.

База данных

Чтобы подстегнуть процесс обучения, исследователи собрали около двух миллионов пар точек касания и текст от испытуемых, которые использовали простой веб-интерфейс, доступ к которому осуществлялся с мобильных устройств с сенсорным экраном.

Набор данных содержит инициалы имени пользователя, размер экрана его устройства, его возраст, тип используемого мобильного устройства (например, планшет, смартфон и т. д.), а также значения координат x и y для каждого зарегистрированного ключа.

Средние позиции ключей среди пользователей, где точки одинакового цвета обозначают нажатия клавиш от одних и тех же пользователей. Выявление данных об одних и тех же пользователях помогает оптимизировать набор данных и избежать переобучения путем сравнения средних групп ключей от отдельных пользователей, а не обучения нажатий клавиш одного пользователя друг другу.

Средние позиции ключей среди пользователей, где точки одинакового цвета обозначают нажатия клавиш от одних и тех же пользователей. Выявление данных об одних и тех же пользователях помогает оптимизировать набор данных и избежать переобучения путем сравнения средних групп ключей от отдельных пользователей, а не обучения нажатий клавиш одного пользователя друг другу.

Обучение должно было учитывать заметные различия в среднем расстоянии между пикселями между штрихами среди пользователей. Некоторые пользователи, возможно, привыкшие к очень тесным программным клавиатурам, поддерживали среднее расстояние между клавишами всего в 50 пикселей по оси Z, в то время как другие в среднем составляли 300 пикселей.

Эти различия имеют решающее значение, поскольку в случае оси Y ошибка приведет к тому, что клавиша будет помещена в неправильную строку, заменив, например, «I» или «M» на предполагаемый штрих «K».

Архитектура и обучение

SA-NCD состоит из двух модулей декодера: геометрический декодер, который вычисляет, где на невидимой клавиатуре должно было попасть нажатие клавиши; и семантический декодер, который обрабатывает интерпретацию входного текста в реальном времени.

Геометрический декодер использует двунаправленный GRU (БиГРУ), где GRU принят как рекуррентная нейронная сеть (RNN) с прямыми и обратными проходами, облегчающими постоянно меняющуюся интерпретацию предложения.

Семантическая составляющая использует трансформатор архитектура, которая интерпретирует входные данные после того, как они прошли через процесс «маскирования достоверности», предназначенный для сравнения среднего использования с новым конкретным набором ключей. Семантический декодер был обучен как маскированная модель символьного языка против Тест на один миллиард слов, результат сотрудничества Google, Кембриджского университета и Эдинбургского университета в 2014 году.

Итоги

В ходе тестов пользователи могли печатать на 157.5% быстрее с помощью IMK, чем с помощью сторонних программных клавиатур на своих смартфонах. Кроме того, было обнаружено, что IMK превзошел результаты, полученные конкурирующими новыми методами, такими как методы ввода текста на основе жестов, касаний и ввода текста десятью пальцами последних лет. В документе сообщается, что пользователи продемонстрировали высокую степень удовлетворенности системой.

Посмотрите видео авторов ниже, чтобы узнать больше об IMK.

[IJCAI 2021] Печатайте где угодно: введение в невидимую мобильную клавиатуру (объяснение)