Connect with us

Kecerdasan buatan

Sebuah Keyboard Mobile Tak Kasat Mata yang Digerakkan AI yang Memungkinkan Anda Mengetik 157% Lebih Cepat

mm

Peneliti dari Korea Selatan telah menggunakan teknik pembelajaran mesin untuk mengembangkan ‘keyboard tak kasat mata’ untuk perangkat mobile yang terbatas ruang yang memungkinkan pengguna mengetik 157,5% lebih cepat, meskipun tidak ada keyboard yang tampak di layar.

Respon pengguna terhadap metode baru – yang disebut sederhana Invisible Mobile Keyboard (IMK) – dilaporkan sangat positif, dengan pengguna uji melaporkan tingkat kebutuhan fisik, mental, dan temporal yang rendah saat menggunakan keyboard. Dalam hal efisiensi, IMK sedikit mengungguli metode input alternatif terbaru, dengan skor vanguard sebesar 51,6 kata per menit.

Keyboard Hantu

Untuk memulai menghasilkan input, pengguna dapat langsung mulai mengetik di layar, seolah-olah ada keyboard yang terlihat (meskipun tidak ada). Tidak ada yang muncul untuk menghalangi pandangan konten, dan kata-kata yang diketik akan muncul di kotak teks yang dapat menerima input, dan opsional sebagai aliran teks tipis yang dapat diperiksa untuk akurasi.

Sistem ini melakukan kalibrasi sendiri sejak saat mengenali input. Oleh karena itu, pengguna dapat memiliki perangkat mobile dalam mode lanskap atau potret, dan menggunakan seluruh ruang layar yang tersedia untuk mengetik teks.

Dalam video yang menyertain (lihat akhir artikel, dan gambar langsung di bawah) penulis makalah mengilustrasikan bagaimana aksi itu bekerja, meskipun mereka menjelaskan bahwa tidak ada keyboard yang sebenarnya muncul selama input (hanya ada untuk tujuan ilustratif dalam video):

Ini adalah contoh IMK pada tahap pengumpulan data, meskipun beroperasi identik dalam penggunaan akhir. Keyboard yang muncul hanya untuk tujuan ilustratif, dan tidak muncul kepada pengguna baik selama proses pengumpulan data maupun dalam penggunaan antarmuka akhir.

Ini adalah contoh IMK pada tahap pengumpulan data, meskipun beroperasi identik dalam penggunaan akhir. Keyboard yang muncul hanya untuk tujuan ilustratif, dan tidak muncul kepada pengguna baik selama proses pengumpulan data maupun dalam penggunaan antarmuka akhir. Sumber: https://www.youtube.com/watch?v=PuhiVGOfIR0

Mengetik sebagai Sistem Koordinat

Penelitian ini berasal dari Korea Advanced Institute of Science and Technology (KAIST), dan memanfaatkan kemampuan alami kita untuk ‘memplot’ di mana kunci berikutnya pada keyboard. Meskipun tampaknya bertentangan dengan intuisi untuk menyembunyikan keyboard dan mengharapkan jari pengguna menemukan kunci berikutnya, sebenarnya bahkan pengetik rata-rata secara naluriah menuju karakter yang benar.

Secara efektif IMK memperlakukan keyboard sebagai matriks plot, dan penulis telah mengompilasi database ekstensif input pengguna untuk menyediakan data untuk Self-Attention Neural Character Decoder (SA-NCD) untuk dilatih.

SA-NCD akan mencatat posisi ‘jatuh kunci’ dan menghitung probabilitas kunci mana yang diinginkan. Saat kata-kata terbentuk melalui ketukan, SA-NCD dapat mengompilasi dan memecah karakter menjadi kata-kata yang dimaksud, membersihkan input secara langsung.

Arsitektur jaringan SA-NCD, di mana Q/K/V berdiri untuk query, kunci, dan nilai perhatian diri. Sumber: https://arxiv.org/pdf/2108.09030.pdf

Arsitektur jaringan SA-NCD, di mana Q/K/V berdiri untuk query, kunci, dan nilai perhatian diri. Sumber: https://arxiv.org/pdf/2108.09030.pdf

SA-NCD tidak menunggu selesainya kalimat yang mungkin, karena tidak tahu kapan input kalimat akan berakhir, dan saat kata atau kata-kata ditambahkan ke frasa, dapat mengunjungi dan menulis ulang interpretasi sebelumnya dari kalimat dalam cahaya input terbaru.

Database

Untuk memasok proses pelatihan, peneliti mengumpulkan sekitar dua juta pasang titik sentuh dan teks dari subjek uji, yang menggunakan antarmuka web sederhana yang diakses dari perangkat mobile yang dapat disentuh.

Dataset ini berisi inisial nama pengguna, ukuran layar perangkat, usia, jenis perangkat mobile yang digunakan (misalnya tablet, smartphone, dll.), dan nilai x dan y koordinat dari setiap ‘jatuh kunci’ yang terdaftar.

Posisi rata-rata 'jatuh kunci' di antara pengguna, dengan titik warna yang sama menunjukkan 'jatuh kunci' dari pengguna yang sama. Mengidentifikasi data pengguna yang sama membantu mengoptimalkan dataset dan menghindari overfitting dengan membandingkan kelompok 'jatuh kunci' rata-rata dari pengguna individu, bukan melatih ketukan pengguna terhadap yang lain.

Posisi rata-rata ‘jatuh kunci’ di antara pengguna, dengan titik warna yang sama menunjukkan ‘jatuh kunci’ dari pengguna yang sama. Mengidentifikasi data pengguna yang sama membantu mengoptimalkan dataset dan menghindari overfitting dengan membandingkan kelompok ‘jatuh kunci’ rata-rata dari pengguna individu, bukan melatih ketukan pengguna terhadap yang lain.

Pelatihan harus memperhitungkan variasi yang cukup besar dalam jarak piksel rata-rata antara ketukan di antara pengguna. Beberapa pengguna, mungkin yang terbiasa dengan keyboard perangkat lunak yang sangat terbatas, mempertahankan jarak rata-rata antara kunci sebesar hanya 50 piksel pada sumbu z, sementara yang lain rata-rata 300 piksel.

Perbedaan ini sangat kritis, karena dalam kasus sumbu Y, kesalahan akan menempatkan ‘jatuh kunci’ pada baris yang salah, menggantikan, misalnya, ‘I’ atau ‘M’ untuk ketukan ‘K’ yang diinginkan.

Arsitektur dan Pelatihan

SA-NCD terdiri dari dua modul decoder: decoder geometris, yang menghitung di mana pada keyboard tak kasat mata ketukan dimaksudkan untuk jatuh; dan decoder semantik, yang menangani interpretasi langsung teks input.

Decoder geometris menggunakan Bidirectional GRU (BiGRU), dengan GRU diadopsi sebagai Jaringan Neural Berulang (RNN), dengan lulus maju dan mundur yang memfasilitasi interpretasi kalimat yang terus berubah.

Komponen semantik menggunakan arsitektur Transformer, yang menafsirkan input setelah melewati proses ‘confidence masking’ yang dirancang untuk membandingkan penggunaan rata-rata dengan ‘jatuh kunci’ spesifik baru. Decoder semantik dilatih sebagai model bahasa karakter yang ditutupi terhadap One Billion Word Benchmark, kolaborasi 2014 antara Google, Universitas Cambridge, dan Universitas Edinburgh.

Hasil

Dalam uji, pengguna dapat mengetik 157,5% lebih cepat menggunakan IMK daripada dengan keyboard perangkat lunak pihak ketiga di smartphone mereka. Selain itu, ditemukan bahwa IMK mengungguli hasil yang diperoleh dengan metode baru lainnya, seperti metode entri teks berbasis gerakan, sentuhan, dan sepuluh jari dalam beberapa tahun terakhir. Makalah tersebut melaporkan bahwa pengguna menunjukkan kepuasan yang tinggi dengan sistem.

Lihat video penulis di bawah untuk mengetahui lebih lanjut tentang IMK.

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.