sơ khai Bàn phím di động vô hình điều khiển bằng AI cho phép bạn gõ nhanh hơn 157% - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Bàn phím di động vô hình được điều khiển bởi AI cho phép bạn gõ nhanh hơn 157%

mm
cập nhật on

Các nhà nghiên cứu từ Hàn Quốc đã sử dụng kỹ thuật học máy để phát triển bàn phím 'vô hình' cho các thiết bị di động bị giới hạn về không gian, cho phép người dùng gõ nhanh hơn 157.5%, mặc dù không có bàn phím nào hiển thị rõ ràng trên màn hình.

Phản hồi của người dùng đối với Phương pháp mới – được gọi đơn giản là Bàn phím Di động Vô hình (IMK) – được báo cáo là rất tích cực, với những người dùng thử nghiệm cho biết nhu cầu về thể chất, tinh thần và thời gian ở mức thấp khi sử dụng bàn phím. Về mặt hiệu quả, IMK vượt xa phương thức nhập liệu thay thế hiện đại nhất hiện nay, tăng lên điểm số tiên phong là 51.6 từ mỗi phút.

Bàn phím ảo

Để bắt đầu tạo đầu vào, người dùng có thể chỉ cần bắt đầu nhập trên màn hình, như thể có thể nhìn thấy bàn phím (mặc dù không có bàn phím nào). Không có gì bật lên để cản trở chế độ xem nội dung và các từ đã nhập sẽ xuất hiện trong bất kỳ hộp văn bản dễ tiếp thu nào bắt nguồn từ quá trình nhập và tùy chọn dưới dạng một dòng văn bản mỏng mà người dùng có thể kiểm tra độ chính xác.

Hệ thống tự hiệu chỉnh từ thời điểm nhận dạng đầu vào. Do đó, người dùng có thể đặt thiết bị di động ở chế độ ngang hoặc dọc và sử dụng toàn bộ không gian màn hình có sẵn để nhập văn bản của họ.

Trong một video đi kèm (xem phần cuối bài viết và hình ảnh ngay bên dưới), các tác giả của bài báo minh họa cách thức hoạt động của hành động này, mặc dù họ làm rõ rằng không có bàn phím thực tế nào xuất hiện trong quá trình nhập liệu (nó chỉ ở đó nhằm mục đích minh họa trong video):

Đây là một ví dụ về IMK ở giai đoạn thu thập dữ liệu, mặc dù nó hoạt động giống hệt nhau ở mục đích sử dụng cuối cùng. Bàn phím xuất hiện chỉ nhằm mục đích minh họa và không xuất hiện cho người dùng trong quá trình thu thập dữ liệu hoặc trong lần sử dụng cuối cùng của giao diện. Nguồn: https://www.youtube.com/watch?v=PuhiVGOfIR0

Đây là một ví dụ về IMK ở giai đoạn thu thập dữ liệu, mặc dù nó hoạt động giống hệt nhau ở mục đích sử dụng cuối cùng. Bàn phím xuất hiện chỉ nhằm mục đích minh họa và không xuất hiện cho người dùng trong quá trình thu thập dữ liệu hoặc trong lần sử dụng cuối cùng của giao diện. Nguồn: https://www.youtube.com/watch?v=PuhiVGOfIR0

Nhập dưới dạng Hệ tọa độ

Nghiên cứu bắt nguồn từ Viện Khoa học và Công nghệ Tiên tiến Hàn Quốc (KAIST) và khai thác khả năng tự nhiên của chúng ta để 'vẽ' vị trí của phím tiếp theo trên bàn phím. Mặc dù việc ẩn bàn phím và mong muốn ngón tay của người dùng tìm thấy phím mong muốn tiếp theo có vẻ phản trực giác, nhưng trên thực tế, ngay cả một người đánh máy bình thường cũng tìm đúng ký tự theo bản năng.

IMK coi bàn phím như một ma trận cốt truyện một cách hiệu quả và các tác giả đã biên soạn một cơ sở dữ liệu mở rộng về đầu vào của người dùng để cung cấp dữ liệu cho Bộ giải mã ký tự thần kinh tự chú ý (SA-NCD) của hệ thống để huấn luyện chống lại.

SA-NCD sẽ lưu ý vị trí của 'key-fall' và tính toán xác suất của key nào được mong muốn. Khi các từ được tạo ra thông qua các lần gõ phím, SA-NCD có thể biên dịch và chia nhỏ các ký tự thành các từ dự định cấu thành của chúng, làm sạch đầu vào trên cơ sở trực tiếp.

Kiến trúc mạng của SA-NCD, trong đó Q/K/V là viết tắt của truy vấn, khóa và giá trị của sự tự chú ý. Nguồn: https://arxiv.org/pdf/2108.09030.pdf

Kiến trúc mạng của SA-NCD, trong đó Q/K/V là viết tắt của truy vấn, khóa và giá trị của sự tự chú ý. Nguồn: https://arxiv.org/pdf/2108.09030.pdf

SA-NCD không đợi hoàn thành một câu có thể, vì nó không biết khi nào đầu vào câu sẽ kết thúc và khi một từ hoặc nhiều từ được thêm vào cụm từ, nó có thể truy cập lại và viết lại các diễn giải trước đó từ câu dưới ánh sáng của đầu vào mới nhất.

Cơ sở dữ liệu

Để thúc đẩy quá trình đào tạo, các nhà nghiên cứu đã thu thập khoảng hai triệu cặp điểm tiếp xúc và văn bản từ các đối tượng thử nghiệm, những người đang sử dụng giao diện dựa trên web đơn giản được truy cập từ các thiết bị di động có khả năng cảm ứng.

Tập dữ liệu chứa tên viết tắt của người dùng, kích thước màn hình của thiết bị, tuổi của họ, loại thiết bị di động được sử dụng (ví dụ: máy tính bảng, điện thoại thông minh, v.v.) và các giá trị tọa độ x và y của mỗi lần khai thác khóa đã đăng ký.

Vị trí trung bình của các lần mắc lỗi giữa những người dùng, với các dấu chấm có màu giống hệt nhau biểu thị các lần mắc lỗi từ cùng một người dùng. Việc xác định dữ liệu của cùng một người dùng giúp tối ưu hóa tập dữ liệu và tránh khớp quá mức bằng cách so sánh các nhóm gõ phím trung bình từ những người dùng riêng lẻ, thay vì đào tạo các lần nhấn phím của một người dùng với nhau.

Vị trí trung bình của các lần mắc lỗi giữa những người dùng, với các dấu chấm có màu giống hệt nhau biểu thị các lần mắc lỗi từ cùng một người dùng. Việc xác định dữ liệu của cùng một người dùng giúp tối ưu hóa tập dữ liệu và tránh khớp quá mức bằng cách so sánh các nhóm gõ phím trung bình từ những người dùng riêng lẻ, thay vì đào tạo các lần nhấn phím của một người dùng với nhau.

Quá trình đào tạo phải tính đến các biến thể đáng chú ý về khoảng cách pixel trung bình giữa các nét giữa những người dùng. Một số người dùng, có lẽ là những người đã quen với bàn phím phần mềm rất chật chội, đã duy trì khoảng cách trung bình giữa các phím chỉ là 50 pixel trên trục z, trong khi những người khác là 300 pixel.

Những khác biệt này rất quan trọng, vì trong trường hợp trục Y, một lỗi sẽ đặt phím rơi vào sai hàng, chẳng hạn như thay thế 'I' hoặc 'M' cho hành trình 'K' dự kiến.

Kiến trúc và đào tạo

SA-NCD bao gồm hai mô-đun giải mã: một bộ giải mã hình học, tính toán vị trí trên bàn phím vô hình mà tổ hợp phím dự định rơi xuống; và bộ giải mã ngữ nghĩa xử lý diễn giải trực tiếp văn bản đầu vào.

Bộ giải mã hình học sử dụng GRU hai chiều (BiGRU), với GRU được sử dụng làm Mạng thần kinh tái phát (RNN), với các đường truyền tiến và lùi tạo điều kiện thuận lợi cho việc diễn giải câu thay đổi liên tục.

Thành phần ngữ nghĩa sử dụng một Transformer kiến trúc, diễn giải đầu vào sau khi nó đã trải qua quy trình 'che đậy độ tin cậy' được thiết kế để so sánh mức sử dụng trung bình với lần khai thác khóa cụ thể mới. Bộ giải mã ngữ nghĩa được đào tạo như một mô hình ngôn ngữ ký tự đeo mặt nạ chống lại Điểm chuẩn một tỷ từ, một sự hợp tác năm 2014 giữa Google, Đại học Cambridge và Đại học Edinburgh.

Kết quả

Trong các thử nghiệm, người dùng có thể gõ nhanh hơn 157.5% bằng IMK so với bàn phím phần mềm của bên thứ ba trên điện thoại thông minh của họ. Hơn nữa, người ta thấy rằng IMK đã vượt qua các kết quả thu được bằng các phương pháp mới lạ của đối thủ, chẳng hạn như phương pháp nhập văn bản dựa trên cử chỉ, chạm và mười ngón tay của những năm gần đây. Báo cáo báo cáo rằng người dùng cho thấy sự hài lòng cao với hệ thống.

Xem video của tác giả dưới đây để tìm hiểu thêm về IMK.

[IJCAI 2021] Nhập mọi nơi bạn muốn: Giới thiệu về Bàn phím Di động Vô hình (có giải thích)