Umělá inteligence

Neviditelná mobilní klávesnice řízená umělou inteligencí, která vám umožní psát o 157 % rychleji

aktualizováno on 9. prosince 2022

Výzkumníci z Jižní Koreje použili techniky strojového učení k vývoji „neviditelné“ klávesnice pro prostorově omezená mobilní zařízení, která uživatelům umožňuje psát o 157.5 % rychleji, i když na obrazovce není vidět žádná klávesnice.

Odpověď uživatele na Novou metodu – nazývaná jednoduše Invisible Mobile Keyboard (IMK) – je hlášena jako velmi pozitivní, přičemž testovací uživatelé hlásí nízkou úroveň fyzické, duševní a časové náročnosti při používání klávesnice. Pokud jde o efektivitu, IMK lehce převyšuje nejnovější nejmodernější alternativní metodu zadávání a dosahuje předvojového skóre 51.6 slov za minutu.

Klávesnice Phantom

Chcete-li začít generovat vstup, mohou uživatelé jednoduše začít psát na obrazovce, jako by byla viditelná klávesnice (ačkoli žádná není). Nic se neobjeví, co by bránilo zobrazení obsahu, a zadaná slova se objeví v každém receptivním textovém poli, kde psaní pochází, a volitelně jako tenký proud textu, jehož přesnost může uživatel zkontrolovat.

Systém se automaticky kalibruje od okamžiku, kdy rozpozná vstup. Uživatel tedy může mít mobilní zařízení v režimu na šířku nebo na výšku a využít celý dostupný prostor na obrazovce k psaní textu.

V doprovodném videu (viz konec článku a obrázek přímo níže) autoři článku ilustrují, jak akce funguje, i když objasňují, že během zadávání se neobjevuje žádná skutečná klávesnice (ve videu je pouze ilustrativní):

Toto je příklad IMK ve fázi sběru dat, i když při konečném použití funguje identicky. Klávesnice, která se objeví, slouží pouze pro ilustrativní účely a uživateli se nezobrazuje ani během procesu sběru dat, ani při konečném použití rozhraní.. Zdroj: https://www.youtube.com/watch?v=PuhiVGOfIR0

Psaní jako souřadnicový systém

Výzkum pochází z Korejského pokročilého institutu vědy a technologie (KAIST) a využívá naši přirozenou schopnost „vykreslit“, kde je další klávesa na klávesnici. Ačkoli se může zdát neintuitivní skrýt klávesnici a očekávat, že prst uživatele najde další požadovanou klávesu, ve skutečnosti i průměrný písař instinktivně zamíří ke správnému znaku.

IMK efektivně zachází s klávesnicí jako s grafickou maticí a autoři sestavili rozsáhlou databázi uživatelských vstupů, aby poskytli data pro systémový dekodér sebepozorných neuronových znaků (SA-NCD), s nimiž lze trénovat.

SA-NCD si zaznamená pozici 'klíčového pádu' a vypočítá pravděpodobnost, který klíč byl požadován. Jak slova narůstají pomocí stisků kláves, SA-NCD dokáže sestavit a rozdělit znaky do jejich zamýšlených slov, čímž vyčistí vstup na živém základě.

Síťová architektura SA-NCD, kde Q/K/V znamená dotaz, klíč a hodnotu vlastní pozornosti. Zdroj: https://arxiv.org/pdf/2108.09030.pdf

SA-NCD nečeká na dokončení případné věty, protože nemá tušení, kdy skončí zadávání věty, a jakmile se do fráze přidá slovo nebo slova, může znovu navštívit a přepsat dřívější interpretace z věta ve světle nejnovějšího vstupu.

Databáze

Aby výzkumníci podpořili tréninkový proces, shromáždili kolem dvou milionů párů dotykových bodů a textu od testovaných subjektů, kteří používali jednoduché webové rozhraní přístupné z mobilních zařízení s dotykovým ovládáním.

Datový soubor obsahuje iniciály jména uživatele, velikost obrazovky jeho zařízení, jeho věk, typ použitého mobilního zařízení (tj. tablet, smartphone atd.) a hodnoty souřadnic x a y každého registrovaného keyfallu.

Průměrné pozice keyfallů mezi uživateli, přičemž tečky stejné barvy označují keyfally od stejných uživatelů. Identifikace dat stejného uživatele pomáhá optimalizovat datovou sadu a vyhnout se přeplnění tím, že porovnává průměrné seskupení klíčových slov od jednotlivých uživatelů, místo aby trénoval úhozy jednoho uživatele proti sobě.

Trénink musel zohlednit výrazné rozdíly v průměrné vzdálenosti pixelů mezi tahy mezi uživateli. Někteří uživatelé, možná ti, kteří jsou zvyklí na velmi stísněné softwarové klávesnice, udržovali průměrnou vzdálenost mezi klávesami pouze 50 pixelů na ose z, zatímco jiní měli průměr 300 pixelů.

Tyto rozdíly jsou kritické, protože v případě osy Y by chyba umístila keyfall na nesprávný řádek a nahradila by například „I“ nebo „M“ za zamýšlený zdvih „K“.

Architektura a školení

SA-NCD se skládá ze dvou modulů dekodéru: geometrického dekodéru, který vypočítává, kam na neviditelné klávesnici měl dopadnout stisk klávesy; a sémantický dekodér, který se stará o živou interpretaci vstupního textu.

Geometrický dekodér používá obousměrný GRU (BiGRU), přičemž GRU byla přijata jako rekurentní neuronová síť (RNN), s dopřednými a zpětnými průchody usnadňujícími neustále se měnící interpretaci věty.

Sémantická složka používá a transformátor architektura, která interpretuje vstup poté, co prošel procesem „maskování důvěry“ navrženým tak, aby porovnal průměrné využití s novým specifickým keyfall. Sémantický dekodér byl vycvičen jako maskovaný znakový jazykový model proti Benchmark jedné miliardy slov, spolupráce mezi Googlem, Cambridge University a University of Edinburgh z roku 2014.

výsledky

V testech byli uživatelé schopni psát o 157.5 % rychleji pomocí IMK než se softwarovými klávesnicemi třetích stran na jejich vlastních chytrých telefonech. Dále bylo zjištěno, že IMK překonala výsledky získané konkurenčními novými metodami, jako jsou metody zadávání textu založené na gestech, dotykech a desetiprstovém zadávání textu z posledních let. List uvádí, že uživatelé prokázali vysokou spokojenost se systémem.

Podívejte se na video autorů níže, abyste se o IMK dozvěděli více.

[IJCAI 2021] Pište kdekoli chcete: Úvod do neviditelné mobilní klávesnice (vysvětleno)