Umelá inteligencia
EchoSpeech: Revolučná komunikácia s technológiou rozpoznávania tichej reči
Výskumníci z Cornell University vyvinuli EchoSpeech, rozhranie na rozpoznávanie tichej reči, ktoré využíva akustické snímanie a umelú inteligenciu na nepretržité rozpoznávanie až 31 nevokalizovaných príkazov na základe pohybov pier a úst. Toto nositeľné rozhranie s nízkou spotrebou energie možno ovládať na smartfóne a vyžaduje len niekoľko minút tréningových údajov používateľa na rozpoznanie príkazov.
Ruidong Zhang, doktorand informačnej vedy, je hlavným autorom knihy „EchoSpeech: Nepretržité rozpoznávanie tichej reči na minimálne rušivých okuliaroch poháňané akustickým snímaním“, ktorá bude prezentovaná na konferencii Asociácie pre počítačové stroje o ľudských faktoroch v počítačových systémoch (CHI) tento mesiac v Hamburgu v Nemecku.
„Pre ľudí, ktorí nedokážu vokalizovať zvuk, môže byť táto technológia tichej reči vynikajúcim vstupom pre hlasový syntetizátor. Pacientom by to mohlo vrátiť ich hlas,“ povedal Zhang a zdôraznil potenciálne aplikácie technológie s ďalším vývojom.
Aplikácie v reálnom svete a výhody ochrany osobných údajov
Vo svojej súčasnej podobe by sa EchoSpeech mohol použiť na komunikáciu s ostatnými prostredníctvom smartfónu v prostrediach, kde je reč nepohodlná alebo nevhodná, ako sú hlučné reštaurácie alebo tiché knižnice. Rozhranie tichej reči je možné spárovať aj s dotykovým perom a používať s návrhárskym softvérom, ako je CAD, čím sa výrazne znižuje potreba klávesnice a myši.
Okuliare EchoSpeech, vybavené mikrofónmi a reproduktormi menšími ako gumy na ceruzky, fungujú ako nositeľný sonarový systém poháňaný umelou inteligenciou, ktorý vysiela a prijíma zvukové vlny cez tvár a deteguje pohyby úst. Algoritmus hlbokého učenia potom analyzuje tieto profily ozveny v reálnom čase s presnosťou približne 95 %.
"Presúvame sonar do tela," povedal Cheng Zhang, odborný asistent informačnej vedy a riaditeľ Cornell's Smart Computer Interfaces for Future Interactions (SciFi) Lab.
Existujúca technológia rozpoznávania tichej reči sa zvyčajne spolieha na obmedzený súbor vopred určených príkazov a vyžaduje, aby používateľ stál pred kamerou alebo ju nosil. Cheng Zhang vysvetlil, že to nie je ani praktické, ani uskutočniteľné a tiež to vyvoláva značné obavy o súkromie pre používateľa aj pre tých, s ktorými komunikujú.
Technológia akustického snímania EchoSpeech eliminuje potrebu nositeľných videokamier. Navyše, keďže audio dáta sú menšie ako obrazové alebo video dáta, vyžadujú si menšiu šírku pásma na spracovanie a môžu byť prenášané do smartfónu cez Bluetooth v reálnom čase, tvrdí François Guimbretière, profesor informačnej vedy.
„A keďže sa údaje spracúvajú lokálne na vašom smartfóne namiesto nahrávania do cloudu,“ povedal, „informácie citlivé na súkromie nikdy neopustia vašu kontrolu.“