peň EchoSpeech: Revolučná komunikácia s technológiou rozpoznávania tichej reči – Unite.AI
Spojte sa s nami

Umelá inteligencia

EchoSpeech: Revolučná komunikácia s technológiou rozpoznávania tichej reči

uverejnené

 on

Obrázok: UNIVERZITA RUIDONG ZHANG/CORNELL

Výskumníci z Cornell University vyvinuli EchoSpeech, rozhranie na rozpoznávanie tichej reči, ktoré využíva akustické snímanie a umelú inteligenciu na nepretržité rozpoznávanie až 31 nevokalizovaných príkazov na základe pohybov pier a úst. Toto nositeľné rozhranie s nízkou spotrebou energie možno ovládať na smartfóne a vyžaduje len niekoľko minút tréningových údajov používateľa na rozpoznanie príkazov.

Ruidong Zhang, doktorand informačnej vedy, je hlavným autorom knihy „EchoSpeech: Nepretržité rozpoznávanie tichej reči na minimálne rušivých okuliaroch poháňané akustickým snímaním“, ktorá bude prezentovaná na konferencii Asociácie pre počítačové stroje o ľudských faktoroch v počítačových systémoch (CHI) tento mesiac v Hamburgu v Nemecku.

„Pre ľudí, ktorí nedokážu vokalizovať zvuk, môže byť táto technológia tichej reči vynikajúcim vstupom pre hlasový syntetizátor. Pacientom by to mohlo vrátiť ich hlas,“ povedal Zhang a zdôraznil potenciálne aplikácie technológie s ďalším vývojom.

Aplikácie v reálnom svete a výhody ochrany osobných údajov

Vo svojej súčasnej podobe by sa EchoSpeech mohol použiť na komunikáciu s ostatnými prostredníctvom smartfónu v prostrediach, kde je reč nepohodlná alebo nevhodná, ako sú hlučné reštaurácie alebo tiché knižnice. Rozhranie tichej reči je možné spárovať aj s dotykovým perom a používať s návrhárskym softvérom, ako je CAD, čím sa výrazne znižuje potreba klávesnice a myši.

Okuliare EchoSpeech, vybavené mikrofónmi a reproduktormi menšími ako gumy na ceruzky, fungujú ako nositeľný sonarový systém poháňaný umelou inteligenciou, ktorý vysiela a prijíma zvukové vlny cez tvár a deteguje pohyby úst. Algoritmus hlbokého učenia potom analyzuje tieto profily ozveny v reálnom čase s presnosťou približne 95 %.

"Presúvame sonar do tela," povedal Cheng Zhang, odborný asistent informačnej vedy a riaditeľ Cornell's Smart Computer Interfaces for Future Interactions (SciFi) Lab.

Existujúca technológia rozpoznávania tichej reči sa zvyčajne spolieha na obmedzený súbor vopred určených príkazov a vyžaduje, aby používateľ stál pred kamerou alebo ju nosil. Cheng Zhang vysvetlil, že to nie je ani praktické, ani uskutočniteľné a tiež to vyvoláva značné obavy o súkromie pre používateľa aj pre tých, s ktorými komunikujú.

Technológia akustického snímania EchoSpeech eliminuje potrebu nositeľných videokamier. Navyše, keďže audio dáta sú menšie ako obrazové alebo video dáta, vyžadujú si menšiu šírku pásma na spracovanie a môžu byť prenášané do smartfónu cez Bluetooth v reálnom čase, tvrdí François Guimbretière, profesor informačnej vedy.

„A keďže sa údaje spracúvajú lokálne na vašom smartfóne namiesto nahrávania do cloudu,“ povedal, „informácie citlivé na súkromie nikdy neopustia vašu kontrolu.“

Alex McFarland je novinár a spisovateľ AI, ktorý skúma najnovší vývoj v oblasti umelej inteligencie. Spolupracoval s množstvom AI startupov a publikácií po celom svete.