stubs EchoSpeech: revolucionāra komunikācija ar klusās runas atpazīšanas tehnoloģiju — Unite.AI
Savienoties ar mums

Mākslīgais intelekts

EchoSpeech: revolucionāra komunikācija ar klusās runas atpazīšanas tehnoloģiju

Izdots

 on

Attēls: RUDONGAS DŽANGAS/KORNELAS UNIVERSITĀTE

Kornela universitātes pētnieki ir izstrādājuši EchoSpeech — klusas runas atpazīšanas saskarni, kas izmanto akustisko sensoru un mākslīgo intelektu, lai nepārtraukti atpazītu līdz 31 nebalsotai komandai, pamatojoties uz lūpu un mutes kustībām. Šo mazjaudas, valkājamo interfeisu var darbināt viedtālrunī, un komandu atpazīšanai ir nepieciešami tikai daži lietotāja apmācības dati.

Informācijas zinātnes doktorants Ruidongs Džans ir galvenais autorsEchoSpeech: nepārtraukta klusas runas atpazīšana uz minimāli uzbāzīgām brillēm, ko nodrošina akustiskā sensora”, kas tiks prezentēta Datortehnikas asociācijas konferencē par cilvēka faktoriem skaitļošanas sistēmās (CHI) šomēnes Hamburgā, Vācijā.

"Cilvēkiem, kuri nevar vokalizēt skaņu, šī klusās runas tehnoloģija varētu būt lieliska balss sintezatora ievade. Tas varētu atgriezt pacientiem viņu balsis, ”sacīja Džans, uzsverot tehnoloģijas potenciālos pielietojumus ar turpmāku attīstību.

Reālās pasaules lietojumprogrammas un privātuma priekšrocības

Pašreizējā formā EchoSpeech varētu izmantot, lai sazinātos ar citiem, izmantojot viedtālruni vidēs, kur runa ir neērta vai nepiemērota, piemēram, trokšņainos restorānos vai klusās bibliotēkās. Klusās runas saskarni var arī savienot pārī ar irbuli un izmantot ar projektēšanas programmatūru, piemēram, CAD, ievērojami samazinot vajadzību pēc tastatūras un peles.

Aprīkotas ar mikrofoniem un skaļruņiem, kas ir mazāki nekā zīmuļu dzēšgumijas, EchoSpeech brilles darbojas kā valkājama AI darbināma hidrolokācijas sistēma, kas sūta un saņem skaņas viļņus pa seju un nosaka mutes kustības. Pēc tam dziļās mācīšanās algoritms analizē šos atbalss profilus reāllaikā ar aptuveni 95% precizitāti.

"Mēs pārvietojam hidrolokatoru uz ķermeni," sacīja Cheng Zhang, informācijas zinātnes docents un Kornela viedo datoru saskarņu nākotnes mijiedarbības (SciFi) laboratorijas direktors.

Esošā klusās runas atpazīšanas tehnoloģija parasti balstās uz ierobežotu iepriekš noteiktu komandu kopumu, un lietotājam ir jāparedz kamera vai jāvalkā kamera. Čens Džans paskaidroja, ka tas nav ne praktiski, ne iespējams, kā arī rada nopietnas bažas par privātumu gan lietotājam, gan tiem, ar kuriem viņi mijiedarbojas.

EchoSpeech akustiskā sensora tehnoloģija novērš nepieciešamību pēc valkājamām videokamerām. Turklāt, tā kā audio dati ir mazāki nekā attēla vai video dati, to apstrādei ir nepieciešams mazāks joslas platums un tos var pārsūtīt uz viedtālruni, izmantojot Bluetooth, reāllaikā, norāda informācijas zinātnes profesors Fransuā Gimbretjērs.

"Un tā kā dati tiek apstrādāti lokāli jūsu viedtālrunī, nevis augšupielādēti mākonī," viņš teica, "ar privātumu jutīga informācija nekad neatstāj jūsu kontroli."

Alekss Makfārlends ir AI žurnālists un rakstnieks, kurš pēta jaunākos sasniegumus mākslīgā intelekta jomā. Viņš ir sadarbojies ar daudziem AI jaunizveidotiem uzņēmumiem un publikācijām visā pasaulē.