存根 EchoSpeech:利用无声语音识别技术彻底改变通信 - Unite.AI
关注我们.

人工智能

EchoSpeech:通过无声语音识别技术彻底改变通信

发布时间

 on

图片来源:张瑞东/康奈尔大学

康奈尔大学的研究人员开发了 EchoSpeech,这是一种无声语音识别界面,采用声学传感和人工智能,可根据嘴唇和嘴巴的动作连续识别多达 31 个无声命令。 这种低功耗、可穿戴接口可以在智能手机上操作,并且只需要几分钟的用户训练数据即可进行命令识别。

信息科学博士生张瑞东是《EchoSpeech:由声学传感驱动的最小干扰眼镜上的连续无声语音识别”,该论文将于本月在德国汉堡举行的计算机协会计算机系统人为因素会议 (CHI) 上发表。

“对于无法发声的人来说,这种无声语音技术可能是语音合成器的绝佳输入。 它可以让患者重新发声,”张说,并强调了该技术进一步发展的潜在应用。

实际应用和隐私优势

以目前的形式,EchoSpeech 可用于在语音不方便或不合适的环境中通过智能手机与他人进行交流,例如嘈杂的餐厅或安静的图书馆。 无声语音界面还可以与手写笔搭配使用,并与 CAD 等设计软件一起使用,从而显着减少对键盘和鼠标的需求。

EchoSpeech 眼镜配备了比铅笔橡皮擦还小的麦克风和扬声器,可作为可穿戴式人工智能声纳系统,在面部发送和接收声波并检测嘴部运动。 然后,深度学习算法实时分析这些回波轮廓,准确度约为 95%。

“我们正在将声纳转移到身体上,”康奈尔大学信息科学助理教授兼未来交互智能计算机接口(科幻)实验室主任张成说。

现有的无声语音识别技术通常依赖于一组有限的预定命令,并且需要用户面对或佩戴相机。 张成解释说,这既不实际也不可行,而且还给用户及其互动者带来了严重的隐私问题。

EchoSpeech 的声学传感技术消除了对可穿戴摄像机的需求。 此外,信息科学教授 François Guimbretière 表示,由于音频数据比图像或视频数据小,因此处理所需的带宽更少,并且可以通过蓝牙实时传输到智能手机。

“而且由于数据是在智能手机上本地处理的,而不是上传到云端,”他说,“隐私敏感信息永远不会离开你的控制。”

Alex McFarland 是一位人工智能记者和作家,致力于探索人工智能的最新发展。他与全球众多人工智能初创公司和出版物合作。