EchoSpeech：通过无声语音识别技术彻底改变通信

发布时间 2023 年 4 月 19 日

亚历克斯麦克法兰

图片来源：张瑞东/康奈尔大学

康奈尔大学的研究人员开发了 EchoSpeech，这是一种无声语音识别界面，采用声学传感和人工智能，可根据嘴唇和嘴巴的动作连续识别多达 31 个无声命令。这种低功耗、可穿戴接口可以在智能手机上操作，并且只需要几分钟的用户训练数据即可进行命令识别。

信息科学博士生张瑞东是《EchoSpeech：由声学传感驱动的最小干扰眼镜上的连续无声语音识别”，该论文将于本月在德国汉堡举行的计算机协会计算机系统人为因素会议 (CHI) 上发表。

“对于无法发声的人来说，这项无声语音技术可以成为语音合成器的绝佳输入。它可以让病人重拾声音。”张教授说道，并强调了这项技术未来发展的潜在应用。

实际应用和隐私优势

以目前的形式，EchoSpeech 可用于在语音不方便或不合适的环境中通过智能手机与他人进行交流，例如嘈杂的餐厅或安静的图书馆。无声语音界面还可以与手写笔搭配使用，并与 CAD 等设计软件一起使用，从而显着减少对键盘和鼠标的需求。

EchoSpeech 眼镜配备了比铅笔橡皮擦还小的麦克风和扬声器，可作为可穿戴式人工智能声纳系统，在面部发送和接收声波并检测嘴部运动。然后，深度学习算法实时分析这些回波轮廓，准确度约为 95%。

“我们正在将声纳转移到尸体上，”信息科学助理教授、康奈尔大学未来交互智能计算机接口 (SciFi) 实验室主任张程说。

现有的无声语音识别技术通常依赖于一组有限的预定命令，并且需要用户面对或佩戴相机。张成解释说，这既不实际也不可行，而且还给用户及其互动者带来了严重的隐私问题。

EchoSpeech 的声学传感技术无需佩戴可穿戴摄像机。此外，信息科学教授 François Guimbretière 表示，由于音频数据比图像或视频数据小，因此所需的处理带宽更少，并且可以通过蓝牙实时传输到智能手机。

“而且由于数据是在智能手机上本地处理的，而不是上传到云端，”他说，“隐私敏感信息永远不会离开你的控制。”