人工智能
AI耳机允许您在人群中聆听单个人的声音

在拥挤、嘈杂的环境中,您是否曾经希望能够过滤掉所有的背景噪音,只专注于您试图聆听的人?虽然降噪耳机在创建听觉空白方面取得了巨大的进步,但它们仍然难以允许特定的声音从佩戴者的周围过滤出来。但是,如果您的耳机可以被训练来捕捉和放大单个人的声音,即使您在一个充满其他对话的房间中移动呢?
目标语音听觉(TSH),由华盛顿大学的研究人员开发的开创性AI系统,在这一领域取得了进展。
目标语音听觉的工作原理
要使用TSH,佩戴特殊设备的耳机的人只需看目标说话人几秒钟。这段简短的“注册”时间允许AI系统学习和捕捉目标说话人的独特语音模式。
以下是其工作原理:
- 用户在3-5秒内点击按钮并将头部朝向目标说话人。
- 耳机两侧的麦克风同时捕捉说话人的声音(具有16度的误差范围)。
- 耳机将此音频信号传输到嵌入式计算机。
- 机器学习软件分析语音并创建目标说话人的独特语音特征模型。
- AI系统使用此模型实时隔离和放大注册说话人的声音,即使用户在嘈杂的环境中移动。
目标说话人说话的时间越长,系统接收的训练数据就越多,从而更好地专注于和清晰目标声音。这一“选择性听觉”的创新方法为改善通信和在具有挑战性的听觉环境中的可访问性开辟了新的可能性。
Shyam Gollakota是论文的首席作者,也是华盛顿大学保罗·G·艾伦计算机科学与工程学院的教授
“我们现在倾向于认为AI是基于Web的聊天机器人,回答问题。但在这个项目中,我们开发AI来修改任何佩戴耳机的人的听觉感知,根据他们的偏好。有了我们的设备,您现在可以在嘈杂的环境中清晰地听到单个说话人的声音,即使有很多其他人在说话。” – Gollakota
使用TSH测试AI耳机
为了测试目标语音听觉,研究团队进行了一项研究,共有21名参与者。每位参与者佩戴了TSH启用的耳机,并在嘈杂的环境中注册了目标说话人。结果令人印象深刻 – 参与者平均评分注册说话人的声音清晰度几乎是未过滤音频信号的两倍。
这一突破建立在团队之前关于“语义听觉”的工作基础上,允许用户根据预定义的音频分类(如鸟鸣或人类声音)过滤他们的听觉环境。TSH进一步发展了这一概念,实现了特定个人的声音的选择性放大。
其影响是重大的,从增强大声环境中的个人对话到改善听力障碍人群的可访问性。随着技术的发展,它可能从根本上改变我们体验和与听觉世界互动的方式。
改进AI耳机和克服局限性
虽然目标语音听觉代表了听觉AI的一个重大飞跃,但该系统在其当前形式中有一些局限性:
- 单个说话人注册: 目前,TSH只能被训练来专注于一个说话人。同时注册多个说话人尚不可行。
- 来自类似音频源的干扰: 如果在注册过程中,目标说话人的方向上有其他响亮的声音,系统可能难以隔离所需个人的语音模式。
- 手动重新注册: 如果用户对初始训练后的音频质量不满意,他们必须手动重新注册目标说话人以提高清晰度。
尽管存在这些限制,华盛顿大学团队正在积极地改进和扩展TSH的能力。他们的主要目标之一是将技术进行微型化,以便将其无缝地集成到消费品中,如耳塞和助听器。
随着研究人员不断推动听觉AI的边界,其潜在应用是巨大的,从增强分散注意力的办公环境中的生产力到为第一响应者和军事人员在高风险情况下提供更清晰的通信。选择性听觉的未来看起来很光明,目标语音听觉有望在塑造这一未来中发挥关键作用。












