AI耳机允许您在人群中聆听单个人的声音

发布于 2024年5月31日

更新于 2026年5月21日

作者

Alex McFarland

在拥挤、嘈杂的环境中，您是否曾经希望能够过滤掉所有的背景噪音，只专注于您试图聆听的人？虽然降噪耳机在创建听觉空白方面取得了巨大的进步，但它们仍然难以允许特定的声音从佩戴者的周围过滤出来。但是，如果您的耳机可以被训练来捕捉和放大单个人的声音，即使您在一个充满其他对话的房间中移动呢？

目标语音听觉（TSH），由华盛顿大学的研究人员开发的开创性AI系统，在这一领域取得了进展。

目标语音听觉的工作原理

要使用TSH，佩戴特殊设备的耳机的人只需看目标说话人几秒钟。这段简短的“注册”时间允许AI系统学习和捕捉目标说话人的独特语音模式。

以下是其工作原理：

目标说话人说话的时间越长，系统接收的训练数据就越多，从而更好地专注于和清晰目标声音。这一“选择性听觉”的创新方法为改善通信和在具有挑战性的听觉环境中的可访问性开辟了新的可能性。

Shyam Gollakota是论文的首席作者，也是华盛顿大学保罗·G·艾伦计算机科学与工程学院的教授

“我们现在倾向于认为AI是基于Web的聊天机器人，回答问题。但在这个项目中，我们开发AI来修改任何佩戴耳机的人的听觉感知，根据他们的偏好。有了我们的设备，您现在可以在嘈杂的环境中清晰地听到单个说话人的声音，即使有很多其他人在说话。” – Gollakota

为了测试目标语音听觉，研究团队进行了一项研究，共有21名参与者。每位参与者佩戴了TSH启用的耳机，并在嘈杂的环境中注册了目标说话人。结果令人印象深刻 – 参与者平均评分注册说话人的声音清晰度几乎是未过滤音频信号的两倍。

这一突破建立在团队之前关于“语义听觉”的工作基础上，允许用户根据预定义的音频分类（如鸟鸣或人类声音）过滤他们的听觉环境。TSH进一步发展了这一概念，实现了特定个人的声音的选择性放大。

其影响是重大的，从增强大声环境中的个人对话到改善听力障碍人群的可访问性。随着技术的发展，它可能从根本上改变我们体验和与听觉世界互动的方式。

虽然目标语音听觉代表了听觉AI的一个重大飞跃，但该系统在其当前形式中有一些局限性：

尽管存在这些限制，华盛顿大学团队正在积极地改进和扩展TSH的能力。他们的主要目标之一是将技术进行微型化，以便将其无缝地集成到消费品中，如耳塞和助听器。

随着研究人员不断推动听觉AI的边界，其潜在应用是巨大的，从增强分散注意力的办公环境中的生产力到为第一响应者和军事人员在高风险情况下提供更清晰的通信。选择性听觉的未来看起来很光明，目标语音听觉有望在塑造这一未来中发挥关键作用。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。