关注我们.

人工智能

AI耳机让你在人群中聆听一个人的声音

发布时间

 on

在拥挤、嘈杂的环境中,您是否曾希望能够排除所有背景谈话,只专注于您想听的人?尽管降噪耳机在创造听觉空白方面取得了巨大进步,但它们仍然难以让佩戴者周围环境中的特定声音透过。但是,如果你的耳机可以被训练来拾取并放大单个人的声音,即使你在充满其他谈话的房间里走来走去,又会怎样呢?

目标言语听力 (TSH)华盛顿大学研究人员开发的突破性人工智能系统正在该领域取得进展。

目标言语听力如何运作

要使用 TSH,佩戴特制耳机的人只需注视他们想要听到的人几秒钟。这个短暂的“注册”期使人工智能系统能够学习并锁定目标说话者独特的声音模式。

下面是它的工作原理:

  1. 用户点击按钮,同时将头朝向所需的扬声器 3-5 秒。
  2. 耳机两侧的麦克风同时拾取说话者声音中的声波(误差范围为 16 度)。
  3. 耳机将此音频信号传输到板载嵌入式计算机。
  4. 机器学习软件分析声音并创建说话者独特声音特征的模型。
  5. 人工智能系统使用该模型来实时隔离和放大已登记说话者的声音,即使用户在嘈杂的环境中走动也是如此。

目标说话者说话的时间越长,系统接收到的训练数据就越多,从而能够更好地专注于并清晰地表达所需的声音。这种“选择性听力”的创新方法为在具有挑战性的听觉环境中改善沟通和无障碍打开了一个充满可能性的世界。

Shyam Gollakota 是该论文的资深作者,也是华盛顿大学保罗·G·艾伦计算机科学与工程学院的教授

“我们现在倾向于将人工智能视为回答问题的基于网络的聊天机器人。但在这个项目中,我们开发人工智能来根据佩戴耳机的人的喜好来修改他们的听觉感知。有了我们的设备,即使您处于有很多其他人说话的嘈杂环境中,您现在也可以清楚地听到单个扬声器的声音。” – 戈拉科塔

AI 耳机可过滤噪音,让您在人群中听到一个声音

使用 TSH 测试 AI 耳机

为了验证目标言语听力的效果,研究小组对 21 名参与者进行了一项研究。每个受试者都佩戴支持 TSH 的耳机,并在嘈杂的环境中注册目标说话者。结果令人印象深刻 - 平均而言,用户对注册说话者声音清晰度的评价几乎是未经过滤的音频输入的两倍。

这一突破建立在团队的 以前的工作 关于“语义听力”,它允许用户根据预定义的声音分类(例如鸟鸣声或人声)过滤他们的听觉环境。 TSH 通过选择性放大特定个人的声音,将这一概念更进一步。

从增强吵闹环境中的个人对话到改善听力障碍人士的无障碍环境,其意义重大。随着技术的发展,它可能会从根本上改变我们体验听觉世界以及与听觉世界互动的方式。

改进人工智能耳机并克服局限性

虽然目标语音听力代表了听觉人工智能的重大飞跃,但该系统当前的形式确实存在一些局限性:

  • 单人报名: 截至目前,TSH 只能被训练为一次专注于一位说话者。同时注册多个发言者尚不可能。
  • 来自类似音频源的干扰: 如果在注册过程中另一个响亮的声音来自与目标说话者相同的方向,系统可能很难隔离所需个人的声音模式。
  • 手动重新注册: 如果用户在初次训练后对音频质量不满意,则必须手动重新注册目标说话人以提高清晰度。

尽管存在这些限制,华盛顿大学团队仍在积极致力于完善和扩展 TSH 的功能。他们的主要目标之一是使该技术小型化,使其能够无缝集成到耳塞和助听器等消费产品中。

随着研究人员不断突破听觉人工智能的可能性界限,其潜在的应用是巨大的,从提高分散注意力的办公环境中的生产力,到在高风险情况下促进急救人员和军事人员更清晰的沟通。选择性听力的未来看起来很光明,而目标语音听力将在塑造它的过程中发挥关键作用。

Alex McFarland 是一位人工智能记者和作家,致力于探索人工智能的最新发展。他与全球众多人工智能初创公司和出版物合作。