关注我们.

人工智能

人工智能如何解决“鸡尾酒会问题”及其对未来音频技术的影响

mm

想象一下,在一个拥挤的活动中,周围都是声音和背景噪音,但你却能集中精力与面前的人交谈。这种在嘈杂的背景中隔离特定声音的能力被称为 鸡尾酒会问题,这个术语由英国科学家 Colin Cherry 于 1958 年首次提出,用来描述人类大脑的这种非凡能力。几十年来,人工智能专家一直在努力用机器模仿人类的这种能力,但这仍然是一项艰巨的任务。然而,人工智能的最新进展正在开辟新天地,为这一问题提供了有效的解决方案。这为音频技术的变革性转变奠定了基础。在本文中,我们将探讨人工智能如何在解决鸡尾酒会问题方面取得进展,以及它对未来音频技术的潜力。在深入研究人工智能如何解决这个问题之前,我们必须首先了解人类是如何解决这个问题的。

人类如何破解鸡尾酒会难题

人类拥有独特的听觉系统,可以帮助我们在嘈杂的环境中辨别方向。我们的大脑以双耳方式处理声音,这意味着我们使用双耳的输入来检测时间和音量的细微差异,从而帮助我们检测声音的位置。这种能力使我们能够专注于我们想听到的声音,即使其他声音也在争夺我们的注意力。

除了听觉之外,我们的认知能力也进一步增强了这一过程。选择性注意力可以帮助我们过滤掉不相关的声音,让我们专注于重要信息。同时,语境、记忆和视觉线索(如唇读)有助于将语音与背景噪音区分开来。这种复杂的感官和认知处理系统非常高效,但将其复制到机器智能中仍然令人望而生畏。

为何人工智能依然面临挑战?

从在繁忙的咖啡馆识别我们命令的虚拟助手到帮助用户专注于单个对话的助听器,人工智能研究人员一直在努力复制人类大脑解决鸡尾酒会问题的能力。这一探索导致了以下技术的开发: 盲源分离(BSS)独立成分分析(ICA)旨在识别和隔离不同的声源,以便进行单独处理。虽然这些方法在受控环境中显示出良好的前景——声源可预测且频率没有明显重叠——但它们在区分重叠的声音或实时隔离单个声源时却很吃力,尤其是在动态和不可预测的环境中。这主要是因为缺乏人类自然利用的感官和情境深度。如果没有视觉信号或对特定音调的熟悉等额外提示,人工智能在管理日常环境中遇到的复杂、混乱的声音混合方面面临挑战。

WaveSciences 如何利用 AI 解决问题

2019年, 波浪科学是一家总部位于美国的公司,由电气工程师 Keith McElveen 于 2009 年创立, 突破 解决鸡尾酒会问题。他们的解决方案是空间掩蔽释放 (SRM),利用人工智能和声音传播的物理原理,将说话者的声音与背景噪音隔离开来。由于人类听觉系统会处理来自不同方向的声音,SRM 利用多个麦克风捕捉声波在空间中的传播。

这一过程中的一个关键挑战是声波在环境中不断反弹和混合,因此很难从数学上分离出特定的声音。然而,WaveSciences 利用人工智能开发了一种方法,可以精确定位每个声音的来源,并根据其空间位置过滤掉背景噪音和环境声音。这种适应性使 SRM 能够实时处理变化,例如移动的扬声器或引入新的声音,这使得它比以前那些难以应对真实世界音频设置的不可预测性的方法更有效。这一进步不仅增强了在嘈杂环境中专注于对话的能力,还为音频技术的未来创新铺平了道路。

人工智能技术的进步

人工智能的最新进展,特别是在 深度神经网络显著提升了机器解决鸡尾酒会问题的能力。深度学习算法基于大量混合音频信号数据集进行训练,即使在重叠语音场景下,也能出色地识别和分离不同的声源。类似这样的项目 生物CPP网络 通过分离动物发声,成功证明了这些方法的有效性,表明它们在人类语音之外的各种生物环境中都适用。研究人员已经证明,深度学习技术可以将在音乐环境中学到的语音分离应用到新情况下,从而增强模型在不同环境中的稳健性。

神经波束形成 通过使用多个麦克风来集中来自特定方向的声音,同时最大限度地减少背景噪音,进一步增强了这些功能。该技术通过根据音频环境动态调整焦点来改进。此外,AI模型还采用 时频掩蔽 通过独特的频谱和时间特性来区分音频源。高级 说话人分类 系统可以隔离声音并跟踪单个说话者,从而促进有组织的对话。人工智能可以通过结合视觉线索(例如嘴唇运动)和音频数据来更准确地隔离和增强特定声音。

鸡尾酒会问题的实际应用

这些发展为音频技术的进步开辟了新的途径。一些实际应用包括:

  • 取证分析: 根据一个 BBC报告语音识别和处理 (SRM) 技术已在法庭上用于分析音频证据,特别是在背景噪音使说话者及其对话的识别变得困难的情况下。通常,在这种情况下,录音无法用作证据。然而,SRM 在法医环境中已被证明是无价之宝,成功解码了关键音频以供法庭出示。
  • 降噪耳机: 研究人员开发了一个名为 目标言语听力 一款降噪耳机,允许用户选择特定人的声音,使其保持清晰可听,同时消除其他声音。该系统采用基于鸡尾酒会问题的技术,能够在计算能力有限的耳机上高效运行。目前,该系统仍处于概念验证阶段,但其开发者正在与耳机品牌洽谈,以期将该技术融入耳机。
  • 助听器: 现代助听器在嘈杂的环境中经常出现问题,无法将特定的声音与背景声音隔离开来。虽然这些设备可以放大声音,但它们缺乏先进的过滤机制,无法使人耳在众多噪音中专注于单个对话。这种限制在拥挤或动态环境中尤其具有挑战性,因为这些环境中存在重叠的声音和波动的噪音水平。鸡尾酒会问题的解决方案可以通过隔离所需声音同时最大限度地减少周围噪音来增强助听器的效果。
  • 电信: 在电信领域,人工智能可以通过滤除背景噪音并强调说话者的声音来提升通话质量。这使得通信更加清晰可靠,尤其是在繁忙的街道或拥挤的办公室等嘈杂的环境中。
  • 语音助手: 亚马逊的 Alexa 和苹果的 Siri 等人工智能语音助手在嘈杂的环境中更加高效,能够更有效地解决鸡尾酒会上的问题。这些进步使设备能够准确理解并响应用户命令,即使在背景嘈杂的情况下也能正常工作。
  • 音频录制和编辑: 人工智能技术可以协助音频工程师进行后期制作,从录制的材料中分离出各个声源。此功能可使音轨更清晰,编辑更高效。

底线

鸡尾酒会问题是音频处理领域的一大难题,而人工智能技术已取得了显著进展。空间掩蔽释放 (SRM) 和深度学习算法等创新正在重新定义机器在嘈杂环境中隔离和分离声音的方式。这些突破增强了日常体验,例如在拥挤的环境中实现更清晰的对话,以及改进助听器和语音助手的功能。此外,它们还具有为法医分析、电信和音频制作应用带来变革的潜力。随着人工智能的不断发展,其模仿人类听觉能力的能力将推动音频技术取得更大进步,最终重塑我们在日常生活中与声音互动的方式。

Tehseen Zia 博士是伊斯兰堡 COMSATS 大学的终身副教授,拥有奥地利维也纳科技大学的人工智能博士学位。 他专注于人工智能、机器学习、数据科学和计算机视觉,在著名科学期刊上发表论文,做出了重大贡献。 Tehseen 博士还作为首席研究员领导了多个工业项目,并担任人工智能顾问。