人工智能

人工智能如何解决“鸡尾酒会问题”及其对未来音频技术的影响

mm

想象一下,你在一个拥挤的活动中,周围都是声音和背景噪音,但你仍然能够专注于与你面前的人的对话。这是因为人类的大脑具有隔离特定声音的能力,即使在嘈杂的背景下,这被称为“鸡尾酒会问题”,这个术语最早由英国科学家科林·切里(Colin Cherry)在1958年提出,用于描述人类大脑的这一令人惊叹的能力。人工智能专家们已经努力几十年,试图用机器模拟这一人类能力,但这仍然是一个令人生畏的任务。然而,最近的人工智能进步正在取得突破,提供了有效的解决方案。这为音频技术的转变奠定了基础。在本文中,我们将探讨人工智能如何在解决鸡尾酒会问题方面取得进展,以及它对未来音频技术的潜在影响。在深入探讨人工智能如何解决这个问题之前,我们必须首先了解人类如何解决它。

人类如何解码鸡尾酒会问题

人类具有独特的听觉系统,帮助我们在嘈杂的环境中导航。我们的脑部以双耳方式处理声音,利用两只耳朵的输入来检测时间和音量的细微差异,帮助我们检测声音的位置。这使我们能够在其他声音竞争注意力的情况下,专注于我们想要听的语音。
除了听觉之外,我们的认知能力进一步增强了这一过程。选择性注意力帮助我们过滤掉不相关的声音,使我们能够专注于重要的信息。与此同时,背景、记忆和视觉线索(如唇语)帮助我们将语音与背景噪音分开。这一复杂的感官和认知处理系统非常高效,但将其复制到机器智能中仍然是一个挑战。

为什么人工智能难以解决这个问题

从虚拟助手在繁忙的咖啡馆中识别我们的命令到助听器帮助用户专注于单一对话,人工智能研究人员一直在努力复制人类大脑解决鸡尾酒会问题的能力。这一追求导致了诸如盲源分离(BSS)和独立成分分析(ICA)等技术的发展,这些技术旨在识别和隔离不同的音源以进行个别处理。虽然这些方法在受控环境中显示出希望——其中音源是可预测的,并且在频率上不重叠得太多——但它们在区分重叠的声音或实时隔离单一音源时仍然存在困难,特别是在动态和不可预测的环境中。这主要是因为缺乏人类自然利用的感官和背景深度。没有额外的线索,如视觉信号或对特定音调的熟悉,人工智能在处理日常环境中复杂和混乱的音频混合时面临挑战。

WaveSciences如何使用人工智能解决这个问题

2019年,美国公司WaveSciences(由电气工程师Keith McElveen于2009年创立)在解决鸡尾酒会问题方面取得了突破。他们的解决方案空间释放掩蔽(SRM)使用人工智能和声音传播的物理学来隔离说话者的声音和背景噪音。就像人类听觉系统处理来自不同方向的声音一样,SRM使用多个麦克风来捕捉声音波在空间中的传播。
这个过程中的一个关键挑战是,声音波在环境中不断反弹和混合,使得很难从数学上隔离特定的声音。然而,使用人工智能,WaveSciences开发了一种方法来确定每个声音的来源,并根据其空间位置过滤掉背景噪音和环境声音。这一适应性使得SRM能够处理实时变化,例如移动的说话者或新声音的引入,使其比早期在不可预测的音频环境中苦苦挣扎的方法更有效。这一进步不仅提高了在嘈杂环境中专注于对话的能力,也为未来音频技术的创新铺平了道路。

人工智能技术的进步

人工智能,尤其是深度神经网络的最近进展,显著提高了机器解决鸡尾酒会问题的能力。训练有素的深度学习算法在识别和分离不同的音源方面表现出色,即使在重叠的声音场景中也是如此。像BioCPPNet这样的项目已经成功展示了这些方法的有效性,通过隔离动物的发声,表明它们可以应用于人类语音以外的生物学背景。研究人员已经证明,深度学习技术可以将在音乐环境中学习的语音分离适应到新的情况中,从而提高模型在不同环境中的鲁棒性。
神经束形成进一步增强了这些能力,通过使用多个麦克风来集中注意力于特定方向的声音,同时最小化背景噪音。这种技术通过动态调整焦点来完善,根据音频环境进行调整。此外,人工智能模型使用时间频率掩蔽来区分音频源,根据其独特的频谱和时间特征。先进的说话人识别系统隔离语音并跟踪个别说话者,促进了有组织的对话。通过将视觉线索(如唇部运动)与音频数据一起使用,人工智能可以更准确地隔离和增强特定的声音。

鸡尾酒会问题的现实世界应用

这些发展为音频技术的进步开辟了新的途径。一些现实世界的应用包括:

  • 法医分析: 根据BBC的一份报告,语音识别和操作(SRM)技术已被用于法庭中分析音频证据,特别是在背景噪音使得识别说话者及其对话变得复杂的情况下。通常,这种情况下的录音作为证据变得不可用。然而,SRM在法医背景下已经证明是无价的,成功地解码了关键音频以供法庭呈现。
  • 降噪耳机: 研究人员已经开发出一种名为Target Speech Hearing的AI系统原型,用于降噪耳机,允许用户选择一个特定的人的声音保持可聆听,同时取消其他声音。该系统使用鸡尾酒会问题技术在计算能力有限的耳机上高效运行。目前它是一个概念验证,但创造者正在与耳机品牌进行谈判,以潜在地将该技术纳入其中。
  • 助听器: 现代助听器通常在嘈杂的环境中遇到困难,难以将特定的声音与背景声音区分开来。虽然这些设备可以放大声音,但它们缺乏能够使人类耳朵专注于单一对话的高级过滤机制,即使在其他声音竞争注意力的情况下也是如此。这一限制在人多或环境动态的情况下尤其具有挑战性,在那里,重叠的声音和不断变化的噪音水平占主导地位。解决鸡尾酒会问题可以通过隔离所需的声音同时最小化周围噪音来增强助听器的功能。
  • 电信: 在电信领域,人工智能可以通过过滤掉背景噪音并强调说话者的声音来提高通话质量,从而实现更清晰、更可靠的通信,尤其是在嘈杂的环境中,如繁忙的街道或拥挤的办公室。
  • 语音助手: 人工智能驱动的语音助手,如Amazon的Alexa和Apple的Siri,可以在嘈杂的环境中变得更加有效,并更高效地解决鸡尾酒会问题。这些进步使得设备能够准确地理解和响应用户的命令,即使在背景聊天的情况下也是如此。
  • 音频录制和编辑: 人工智能驱动的技术可以通过隔离录制材料中的个别音源来帮助音频工程师进行后期制作。这使得音频轨道更干净,编辑也更加高效。

结论

鸡尾酒会问题是一个音频处理中的重大挑战,已经通过人工智能技术取得了显著的进展。像空间释放掩蔽(SRM)和深度学习算法这样的创新正在重新定义机器在嘈杂环境中隔离和分离声音的方式。这些突破提高了日常体验,例如在拥挤的环境中进行更清晰的对话和改进的助听器和语音助手功能。然而,它们也具有转变法医分析、电信和音频生产应用的潜力。随着人工智能的不断发展,其模拟人类听觉能力的能力将带来音频技术更显著的进步,最终改变我们在日常生活中与声音的交互方式。

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。