人工智能

AI 研究预见对话、音乐和音效的独立音量控制

Published October 21, 2021

Updated April 28, 2026

Martin Anderson

由三菱重工领导的新研究合作探索从原始音频源中提取三个独立音轨的可能性，将音频轨道分解为语音、音乐和音效（即环境噪音）。由于这是一个事后处理框架，因此它为后代的多媒体查看平台（包括消费设备）提供了潜力，以提供三点音量控制，允许用户提高对话的音量或降低音轨的音量。在下面的短片中，从研究的配套视频（见文章末尾的完整视频），我们看到音轨的不同方面被强调，因为用户将控制拖动到一个三角形的每个角落，其中有三个音频组件：

研究论文的配套视频中的一个短片（见文章末尾的嵌入）。当用户将光标拖向三角形 UI（右侧）中的三个提取的方面时，音频强调了三部分音轨的这一部分。虽然更长的视频引用了 YouTube 上的几个其他示例，但这些示例目前似乎不可用。

来源：https://vimeo.com/634073402论文题为 鸡尾酒叉问题：真实世界音轨的三音轨分离，来自马萨诸塞州剑桥的三菱电机研究实验室（MERL）和伊利诺伊州印第安纳大学的智能系统工程系的研究人员。

分离音轨的方面

研究人员将这个挑战称为“鸡尾酒派对问题”，因为它涉及隔离音轨中严重交织的元素，这创建了一个类似叉子的路线图（见下图）。在实践中，多通道（即立体声和更多）音轨可能具有不同类型的内容，例如对话、音乐和氛围，特别是因为对话往往占据中心通道在杜比 5.1 混音中。目前，音频分离的非常活跃的研究领域正在专注于从单个、合成的音轨中捕获这些线索，就像当前的研究一样。

鸡尾酒叉 – 从合并和单个音轨中推导出三个不同的音轨。 来源：https://arxiv.org/pdf/2110.09958.pdf

最近的研究集中在各种环境中提取语音，通常是为了去噪语音音频以便与自然语言处理（NLP）系统进行后续交互，还有隔离存档唱歌的声音，既可以创建合成版本的真实（甚至死）歌手，也可以促进卡拉 OK 风格的音乐隔离。

每个方面的数据集

到目前为止，很少有人考虑使用这种人工智能技术来给用户更多地控制音轨的混合。因此，研究人员正式化了这个问题，并生成了一个新的数据集，以帮助音轨分离的持续研究，以及在各种现有的音频分离框架上进行测试。作者开发的新数据集称为分离和重制（DnR），它源自以前的数据集 LibriSpeech、免费音乐档案和 Freesound 数据集 50k（FSD50K）。对于那些希望从头开始使用 DnR 的人，数据集必须从三个来源重建；否则，它将很快在 Zenodo 上提供，作者声称。然而，在撰写本文时，提供的 GitHub 链接用于源提取实用程序目前不可用，因此感兴趣的人可能需要等待一段时间。研究人员发现，索尼在五月份提出的 CrossNet 解混 (XUMX) 架构在 DnR 中表现特别好。[caption id="attachment_178389" align="alignnone" width="700"] 索尼的 CrossNet 架构。 索尼的 CrossNet 架构。

作者声称，他们的机器学习提取模型在 YouTube 的音轨上表现良好，尽管论文中提出的评估是基于合成数据的，而提供的主要支持视频（如下嵌入）目前似乎是唯一可用的视频。三个数据集分别包含需要从音轨中分离出来的输出类型的集合：FSD50K 占据了音效，并包含 50,000 个 44.1 kHz 的单声道音频剪辑，标有 200 个类别标签来自 Google 的 AudioSet 本体；免费音乐档案包含 100,000 首立体声歌曲，涵盖 161 个音乐流派，尽管作者仅使用了包含 25,000 首歌曲的子集，以便与 FSD50K 保持一致；而 LibriSpeech 为 DnR 提供了 100 小时的有声书样本，作为 44.1kHz 的 mp3 音频文件。

未来工作

作者预计将在数据集上进行进一步的工作，并将开发的各个模型结合起来，用于语音识别和声音分类框架的进一步研究，包括为语音和非语音声音生成自动字幕。他们还计划评估减少感知伪影的混音方法的可能性，这仍然是将合并的音频音轨分解为其组成部分时的中心问题。在未来，这种分离可能会在集成了高度优化的推理网络的智能电视中作为消费商品提供，尽管它可能需要一些预处理时间和存储空间。三星已经使用本地神经网络进行上采样，而索尼的认知处理器 XR，用于公司的 Bravia 系列，通过集成的轻量级人工智能实时分析和重新解释音轨。对对话音量控制的呼声周期性地重现，并且大多数解决方案必须处理音轨已经按照当前标准（和对观众期望的假设）在电影和电视行业中进行了降混的事实。一个观众因电影音轨中不同元素的音量水平差异惊人而感到沮丧，于是开发了一个基于硬件的自动音量调整器，能够均衡音量用于电影和电视。虽然智能电视提供了多种方法来尝试提高对话音量与宏伟的音乐音量水平，但它们都在与混音时做出的决定以及希望观众体验他们的音轨的内容制作者的愿景作斗争。内容制作者似乎可能会对这种潜在的“混音文化”的补充感到不满，因为一些行业知名人士已经对默认的基于电视的后处理算法（例如运动平滑）表示不满。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

AI 研究预见对话、音乐和音效的独立音量控制

分离音轨的方面

每个方面的数据集

未来工作

You may like