人工智能

研究人员创建可以用中文和英文歌唱的AI模型

发布于 2020年7月17日

更新于 2026年5月25日

作者

Daniel Nelson

微软和浙江大学的研究人员最近创建了一个可以用多种语言歌唱的AI模型。 VentureBeat报道，由该团队开发的DeepSinger AI 是在各种音乐网站的数据上训练的，使用的算法可以捕捉歌手的声音音色。

生成AI歌手的“声音”需要能够预测和控制音频的音高和时长的算法。当人们唱歌时，他们产生的噪音比简单的说话具有更复杂的节奏和模式。该团队要克服的另一个问题是，虽然有大量的说话/语音训练数据可用，但歌唱训练数据集却相对较少。将这些挑战与歌曲需要同时分析声音和歌词的需求结合起来，生成歌唱的难度就变得非常大。

研究人员创建的DeepSinger系统通过开发数据管道来提取和转换音频数据，克服了这些挑战。从各种音乐网站中提取的歌唱片段，然后将歌唱从其他音频中分离出来，并将其分成句子。下一步是确定歌词中每个音素的时长，结果是一系列代表歌词中每个唯一音素的样本。为了处理任何扭曲的训练样本，在歌词和音频样本根据置信度得分进行排序后，进行数据清理。

相同的方法似乎适用于多种语言。DeepSinger是在包含89位歌手超过92小时的中文、粤语和英文歌唱样本上训练的。研究结果表明，DeepSinger系统能够可靠地生成高质量的“歌唱”样本，根据准确性、音高和歌唱的自然度等指标进行评估。研究人员让20人根据这些指标评估DeepSinger生成的歌曲和训练歌曲，生成样本和真实音频之间的评分差距很小。参与者给DeepSinger的平均意见评分偏差在0.34到0.76之间。

展望未来，研究人员希望通过联合训练DeepSinger的各个子模型来提高生成的声音质量，这得到了专门为生成自然听起来的语音音频波形而设计的技术，如WaveNet的帮助。

DeepSinger系统可以帮助歌手和其他音乐艺术家在无需回到录音棚进行另一次录音会话的情况下对作品进行更正。它也可能被用于创建音频深度伪造，使人们认为一位艺术家唱了一首他们实际上没有唱过的歌。虽然它可以用于模仿或讽刺，但其合法性却值得怀疑。

DeepSinger只是新一波基于AI的音乐和音频系统之一，这些系统可能会改变音乐和软件的交互方式。OpenAI最近发布了他们自己的AI系统，名为JukeBox，能够生成原创音乐曲目，既可以按照某种流派，也可以按照特定艺术家的风格。其他音乐AI工具包括Google的Magenta和Amazon的DeepComposer。Magenta是一个开源的音频（和图像）操作库，可以用于生成从自动鼓伴奏到简单的音乐基于视频游戏等一切内容。与此同时，Amazon的DeepComposer面向的是那些想要训练和定制自己的音乐基于深度学习模型的人，允许用户获取预训练的样本模型并根据需要调整模型。

您可以在此链接听一些由DeepSinger生成的音频样本。

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

研究人员创建可以用中文和英文歌唱的AI模型

You may like