人工知能

研究者们创建了能够用中文和英文歌唱的AI模型

Published July 17, 2020

Updated April 28, 2026

Daniel Nelson

微软和浙江大学的研究团队最近创建了一个能够用多种语言歌唱的AI模型。如VentureBeat报道，该团队开发的DeepSinger AI 是在各种音乐网站的数据上训练的，使用算法捕捉歌手的声音音色。

生成AI歌手的“声音”需要能够预测和控制音频的音高和时长的算法。当人们歌唱时，他们产生的噪音比简单的语音具有更复杂的节奏和模式。该团队要克服的另一个问题是，虽然有大量的语音训练数据可用，但歌唱训练数据集却相对较少。将这些挑战与歌曲需要同时分析声音和歌词的 fakt结合起来，生成歌唱的問題就变得非常复杂。

研究人员创建的DeepSinger系统通过开发数据管道来解决这些挑战，数据管道从各种音乐网站中提取和转换音频数据。歌唱片段从各种音乐网站中提取，然后从其他音频中分离出歌唱并将其分成句子。下一步是确定歌词中每个音素的时长，结果是一系列样本，每个样本代表歌词中的一个唯一音素。数据清理是为了处理任何失真的训练样本，在歌词和伴随音频样本根据置信度得分进行排序后进行。

相同的方法似乎适用于多种语言。DeepSinger是在中文、粤语和英文的89位歌手的超过92小时的歌唱样本上训练的。研究结果表明，DeepSinger系统能够可靠地生成高质量的“歌唱”样本，根据音高的准确性和歌唱的自然度等指标。研究人员让20人根据这些指标评估DeepSinger生成的歌曲和训练歌曲，生成样本和真实音频之间的评分差距很小。参与者给DeepSinger的平均意见评分偏差在0.34和0.76之间。

展望未来，研究人员希望通过联合训练DeepSinger的各个子模型来提高生成的声音质量，这是使用WaveNet等专门为生成自然听起来的语音而设计的技术来完成的。

DeepSinger系统可以帮助歌手和其他音乐艺术家在无需回到录音棚重新录制的情况下对作品进行更正。它也可以潜在地用于创建音频深度伪造，使听起来像艺术家唱了一首他们实际上没有唱过的歌曲。虽然它可以用于恶搞或讽刺，但其合法性却值得怀疑。

DeepSinger只是新一波能够改变音乐和软件交互方式的AI音乐和音频系统之一。OpenAI最近发布了他们自己的AI系统，称为JukeBox，它能够生成原创的音乐曲目，风格可以是特定的流派或甚至特定的艺术家。其他音乐AI工具包括Google的Magenta和Amazon的DeepComposer。Magenta是一个开源的音频（和图像）操作库，可以用于生成从自动鼓伴奏到简单的音乐基于视频游戏的所有内容。同时，Amazon的DeepComposer面向那些想要训练和自定义自己的音乐基于深度学习模型的用户，允许用户获取预训练的样本模型并根据需要调整模型。

您可以在此链接聆听DeepSinger生成的一些音频样本。

Daniel Nelson

ブログ作家およびプログラマーで、 Machine Learning と Deep Learning のトピックを専門としています。Danielは、AIの力を社会のために利用する手助けを他者に与えることを希望しています。

Unite.AI

研究者们创建了能够用中文和英文歌唱的AI模型

You may like