人工智能

OpenAI 创建新的 AI 程序用于根据流派生成音乐

发布于 2020年5月3日

更新于 2026年5月25日

作者

Daniel Nelson

独立研究组织 OpenAI最近发布了一种新的生成式 AI，称为 Jukebox，之所以如此命名是因为它能够生成音乐。Jukebox AI能够根据诸如乐器和歌词等属性生成声音，并且 OpenAI 研究团队通过训练 AI 模型使用压缩音频剪辑和各种歌词片段来创建该 AI。

正如 TechCrunch 报道，OpenAI 研究人员使用原始音频剪辑训练模型，从而使模型能够产生音频。这与其他音乐生成应用程序中使用的方法不同，后者通常依赖于“符号音乐”（如 MIDI 音乐），即关于音符和音调的信息，但没有实际音频。研究团队使用卷积神经网络训练模型，压缩音频，并将其编码为神经网络可以解释的格式。之后，使用变换器生成压缩音频，然后将其上采样以将数据转换为音频格式。

在创建 Jukebox 时，OpenAI 必须创建一种处理音频复杂、密集性质的方法。研究人员通过将音频分解为更离散、可消化的部分来处理音频的连续性，将歌曲分解为每个部分长 1/128 秒。目标是创建一个能够将歌曲分解为足够大的块的 AI 模型，但又足够小、足够精确，以便模型能够学习歌曲的模式并重构该模式。

OpenAI 使用的技术与该公司以前生产的旧音乐生成 AI MuseNet 有一些共同点。MuseNet 是在 MIDI 文件上训练的，并且能够以各种风格生成音乐，尽管它专注于歌曲的整体旋律，无法生成歌词。相比之下，Jukebox 能够为音乐编写自己的歌词。歌词由 OpenAI 研究人员“共同创作”，指导模型以特定风格创建歌词。Jukebox 系统是在 LyricWiki 上爬取的歌词上训练的，训练数据由 120 万首歌曲的文本和元数据组成。

当谈到模型的歌词时，研究人员首先尝试使用一个简单的启发式方法，将歌词拉伸到大约歌曲的长度，分析对应于歌曲特定块/段的文本。这种简单的方法通常有效，尽管研究人员发现当歌词特别快时，它会崩溃。为了解决这个问题，歌曲中的人声被提取出来并与歌词文本对齐，以获得歌词的单词级别对齐。之后，使用编码层对歌词进行编码，并使用注意力层将音乐的部分映射到歌词上，使用键值对。结果是歌词和人声具有相当精确的匹配。

论文的作者还指出，Jukebox 有几个局限性，并且未来的工作将旨在提高 AI 的能力。正如作者在博客文章中写道：

“虽然 Jukebox 代表了音乐质量、连贯性、音频样本长度和能够根据艺术家、流派和歌词进行条件生成方面的进步，但生成音乐和人类创作的音乐之间仍然存在显著的差距。例如，虽然生成的歌曲表现出局部的音乐连贯性，遵循传统的和弦模式，甚至可以呈现令人印象深刻的独奏，但我们听不到熟悉的更大的音乐结构，例如重复的合唱。”

目前，该模型能够生成一种可以被识别为特定流派或甚至特定艺术家的风格的歌曲。例如，它可以生成埃尔维斯·普雷斯利、凯蒂·佩里或反抗机器乐队的风格的歌曲。虽然歌曲在流派或主题上可识别，但也相当粗糙，通常听起来像是一首恶搞或一首歌曲的拙劣翻唱。尽管如此，技术成就仍然令人印象深刻。创建 AI 生成系统的研究人员选择从事能够生成音乐的程序的开发，特别是因为该任务具有挑战性，并且研究人员计划继续改进他们的技术。你可以在这里聆听一些歌曲。

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

OpenAI 创建新的 AI 程序用于根据流派生成音乐

You may like