人工智能
文本到音乐生成AI:稳定音频,Google的MusicLM和更多

音乐,一种与人类灵魂产生共鸣的艺术形式,始终是我们所有人的忠实伴侣。使用人工智能创建音乐的尝试始于几十年前。最初,尝试是简单和直观的,基本算法创建单调的旋律。然而,随着技术的进步,AI音乐生成器的复杂性和能力也随之提高,铺平了深度学习和自然语言处理(NLP)在该技术中发挥关键作用的道路。
今天,像Spotify这样的平台正在利用AI来细化用户的听歌体验。这些深度学习算法根据各种音乐元素(如节奏和情绪)分析个性化的歌曲建议。它们甚至分析更广泛的听歌模式,并在互联网上搜索与歌曲相关的讨论,以建立详细的歌曲简介。
AI在音乐中的起源:从算法组合到生成模型的旅程
在AI与音乐世界初步接触的早期阶段(从1950年代到1970年代),主要关注的是算法组合。这是一种使用一组定义的规则来创建音乐的方法。在此期间,首次值得注意的创作是1957年的Illiac Suite for String Quartet。它使用了蒙特卡罗算法,即使用随机数来决定音调和节奏的过程,受传统音乐理论和统计概率的限制。
在此期间,另一位先驱者Iannis Xenakis,利用随机概率分布来创作音乐。他使用计算机和FORTRAN语言来连接多个概率函数,创建一个模式,其中不同的图形表示对应于不同的音域。
将文本转换为音乐的复杂性
音乐以一种丰富的多维数据格式存储,包括旋律、和声、节奏和节拍等元素,使得将文本转换为音乐的任务变得非常复杂。一个标准的歌曲在计算机中由近百万个数字表示,这个数字远远高于其他数据格式,如图像、文本等。
音频生成领域正在见证创新方法,以克服创建真实声音的挑战。其中一种方法是生成声谱图,然后将其转换回音频。
另一种策略利用音乐的符号表示,如乐谱,可以被音乐家解读和演奏。这种方法已经被成功数字化,像Magenta的Chamber Ensemble Generator这样的工具可以创建MIDI格式的音乐,这是一种允许计算机和乐器之间进行通信的协议。
虽然这些方法已经推进了该领域的发展,但它们也带来了自己的局限性,凸显了音频生成的复杂性。
Transformer-based自回归模型和U-Net-based 扩散模型,是当前技术的前沿,产生了最先进的结果(SOTA)在生成音频、文本、音乐等方面。OpenAI的GPT系列和几乎所有其他LLM当前都使用Transformer,利用编码器、解码器或两者架构。另一方面,MidJourney、Stability AI和DALL-E 2都利用扩散框架。这些两项核心技术在音频领域也取得了最先进的结果。在本文中,我们将深入探讨Google的MusicLM和Stable Audio,它们是这些技术的卓越能力的见证。
Google的MusicLM
Google的MusicLM于今年五月发布。MusicLM可以生成高保真度的音乐作品,与文本中描述的情感完全吻合。使用分层序列到序列建模,MusicLM可以将文本描述转换为音乐,共振频率为24 kHz,持续时间可达数小时。
该模型在多个维度上运行,不仅仅遵循文本输入,还展示了有条件地遵循旋律的能力。这意味着它可以接受一个哼唱或口哨的旋律,并根据文本字幕中描述的风格进行转换。
技术见解
MusicLM利用了AudioLM的原理,AudioLM是一种于2022年引入的音频生成框架。AudioLM将音频合成视为离散表示空间中的语言建模任务,利用从粗到细的音频离散单位的层次结构,也称为令牌。这种方法确保了高保真度和长期连贯性,在较长的时间内。
为了促进生成过程,MusicLM扩展了AudioLM的功能,以纳入文本条件,一种将生成的音频与输入文本的细微差别对齐的技术。这是通过使用MuLan创建一个共享的嵌入空间来实现的,MuLan是一种联合音乐文本模型,旨在将音乐和其对应的文本描述投影到嵌入空间中靠近。这一策略有效地消除了在训练期间需要字幕的必要性,允许模型在大量音频数据集上进行训练。
MusicLM模型还使用SoundStream作为其音频标记器,可以以6 kbps的速度重构24 kHz的音乐,利用残差向量量化(RVQ)实现高效和高质量的音频压缩。

MusicLM的预训练过程图解:SoundStream、w2v-BERT和Mulan | 图片来源:这里
此外,MusicLM通过允许旋律条件来扩展其功能。这一方法确保即使是一个简单的哼唱旋律也可以为一个壮丽的音频体验奠定基础,该体验可以根据文本样式描述进行微调。
MusicLM的开发人员还开源了MusicCaps,一個包含5.5k个音乐文本对的数据集,每个对都由人工专家精心编写的丰富文本描述伴随。你可以在这里查看:MusicCaps on Hugging Face。
准备好使用Google的MusicLM创建AI音轨了吗?以下是入门指南:
- 访问MusicLM的官方网站并点击“开始”。
- 通过选择“注册您的兴趣”加入等待名单。
- 使用Google帐户登录。
- 一旦获得访问权限,请点击“尝试”开始。
以下是我尝试的一些示例提示:
“冥想歌曲,平静和舒缓,伴有长笛和吉他。音乐缓慢,专注于创造一种宁静和平和的感觉。”
“爵士乐,萨克斯风”
与之前的SOTA模型(如Riffusion和Mubert)进行比较,MusicLM在定性评估中更受欢迎,参与者更喜欢文本字幕与10秒音频片段的兼容性。

MusicLM性能比较,图片来源:这里
稳定音频
Stability AI最近推出了“稳定音频”,一种基于文本元数据、音频文件持续时间和开始时间的潜在扩散模型架构。这种方法与Google的MusicLM类似,允许对生成音频的内容和长度进行控制,从而可以创建长度可达训练窗口大小的音频片段。
技术见解
稳定音频由多个组件组成,包括变分自编码器(VAE)和基于条件的扩散模型,后者与文本编码器一起工作。

稳定音频架构,图片来源:这里
变分自编码器(VAE)通过将立体音频压缩为数据压缩、抗噪和可逆的潜在编码来促进更快的生成和训练,绕过了直接处理原始音频样本的需要。
文本编码器源自CLAP模型,在理解词语和声音之间的复杂关系方面发挥着至关重要的作用,提供了输入文本的信息丰富的表示。这种表示是通过利用CLAP文本编码器的最后一层的文本特征来实现的,然后将这些特征集成到扩散U-Net中,通过交叉注意力层来实现。
一个重要的方面是时间嵌入的纳入,这些嵌入是根据两个属性计算的:音频块的开始秒和原始音频文件的总持续时间。这些值被转换为每秒的离散学习嵌入,然后与提示令牌和U-Net的交叉注意力层一起输入,赋予用户控制输出音频的总长度的能力。
稳定音频模型是使用超过80万个音频文件的庞大数据集进行训练的,通过与AudioSparx等股票音乐提供商的合作实现。
稳定音频提供了一个免费版本,允许每月生成20个音频,长度最长为20秒,还有一个每月12美元的专业计划,允许每月生成500个音频,长度最长为90秒。
以下是我使用稳定音频创建的一个音频片段。
“电影,原声带,温柔的雨,环境,舒缓,远处的狗叫,平静的叶子沙沙声,微妙的风,40 BPM”
此类精心制作的音频片段的应用是无穷无尽的。电影制片人可以利用这项技术来创造丰富的沉浸式音景。在商业领域,广告商可以利用这些定制的音频轨道。此外,这种工具为个人创作者和艺术家开辟了实验和创新的大门,提供了一个无限可能性的画布,让他们能够创作能够讲述故事、唤起情感和营造氛围的音频作品,之前要实现这一点需要大量的预算或技术专长。
提示技巧
使用文本提示来制作完美的音频。以下是一个快速入门指南:
- 详细说明:指定流派、情绪和乐器。例如:电影,狂野西部,打击乐,紧张,氛围
- 情绪设定:将音乐和情感术语结合起来,传达所需的情绪。
- 乐器选择:使用形容词来增强乐器名称,如“混响吉他”或“强大的合唱团”。
- BPM:将节奏与流派保持一致,以获得和谐的输出,例如“170 BPM”用于鼓和贝斯曲目。
结论
在本文中,我们深入探讨了AI生成的音乐/音频,从算法组合到今天的复杂生成AI框架,如Google的MusicLM和Stable Audio。这些技术,利用深度学习和最先进的压缩模型,不仅提高了音乐生成,还优化了听众的体验。
然而,这是一个不断演变的领域,像长期连贯性和AI创作音乐的真实性等挑战正在挑战这一领域的先驱。就在一周前,网络上曾经热议一首AI创作的歌曲,模仿德雷克和威肯的风格,最初在今年早些时候曾在网上引起轰动。然而,它被移除格莱美奖提名名单,体现了音乐行业对AI生成音乐的合法性持续存在的争论(来源)。随着AI继续弥合音乐和听众之间的差距,它无疑正在推动一个生态系统的发展,在这个生态系统中,技术与艺术共存,促进创新同时尊重传统。

















