关注我们.

人工智能

文本到音乐生成人工智能:Stability Audio、Google 的 MusicLM 等

mm

音乐作为一种与人类灵魂产生共鸣的艺术形式,一直是我们所有人永恒的伴侣。使用人工智能创作音乐几十年前就开始了。最初,这些尝试简单直观,基本算法创造出单调的曲调。然而,随着技术的进步,人工智能音乐生成器的复杂性和功能也在不断提高,这为深度学习和自然语言处理 (NLP) 在这项技术中发挥关键作用铺平了道路。

如今,像 Spotify 这样的平台正在利用人工智能来优化用户的聆听体验。这些深度学习算法会根据节奏、情绪等各种音乐元素,剖析个人偏好,从而提供个性化的歌曲推荐。它们甚至会分析更广泛的聆听模式,并在互联网上搜索与歌曲相关的讨论,从而构建详细的歌曲档案。

音乐人工智能的起源:从算法作曲到生成建模的旅程

从 1950 世纪 1970 年代到 XNUMX 年代,人工智能在音乐界混音的早期阶段,重点主要集中在算法作曲上。 这是一种计算机使用一组定义的规则来创作音乐的方法。 这一时期第一个值得注意的创作是 伊利亚克弦乐四重奏组曲 1957 年。它使用了蒙特卡罗算法,这是一个涉及随机数的过程,在传统音乐理论和统计概率的范围内决定音高和节奏。

图片由作者使用 Midjourney 生成

图片由作者使用 Midjourney 生成

在此期间,另一位先驱者, Iannis Xenakis,利用随机过程(涉及随机概率分布的概念)来制作音乐。 他使用电脑和 福特兰 连接多个概率函数的语言,创建一种模式,其中不同的图形表示对应于不同的声音空间。

将文本翻译成音乐的复杂性

音乐以丰富且多维的数据格式存储,其中包含旋律、和声、节奏和节奏等元素,使得将文本翻译成音乐的任务变得非常复杂。 一首标准歌曲在计算机中由近百万个数字表示,这个数字明显高于图像、文本等其他格式的数据。

音频生成领域正在见证克服创造逼真声音挑战的创新方法。 一种方法涉及生成频谱图,然后将其转换回音频。

另一种策略是利用音乐的符号表征,例如乐谱,以便音乐家进行解读和演奏。这种方法已成功实现数字化,例如 Magenta 的 室内合奏发生器 以 MIDI 格式创作音乐,这是一种促进计算机和乐器之间通信的协议。

虽然这些方法推动了该领域的发展,但它们也有其自身的局限性,凸显了音频生成的复杂性。

变压器基于自回归模型和基于U-Net的 扩散模型处于技术前沿,在音频、文本、音乐等生成领域取得了最先进的 (SOTA) 成果。OpenAI 的 GPT 系列以及目前几乎所有其他 LLM 都由使用编码器、解码器或两种架构的转换器驱动。在艺术/图像方面,MidJourney、Stability AI 和 DALL-E 2 都利用了扩散框架。这两项核心技术在音频领域取得 SOTA 成果方面也发挥了关键作用。在本文中,我们将深入探讨谷歌的 MusicLM 和 Stable Audio,它们证明了这些技术的卓越能力。

Google 的 MusicLM

谷歌的 MusicLM 于今年 24 月发布。MusicLM 可以生成高保真音乐作品,与文本中描述的情感产生共鸣。MusicLM 采用分层序列到序列建模,能够将文本描述转换为以 XNUMX kHz 频率长时间产生共鸣的音乐。

该模型在多维层面上运行,不仅遵循文本输入,而且还展示了以旋律为条件的能力。 这意味着它可以采用哼唱或吹口哨的旋律,并根据文本标题中描述的风格进行转换。

技术见解

MusicLM 利用以下原则 音频LM,2022 年推出的音频生成框架。 AudioLM 将音频合成为离散表示空间内的语言建模任务,利用从粗到细的音频离散单元(也称为标记)的层次结构。 这种方法可确保在相当长的时间内保持高保真度和长期一致性。

为了促进生成过程,MusicLM 扩展了 AudioLM 的功能,以合并文本调节,这是一种将生成的音频与输入文本的细微差别对齐的技术。 这是通过使用 MuLan 创建的共享嵌入空间来实现的,MuLan 是一种联合音乐文本模型,经过训练,可以将音乐及其相应的文本描述投影到嵌入空间中彼此靠近。 这种策略有效地消除了训练期间对字幕的需求,从而允许模型在大量纯音频语料库上进行训练。

MusicLM 模型还使用 音流 作为其音频分词器,它可以以 24 kbps 的速度重建 6 kHz 音乐,保真度令人印象深刻,利用 残差矢量量化 (RVQ) 用于高效、高质量的音频压缩。

MusicLM 基础模型的独立预训练过程说明:SoundStream、w2v-BERT 和 MuLan,

MusicLM 预训练过程图解:SoundStream、w2v-BERT 和 Mulan | 图片来源: 点击这里

此外,MusicLM 通过允许旋律调节来扩展其功能。 这种方法确保即使是简单的哼唱曲调也可以为美妙的听觉体验奠定基础,并根据精确的文本风格描述进行微调。

MusicLM 的开发人员还开源了 MusicCaps,这是一个包含 5.5 个音乐文本对的数据集,每个对都附有由人类专家制作的丰富文本描述。 你可以在这里查看: 拥抱脸上的音乐帽.

准备好使用 Google MusicLM 创建 AI 配乐了吗?以下是入门方法:

  1. 访问 MusicLM 官方网站并单击“开始”。
  2. 选择“注册您的兴趣”即可加入候补名单。
  3. 使用您的 Google 帐户登录。
  4. 授予访问权限后,单击“立即尝试”开始。

以下是我尝试过的一些示例提示:

“冥想歌曲,平静而舒缓,配有长笛和吉他。 音乐节奏缓慢,注重营造一种平和、安宁的感觉。”

“萨克斯爵士乐”

在定性评估中,与之前的 Riffusion 和 Mubert 等 SOTA 模型相比,MusicLM 比其他模型更受青睐,参与者对文本字幕与 10 秒音频剪辑的兼容性给予了积极评价。

MusicLM 性能比较

MusicLM 表演,图片来源: 点击这里

稳定音频

Stability AI 上周介绍了“稳定的音频“一种基于文本元数据以及音频文件时长和开始时间的潜在扩散模型架构。这种方法类似于谷歌的 MusicLM,可以控制生成音频的内容和长度,从而允许创建长度不超过训练窗口大小的音频片段。

技术见解

Stable Audio 由多个组件组成,包括变分自动编码器 (VAE) 和基于 U-Net 的条件扩散模型,与文本编码器一起工作。

该插图展示了变分自动编码器 (VAE)、文本编码器和基于 U-Net 的条件扩散模型的集成

稳定的音频架构,图片来源: 点击这里

这个 阿联酋 通过将立体声音频压缩为数据压缩、抗噪声和可逆有损潜在编码,从而无需使用原始音频样本,从而加快生成和训练速度。

文本编码器,源自 CLAP 模型,在理解单词和声音之间的复杂关系方面发挥着关键作用,提供了标记化输入文本的信息表示。 这是通过利用 CLAP 文本编码器倒数第二层的文本特征来实现的,然后通过交叉注意力层将其集成到扩散 U-Net 中。

一个重要的方面是计时嵌入的结合,它是根据两个属性计算的:音频块的开始秒和原始音频文件的总持续时间。 这些值被转换为每秒离散的学习嵌入,与提示标记相结合并输入到 U-Net 的交叉注意力层中,使用户能够决定输出音频的总长度。

通过与音乐提供商 AudioSparx 合作,使用包含超过 800,000 个音频文件的广泛数据集来训练稳定音频模型。

稳定的音频广告

稳定的音频广告

Stable Audio 提供免费版本,允许每月生成 20 代长达 20 秒的曲目,以及每月 12 美元的 Pro 计划,允许生成 500 代长达 90 秒的曲目。

下面是我使用稳定音频创建的音频剪辑。

图片由作者使用 Midjourney 生成

图片由作者使用 Midjourney 生成

“电影般的配乐,柔和的雨声,氛围,舒缓,远处的狗叫声,平静的树叶沙沙声,微风,40 BPM”

这种精心制作的音频作品的应用是无穷无尽的。 电影制作人可以利用这项技术来创造丰富且身临其境的音景。 在商业领域,广告商可以利用这些定制的音轨。 此外,这个工具为个人创作者和艺术家开辟了实验和创新的途径,提供了一个具有无限潜力的画布,可以制作声音作品,讲述故事,唤起情感,并创造具有深度的氛围,这是以前在没有大量预算的情况下难以实现的或技术专长。

提示提示

使用文本提示制作完美的音频。以下是快速入门指南:

  1. 详细:指定流派、情绪和乐器。 例如:电影、狂野西部、打击乐、紧张、氛围
  2. 情绪设定:结合音乐和情感术语来传达所需的情绪。
  3. 仪器选择:用形容词增强乐器名称,例如“混响吉他”或“强大的合唱团”。
  4. BPM:将速度与流派对齐以获得和谐的输出,例如鼓和贝斯轨道的“170 BPM”。

结束语

图片由作者使用 Midjourney 生成

图片由作者使用 Midjourney 生成

在本文中,我们深入探讨了 AI 生成的音乐/音频,从算法作曲到如今复杂的生成式 AI 框架,例如 Google 的 MusicLM 和 Stability Audio。这些技术利用深度学习和 SOTA 压缩模型,不仅增强了音乐生成,还优化了听众的体验。

然而,这是一个不断发展的领域,存在诸如保持长期一致性等障碍,以及关于人工智能制作音乐的真实性的持续争论,对这一领域的先驱者提出了挑战。 就在一周前,一首模仿 Drake 和 The Weeknd 风格的人工智能制作的歌曲引起了热议,该歌曲于今年早些时候在网上引起了轰动。 然而,它面临着从格莱美提名名单中被删除的命运,这表明业界围绕人工智能生成音乐的合法性正在进行持续的争论(资源)。 随着人工智能不断弥合音乐和听众之间的差距,它肯定会促进技术与艺术共存的生态系统,在尊重传统的同时促进创新。

在过去的五年里,我一直沉浸在机器学习和深度学习的迷人世界中。 我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献,特别关注人工智能/机器学习。 我持续的好奇心也吸引了我对自然语言处理的兴趣,这是我渴望进一步探索的领域。