AI 模型与平台

研究人员开发出能够演奏钢琴的‘Audeo’人工智能

mm

华盛顿大学的一组研究人员开发了一种名为Audeo的人工智能系统,可以从无声的钢琴演奏中创建音频。测试阶段涉及音乐识别应用程序,如SoundHound,它可以在大约86%的时间内正确识别Audeo的音乐。

该研究于12月8日在NeurlPS 2020会议上发表。

首席作者Eli Shlizerman是该大学应用数学和电气与计算机工程系的助理教授。

“创造出听起来像真实音乐演奏的音乐以前被认为是不可能的,”Shlizerman说。“算法需要弄清楚视频帧中与生成音乐相关的线索或‘特征’,并且需要‘想象’视频帧之间发生的声音。它需要一个既精确又富有想象力的系统。我们实现了听起来相当好的音乐,这是一个惊喜。”

Audeo的工作原理

Audeo系统通过解码视频并将其转换为音乐来工作。第一步涉及人工智能检测每个视频帧按下的键,并最终开发一个图表。然后将图表转换为音乐合成器可以识别的声音。

下一步是清理数据并添加更多信息。这些信息可以包括每个键按下的压力和持续时间等内容。

“如果我们仅从第一步合成音乐,我们会发现音乐质量不令人满意,”Shlizerman说。“第二步就像老师审阅学生作曲家的音乐并帮助提高它一样。”

该系统使用YouTube上钢琴家Paul Barton的视频进行训练和测试,共有大约172,000个视频帧,展示了音乐家演奏各种古典作曲家如莫扎特的音乐。Audeo使用19,000个视频帧测试了Barton演奏不同音乐的能力。

合成器

训练完成后,Audeo生成音乐的转录,然后将其输入合成器以转换为声音。音乐的音质取决于合成器,这相当于改变电子琴的乐器设置。

该团队使用了两个独立的合成器。

“Fluidsynth生成我们熟悉的合成器钢琴声音。这些声音有些机械,但相当准确,”Shlizerman说。“我们还使用了PerfNet,一种新的AI合成器,可以生成更丰富、更富有表现力的音乐。但它也会生成更多噪音。”

“这项研究的目标是为了确定人工智能是否可以生成由钢琴家在视频录制中演奏的音乐——尽管我们当时并没有试图复制Paul Barton,因为他是一位大师,”Shlizerman继续说。“我们希望我们的研究能够实现与音乐交互的新方式。例如,Audeo的一项潜在应用是可以扩展为虚拟钢琴,并使用摄像头记录只显示一个人手部的视频。另外,通过在真钢琴上放置摄像头,Audeo可能有助于以新的方式教学生如何演奏。”

电气与计算机工程博士生Kung Su和Ziulong Liu是论文的共同作者。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。