Connect with us

思想领袖

播客的未来是人工智能

mm

大致来说,每个月大约有22,000个新播客被推出。根据 Podcast Industry Insights 的数据,目前 Apple Podcasts 目录中有大约 2.5 万个播客(超过 7,100 万集)。而且这些只是我们知道的播客。

“很多播客作者现在不再通过大平台发布,他们直接与听众联系,出售高级内容,并取得了巨大的成功,” Andy Taylor 说,他曾是 BBC 电台的员工,现为卡迪夫基于 R&D 咨询公司 Bwlb 的创始人。

更不用说,播客类内容的数量正在不断增长,无论是品牌为促销而创作的内容,还是活动制作人希望提供的按需内容。每一份内容都需要被制作和分发,无论是由音频专业人员还是学习这门手艺的人来完成。因此,他们可以自动化生产的大部分内容,他们就可以更专注于内容本身。

“音频被发布的不同地方已经爆炸式增长,” Jonathan Wyner 解释说,他是 M Works Mastering 的首席工程师,也是 伯克利音乐学院在波士顿 的教授。“有这么多背景,创作者有真正的动力和迫切需要变得更加多才多艺。”

更不用说,更高效和更有生产力。

人工智能的崛起

人工智能(AI)——可以自动化以前由人类完成的任务的软件——持有处理播客内容海啸的钥匙。人工智能不仅可以加快生产速度,还可以让播客听起来更好,并为明天的音频体验奠定基础。

“人工智能基本上帮助处理重复性任务,以加快播客作者的工作流程,” Nomono 的研究工程师 Manos Chourdakis 解释说。Nomono 开发了基于人工智能的播客工具。“例如,使用人工智能,你不需要听整个播客来找到某人说错的地方,然后替换或删除它。你可以自己做,但人工智能做得更快。”

然后还有只能通过人工智能才能完成的任务——至少在规模上,例如去除噪音或增强对话。“高质量的对话增强将不可能没有人工智能,” Chourdakis 说。“至少在传统工具的合理时间内是不可能的。”

适合琐碎任务

播客中人工智能的应用与生产任务一样多样。一些应用直接集成到播客平台中。当创作者将播客上传到托管平台 Podcast.co 时,系统会自动“聆听”音频文件并标准化音量。

“任何可以帮助减少工作中枯燥部分的工具都是件好事,”该平台的联合创始人 Mike Cunsolo 说。Cunsolo 还运营着 Cue ,一家为企业品牌提供播客制作服务的公司,以及 Matchmaker.fm ,它连接播客制作人和嘉宾。“你总是需要人类专家的元素,但很快机器就可以学会理解什么让播客变得有趣,并减少任务时间。”

解决方案提供商 Descript 将人工智能应用于播客工程的许多方面,包括噪音去除和回声控制。Descript 可以处理的更“枯燥”的任务之一是房间音调。

“有时制作人需要在播客中插入数字静默。也许是在编辑之间或是为了拉长句子之间的间距,” Descript 的商业和企业发展负责人 Jay LeBoeuf 说。“但那样听起来非常不自然。”

如果制作人在录制播客时没有捕捉到房间音调,他们可能需要回去获取它。或者他们可以在录音中听它,复制和粘贴所需的部分,然后编辑结果以使其自然融合。

或者计算机可以处理它。Descript 的基于人工智能的房间音调生成器分析录音,识别房间音调,并自动合成所需的音调。这种技术不仅消除了琐碎的任务,还允许更大的生产灵活性。

“人工智能将使我们能够使用更便宜的硬件、更差的房间和更嘈杂的环境,并且仍然能够获得良好的效果,” Nomono 的 Chourdakis 说。

新的基于人工智能的功能

人工智能还为播客开启了创新的大门——创造新的解决方案,以提高播客作者和听众的标准。例如,Epidemic Audio Reference(EAR)工具帮助播客作者找到基于他们喜欢的歌曲的无版权音乐。

“假设你正在寻找介绍或结尾音乐,你正在想一个特定的歌曲,但它受到版权保护,” Chourdakis 说。“该系统使用人工智能在后台帮助你找到类似的东西。”

在 Bwlb,Taylor 的团队开发了 Accordion ,一个基于人工智能的解决方案,可以将播客重现为不同长度。

“我们生活的其他每个部分都变得更智能——智能家居,智能冰箱,” Taylor 说。“人们也希望从播客体验中获得更多的控制和便利。”

当 Taylor 为 BBC 工作的纪录片时,他会被要求为不同的平台制作较短的版本。这个过程总是手动的。 Accordion 将软件算法应用于播客内容,以智能地创建不同长度的版本。“它不会加快任何事情,” Taylor 说,“但它为用户提供了对内容时长的控制,而不会失去语气结构或可听性。”

专注于沉浸式讲故事

播客作者使用人工智能工具越多,它们就会变得越好。换句话说,数据摄入量越大,它们就会学到越多。

Nomono 的对话增强算法基于大量语音录音数据集——一些清晰易懂,另一些则不那么清晰——这些数据集教会人工智能工具如何生成更好的声音。“播客作者不应该需要高级音频知识来制作高质量的音频,” Chourdakis 说。“通过自动化一些任务,他们可以花更多时间专注于伟大的讲故事,并减少枯燥的清理任务。”

并且在未来,他们可以更容易地演变成创建沉浸式、空间化播客的新体裁。例如,Nomono 的技术使得基于对象的音频制作成为可能,允许制作人将声音“放置”在 3D 声音景观中或创建可以根据听众定制的动态版本。

“媒体制作现在进入了一个阶段,如果你可以想象它,它就可以发生,” Descript 的 LeBoeuf 说。“并且你不再需要昂贵的工作室或几十年的培训来实现你的目标。”

Brad Grimes 是一位长期从事技术记者的同时也是 Audiovisual and Integrated Experience Association 的前任传讯总监。