人工智能

Meta 推出语音生成模型 Voicebox

mm

Meta 近期在语音生成的领域取得了重大突破,推出了一个名为 Voicebox 的先进 AI 模型。该发展代表了生成性 AI 研究的一个重要步骤,展现了在多个领域的潜在未来应用。

Voicebox 是 Meta 的新型 AI 模型,代表了语音生成任务的一个突破。Voicebox 的显著特点是其能够执行它没有被明确训练过的任务,利用上下文学习的力量。这使得 Voicebox 能够生成高质量的音频片段和编辑预先录制的音频,例如去除不想要的声音,如汽车喇叭或狗叫声,同时保持音频的内容和风格。该模型也是多语言的,能够以六种不同的语言生成语音。

多功能的生成性 AI 模型如 Voicebox 的出现,指向了一个令人兴奋的未来。它们可以为虚拟助手和元宇宙中的非玩家角色提供自然听起来的声音,使视障人士能够听到由 AI 以他们的声音朗读的书面消息,并为创作者提供创新工具来创建和编辑视频音频,等等。

Voicebox 的多功能能力

Voicebox 的多功能能力包括多种任务,呈现出一个在音频和 AI 空间中的创新工具:

  • 上下文文本转语音合成:Voicebox 可以使用一个短暂的音频样本,短至两秒钟,来匹配音频风格以进行文本转语音生成。
  • 语音编辑和噪声减少:Voicebox 可以重现被打断的语音部分或替换错误的词语,而无需重新录制整个语音。从本质上讲,它像一个用于音频编辑的橡皮擦,提供了一个解决常见音频挑战的独特解决方案。
  • 跨语言风格转换:Voicebox 可以生成任何六种语言的文本朗读,即使样本语音和文本是不同的语言。这种能力可以帮助人们以更真实的方式进行交流,即使他们不共享同一种语言。
  • 多样化语音采样:由于其多样化的数据学习,Voicebox 可以生成代表现实世界中多样化语音的语音,跨六种语言。

生成性 AI 的光明未来

Voicebox 的推出是生成性 AI 研究的一个重要里程碑。其发展表明了 AI 如何演进,更加接近于理解和复制人类交流的细微差别。Voicebox 的潜在用途是巨大的,从增强虚拟交流到赋予创作者更先进的音频编辑工具,甚至打破语言障碍。

然而,虽然这些机会令人兴奋,但也必须考虑这种技术的伦理影响。像 Voicebox 这样的 AI 模型模仿个体声音的能力,引发了关于同意和隐私的问题。这些技术将如何被监管,以确保它们被负责任地使用?我们将如何保护个人的声音不被滥用或误用?这些都是像 Meta 这样的公司在生成性 AI 继续进步时必须解决的挑战。

Voicebox 只是开始。随着其他研究人员在 Meta 的工作基础上继续发展,音频空间和生成性 AI 研究的未来充满了希望和潜力。我们正站在一个新时代的门槛上,这个时代的人工智能继续模糊数字和物理世界之间的界限。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。