思想领袖

2023 年如何使用生成式 AI 声音进行商业活动

mm

2022 年末,人工智能技术因 OpenAI 和 ChatGPT 的惊人流行而获得了广泛的应用。首次,人工智能在创造成功的商业成果方面证明了其效用和价值,获得了大众的青睐。

许多看似革命性的 AI 技术已经被大企业和媒体使用了几年。让我们更深入地了解这些解决方案背后的技术,特别是用于语音克隆的生成式 AI 系统、其商业效益以及使用 AI 的道德方法。

语音克隆是如何工作的?

简而言之,语音克隆使一个人能够使用另一个人的声音说话。

它使用生成式 AI 技术创建一个人的语音录音,并使用这些录音来生成具有相同语音的新音频内容。它基本上允许人们听到某人可能说过的话,即使他们没有亲自说过。

从技术上讲,事情似乎并不复杂。但如果你深入研究,就会发现开始使用语音克隆需要满足一些最低要求:

  1. 您需要至少 5 分钟的高质量录音来克隆语音。这些录音应该清晰无背景噪音或其他失真,因为任何缺陷都可能影响模型输出的准确性。
  2. 然后,将这些录音输入生成式 AI 模型以创建一个“语音头像”。
  3. 接着,训练模型以准确地再现语音的音调和时序模式。
  4. 完成后,这个训练模型可以使用源语音生成无限的内容,成为创建逼真语音复制品的有效工具。

这就是很多人开始担心道德问题的地方。当我们可以将任何文本插入到另一个人的嘴里,并且无法区分这些话是真实的还是虚假的时会发生什么?

是的,这种可能性已经成为现实。就像 OpenAI 和 ChatGPT 的情况一样,我们目前面临着许多无法忽视的道德问题。

AI 的道德标准

与许多其他新兴技术一样,在其初始采用阶段,主要威胁是制造对技术的负面偏见,而不是将威胁作为讨论和有价值知识的来源。重要的是要揭露坏人使用和滥用该技术及其产品的方法,应用缓解工具,并继续学习。

今天,我们有三个层次的框架来规范使用生成式 AI 的道德标准。国家和超国家的监管层正在初步发展中。政策世界可能跟不上新兴技术的发展速度,但我们已经可以看到欧盟在 欧盟人工智能监管提案2022 年关于虚假信息的行为准则 中领先,概述了大型科技公司应对恶意人工智能生成内容传播的期望。在国家层面上,我们看到美国和英国在解决这个问题方面采取了监管的第一步,美国的 国家深度伪造和数字来源任务force 和英国的 在线安全法案

科技行业的层面发展得更快,因为公司和技术人员正在接受这一新现实及其对社会安全和隐私的影响。关于生成式 AI 道德的对话是生动的,并且已经推动了开发使用生成式 AI 的行为准则(例如 合成媒体行为准则 )以及不同公司发布的道德声明。问题是,如何使这些准则变得实用?并且它们是否能够影响产品、特定功能和团队的程序?

在与媒体、娱乐、网络安全和人工智能伦理社区合作后,我已经制定了一些处理人工智能内容和语音的实用原则:

  1. 知识产权所有者和使用克隆语音的公司可以通过签署法律协议来避免使用原始语音的许多潜在复杂性。
  2. 项目所有者应该公开披露使用克隆语音,以免听众被误导。
  3. 从事语音人工智能技术的公司应该分配一定比例的资源来开发能够检测和识别人工智能生成内容的技术。
  4. 用水印标记人工智能生成的内容可以实现语音认证。
  5. 每个人工智能服务提供商都应该在同意处理项目之前审查其对社会、业务和隐私层面的影响。

当然,人工智能的道德原则不会影响网络上自制的深度伪造的传播。然而,它们将把任何灰色项目排除在公共市场之外。

2021-22 年,人工智能语音被用于各种主流项目,这些项目对伦理和社会产生了重大的影响。这些包括 克隆年轻卢克·天行者的声音 用于《曼达洛人》系列,《战神 2》的人工智能语音 ,以及 理查德·尼克松的声音 用于历史性的“月球灾难演讲”。

对技术的信心正在超越媒体和娱乐行业的范畴。传统的企业正在使用克隆语音在各个行业中取得进展。以下是最突出的几个案例。

行业应用案例

2023 年,语音克隆将继续与各个企业一起崛起,这些企业将从中获得众多好处。从医疗保健和营销到客户服务和广告业,语音克隆正在改变组织与客户建立关系和简化工作流程的方式。

语音克隆使在线工作的医疗保健专业人员和社工受益。具有相同语音的数字化身可以加强他们与患者之间的纽带,提高信任度和客户留存率。

语音克隆在电影和娱乐行业的潜在应用非常广泛。将内容配音到多种语言,儿童和成人对白替换,以及几乎无限的定制选项,都可以通过这项技术实现。

同样,在运营部门,人工智能驱动的语音克隆可以为需要成本效益高的交互式语音应答系统或企业培训视频的品牌带来优异的效果。有了语音合成技术,演员可以扩大他们的影响力,同时增加他们从录音中获得的残值收入。

最后,在广告制作工作室中,语音克隆的出现已经显著降低了商业广告的制作成本和制作时间。只要有高质量的录音可供克隆(即使演员不可用),广告也可以快速、更具创意地制作。

有趣的是,企业和中小企业都可以利用语音克隆为其品牌创造独特的东西。大型项目可以实现最雄心勃勃的计划,而小型企业可以使用以前成本高昂的规模模型。这就是真正的民主化的含义。

总结

人工智能语音克隆为企业提供了改变游戏规则的好处,例如创造独特的客户体验、将自然语言处理功能集成到产品和服务中,以及生成听起来非常真实的语音模仿。

2023 年,希望保持竞争优势的企业应该考虑人工智能语音克隆。公司可以利用这项技术解锁新的可能性,以赢得市场份额和在道德上负责的方式保留客户。

Anna 是 Respeecher 的道德和合作负责人,Respeecher 是一家位于乌克兰的艾美奖获奖语音克隆技术公司。Anna 曾是 Reface 的政策顾问,Reface 是一个由 AI 驱动的合成媒体应用程序,也是由 Startup Wise Guys 加速器计划资助的反虚假信息工具 Cappture 的技术联合创始人。Anna 在安全和国防政策、技术和韧性建设方面拥有 11 年的经验。她曾是塔林和布拉格安全研究院国际防御和安全中心的研究员。她还曾作为基辅经济学院混合战争任务小组的一员,为乌克兰主要公司提供韧性建设方面的建议。