Connect with us

思想领袖

如何在 2023 年为商业使用生成式 AI 声音以达到道德标准

mm

2022 年末,人工智能技术由于 OpenAI 和 ChatGPT 的惊人流行而经历了广泛的采用。人工智能首次实现了大众市场的吸引力,证明了其在创建成功的商业成果中的实用性和价值。

许多看似革命性的 AI 技术已经被大型企业和媒体使用了几年。让我更深入地了解这些解决方案背后的技术,特别是用于语音克隆的生成式 AI 系统、其商业利益和使用 AI 的道德方法。

语音克隆如何工作?

简而言之,语音克隆使一个人能够使用另一个人的声音说话。

它使用生成式 AI 技术创建一个人的声音录音,并使用它们生成具有相同声音的新音频内容。它基本上允许人们听到某人会说什么,即使他们没有亲自说出来。

从技术上讲,事情似乎并不复杂。但是,如果你深入研究,你会发现有最低的要求来开始:

  1. 你需要至少 5 分钟的高质量录音的源声音来克隆它。这些录音应该清晰且无背景噪音或其他失真,因为任何缺陷都可能影响模型输出的准确性。
  2. 之后,将这些录音输入生成式 AI 模型中,以创建一个“语音头像”。
  3. 然后,训练模型以准确地复制语音模式、音调和时序。
  4. 完成后,这个训练模型可以生成无限的内容,使用任何其他人的源声音,成为创建真实听起来的复制声音的有效工具。

这就是很多人提起道德问题的地方。 当我们可以将任何文本插入到另一个人的嘴里,并且无法判断这些话是真实的还是假的时会发生什么?

是的,这种可能性已经成为现实。就像 OpenAI 和 ChatGPT 的情况一样,我们目前面临着许多无法忽视的道德问题。

AI 的道德标准

与许多其他新技术在其初始采用阶段一样,主要威胁是围绕技术制造负面形象,而不是将威胁作为讨论和有价值知识的来源。重要的是揭露坏人使用和滥用技术及其产品的方法,应用缓解工具,并继续学习。

今天,我们有三个层次的框架用于生成式 AI 的道德标准。国家和超国家监管层正在初步发展中。政策世界可能无法跟上新兴技术的发展速度,但我们已经可以看到欧盟带头推出 欧盟关于 AI 规管的提议2022 年关于虚假信息的行为准则,概述了大型科技公司处理恶意 AI 操纵内容传播的期望。在国家层面上,我们看到美国和英国在解决这个问题的监管第一步,分别是美国的 国家深度伪造和数字来源任务组和英国的 在线安全法案

科技行业的层面发展得更快,因为公司和技术人员正在接受这一新现实,这与新兴技术及其对社会安全和隐私的影响有关。关于生成式 AI 的道德对话非常活跃,并推动了开发行业关于使用生成式 AI 的行为准则(例如 合成媒体行为准则)和不同公司发布的道德声明。问题是,如何使行为变得实用?以及,它们是否能够影响产品、特定功能和团队的程序?

在与媒体和娱乐、网络安全和 AI 道德社区合作解决这个问题后,我已经制定了一些处理 AI 内容和声音的实用原则:

  1. 知识产权所有者和使用克隆声音的公司可以通过签署法律协议来避免使用原始声音的许多潜在复杂性。
  2. 项目所有者应该公开披露使用克隆声音,以免误导听众。
  3. 从事语音 AI 技术的公司应该分配一定比例的资源来开发能够检测和识别 AI 生成内容的技术。
  4. 在 AI 生成内容中添加水印可以实现语音认证。
  5. 每个 AI 服务提供商都应该在同意处理项目之前审查其对社会、业务和隐私的影响。

当然,AI 的道德原则不会影响自制的深度伪造在网上的传播。然而,它们将把任何灰色项目推出公众市场的范围之外。

2021-22 年,AI 声音被用于不同的主流项目中,这些项目对道德和社会产生了重大的影响。这些包括 克隆年轻卢克·天行者的声音 用于《曼达洛人》系列,AI 声音用于《战神 2》,以及 理查德·尼克松的声音用于历史性的“月球灾难”演讲

对技术的信心正在超越媒体和娱乐。传统企业在各个行业中使用克隆声音进行项目。以下是最突出的用例。

行业用例

2023 年,语音克隆将继续崛起,各种企业将从中获得其众多的益处。从医疗保健和营销到客户服务和广告业,语音克隆正在改变组织与客户建立关系和简化工作流程的方式。

语音克隆使在线工作的医疗保健专业人员和社会工作者受益。具有相同声音的数字化身可以与他们的患者建立更牢固的纽带,提高信任度和客户留存率。

语音克隆在电影和娱乐行业的潜在应用是巨大的。将内容翻译成多种语言、儿童和成人对白替换(ADR)以及几乎无限的定制选项都是通过这项技术实现的。

同样,在运营部门,AI 驱动的语音克隆可以为需要成本效益的解决方案的品牌带来优秀的结果,例如交互式语音响应系统或企业培训视频。通过语音合成技术,演员可以扩大他们的影响力,同时增加他们从录音中获得的残值。

最后,在广告制作工作室中,语音克隆的出现已经显著降低了商业制作的成本和时间。只要有高质量的录音可用于克隆(即使是来自不可用的演员),广告可以比以往任何时候都更快、更具创意地制作。

有趣的是,企业和中小企业可以利用语音克隆为其品牌创造独特的东西。大型项目可以实现他们最雄心勃勃的计划,而小型企业可以访问以前成本高昂的规模模型。这就是真正的民主化的含义。

总结

AI 语音克隆为企业提供了改变游戏规则的益处,例如创建独特的客户体验、将自然语言处理能力集成到其产品和服务中,以及生成听起来完全真实的声音的高度准确的模仿。

希望在 2023 年保持竞争优势的企业应该研究 AI 语音克隆。公司可以使用这项技术解锁新的可能性,以赢得市场份额和保留客户,同时以道德负责的方式进行。

Anna 是 Respeecher 的道德和合作负责人,Respeecher 是一家位于乌克兰的艾美奖获奖语音克隆技术公司。Anna 曾是 Reface 的政策顾问,Reface 是一个由 AI 驱动的合成媒体应用程序,也是由 Startup Wise Guys 加速器计划资助的反虚假信息工具 Cappture 的技术联合创始人。Anna 在安全和国防政策、技术和韧性建设方面拥有 11 年的经验。她曾是塔林和布拉格安全研究院国际防御和安全中心的研究员。她还曾作为基辅经济学院混合战争任务小组的一员,为乌克兰主要公司提供韧性建设方面的建议。