面试

Matt Hocking，WellSaid Labs 联合创始人 – 访谈系列

更新 on 2024 年 4 月 10 日

马特·霍金是该公司的联合创始人赛德实验室，领先的企业级人工智能语音生成器。他在领导团队和大规模交付技术解决方案方面拥有超过 15 年的经验。

您具有相当的创业背景，您最初是如何涉足人工智能领域的？

我想我一直认为自己很有创业精神。我大学毕业后开始了自己的第一笔生意，拥有产品设计背景，发现自己很喜欢帮助那些有早期想法的人。在我的职业生涯中，我很幸运能够与许多初创公司合作，这些公司后来取得了一些令人难以置信的业绩。在这些经历中，我亲身接触了许多伟大的创始人，从而激励我作为创始人追求自己的想法。当我加入 AI2 时，人工智能对我来说还比较陌生；然而，这段经历为我提供了一个机会，将我的产品和创业镜头应用于一些真正令人惊叹的研究，并想象这些新的进步将如何在未来几年帮助很多人。从一开始，我的目标就是为真实的人开发真实的业务，我相信，如果应用得当，人工智能有潜力在我们的未来创造许多令人兴奋的机会和效率。

您能否分享一下当您作为常驻企业家时如何构想 WellSaid Labs 的想法的故事？艾伦人工智能研究所?

我于 2 年作为常驻企业家加入艾伦人工智能研究所 (AI2018)。AI2 可以说是世界上最具创新性的孵化器，它聚集了人工智能领域最聪明的人才，他们将解决方案从当今可能的边缘应用到可解决问题的有形产品全球各地的问题。我在设计和技术方面的背景培养了我对创意领域的长期兴趣，随着我们今天都目睹的人工智能热潮，我想探索一种将两者联系起来的方法。我在开发一款交互式医疗保健应用程序时被介绍给 Michael Petrochuk（WellSaid Labs 联合创始人兼首席技术官），该应用程序可指导患者应对各种敏感场景。在开发体验内容的过程中，我的团队与配音人员合作，为头像预先录制了数千行配音。当我接触到 Michael 在研究过程中取得的一些突破时，我们很快就看到了与人类同等的文本转语音 (TTS) 的价值，它不仅可以改变我正在开发的产品，还可以影响许多人。其他应用和行业。技术和工具一直难以满足以语音为媒介进行创作的制作人的需求。我们看到了一条将这项技术交到所有创作者手中的途径，让语音成为所有故事不可或缺的一部分。

WellSaid Labs 是为数不多的为配音演员提供进入人工智能配音领域途径的公司之一。为什么您认为将真实声音集成到产品中很重要？

我们对此的回答是双管齐下的：首先，我们希望创建能够补充专业配音演员能力的解决方案，扩大配音机会。其次，我们努力使我们的产品具有最高水平的人文品质。我们的配音演员是长期合作伙伴，他们的语音数据和随后制作的内容都会获得报酬和收入分成。我们聘请的每位配音演员根据其声音的相似程度创建人工智能语音化身，其报酬取决于他们的声音在我们平台上的使用量。我们鼓励人才与我们合作；对他们的贡献给予公平的补偿对我们来说非常重要。

为了在市场上提供最高水平的人性化产品，我们必须严格控制数据的来源。当我们训练我们的产品时，这个过程使我们能够更好地控制质量深入学习模型既能体现人类平等，又能体现特定的上下文相关风格。我们不只是创建一个声音来背诵所提供的输入。我们的模型提供了多种声音风格来执行页面上的内容。无论用户是使用我们库中的头像创建画外音，还是使用为其品牌定制的语音创建画外音，我们都使用真实的语音数据来确保无缝流程和易于使用的平台。如果我们的客户必须在后期制作中操纵和编辑我们的声音，那么获得所需输出的过程将变得笨重而漫长。我们的声音会结合书面内容的上下文，并提供上下文准确的阅读。我们为所有类型的用例提供语音 - 无论是阅读新闻、制作音频广告还是自动呼叫中心支持 - 因此与针对每个用例的专业语音人才合作为我们提供了上下文和高质量的语音数据。

我们定期更新头像库并添加新的风格和口音，以确保我们代表客户的声音。在 WellSaid Labs 的工作室中，客户和品牌可以根据地区、风格和用例试听不同的声音，从而根据制作者的需求更加无缝、统一地制作个性化的音频内容。一旦对初始录音进行采样，用户就可以提示特定的单词、拼写和发音，以确保人工智能始终能够专门满足他们的需求。

WellSaid Labs 声称自己是第一个道德人工智能语音平台。为什么人工智能道德对您很重要？

随着人工智能的采用不断增加并变得更加主流，对有害用例和不良行为者的担忧成为每次对话的中心——不幸的是，这些担忧在现实世界中得到了证实。 AI语音也不例外；几乎每天，有关名人、公众人物或政客因广告或政治目的而被深度造假的新报道都会成为新闻头条。尽管有关该技术的正式联邦法规仍在不断发展，但随着技术的不断进步，检测和打击恶意行为者以及合成语音的使用将变得越来越困难。

来自 AI2，人工智能道德是其核心原则，迈克尔和我在第一天就进行了这些对话。开发人工智能语音技术需要在同意、隐私和整体安全方面承担重大责任。我们知道，作为开发人员，我们必须安全地构建我们的技术，解决道德问题，并为合成声音的未来发展奠定基础。我们认识到人工智能语音技术可能被滥用，并承担减少我们产品潜在滥用的责任。我们需要从第一天起就打好这个基础，而不是跑得快，一路上犯错误。对于我们的企业客户和配音演员来说，这样做是不对的，他们指望我们打造出高质量、值得信赖的产品。

我们完全支持在这一领域立法的呼吁；然而，我们不会等待联邦法规的颁布。我们一直并将继续优先考虑支持隐私、安全、透明度和问责制的实践。

我们严格遵守公司的道德意向准则，该准则的基础是我们做出的每一个决定都以负责任的创新为基础。这符合我们全球客户——企业品牌的最大利益。

如何开发一个有道德的人工智能语音平台？

WellSaid Labs 从一开始就致力于道德创新。我们通过使用内部数据模型、明确的同意要求、我们的内容审核计划以及我们对品牌保护的承诺来集中信任和透明度。在 WellSaid，我们遵循以下原则：负责任的AI 塑造我们的决策和设计，这些原则延伸到我们声音的使用。我们的道德准则将这些原则体现为问责制、透明度、隐私和安全以及公平。

责任：我们对适当的内容保持严格的标准，禁止将我们的声音用于有害、仇恨、欺诈或意图煽动暴力的内容。我们的信任与安全团队通过严格的内容审核计划来维护这些标准，阻止并删除试图违反我们服务条款的用户。

用户评论透明：在使用某人的语音数据构建合成语音之前，我们需要明确同意。除非我们得到政客、名人或其他任何人的明确书面同意，否则用户无法上传政客、名人或其他任何人的语音数据来创建他们的声音克隆。

隐私和安全：我们通过使用库存图像和别名来代表合成声音来保护配音演员的身份。我们还鼓励他们谨慎对待如何以及与谁分享与 WellSaid Labs 或其他合成语音公司的关联，以减少滥用其声音的机会。

公平：我们向所有为我们平台提供语音数据的配音演员提供补偿，并为他们使用我们根据他们的数据构建的合成语音提供持续的收入分成。

除了这些原则之外，我们还严格尊重知识产权。我们不主张对我们的用户或配音演员提供的内容的所有权。我们所做的一切都优先考虑诚信、公平和透明度，确保我们的合成语音技术得到负责任和合乎道德的使用。我们积极寻求与来自不同背景和经验的声音建立合作伙伴关系，以确保我们为每个人提供声音。

我们致力于负责任的创新和开发人工智能语音技术，并牢记道德规范，这使我们与该领域其他寻求通过任何方式利用新的、不受监管的行业的公司区分开来。我们对道德、安全和隐私的早期投资在我们的配音演员和客户中建立了信任和忠诚度，他们越来越多地寻求处于创新前沿的公司提供符合道德标准的产品和服务。

WellSaid Labs 创建了自己的内部人工智能模型，使其人工智能声音能够实现与人类同等的水平，并且通过将人类的缺陷带入对话中来实现这一目标。这些缺陷是什么让人工智能变得更好，这些缺陷是如何实现的？

WellSaid Labs 不仅仅是另一个 TTS 生成器。早期的 TTS 技术无法识别人类语音的质量，如音调、语气和方言，以传达单词背后的上下文和情感，而 WellSaid 语音已经实现了人类的同等水平，为人工智能生成的语音带来了人类特有的缺陷。

我们衡量语音质量的主要标准始终是人性化。这一指导信念塑造了我们每个阶段的技术，从我们构建的脚本库到我们为人才提供的指令，以及最近我们如何迭代我们的核心 TTS 算法。

我们训练真实的人类发声。当我们的配音人员为我们录制时，他们会真实而引人入胜地朗读他们的剧本。另一方面，完美语音是一个机械概念，它会导致机器人完美无缺、不自然的输出。当专业配音演员表演时，他们的语速会出现波动。他们的响度随着他们正在阅读的内容而变化。他们的音调可能会在需要兴奋阅读的段落中上升，而在更阴郁的段落中再次下降。这些动态变化构成了引人入胜的人声表演。

通过构建与我们专业人才的动态表现相协调的人工智能流程，我们构建了一个真正自然的 TTS 平台。我们开发了第一个长格式 TTS 系统，在整个创作过程中提供预测控制。我们的语音库包含各种音频数据，允许用户在制作阶段将特定的声音提示（例如发音指导或可控性）合并到模型中。在一个平台中，WellSaid 用户可以录制、编辑配音并对其进行风格化，而无需导入外部数据。

您能否讨论一下建立文本转语音 (TTS) 人工智能公司背后的一些挑战？

人工智能语音技术的发展为其生产者和消费者都带来了一系列全新的障碍。主要挑战之一是不要陷入人工智能领域充斥的噪音和炒作之中。作为一项新兴的热门技术，许多组织都试图从人工智能配音的短期发展中获利。我们希望在核心道德原则和真实性的指导下为每个人提供发言权。这种对真实性的坚持可能会延迟我们技术的开发和部署，但会巩固 WellSaid 语音及其数据的安全性。

开发 TTS 平台的另一个挑战是制定具体的同意指南，以确保组织或个人参与者不会滥用我们的技术。为了应对这一挑战，我们寻求长期合作伙伴关系，并充分参与配音开发，以提高问责制、透明度和用户安全性。我们积极寻求与来自不同背景、组织和经验的配音人才建立合作伙伴关系，以确保 WellSaid Labs 的声音库能够反映其创作者和受众。这些流程的设计是有意且注重细节的，以确保我们的技术尽可能安全和合乎道德地使用，这可能会减慢开发和发布时间。

您对生成人工智能声音的未来有何愿景？

长期以来，人工智能语音技术尚未达到足够高的质量，无法使公司大规模创建有意义的内容。现在，音频技术不再需要昂贵的设备和硬件，所有书面内容都可以以音频格式制作和发布，以创造引人入胜的多模式体验。

如今，人工智能声音可以产生类似人类的音频，并捕捉使数字故事讲述变得更加容易和自然所需的细微差别。生成式人工智能语音的未来将是全方位的听觉体验，触及我们生活的方方面面。随着技术的不断进步，我们将看到越来越自然和富有表现力的合成声音模糊了人类和机器生成的语音之间的界限，为商业、通信、可访问性以及我们与周围世界的互动方式打开了新的大门。

企业将在人工智能语音界面中发现增强的个性化，并利用它们使与虚拟助手的交互更加身临其境和用户友好。从智能呼叫中心代理到快餐店，这些增强功能已经在发生。内容创作（包括广告、产品营销、新闻旁白、播客、有声读物和其他多媒体）将通过使用工具开发引人入胜的内容来提高效率，最终增加组织的提升和收入，特别是现在多语言模型可以扩大公司的影响力从单一起源点到拥有全球影响力。制作团队将发现合成声音的巨大好处，可以根据品牌需求或听众定制声音。

在引入人工智能之前，TTS 技术缺乏大规模、轻松讲述完整故事所需的关键人类情感、语调和发音能力。现在，人工智能驱动的 TTS 提供了更加身临其境且易于访问的体验，包括实时语音功能和交互式对话代理。

实现类人语音能力是一个漫长的过程，但现在它已成为可能，我们正在见证人工智能语音为组织创造真正商业价值的完整范围。

感谢您的精彩采访，想要了解更多信息的读者可以访问 WellSaid实验室.