访谈
Matt Hocking,WellSaid Labs联合创始人 – 采访系列

Matt Hocking 是 WellSaid Labs 的联合创始人,WellSaid Labs是一家领先的企业级AI语音生成器。他拥有超过15年的经验,领导团队并在大规模上交付技术解决方案。
您的背景相当具有创业精神,您最初如何涉足AI领域?
我想我一直认为自己相当具有创业精神。我大学毕业后就创办了我的第一家公司,拥有产品设计背景,我发现自己被吸引到帮助人们开发早期的想法。整个职业生涯中,我有幸与许多后来取得了令人难以置信的成就的初创公司合作。在这些经历中,我有机会亲身接触到许多伟大的创始人,这激励我作为创始人去追求自己的想法。AI对我来说是相对新的,当我加入AI2时;然而,这段经历给我提供了机会,将我的产品和初创公司视角应用于一些真正令人惊叹的研究,并想象这些新进展将如何在未来几年中帮助很多人。从开始以来,我的目标就是为真正的人开发真正的业务,我相信AI有潜力在未来创造许多令人兴奋的机会和效率,如果应用得当。
您能否分享WellSaid Labs的想法是如何在您作为The Allen Institute for AI的企业家驻地时产生的故事?
我于2018年加入The Allen Institute for Artificial Intelligence(AI2)作为企业家驻地。可以说这是世界上最具创新性的孵化器,AI2汇集了AI领域最优秀的头脑,他们将今天可能的边缘解决方案应用于有形的产品,以解决全球范围内的问题。我的设计和技术背景培养了我对创意领域的长期兴趣,随着我们今天所见到的AI热潮,我想探索一种方法,将这两者联系起来。我在开发一个交互式医疗应用时认识了Michael Petrochuk(WellSaid Labs联合创始人和CTO),该应用指导患者完成各种敏感场景。在开发体验内容的过程中,我的团队与语音人才合作,预先录制了数千行语音内容。 当我接触到Michael在研究中取得的一些突破时,我们很快看到了人类级别的文本转语音(TTS)技术如何能够改变我正在开发的产品以及影响其他应用和行业。技术和工具难以跟上使用语音作为媒介的制作者的需求。我们看到了将这一技术放在所有创作者手中的道路,让语音成为所有故事的组成部分。
WellSaid Labs是少数为配音演员提供进入AI语音领域途径的公司之一。为什么您认为将真实语音整合到产品中很重要?
我们的答案是双重的:首先,我们希望创建能够补充专业配音演员能力的解决方案,扩大语音机会。其次,我们努力在产品中实现最高水平的人类质量。我们的配音演员是长期的合作伙伴,他们将获得对其语音数据和随后使用其语音数据生成的内容的补偿和收入分成。每个被聘请创建基于其语音相似度的AI语音头像的配音演员都根据其语音在我们的平台上的使用情况获得报酬。我们鼓励人才与我们合作;对他们的贡献给予公平的补偿对我们来说非常重要。
为了提供市场上最高质量的人类级产品,我们必须严格控制数据来源。这一过程使我们能够更好地控制质量,因为我们训练我们的深度学习模型以达到人类级别和特定上下文相关样式。我们不仅仅创建一个朗读输入的语音。我们的模型提供多种语音样式,可以执行页面上的内容。无论用户是使用我们的库中的头像创建语音还是使用自定义语音创建语音,均使用真实语音数据以确保无缝过程和易于使用的平台。如果我们的客户需要在后期制作中操纵和编辑我们的语音,获得所需输出的过程将会很繁琐和漫长。我们的语音考虑到书面内容的上下文,并提供上下文准确的朗读。我们为所有类型的用例提供语音,无论是朗读新闻、制作音频广告还是自动呼叫中心支持,因此与每个用例的专业配音人才合作为我们提供了上下文和高质量的语音数据。
我们定期更新和添加新的样式和口音到我们的头像库,以确保我们代表客户的语音。在WellSaid Labs的Studio中,客户和品牌可以根据地区、样式和用例试听不同的语音,从而实现音频内容的无缝和统一生产,以满足创作者的需求。一旦初始录音被采样,用户可以提示特定的单词、拼写和发音,以确保AI始终特定于他们的需求。
WellSaid Labs正在成为第一个具有道德的AI语音平台。为什么AI道德对您来说很重要?
随着AI的采用和变得更加主流,人们对有害用例和不良行为者的担忧处于每次对话的中心——这些担忧不幸被现实事件验证。AI语音也不例外;几乎每天,都有关于名人、公众人物或政治人物被深度伪造用于广告或政治目的的报道。虽然正式的联邦法规关于这项技术仍在发展中,但检测和打击恶意行为者和合成语音的恶意用途将变得越来越困难,因为这项技术的进步。
来自AI2,我和Michael在第一天就讨论了这些问题。开发AI语音技术带来了显著的责任,包括同意、隐私和整体安全。我们知道,作为开发者,我们必须安全地构建我们的技术,解决道德问题,并为合成语音的未来发展奠定基础。我们认识到AI语音技术被滥用的潜力,并承担起减少我们产品滥用的责任。我们需要从第一天开始奠定这个基础,而不是快速发展并沿途犯错。这对我们的企业客户和配音演员来说是不公平的,他们依靠我们构建高质量、值得信赖的产品。
我们完全支持在这个领域立法的呼吁;然而,我们不会等待联邦法规的颁布。我们一直优先考虑并将继续优先考虑支持隐私、安全、透明度和问责制的做法。
我们严格遵守公司的道德意图准则,该准则基于在每个决策中进行负责任的创新。这是为了我们全球客户的最大利益——企业品牌。
如何开发一个具有道德的AI语音平台?
WellSaid Labs从一开始就致力于道德创新。我们通过使用内部数据模型、明确的同意要求、内容审查计划和对品牌保护的承诺来集中信任和透明度。在WellSaid,我们依靠负责任的AI原则来指导我们的决策和设计,这些原则也适用于我们语音的使用。我们的道德准则代表了这些原则:责任、透明度、隐私和安全性以及公平性。
责任:我们保持严格的标准,适用于适当的内容,禁止使用我们的语音进行有害、仇恨、欺诈或煽动暴力的内容。我们的信任和安全团队通过严格的内容审查计划来维护这些标准,阻止和删除试图违反我们的服务条款的用户。
透明度:在构建具有某人语音数据的合成语音之前,我们需要明确的同意。用户不能在未获得明确、书面同意的情况下上传语音数据来创建某人的语音克隆。
隐私和安全:我们通过使用库存图像和别名来代表合成语音来保护我们的配音演员的身份。我们还鼓励他们在与谁分享他们与WellSaid Labs或其他合成语音公司的关联时要谨慎,以减少他们的语音被滥用的机会。
公平性:我们为所有在我们的平台上提供语音数据的配音演员提供补偿,并为使用他们的语音数据生成的合成语音提供持续的收入分成。
除了这些原则外,我们还严格尊重知识产权。我们不声称拥有用户或配音演员提供的内容的所有权。我们优先考虑诚信、公平和透明度的所有事情,以确保我们的合成语音技术被负责任和道德地使用。我们积极寻求与来自不同背景、组织和经验的配音演员合作,以确保WellSaid Labs的语音库反映其创作者和受众。
我们的致力于负责任的创新和以道德为考虑的AI语音技术的开发使我们与其他公司区别开来,后者试图通过任何手段在一个新的、不受监管的行业中获利。我们在道德、安全和隐私方面的早期投资建立了与我们的配音演员和客户的信任和忠诚,他们越来越多地寻求来自创新领域公司的道德制品和服务。
WellSaid Labs创建了自己的内部AI模型,使其AI语音能够达到人类级别,并通过将人类对话中的缺陷引入对话来实现这一点。这些缺陷的哪些方面使AI更好,以及如何实施这些缺陷?
WellSaid Labs不仅仅是一个TTS生成器。早期的TTS技术无法识别人类语音的质量,如音调、语调和方言,这些质量传达了单词背后的上下文和情感,而WellSaid语音已经达到人类级别,将独特的人类缺陷带入AI生成的语音中。
我们的主要语音质量衡量标准一直是人类的自然性。这一指导原则在每个阶段都塑造了我们的技术,从我们构建的脚本库到我们给人才的指示,最近,还有我们如何迭代我们的核心TTS算法。
我们训练真实的人类语音。我们的配音演员以真实和引人入胜的方式为我们录制脚本。另一方面,语音完美是一个机械概念,导致输出不自然且机器人般完美。当专业配音演员表演时,他们的语速会波动。他们的音量会随着他们正在朗读的内容而变化。他们的语音音调可能会在需要激动人心的段落中上升,并在更严肃的行中下降。这些动态变化组成了一个引人入胜的人类语音表演。
通过构建与我们专业人才的动态表演相协调的AI过程,我们构建了真正自然的TTS平台。我们开发了第一个具有整个创作过程中的预测控制的长期TTS系统。我们的音素库包含多样化的音频数据,允许用户在生产阶段将特定的语音提示(如发音指导或可控性)纳入模型中。在一个平台中,WellSaid用户可以录制、编辑和样化他们的语音,而无需导入外部数据。
您能讨论一下构建文本转语音(TTS)AI公司的一些挑战吗?
AI语音技术的开发已经为其生产者和消费者带来了一个全新的障碍。其中一个主要挑战是不要被AI领域的噪音和炒作所左右。作为一项新颖的技术,许多组织都试图在短期内从AI语音开发中获利。我们希望为每个人提供语音,受中央道德原则和真实性的指导。这一对真实性的坚持可能会延迟我们技术的开发和部署,但巩固了WellSaid语音和数据的安全性和安全性。
开发我们的TTS平台的另一个挑战是制定特定的同意指南,以确保组织或个人不会滥用我们的技术。为了应对这一挑战,我们寻求合作、长期的合作伙伴关系,并在语音开发中完全参与,以增加问责制、透明度和用户安全性。我们积极寻求与来自不同背景、组织和经验的配音演员合作,以确保WellSaid Labs的语音库反映其创作者和受众。这些过程是故意和详细的,以确保我们的技术被安全和道德地使用,这可能会减慢开发和发布时间表。
您对未来AI生成语音的展望是什么?
长期以来,AI语音技术还没有达到足够高的质量,以使公司能够大规模创建有意义的内容。现在,音频技术不再需要昂贵的设备和硬件,所有书面内容都可以以音频格式生产和发布,以创建引人入胜的多模式体验。
如今,AI语音可以产生类似人类的音频,并捕捉到数字故事讲述所需的细微差别,使其更加自然和便捷。AI生成语音的未来将是包罗万象的可听体验,影响我们生活的各个方面。随着技术的进步,我们将看到越来越自然和富有表现力的合成语音模糊人类和机器生成语音之间的界限——为业务、通信、可访问性以及我们与周围世界的互动开启新的机会。
企业将在AI语音接口中找到增强的个性化,并使用它们使与虚拟助手的交互更加身临其境和用户友好。这些增强功能已经在发生,从智能呼叫中心代理到快餐店的驱车取餐窗口。内容创作,包括广告、产品营销、新闻播报、播客、有声书和其他多媒体,将通过使用工具开发引人入胜的内容而变得更加高效, 궁극上增加组织的收益,尤其是现在多语言模型可以使公司从单一点扩展到全球存在。生产团队将在创建为品牌需求量身定制或根据听众定制的语音方面找到巨大的好处。
在AI之前,TTS技术缺乏传达故事所需的人类情感、语调和发音能力。现在,AI驱动的TTS提供了更身临其境和更易访问的体验,包括实时语音功能和交互式对话代理。
实现类似人类的语音能力是一段旅程,但现在它是可行的,我们正在见证AI语音的全部范围为组织创造真正的业务价值。
感谢这次精彩的采访,希望了解更多的读者可以访问WellSaid Labs。












