访谈
Anton Dvorkovich,Dubformer 首席执行官兼创始人 – 访谈系列

Anton Dvorkovich 是 Dubformer 的首席执行官兼创始人,他花费了超过十年的时间塑造人工智能、语言和语音技术的交汇领域。在 2023 年创立 Dubformer 之前,他在 Yandex 领导了重要的机器学习和自然语言处理项目,监督了 Yandex Translate、Yandex Keyboard 和语音助手 Alice 等产品,每项产品都服务于数百万用户。在 Nebius,他担任人工智能负责人,推进了智能系统的大规模基础设施。他管理超过 100 名工程师、开发人员和研究人员组成的跨职能团队的经验,为 Dubformer 的愿景奠定了基础——通过先进的人工智能配音技术弥合语言鸿沟。
Dubformer 是一家总部位于阿姆斯特丹的人工智能配音初创公司,已经处理了超过一百万分钟的本地化视频内容。该公司专注于使用合成语音翻译和配音视频,这些语音能保留情感基调、时间节奏和说话者个性,帮助创作者、工作室和企业使其内容在全球范围内可访问。其平台利用深度学习模型进行语音识别、声音克隆和翻译,提供远超传统配音工具的自然音效结果。
在领导了 Yandex 的自然语言处理和语音团队,并担任 Nebius 的人工智能负责人之后,是什么促使您建立一家专门的人工智能配音公司?这些经历如何塑造了您的愿景?
在 Yandex 担任自然语言处理负责人期间,我培养了对用技术打破语言障碍的热情。我亲眼目睹(并参与)了发生在机器翻译领域的人工智能革命——然后我意识到,一个仍然在很大程度上未解决的巨大缺口是媒体翻译(音频和视频)。当你看到文本翻译变得近乎完美时,你开始思考:那些真正打动人的故事呢?那些让你笑或哭的表演呢?因此,我们决定迎接挑战,构建人工智能配音技术,并超越仅仅可理解的媒体翻译,实现真正令人愉悦的翻译。这就是我们推出 Dubformer 的原因。
您发现了媒体本地化中的哪些具体缺口?您在神经机器翻译和语音技术方面的背景如何影响了您解决这些缺口的方法?
今天的媒体本地化几乎完全由配音演员完成,这有几个缺点:成本相当高,周转时间慢,而且扩展非常困难,导致人员管理方面的巨大开销。想想看:传统的配音工艺非常出色,但这些限制意味着许多项目根本无法获得配音。因此,虽然传统配音相当不错,但由于上述缺点,目前有很多项目没有被配音。事实上,95% 的内容仅以原始语言提供。这就是我们正在解决的缺口。
VOX-DUB 基准是评估配音质量的一个重要里程碑。参与该基准为行业现状提供了哪些见解?
VOX-DUB 的结果揭示了一些重要信息:对于情感成分不关键的内容,行业已经解决了让人工智能语音听起来“像人”的问题。然而,为情感真正重要的内容配音仍然是一个未解决的挑战,尽管看起来一切似乎都已解决。许多系统可以产生可理解的语音,但很少有系统能创造出感觉真实且与原始表演情感一致的表演。我们已经掌握了朗读文本,但我们仍在学习如何实际表演场景。
您曾谈到声音保真度和整体语音质量之间的权衡。在您的系统中,您如何平衡这些因素?
实际上,权衡通常不是在声音保真度和质量之间,而是在情感、语调和表现力传递的深度与结果的稳定性之间。你试图传递的内容越多,错误传递某些内容的风险就越高,尤其是因为情感在不同语言中的表达方式不同。在一种语言中听起来充满激情的内容,在另一种语言中可能听起来不自然甚至刺耳。我们的目标是在情感准确性和自然度之间找到平衡,确保输出既富有表现力又听起来舒适。
在您看来,人工智能配音与传统文本转语音在技术和艺术上有何根本不同?
传统的文本转语音侧重于简单地朗读文本,通常使用中性语调。人工智能配音,尤其是在媒体行业,是一项复杂得多的任务,其目标不仅是传达意义,还要创造临场感和真实的表演感。情感、语调和自然的停顿都起着至关重要的作用,同时还要应对混音、声学适应以及与唇形和场景节奏同步等挑战。从艺术角度看,人工智能配音更接近于表演而非朗读;系统必须表演台词,而不仅仅是发音。
您认为 VOX-DUB 评估框架的哪些方面在推动人工智能媒体本地化的透明度和问责制方面最有价值?
VOX-DUB 对透明度的价值在于它迫使每个人诚实地面对他们实际能交付什么。在这个框架出现之前,公司可以对其配音质量提出主张,而没有任何验证方法。关键的突破在于,VOX-DUB 通过其全面的人工基准,首次系统地引入了人工智能配音错误的分类目录。这个开源数据集为质量创建了一种共同语言——包含原始语音片段及其翻译、来自多个系统的生成音频,以及涵盖五个关键方面的人工标注:发音、自然度、音质、情感相似度和声音相似度。有史以来第一次,我们有了一个带有明确指南和示例的配音人工评估标准。现在,当团队谈论质量时,每个人实际上都在谈论同一件事。任何人都可以看到的已发布结果创造了真正的问责制。团队必须用所有五个质量维度的性能数据来支持他们的营销主张。这种开放性改变了整个行业的运作方式,并与需要可靠、可衡量结果的创作者建立了信任。
您如何看待像 VOX-DUB 这样的基准影响多语言内容创作和分发的进展速度?
拥有明确基准的美妙之处在于它为每个人创建了路线图。当团队通过 VOX-DUB 结果看到什么是可以实现的时,就会加速他们自己的开发时间表。他们不再猜测质量是什么样子,而是有了具体的目标可以瞄准。我看到一些公司压缩了他们的路线图,因为他们看到了其他地方有效方法的证据。这种共同的理解正在帮助整个领域更快地共同前进,这意味着更多样化的内容可以更快地触达全球受众。
您的平台在发音和自然度方面取得了强劲的结果。哪些底层创新或模型选择对此贡献最大?
这归结于理解配音不仅仅是关于单个单词;而是关于整个表演生态系统。两项突破带来了不同。首先,我们不再将发音视为纯粹的技术问题,而是开始将其视为情感问题。人们说话时不会完美地发出每个音节;悲伤时会含糊其辞,兴奋时会语速加快。捕捉这种自然的不完美至关重要。其次,我们必须考虑整个声景。当有人在雨中的场景里说话,或者在回声大教堂里说话时,他们的声音自然会适应环境。我们的系统学会了与原始声学环境融合。这些不仅仅是技术改进。它们关乎理解是什么让语音感觉像人。
您的平台如何将人类专业知识与自动化相结合,以大规模交付专业级配音?
我们与传统配音工作室密切合作,帮助他们培训团队掌握新技能和新兴职业。人工智能处理翻译、同步和语音生成,而专业的审校人员、翻译和音响工程师则通过我们的平台进行最终质量检查。这种方法使我们能够在保持工作室级别质量的同时,将周转时间从数周缩短到数小时。自动化提供了可扩展性,而人类专业知识确保了艺术表现力。这是两全其美:机器的效率与人类的艺术性。
随着人工智能媒体本地化市场的快速增长,您认为人工智能在重塑全球创意制作方面将扮演什么更广泛的角色?
人工智能本地化将使配音对更广泛的创作者和故事讲述者变得可及。它将使他们能够与全球观众分享他们的故事,而不会失去情感深度或文化真实性。随着时间的推移,这将导致内容多样性的大幅增加,为以前负担不起专业配音的利基项目和专业受众打开大门。想想独立电影制作人、纪录片制作人、教育内容创作者;他们终于可以触达以前无法触及的全球受众。
展望下一阶段的发展,您对哪些即将到来的进步或合作感到最兴奋?
最让我兴奋的是继续提高我们的情感传递能力。我们已经取得了良好的进展,但在保留使表演感觉真实的细微差别方面,仍有很大的提升空间。在合作方面,我们正在与传统配音工作室建立更深入的伙伴关系,以创建结合两者优势的混合工作流程。这些工作室拥有数十年的专业知识,我们正在从中学习,同时我们提供技术来扩展他们的艺术性。最令人兴奋的合作是与那些将人工智能视为增强团队能力、承担以前无法处理的更多样化项目的方式,而非替代品的工作室。真正的突破将是我们能够持续交付让观众忘记是由人工智能创作的表演。这就是我们的方向。
感谢这次精彩的访谈,希望了解更多信息的读者请访问 Dubformer。












