访谈
Ofir Krakowski,Deepdub 的 CEO 和联合创始人 – 采访系列

Ofir Krakowski 是 Deepdub 的联合创始人和 CEO。他拥有 30 年的计算机科学和机器学习经验,在以色列空军的机器学习和创新部门担任领导职务长达 25 年。
Deepdub 是一家基于人工智能的配音公司,利用深度学习和语音克隆技术为电影、电视和数字内容提供高质量、可扩展的本地化服务。该公司成立于 2019 年,能够让内容创作者在无缝翻译对话到多种语言的同时保留原有的表演。通过将人工智能驱动的语音合成与人类语言监督相结合,Deepdub 提高了全球内容的可访问性,减少了传统配音的时间和成本。该公司因其创新获得了行业认可,获得了主要合作伙伴关系、认证和资金,以扩展其人工智能本地化技术到整个娱乐行业。
是什么启发你在 2019 年创立 Deepdub?是否有一个特定的时刻或挑战导致了它的创建?
传统的配音长期以来一直是行业标准,但它是一个昂贵、耗时和资源密集的过程。虽然存在人工智能生成的语音解决方案,但它们缺乏捕捉演员表演的情感深度的能力,因此不适合高质量、复杂的内容。
我们发现了一个机会,通过开发一个人工智能驱动的本地化解决方案来弥补这一差距,该解决方案在大大提高效率的同时保持了原有表演的情感真实性。我们开发了自己的专有 eTTS ™(情感文本转语音)技术,确保人工智能生成的语音具有与人类演员相同的情感重量、语调和细微差别。
我们设想一个世界,在那里语言和文化障碍不再是全球内容可访问性的障碍。在创建我们的平台时,我们认识到娱乐、电子学习、FAST 和其他行业中语言限制的挑战,并着手革新内容本地化。
为了确保 Deepdub 的解决方案为复杂内容提供最高质量的本地化和配音,我们决定采用混合方法,将语言和语音专家纳入人工智能驱动的过程中。
我们的愿景是民主化语音制作,使其大规模可扩展、普遍可访问、包容和文化相关。
您在启动 Deepdub 时面临的一些最大技术和商业挑战是什么,您如何克服它们?
在启动 Deepdub 时,获得娱乐行业的信任是一个主要障碍。好莱坞几十年来一直依赖传统的配音,转向人工智能驱动的解决方案需要展示我们能够在一个经常对人工智能持怀疑态度的行业中提供影视级的结果。
为了解决这一怀疑,我们首先通过创建一个完全许可的语音库来增强我们的人工智能生成的语音的真实性。该库包含真实的人类语音样本,显著提高了我们的输出的自然性和表达性,这对于在好莱坞的接受至关重要。
接下来,我们开发了专有技术,例如 eTTS ™,以及区域真实性所需的特性,如口音控制。这些技术确保人工智能生成的语音不仅捕捉到情感深度和细微差别,还符合高质量配音所需的区域真实性。
我们还建立了一个专门的内部后期制作团队,与我们的技术密切合作。该团队微调人工智能输出,确保每一份内容都经过润色,并符合行业的高标准。
此外,我们扩大了我们的方法,包括来自世界各地的全球专家网络——语音演员、语言学家和导演。这些专业人士带来了无价的文化洞察力和创造性专业知识,增强了我们配音内容的文化准确性和情感共鸣。
我们的语言团队与我们的技术和全球专家密切合作,确保语言用于目标受众的文化背景,进一步确保真实性和遵守当地规范。
通过这些策略,Deepdub 成功地向好莱坞和世界各地的顶级制作公司展示了人工智能可以显著增强传统的配音工作流程。这一集成不仅简化了生产,还扩大了市场扩张的可能性。
Deepdub 的人工智能驱动的配音技术与传统配音方法有什么不同?
传统的配音是一个耗时的过程,可能需要每个项目数月的时间,因为它需要语音演员、音频工程师和后期制作团队手动重新创建不同语言的对话。我们的解决方案通过提供一个混合的端到端解决方案来革新这一过程——将技术和人类专业知识相结合——直接集成到后期制作工作流程中,从而将本地化成本降低了多达 70%,将周转时间降低了多达 50%。
与其他人工智能生成的语音解决方案不同,我们的专有 eTTS ™技术允许具有传统方法在大规模上难以实现的情感深度、文化真实性和语音一致性。
您能带我们了解一下 Deepdub 使用的混合方法吗——人工智能和人类专业知识如何在配音过程中协同工作?
Deepdub 的混合模型将人工智能的精度和可扩展性与人类专业知识的创造力和文化敏感性相结合。我们的方法将传统配音的艺术性与先进的人工智能技术相结合,确保本地化内容保留原作的情感真实性和影响力。
我们的解决方案利用人工智能自动化本地化的基础工作,同时人类专业人员完善情感细微差别、口音和文化细节。我们结合我们的专有 eTTs ™和语音转语音(V2V)技术来增强人工智能生成的语音的自然表达性,确保它们捕捉到人类表演的深度和真实性。这样,我们确保每一份内容在其本地化形式中感觉与原作一样真实和有影响力。
语言学家和语音专业人员在此过程中发挥着关键作用,因为他们增强了人工智能生成内容的文化准确性。随着全球化继续塑造娱乐业的未来,人工智能与人类艺术性的集成将成为内容本地化的金标准。
此外,我们的语音艺术家版税计划在人工智能辅助配音中使用其语音时会向专业语音演员支付报酬,确保人工智能语音技术的道德使用。
Deepdub 的专有 eTTS ™(情感文本转语音)技术如何提高配音内容中的语音真实性和情感深度?
传统的人工智能生成的语音通常缺乏使表演引人入胜的微妙情感线索。为了解决这一缺陷,Deepdub 开发了其专有的 eTTS ™技术,利用人工智能和深度学习模型生成不仅保留原演员表演的全部情感深度,而且将人类的情感智慧融入自动化过程中的语音。这种高级功能允许人工智能微调合成语音以反映预期的情感,例如喜悦、愤怒或悲伤,与观众产生共鸣。此外,eTTS ™在产生高保真度语音复制方面表现出色,模仿人类语音的自然细微差别,例如音调、语调和节奏,对于传递真实和引人入胜的台词至关重要。该技术还通过灵活地适应输出以控制口音来增强文化敏感性,确保配音内容尊重和符合文化细微差别,从而提高其全球吸引力和有效性。
人工智能生成的语音的一个常见批评是它们可能听起来很机器化。Deepdub 如何确保人工智能生成的语音保留自然性和情感细微差别?
我们的专有技术利用深度学习和机器学习算法提供可扩展、高质量的配音解决方案,以保留原作的意图、风格、幽默和文化细微差别。
除了我们的 eTTS ™技术之外,Deepdub 的创新套件还包括语音转语音(V2V)、语音克隆、口音控制和我们的语音情感库等功能,允许制作团队微调表演以匹配他们的创意愿景。这些功能确保每个语音都具有必要的情感深度和细微差别,以实现引人入胜的故事讲述和有影响力的用户体验。
过去几年中,我们在媒体和娱乐行业中看到我们解决方案的日益成功,因此我们最近决定向开发人员、企业和内容创作者开放我们的好莱坞认证的语音,通过我们的 AI Audio API。由我们的 eTTS ™技术驱动,该 API 支持实时语音生成,具有高级自定义参数,包括口音、情感语调、节奏和语音风格。
API 的旗舰功能是音频预设,基于我们在行业中最常请求的语音需求的多年经验。这些预配置设置使用户能够快速适应不同的内容类型,而无需进行大量的手动配置或探索。可用的预设包括音频描述和有声读物、纪录片或真人秀旁白、戏剧和娱乐、新闻播报、体育评论、动漫或卡通配音、交互式语音响应(IVR)以及宣传和商业内容。
人工智能配音涉及文化和语言适应——Deepdub 如何确保其配音解决方案在文化上是合适和准确的?
本地化不仅仅是翻译文字——它是关于翻译含义、意图和文化背景。Deepdub 的混合方法将人工智能驱动的自动化与人类语言专业知识相结合,确保翻译的对话反映目标受众的文化和情感细微差别。
我们的本地化专家与人工智能合作,确保配音内容符合区域方言、表达方式和文化敏感性。
您目前正在努力的一些最令人兴奋的创新是什么,以将人工智能配音推向下一个水平?
我们最大的即将推出的创新之一是实时配音,它将使直播广播(如体育赛事和新闻媒体)能够实现实时配音,使全球事件瞬间可访问。通过将其与我们另一个令人兴奋的创新——我们的 eTTs ™功能相结合,我们将能够提供高质量、真实、富有情感的实时配音,这在市场上尚无先例。
例如,奥运会的开幕式或任何直播体育赛事。虽然当地广播通常以其区域语言和方言提供评论,但这种技术将使来自世界各地的观众能够在事件发生时以其母语体验整个事件。
实时配音将重新定义全球直播事件的体验,确保语言永远不会成为障碍。
人工智能生成的配音在某些项目中面临批评。您认为是什么因素驱动了这些批评?
主要批评源于对真实性、道德和质量的担忧。一些人工智能生成的语音缺乏必要的情感共鸣和细微差别,以实现身临其境的故事讲述。在 Deepdub,我们通过开发情感丰富的人工智能语音来解决这一问题,确保它们保留原作的灵魂。Deepdub 获得了 70% 以上的观众满意度,包括出色的选角、清晰的对话、无缝的同步和完美的节奏。
另一个问题是人工智能语音的道德使用。Deepdub 是负责任的人工智能配音的领导者,开创了行业的第一人工智能生成的语音演员版税计划。我们相信人工智能应该增强人类的创造力,而不是取代它,这一承诺反映在我们构建的一切中。
您如何看待人工智能配音在未来 5-10 年内改变全球娱乐行业?
在接下来的十年里,人工智能驱动的配音将使内容民主化,使电影、电视节目和直播广播能够瞬间以观众的母语传达给每个观众。
我们设想一个世界,流媒体平台和广播公司将实时多语种配音集成到其服务中,消除语言障碍,允许故事以传统本地化方法以前所未有的速度和范围传播。
除了语言可访问性之外,人工智能配音还可以提高视障人士的媒体可访问性。许多人依赖音频描述来跟随视觉内容,人工智能配音允许他们以字幕不可访问的方式参与外语内容。通过打破语言和感官障碍,人工智能驱动的配音将有助于为所有人创造一个更具包容性的娱乐体验,这在新媒体可访问性法规今年在全球范围内生效之际尤为重要。
人工智能配音成为真正主流之前,还需要解决哪些最大的挑战?
最大的挑战是保持超高质量的规模化、确保文化和语言精度以及建立人工智能生成语音的道德准则。然而,除了技术障碍之外,人工智能配音的公共接受取决于信任。观众需要感到人工智能生成的语音保留表演的真实性和情感深度,而不是听起来人工或脱节。
为了让人工智能配音被完全接受,它必须是高质量的,通过在规模上将人类艺术性与技术相结合,并且要尊重创作完整性、语言细微差别和文化背景。这意味着确保语音忠于原演员的意图,避免可能疏远观众的不准确之处,并解决人工智能语音的道德问题,例如深度伪造风险和语音所有权。
随着人工智能配音变得更加普遍,技术提供商必须实施语音真实性、安全性和知识产权保护的严格标准。Deepdub 正在这些领域积极领导,确保人工智能语音技术增强全球故事讲述,同时尊重人类人才的艺术和职业贡献。只有这样,观众、内容创作者和行业利益相关者才会完全接受人工智能配音作为一个值得信赖和有价值的工具。
感谢这次精彩的采访,希望了解更多的读者请访问 Deepdub。












