Unite.AI

Thought Leaders3 days ago
By Oz Krakowski, Chief Business Development Officer at Deepdub

语音AI蓬勃发展——但其真实感足以产生影响吗？

全球AI语音代理市场正在蓬勃发展，预计将从2024年的31.4亿美元增长到2034年的475亿美元。它不再是一项小众技术，大多数主要科技公司（包括Google、Amazon、Apple、Meta和Microsoft）现在都拥有语音产品，初创公司也在向市场提供创新，而开源模型使得该技术本身变得越来越易于获取。从Siri和Alexa这样的日常虚拟助手，到电影电视的区域配音，语音AI的采用机会从未如此广阔。但随着语音AI的获取变得越来越普遍，用户体验仍然极不均衡。这是因为语音AI最困难的部分不是生成声音，而是生成一个在日常互动中感觉可信的声音。广泛的可用性并不意味着这些AI语音足以满足企业需求或实现长期用户采用。真正的竞争格局将由那些能在现实场景中提供感觉人性化、动态且具有情感感知能力的语音的公司所征服。恐怖谷效应：“足够好”并不够好行业内一个日益增长的假设是，实现一个相当像人的AI语音对于广泛采用来说将是“足够好”的，从而有效地结束竞争。用户会容忍轻微的不自然，因为其实用性超过了缺点。实际上，这种假设误解了人们如何感知言语、情感和真实性。近乎人声的语音容易产生“恐怖谷”效应，让用户感到不适，尤其是在客户支持、医疗互动或旅行规划等情绪可能高涨、感觉被理解至关重要的场景中。随着接触AI语音的机会增加，对平庸表现的容忍度正在下降。事实上，关于人机交互的研究一致表明，当一个声音几乎像人但缺乏情感或节奏协调时，用户会本能地感觉到有问题。例如，一些使用AI接待员的公司注意到，用户将互动描述为令人毛骨悚然或不安，因为语音存在细微的节奏或情感时机差异，让人感觉不对劲。在面向客户的环境中，即使是微小的摩擦或不适时刻，也可能迅速累积成真正的不满并最终导致用户放弃。为了商业目标，摆脱这种“足够好”的模式变得越来越重要。预计到2027年，AI将处理大约50%的客户服务案例，然而负面的自动化互动会直接损害品牌形象。一次糟糕的聊天机器人互动，再加上同样糟糕或不自然的语音体验，很可能会造成深深的挫败感，并可能表明没有可靠途径获得真正的帮助。随着消费者越来越多地与AI语音互动，对机器人式或尴尬互动的容忍度降低，用户会迅速脱离互动，这对依赖此类工具的公司构成了严重的商业后果。真正的真实感在语音AI中，人类级别的真实感不仅仅是发音准确或去除机器人般的底音。它还需要情感、语境、文化细微差别、时机以及更微妙因素的多维结合。因此，真正的挑战在于解构、理解并最终复制塑造人类交流的各个层面，例如：情感范围和真实性人声之美在于它们能够结合话语本身传达温暖、紧迫、幽默、失望、兴奋以及无数其他情感。这种情感上的细微差别直接影响用户是感到被理解还是被忽视，是感到安心还是恼怒。例如，想象一个AI支持代理在处理一位沮丧的客户。机器人可能会说：“我完全理解这一定很令人沮丧。让我们看看如何解决它。”当说出这些话的声音听起来富有同理心时，它可以降低来电者的压力，并表明真正的冲突解决。同样的词语用平淡或不自然的声音说出来，则可能引发相反的反应。语境智能人类会根据情境的紧迫性、感知到的听者情绪状态、信息的复杂性以及社交语境本能地调整自己的言语。当今的AI语音倾向于以统一的方式传递语句，忽略了使言语感觉具有响应性和在场感的语境线索。真实的言语不仅需要理解词语，还需要理解说出这些词语的原因以及表达者的心态。音频中的微表情自然的言语包含细微的不完美之处，如呼吸声、停顿、犹豫标记和不规则的节奏。这就是为什么完美无瑕、不间断的AI语音天生感觉不那么像人的主要原因之一。不幸的是，可信地复制这些线索在技术上仍然具有挑战性。文化和语言细微差别除了口音再现，真实的区域交流还依赖于对不同文化的语速、语调、习语、正式程度和交流风格的认知。例如，在一种文化中表示友好和兴奋的升调模式，在另一种文化中可能被解读为不确定或质疑，从而可能改变用户对意图或情感的感知。如果这些声音上的细微差别没有整合到AI模型中，即使是技术上准确的声音，对于来自不同文化背景的用户来说，也可能会感觉不合适或令人困惑。真正的真实感需要能够根据任何特定用户的期望来调整语气和风格。考虑到所有这些微妙而重要的因素后，很明显，AI语音不仅必须听起来像人，还必须像人一样实时反应。这就是为什么延迟是评估AI语音感觉有多像人的一个关键因素。在自然对话中，人类轮流说话的平均间隔大约是250毫秒。任何更长的延迟都会让互动感觉迟缓、不专心或混乱。一个深思熟虑的停顿和一个技术性延迟之间的细微差别，就足以破坏自然对话的错觉，让语音感觉不够专注。为何这很重要展望未来，市场将不可避免地青睐那些能够同时提供真实感和实时响应能力的公司。对于AI代理和助手而言，用户采用和持续参与取决于人们是否愿意首先与这项技术互动。人们尝试一次的工具和每天依赖的工具之间的区别，在于对话体验的质量。在娱乐行业，观众的沉浸感和留存度取决于内容的可信度，一句不自然的台词就可能破坏观众的投入感。用于配音或角色表演的AI语音必须完全融入叙事，以保持情感冲击力。对于客户支持，信任和同理心至关重要，尤其是因为许多客户互动发生在沮丧或困惑的时刻。一个听起来刻板或情感脱节的声音可能会使情况升级，而不是解决问题。用户期望的声音能够反映关切、耐心或 reassurance，而不仅仅是传递脚本化的回应。未来展望赢得语音AI竞赛的公司将是那些掌握情感细微差别、理解文化和语境差异、即时流畅地响应并提供与人类交谈无异的体验的公司。在一个任何人都能生成AI语音、用户期望也随之演变的市场上，“足够好”将很快变得完全不够好。保持竞争力的唯一方法是生成人们容易忘记是AI的AI语音。

Unite.AI

语音AI蓬勃发展——但其真实感足以产生影响吗？