Dr. Itamar Arel, 目前是 Tenyx 的 CEO,他将其在田纳西大学和斯坦福大学 AI 实验室担任教授的学术背景与创业成功相结合,共同创立了开创性的公司 Binatix、Apprente(被麦当劳和 IBM 收购)和 Tenyx。Itamar最近在麦当劳公司担任企业副总裁和 McD Tech Labs 负责人,以及 IBM Watson Orders 的对话式 AI 负责人。
现在,基于人工智能的语音交互系统比以往任何时候都更加重要。让我们考虑一个客户服务电话的例子。很快,所有的僵硬和不灵活的语音系统将会消失——那些僵硬的机器人声音,按数字选择菜单的方式,令人沮丧的体验,让我们都迫切地希望与人类代理交谈。(或者,考虑到转接到人类代理可能需要很长的等待时间,我们可能会放弃整个电话。)不再如此。_large language models_(LLM)和自动语音识别(ASR)以及文本转语音(TTS)系统的进步意味着“下一代”语音交互系统已经到来——如果你知道如何构建它们的话。今天,我们来看看任何希望构建此类最先进语音交互系统的人所面临的挑战。为什么选择语音交互?在深入探讨之前,让我们快速了解一下语音交互的普遍吸引力和相关性(与基于文本的交互相比)。有很多原因使得语音交互比基于文本的交互更合适——这些原因包括,按严重程度递增的顺序: 偏好或习惯——说话比写作更早出现,既在发展上也是历史上 慢速文本输入——许多人可以比输入文本更快地说话 无手操作的情况——例如驾驶、锻炼或洗碗 不识字——至少在代理理解的语言中 残疾人——例如盲人或缺乏非语音运动控制能力的人 在一个看似由网站交易主导的时代,语音仍然是商业的有力渠道。例如,最近的一项关于酒店业客户满意度的研究发现,通过电话预订房间的客人比通过在线旅行社(OTA)或直接通过酒店网站预订的客人更满意他们的住宿体验。但是,交互式语音应答(IVR)是不够的。一个研究发现,88%的客户更喜欢与人工代理通话,而不是导航自动电话菜单。该研究还发现,人们对电话菜单最恼火的事情包括听不相关的选项(69%)、无法充分描述问题(67%)、效率低下(33%)和令人困惑的选项(15%)。人们已经开始接受使用语音助手。根据一项研究,约47%的消费者已经习惯使用语音助手与企业进行交互,约31%的消费者已经使用语音助手与企业进行过交互。无论原因是什么,很多人更喜欢口头交互——只要它是自然和舒适的。什么样的语音交互系统是好的?大致来说,一个好的语音交互系统应该以以下方式响应用户的请求: 相关性:基于对用户所说或想要的内容的正确理解。注意,在某些情况下,代理的响应不仅仅是口头回复,还可能是与后端集成的某种操作(例如,当呼叫者说“预订它”时,实际上预订酒店房间)。 准确性:基于事实(例如,只有在酒店1月19日有空房时才说有空房) 清晰度:响应应易于理解 及时性:具有与人类交互相同的延迟 安全性:无攻击性或不适当的语言,保护敏感信息等 问题所在当前的语音交互自动系统试图以牺牲以下内容为代价来满足上述标准: 有限性:用户通常被迫以不自然的方式表达自己:短语、特定顺序、无关信息等。这与老式的数字菜单系统几乎没有区别 狭隘的“可接受”语音概念:对俚语、嗯、啊等的容忍度很低 无法回溯:如果出现问题,可能没有机会“修复”或纠正有问题的信息,而是必须重新开始或等待转接到人类代理 严格的回合制交互:无法中断或打断代理 人们会发现这些限制令人沮丧或恼火,这是显而易见的。解决方案好消息是,现代人工智能系统足够强大和快速,可以大大改善上述体验,而不是达到或超过人类客户服务标准。这是由于多种因素: 更快、更强大的硬件 ASR的改进(更高的准确率、克服噪音、口音等) TTS的改进(自然听起来的或甚至克隆的声音) 生成式LLM的到来(自然听起来的对话) 最后一点是一个游戏规则的改变。关键的洞察是,一个好的预测模型可以作为一个好的生成模型。一个人工代理可以接近人类级别的对话性能,如果它说出一个足够好的LLM在给定对话背景下预测人类客户服务代理最有可能说的话。这标志着数十家人工智能初创公司的到来,他们希望仅通过选择和连接现成的ASR和TTS模块到LLM核心来解决语音交互问题。按照这种观点,解决方案只是选择一个最小化延迟和成本的组合。当然,这很重要。但是这就足够了吗?不用着急有几个具体的原因说明为什么这种简单的方法行不通,但它们源自两个一般性观点: LLM实际上无法单独提供像企业应用(如客户服务)所需的基于事实的文本对话。因此,它们也无法为语音交互提供这样的对话。...