思想领袖

基于人工智能的语音交互系统：两个关键挑战

发布于 2024年1月31日

更新于 2026年5月22日

作者

Dr. Itamar Arel and Dr. Ron Chrisley

现在，基于人工智能的语音交互系统比以往任何时候都更加重要。让我们考虑一个客户服务电话的例子。很快，所有的僵硬和不灵活的语音系统将会消失——那些僵硬的机器人声音，按数字选择菜单的方式，令人沮丧的体验，让我们都迫切地希望与人类代理交谈。（或者，考虑到转接到人类代理可能需要很长的等待时间，我们可能会放弃整个电话。）

不再如此。_large language models_（LLM）和自动语音识别（ASR）以及文本转语音（TTS）系统的进步意味着“下一代”语音交互系统已经到来——如果你知道如何构建它们的话。

今天，我们来看看任何希望构建此类最先进语音交互系统的人所面临的挑战。

为什么选择语音交互？

在深入探讨之前，让我们快速了解一下语音交互的普遍吸引力和相关性（与基于文本的交互相比）。有很多原因使得语音交互比基于文本的交互更合适——这些原因包括，按严重程度递增的顺序：

偏好或习惯——说话比写作更早出现，既在发展上也是历史上
慢速文本输入——许多人可以比输入文本更快地说话
无手操作的情况——例如驾驶、锻炼或洗碗
不识字——至少在代理理解的语言中
残疾人——例如盲人或缺乏非语音运动控制能力的人

在一个看似由网站交易主导的时代，语音仍然是商业的有力渠道。例如，最近的一项关于酒店业客户满意度的研究发现，通过电话预订房间的客人比通过在线旅行社（OTA）或直接通过酒店网站预订的客人更满意他们的住宿体验。

但是，交互式语音应答（IVR）是不够的。一个研究发现，88%的客户更喜欢与人工代理通话，而不是导航自动电话菜单。该研究还发现，人们对电话菜单最恼火的事情包括听不相关的选项（69%）、无法充分描述问题（67%）、效率低下（33%）和令人困惑的选项（15%）。

人们已经开始接受使用语音助手。根据一项研究，约47%的消费者已经习惯使用语音助手与企业进行交互，约31%的消费者已经使用语音助手与企业进行过交互。

无论原因是什么，很多人更喜欢口头交互——只要它是自然和舒适的。

什么样的语音交互系统是好的？

大致来说，一个好的语音交互系统应该以以下方式响应用户的请求：

相关性：基于对用户所说或想要的内容的正确理解。注意，在某些情况下，代理的响应不仅仅是口头回复，还可能是与后端集成的某种操作（例如，当呼叫者说“预订它”时，实际上预订酒店房间）。
准确性：基于事实（例如，只有在酒店1月19日有空房时才说有空房）
清晰度：响应应易于理解
及时性：具有与人类交互相同的延迟
安全性：无攻击性或不适当的语言，保护敏感信息等

问题所在

当前的语音交互自动系统试图以牺牲以下内容为代价来满足上述标准：

有限性：用户通常被迫以不自然的方式表达自己：短语、特定顺序、无关信息等。这与老式的数字菜单系统几乎没有区别
狭隘的“可接受”语音概念：对俚语、嗯、啊等的容忍度很低
无法回溯：如果出现问题，可能没有机会“修复”或纠正有问题的信息，而是必须重新开始或等待转接到人类代理
严格的回合制交互：无法中断或打断代理

人们会发现这些限制令人沮丧或恼火，这是显而易见的。

解决方案

好消息是，现代人工智能系统足够强大和快速，可以大大改善上述体验，而不是达到或超过人类客户服务标准。这是由于多种因素：

更快、更强大的硬件
ASR的改进（更高的准确率、克服噪音、口音等）
TTS的改进（自然听起来的或甚至克隆的声音）
生成式LLM的到来（自然听起来的对话）

最后一点是一个游戏规则的改变。关键的洞察是，一个好的预测模型可以作为一个好的生成模型。一个人工代理可以接近人类级别的对话性能，如果它说出一个足够好的LLM在给定对话背景下预测人类客户服务代理最有可能说的话。

这标志着数十家人工智能初创公司的到来，他们希望仅通过选择和连接现成的ASR和TTS模块到LLM核心来解决语音交互问题。按照这种观点，解决方案只是选择一个最小化延迟和成本的组合。当然，这很重要。但是这就足够了吗？

不用着急

有几个具体的原因说明为什么这种简单的方法行不通，但它们源自两个一般性观点：

LLM实际上无法单独提供像企业应用（如客户服务）所需的基于事实的文本对话。因此，它们也无法为语音交互提供这样的对话。
即使您用所需的内容来补充LLM以使其成为一个好的文本交互代理，将其转变为一个好的语音交互代理也需要比简单地将其连接到最好的ASR和TTS模块更为复杂的东西。

让我们来看看每个挑战的具体例子。

挑战1：保持真实性

众所周知，LLM有时会产生不准确或“幻觉”的信息。在商业应用中，这是灾难性的，即使在娱乐应用中，准确性可能不是重点，也可能是灾难性的。

LLM有时会产生幻觉，这是可以预料的。这是使用训练数据来自一年或更久以前的模型来生成对不属于或不被数据集（无论多大）蕴涵的数据的事实问题的答案的直接结果。当呼叫者询问“我的会员编号是什么？”时，一个简单的预训练LLM只能生成听起来合理的答案，而不是准确的答案。

处理这个问题最常见的方法是：

微调：进一步训练预训练LLM，这次使用您希望它能够正确回答的所有特定领域数据进行训练
提示工程：将额外的数据/指令作为输入添加到LLM中，除了对话历史之外
检索增强生成（RAG）：类似于提示工程，除了添加到提示的数据是通过将当前对话背景（例如，客户询问“你的酒店有游泳池吗？”）与您的特定领域数据的嵌入编码索引进行匹配来确定的
基于规则的控制：类似于RAG，但添加到提示的内容不是通过神经记忆匹配来检索的，而是通过硬编码（和手动编码）的规则来确定的

注意，一个方法不适用于所有情况。哪种方法适用将取决于，例如，特定领域数据的性质，这些数据将为代理的答案提供信息。特别是，它将取决于这些数据是否经常更改（例如，呼叫到呼叫——例如，客户姓名）或几乎不更改（例如，初始问候：“您好，感谢您致电布达佩斯酒店。今天我如何为您服务？”）。微调对于前者来说是不合适的，而对于后者来说，RAG将是一个笨拙的解决方案。因此，任何工作系统都必须使用这些方法的组合。

此外，将这些方法与LLM和彼此集成以最小化延迟和成本需要仔细的工程。例如，您的模型的RAG性能可能会通过微调来促进这种方法而得到改善。

可能不会令人惊讶的是，每种方法都带来了自己的挑战。例如，考虑微调。微调您的预训练LLM以适应您的特定领域数据将改善其在该数据上的性能，是的。但是，微调修改了预训练模型（可能相当好的）一般性能的基础参数（权重）。这修改导致了对模型以前知识的解除学习（或“灾难性遗忘”）。这可能会导致模型给出不正确或不适当（甚至不安全）的回应。如果您希望代理继续准确和安全地回应，您需要一种微调方法来减轻灾难性遗忘。

挑战2：端点检测

确定客户何时完成说话对于自然的对话流程至关重要。同样，系统必须优雅地处理中断，确保对话保持连贯并响应客户的需求。达到与人类交互相当的标准是一个复杂的任务，但对于创建自然和愉快的对话体验至关重要。

一个可行的解决方案需要设计师考虑以下问题：

客户停止说话后，代理应该等待多长时间才决定客户已经停止说话？
上述是否取决于客户是否完成了一个完整的句子？
如果客户中断代理，应该做什么？
特别是，代理应该假设客户没有听到它所说的话吗？

这些问题主要与时间有关，需要比让LLM给出正确的回应所涉及的工程更为谨慎的工程。

结论

人工智能驱动的语音交互系统的演进承诺将在客户服务动态中带来革命性的变化，用先进的LLM、ASR和TTS技术取代过时的电话系统。然而，克服幻觉信息和无缝端点检测的挑战对于实现自然和高效的语音交互至关重要。

自动化客户服务有可能成为企业的真正游戏规则改变者，但前提是它必须做得正确。在2024年，尤其是有了这些新技术，我们终于可以构建能够自然流畅、充分理解我们的系统。其净效应将减少等待时间，并改善我们目前与语音机器人体验的质量，标志着客户参与和服务质量的变革时代。

Dr. Itamar Arel

Dr. Itamar Arel, 目前是 Tenyx 的 CEO，他将其在田纳西大学和斯坦福大学 AI 实验室担任教授的学术背景与创业成功相结合，共同创立了开创性的公司 Binatix、Apprente（被麦当劳和 IBM 收购）和 Tenyx。Itamar最近在麦当劳公司担任企业副总裁和 McD Tech Labs 负责人，以及 IBM Watson Orders 的对话式 AI 负责人。

Dr. Ron Chrisley

Dr. Ron Chrisley is currently Chief Scientific Advisor at Tenyx, which he co-founded in 2021. He received a BS in Symbolic Systems from Stanford, holds a doctorate from the University of Oxford, and is Professor of Cognitive Science and Artificial Intelligence at the University of Sussex. From 2019 to 2020, he was Visiting Scholar at Stanford’s Institute for Human-Centered AI.

Unite.AI