访谈
尼古拉·默克希奇,PolyAI联合创始人兼CEO – 采访系列

尼古拉·默克希奇是PolyAI的联合创始人兼CEO,PolyAI是一家领先的企业级语音助手供应商,专门为自动化客户服务提供解决方案。
是什么最初吸引你进入人工智能领域?
我从很小的时候就对数学和计算机科学感兴趣。在剑桥大学学习期间,我有机会与几位领先的机器学习研究人员合作,包括Steve Young和Zoubin Ghahramani。Steve说服我加入他的创业公司VocalIQ,共同开发语音对话系统。后来,我又与Steve一起完成了博士学位,研究数据驱动的语言理解模型,可以应用于不同用例和语言。对话式人工智能是一个非常困难和复杂的领域,前方仍有许多科学和工程突破等待我们,我从此一直专注于这个领域。
2017年,你创立了PolyAI,一家对话式人工智能公司,可以谈谈PolyAI背后的创业故事吗?
我的联合创始人Shawn Wen、Eddy Su和我在剑桥大学同时读博士。我们多年来一直从事对话系统的研究,但我们很快意识到我们所熟悉的复杂系统在商业应用中很少。因此,我们聚集在一起,创建了一种对话式人工智能解决方案,能够在现实世界中发挥作用。我们看到了真正的对话式、多轮、事务性对话系统的机会,这些系统可以与现实生活中的真实人交互。
我们专注于客户服务,因为我们认为当前的技术能力和客户需求非常匹配。
可以讨论一下使用的机器学习和自然语言处理技术吗?
我们的主要秘密是我们的一套不同的专有编码器模型。我们已经在数十亿对话中预训练了这些模型,因此它们可以提取意图,即使输入语音使用俚语或成语。对于电话交互来说,这一点非常重要。客户不会使用关键词说话;他们讲故事,打断,提问,并且通常只想控制对话。
我们最近宣布了我们的ConVEx模型,这是一个极其数据高效的实体提取器,允许我们从对话中准确提取值。
我们的ASR编排过程涉及使用语音识别平台的微调来消除不同口音造成的噪音,以及根据不同上下文进行微调。
我们还开发了一个相当强大的对话策略库,包含预设计的用例,包括所有常见的客户服务交易,因此我们可以为客户非常快速地启动新的语音助手。
在你的看法中,什么区别于一个好的对话式人工智能产品和一个差的对话式人工智能产品?
一个好的产品将始终理解用户的意思,并且永远不会让用户重复自己。电话交互通常发生在嘈杂的环境中,因此产品需要能够抵御混乱的输入。随着品牌接触到更大的市场,产品需要能够理解各种口音和表达意图的方式。两者都需要产品能够保证强大的语音识别能力、坚韧的意图分类和实体提取。
一个伟大的产品将对用户进行积极的吸引。它将跟随用户的思维,并能够处理复杂的、日常的案例,其中用户可能同时分享多个意图和信息,并且可能在不同的上下文之间跳转。这种情况需要强大的多标签分类和上下文管理。
一个引人入胜的产品将表现出人类的特征,而不会过于生硬或机器化。这意味着快速的交互、真实的声音、连续的反馈提示和一定程度的随机性和不完美性。
最后,一个伟大的对话式人工智能产品将与用户在任何地方进行交互,并提供无缝的、特定于平台的体验,这可能会跨越语音、短信、聊天或社交消息平台。交互范式应该拥抱每个通信平台的特异性。
使用对话式人工智能而不是试图将询问引导到聊天机器人的一些优势是什么?
客户体验至关重要,并已成为留存的关键驱动因素。首要任务应该是让客户轻松地做到他们需要做的事情。
电话仍然是大多数客户联系公司的首选渠道。多达65%的所有客户交互仍然发生在电话上。在COVID-19疫情期间,联系中心被推到了极限,更多的客户比以往任何时候都需要通过电话寻求支持。
当然,一个伟大的体验允许客户以他们喜欢的方式进行沟通,因此对于任何喜欢异步通信的人来说,我们使得品牌能够提供相同水平的体验变得简单。
检测客户试图说什么的意图有多大挑战?
通过语音渠道理解客户存在多个挑战。准确、持续地理解用户的意思需要许多组件共同协作。
首先,语音识别很困难,尤其是当人们从嘈杂的环境中打电话时,例如当他们使用免提电话或驾驶穿过交通或隧道时。语音识别在不同口音和方言的地区也可能很困难。我们已经开发了一种有效的方法来偏置语音识别模型以适应给定的上下文,从而优化语音识别。
由于我们的ConveRT模型是在如此大量的对话数据上训练的,因此它能够在弱信号上检测意图,就像我们人类通常可以理解某人说什么,即使我们错过了一两个字。
另一个考虑因素是理解用户何时想要同时执行多个操作。例如,某人可能会说,“我丢了我的卡。可以告诉我它是否被使用过并且阻止它吗?”在这种情况下,模型需要识别两个意图并按逻辑顺序执行它们。
模型还需要能够提取和理解客户提供的实体。例如,“星期六午餐时你有给我、我妻子和我们的2个孩子安排一张桌子吗?”在这里,表面层面的意图是检查桌子是否可用,但模型需要提取日期(星期六)和人数(4),以及可能相关的任何其他信息(例如,儿童可能只允许在餐厅区域就座,而不能坐在酒吧)。
最后,交谈并不总是线性的。客户可能会用无关的问题打断,因此助手需要能够“倾听”一种输入,同时对不同的触发器(如FAQ或用户之前提供的信息的更改)保持开放。
对于一家想要使用PolyAI启动对话式人工智能机器人的公司,所需的流程和时间表是什么?
我们在这里提供具有切实商业影响的语音助手。因此,我们的每次参与都从发现开始,我们帮助客户识别和阐明他们的客户体验目标、关键指标和支持流程。这就是我们规划语音助手将引导客户完成的旅程的地方。由于我们预训练的ConveRT模型,这意味着我们不需要大量的对话数据来自客户。
从那里开始,我们能够开发一个语音助手,几乎不需要客户的输入,因此这对客户的内部IT团队来说并不是很大的负担。
根据复杂性,我们可以在短短2周内启动一个价值证明,并在2个月内完成全面的部署。
感谢这次精彩的采访,希望了解更多的读者可以访问PolyAI。












