人工智能
Vikrant Tomar,Fluent.ai 的 CTO 和创始人 – 采访系列

Vikrant Tomar,是 Fluent.ai 的 CTO 和创始人,Fluent.ai 是一家为设备 OEM 和服务提供商提供语音理解和语音用户界面软件的公司。
您最初是什么时候开始研究声学建模用于语音识别的?
实际上,是能够像与另一个人交谈一样与设备交谈的愿景。这种愿景一直让我着迷。我在本科最后一年开始研究语音识别,这也是我开始对研究感兴趣的时候,所以我参加了语音识别课程和相关研究项目。我能够从这项工作中发表一篇研究论文在 InterSpeech 会议上,这是最大的也是最有声誉的语音识别会议之一。这一切激励我选择研究语音识别作为长期的重点,因此我选择了博士学位。
2015 年,您推出了 Fluent.ai,您能分享这个创业公司的创立故事吗?
我一直有创业的愿望。我和另外两位朋友在毕业后尝试创办了一家公司,但是由于一些原因,这次尝试没有成功。在麦吉尔大学攻读博士学位期间,我一直关注着蒙特利尔的创业场景。在此期间,我也遇到了来自 TandemLaunch 的人——这是一个创业孵化器,我在那里创立了 Fluent.ai。当时,我正接近博士学位的末期,我正在认真考虑再次尝试创业。通过我的工作经验、研究和与其他语音研究小组的合作,我意识到这些经验大多数都是以特定的方式进行语音识别:从语音转换为文本转录,然后进行自然语言处理。然而,这种方法留下了可用性的空白。大量人口无法从以这种方式开发的语音解决方案中受益。这种方法所需的数据量非常大,以至于为使用人数较少的语言开发单独的模型在财务上是不合理的。另外,许多方言和语言没有明确的书面形式。甚至我的家人也无法使用我开发的工具(他们说一种印地语方言)。考虑到这一点,我开始思考创建语音模型的不同方法,在这种方法中,所需的数据量较少,和/或最终用户可以自己训练或更新模型。我知道 KU Leuven University (KUL) 的工作可以满足其中一些要求。有了 KUL 的部分技术,我们能够迈出 Fluent 今天的第一步。
您能详细介绍 Fluent.ai 的直观语音理解解决方案吗?
Fluent.ai 的语音识别解决方案的灵感来自于人类如何获得和识别语言。传统的语音识别系统首先将输入语音转录为文本,然后从文本中提取意义。这不是人类识别语音的方式。举个例子,孩子在学习阅读和写作之前:尽管他们不知道语言的书面表示,但他们仍然能够轻松地进行口头交谈。同样,Fluent 的基于深度神经网络的模型能够直接从语音中提取意义,而无需先将其转录为文本。从技术上讲,这是真正的口语理解。这种方法有多个优势。传统的语音识别是一种笨拙的方法,多个单独训练的模块被编织在一起以提供最终的响应。这导致了一个非最优的解决方案,受口音、噪音、背景条件等的影响。Fluent 的自动意图识别 (AIR) 系统是端到端优化的;它完全是一个基于神经网络的架构,所有模块都共同训练以提供最优的解决方案。另外,我们能够删除传统语音识别系统中常见的许多计算密集型模块。这使我们能够创建低占用率的语音识别系统,可以在低功耗微控制器上运行,仅需 40KB 的 RAM 和 50 MHz 的时钟速度。最后,我们的基于口语理解的 AIR 系统可以以独特的方式利用不同语言之间的相似性,提供无与伦比的功能,例如能够在同一个模型中识别多种语言。
如何克服环境噪音问题的 AI 挑战?
噪音是语音识别的最大挑战之一。使其成为一个真正具有挑战性的问题的是,有很多不同类型的噪音,它们以不同的方式影响语音的频谱。有时噪音也会影响麦克风的响应。在许多情况下,无法将语音源与噪音源分离。在某些情况下,噪音会屏蔽语音频谱中的信息,而在其他情况下,它可以完全消除有用的信息。两者都会导致准确率低。虽然可以轻松地去除一致的噪音类型,例如风扇噪音,但某些类型的噪音,例如背景中的说话声或音乐,很难去除,因为它们以不同的方式影响语音频谱。
您能定义什么是 Edge AI,以及 Fluent.ai 如何使用这种 AI?
Edge AI 是一个总称,用于涵盖将 AI 应用程序移至低功耗设备的各种方式。现在,这个术语更多地用于边缘设备执行某些智能计算的情况。在 Fluent,我们专注于将高质量的口语理解带到边缘。我们已经开发了高效的算法,允许低功耗计算设备自己识别输入语音,而无需将数据发送到基于云的服务器进行处理。优势是双重的:首先,用户的隐私不会因将语音数据流式传输和存储到云端而受到损害。其次,这种方法可以减少延迟,因为语音数据和响应不需要在云服务器和设备之间传输。
还有什么其他类型的机器学习技术被使用?
我们的主要重点是基于深度学习的语音识别方法。我们正在使用强化学习 (RL) 方法,例如 NASIL[1],来发现新的、以前未知的 AI 模型架构(在某种意义上,AI 创建 AI)。我们还使用 AutoML 来调整我们的预先确定的 AI 模型,以实现可靠的结果,用于不同的应用,从而增加可靠性和可复制性。模型压缩和其他数学方法进一步帮助优化模型性能。
在接下来的 5 年里,您预见自然语言理解和自然语言处理会发生什么?
我认为这些系统将会发展为提供更自然的交互。尽管近年来取得了进展,但当前的大多数系统只能回答简单的查询或执行基于语音的互联网搜索。我们将看到更多能够推理和回答完整查询的解决方案,而不是仅仅作为一个基于语音的搜索引擎。
另一个有趣的方面是隐私。当前的流行解决方案主要是连接到互联网的设备,它们将所有用户的语音数据流式传输到云服务器。然而,这些解决方案的隐私性已经成为一个问题。我们也开始看到语音 UI 在消费电子产品以外的应用,例如在专业音频领域、酒店和会议室。这些应用程序的一个关键要求是隐私性,因此当前的连接解决方案是不足够的——因此,我们将看到更多的边缘 AI 或本地自然语言解决方案。
如我之前所提到的,语音和自然语言解决方案仍然无法被世界上很大一部分人口所使用。正在进行大量工作,以创建新型的 AI 模型,这些模型可以用少量数据进行训练,从而降低开发成本,并使得为使用人数较少的语言开发模型成为可能。同样,我们将看到可以在同一个模型中识别多种语言的解决方案。总的来说,我们将看到更多多语言 AI 模型的部署,这些模型可以用用户的母语回答用户的查询。
您是否还有其他关于 Fluent.ai 的信息想要分享?
语音技术在过去几年中已经取得了很大的进步,并且在前方的道路上具有很大的增长潜力。在 Fluent.ai,我们始终在寻找新的使用场景,同时不断内部创新。COVID-19 大流行创造了对高触摸区域的敏感性,例如电梯按钮、餐厅的自助服务终端等,这激发了对语音启用技术的新需求。Fluent.ai 希望填补这些空白,因为我们的解决方案是多语言的,因此更加包容,并且可以离线运行,提供了额外的隐私层。这些功能,如前所述,可能是语音技术的未来。
感谢这次精彩的采访,希望了解更多的读者可以访问 Fluent.ai。
[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit












