人工智能

Fluent.ai 首席技术官和创始人 Vikrant Tomar – 采访系列

发布于 2021年1月13日

更新于 2026年5月25日

作者

Antoine Tardif, Unite.AI 首席执行官兼创始人

Vikrant Tomar 是 Fluent.ai 的首席技术官和创始人，Fluent.ai是一家专门从事语音理解和语音用户界面软件的公司，为设备制造商和服务提供商提供服务。

是什么最初吸引你去研究声学建模和语音识别？

真正吸引我的是能够像与另一个人交谈一样与设备交谈。这个愿景一直让我着迷。我在本科最后一年开始研究语音识别，也是在那时我开始对研究产生了兴趣，所以我参加了语音识别课程和相关的研究项目。我能够在 InterSpeech 会议上发表一篇研究论文，这是最大的也是最有声誉的语音识别会议之一。所有这些激励我选择语音识别作为长期的研究重点，因此我选择了博士学位。

2015 年，你创立了 Fluent.ai，可以分享一下这个创业背后的故事吗？

我一直有创业的愿望。我和另外两位朋友在本科毕业后尝试创办了一家公司，但是由于一些原因，那次尝试没有成功。在麦吉尔大学攻读博士学位期间，我一直关注蒙特利尔的创业圈。在那段时间里，我也联系到了 TandemLaunch 的人——这是一个创业孵化器，我在那里创立了 Fluent.ai。那时我已经接近博士学位的末期，我正在认真考虑再次尝试创业。通过我的工作经验、研究和与其他语音研究团队的合作，我意识到这些经历大多数都是以特定的方式进行语音识别：从语音转换为文本，然后进行自然语言处理。然而，这种方法留下了可用性的空白。大量人口无法从以这种方式开发的语音解决方案中受益。这种方法所需的数据量太大，以至于为少数语言开发单独的模型在财务上不合理。此外，许多方言和语言没有明确的书面形式。即使我的家人也无法使用我开发的工具（他们说一种印地语方言）。考虑到这一点，我开始思考创建语音模型的不同方法，在这种方法中，所需的数据量较少，或者最终用户可以自己训练或更新模型。我知道 KU Leuven 大学（KUL）已经完成了一些可以满足这些要求的工作。利用 KUL 的部分技术，我们能够迈出创建 Fluent.ai 的第一步。

可以详细介绍一下 Fluent.ai 的直观语音理解解决方案吗？

Fluent.ai 的语音识别解决方案的灵感来自人类如何习得和识别语言。传统的语音识别系统首先将输入语音转换为文本，然后从文本中提取意义。这不是人类识别语音的方式。举个例子，孩子在学会读写之前，可以轻松地进行口头对话。同样，Fluent 的深度神经网络模型能够直接从语音中提取意义，而无需先将其转换为文本。从技术上讲，这是真正的口语理解。这种方法有多个优势。传统的语音识别是一种笨拙的方法，其中几个单独训练的模块被编织在一起以提供最终的响应。这导致了一个非最优的解决方案，受到口音、噪音、背景条件等的影响。Fluent 的自动意图识别（AIR）系统是端到端优化的；它完全是一个基于神经网络的架构，其中所有模块都联合训练以提供最优的解决方案。此外，我们能够删除传统语音识别系统中常见的计算密集型模块。这使我们能够创建低占用率的语音识别系统，可以在仅 40KB 的 RAM 和 50 MHz 的低功耗微控制器上运行。最后，我们的口语理解基于 AIR 系统可以利用不同语言之间的相似性来提供无与伦比的功能，例如在同一个模型中识别多种语言的能力。

语音识别中克服环境噪音问题的 AI 挑战是什么？

噪音是语音识别的最大挑战之一。噪音之所以是一个真正具有挑战性的问题，是因为有很多不同类型的噪音，它们以不同的方式影响语音的频谱。有时，噪音也会影响麦克风的响应。在许多情况下，无法将语音源与噪音源区分开来。有时，噪音会屏蔽语音频谱中的信息，而在其他情况下，它可以完全消除有用的信息。两种情况都会导致准确率低。虽然可以轻松地去除一致的噪音类型（例如风扇噪音），但某些噪音类型（例如背景中的人们交谈或音乐）很难去除，因为它们以不同的方式影响语音频谱。

可以定义什么是边缘 AI，以及 Fluent.ai 如何使用这种 AI？

边缘 AI 是一个涵盖了将 AI 应用程序移至低功耗设备的多种不同方式的术语。越来越多地，这个术语被用于边缘设备执行某些智能计算的情况。在 Fluent，我们专注于将高质量的口语理解带到边缘。我们开发了高效的算法，使低功耗计算设备能够自己识别输入语音，而无需将数据发送到基于云的服务器进行处理。这种方法有两个优势：首先，用户的隐私不会因语音数据被流式传输和存储到云端而受到损害。其次，这种方法减少了延迟，因为语音数据和响应不需要在云服务器和设备之间传输。

还有哪些机器学习技术被使用？

我们的主要重点是基于深度学习的语音识别方法。我们使用强化学习（RL）方法，例如 NASIL[1]，来发现新的、以前未知的 AI 模型架构（在某种意义上，AI 创建 AI）。我们还使用 AutoML 来调整我们的预先确定的 AI 模型，以实现不同应用程序的可靠结果，从而提高可靠性和可复制性。模型压缩和其他数学方法进一步帮助优化模型性能。

在接下来的 5 年里，您预见自然语言理解和自然语言处理会发生什么变化？

我认为系统将会演变为提供更自然的交互。尽管近年来取得了进展，但大多数当前系统只能回答简单的查询或执行语音激活的互联网搜索。我们将看到更多能够推理和回答完整查询的解决方案，而不是仅仅作为一个语音激活的搜索引擎。

另一个有趣的方面是隐私。当前流行的解决方案主要是基于互联网的设备，它们将所有用户的语音数据流式传输到云服务器。然而，这些解决方案的隐私问题变得越来越重要。我们也开始看到语音 UI 在消费电子产品以外的应用，例如在工业环境中、专业音频领域，以及在酒店和会议室中。这些应用程序的一个关键要求是隐私，因此当前的连接解决方案是不够的——所以我们将看到更多边缘 AI 或设备上的自然语言解决方案。

如我之前提到的，语音和自然语言解决方案仍然无法为世界上很大一部分人口所用。正在进行大量工作，以创建可以用少量数据训练的新型 AI 模型，从而降低开发成本，并使得为少数语言开发模型成为可能。同样，我们将看到可以在同一个模型中识别多种语言的解决方案。总体而言，我们将看到更多多语言 AI 模型的部署，这些模型可以用用户的母语回答他们的查询。

您还想分享关于 Fluent.ai 的其他信息吗？

语音技术在过去几年中已经有了很大的发展，并且在前方的道路上还有很大的增长潜力。在 Fluent.ai，我们始终在寻找我们现有技术的新用例，同时不断内部创新。COVID-19 大流行已经引发了人们对高触摸区域的敏感性，例如电梯按钮、餐厅的自动售货机等，Fluent.ai 希望能够填补这些空白。我们的解决方案是多语言的，因此更具包容性，并且可以离线运行，从而提供了额外的隐私保护。这些功能，如前所述，可能是语音技术的未来。

感谢这次精彩的采访，希望了解更多的读者可以访问 Fluent.ai 的网站。Fluent.ai

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Antoine Tardif, Unite.AI 首席执行官兼创始人

安托万是一位具有远见的领导者和Unite.AI的联合创始人，他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者，他相信人工智能将对社会产生电力的影响一样的颠覆性影响，并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家，他致力于探索这些创新将如何塑造我们的世界。另外，他还是Securities.io的创始人，这是一个专注于投资尖端技术的平台，这些技术正在重新定义未来并重塑整个行业。

Unite.AI

Fluent.ai 首席技术官和创始人 Vikrant Tomar – 采访系列

发现更多