访谈

Pavel Osokin,AMAI 的联合创始人和 CEO – 采访系列

mm

Pavel Osokin 是 AMAI 的联合创始人和 CEO,AMAI 是一家位于旧金山的初创公司,生产 AI 语音引擎。Pavel 领导着 Amai 的运营和战略,具有专业的雄心,旨在将其语音技术安装到世界上的每部电话中。在 AMAI 中,他们开发了一个 AI 语音,97% 的用户无法将其与真实的人类语音区分开来。

您是一位终身企业家,13岁时就创立了您的第一家公司,您的第一项商业尝试是什么,您认为是什么激发了您的企业家精神?

我并没有真正称它为一家公司,但我通过转卖一些东西或在街上用桶洗车赚了我的第一笔钱。我的动机是,我想要一瓶可乐或一块士力架,我的父母没有钱。我可以等待钱出现,或者自己赚钱。等待并不吸引我。

您能分享一下 AMAI 的起源故事吗?

我问我的合作伙伴,“世界各地的公司需要什么?”在那次谈话中,我意识到每家企业都在寻找“销售”。我们开始制作可以通过邮件和信使与客户交流并销售产品的机器人。另一方面,这并不是特别新鲜的东西,因为有很多聊天机器人可用。所以,我们认为如果这些机器人也可以打电话,那将很酷。由于市场上有很少好的解决方案,我们创建了自己合成语音的原型,并在第一次销售后放弃了机器人,专注于 TTS。

AMAI 具体代表什么?

这代表着“我是 AI”(我是人工智能)。

您能讨论一下设计最先进的文本转语音技术的一些挑战吗?

设计最先进的 TTS 提供了几个挑战。第一个挑战是收集数据集。训练神经网络需要不同年龄的男女声音,越多越好。第二,您需要实现与自然声音非常接近的效果。最好的方法是测试不同的机器学习模型,并不断尝试不同的语音使用情况:特别是,您需要找到最有问题的样本并单独处理它。谈到长期挑战,很难评估声音是否变得更好或更糟,以及应该在哪个方向上改进。

在人类与 AMAI 语音 AI 交互时,语音识别的一些挑战是什么?

有数百家公司正在从事语音识别的工作,因为它更容易开发。目前没有解决方案的问题是儿童语音的识别。儿童在很小的年龄就有很多语音特征,因此很难考虑到所有这些因素。尽管如此,我们一直在努力解决这个问题,我们即将宣布结果——因此,很快我们的 AI 将不仅能够与成年人交互,还能与儿童交互。

AMAI 的一些流行用例是什么?

目前,它是有声书配音和企业呼叫中心的使用。

目前提供哪些语言,哪些语言正在开发中?

我们的多语音系统包括两种语言,俄语和英语。其理念是,一种语言中创建的语音可以在我们的模型中说所有其他语言。目前,我们正在收集 40 多种语言的数据,很快我们将拥有 42 种语言。

您对 AI 语音助手的未来有什么展望?

我相信语音助手将进入元宇宙,我们正在研究这些机会。如果您将助手与智能扬声器或网络浏览器集成在一起,更多的人将每天使用语音搜索和与助手交互。您可以与您的冰箱或电视交谈。

您是否还有其他关于 AMAI 的信息想要分享?

AMAI 只使用其自己的专有技术。

感谢采访,希望了解更多的读者可以访问 AMAI

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。