访谈

Dylan Fox,AssemblyAI 的 CEO 和创始人 – 采访系列

mm

Dylan Fox 是 AssemblyAI 的 CEO 和创始人,AssemblyAI 是一个可以自动将音频和视频文件以及实时音频流转换为文本的平台,使用 AssemblyAI 的 Speech-to-Text APIs。

您最初是什么时候对机器学习产生了兴趣的?

我从学习编程开始,并参加了华盛顿特区的 Python 会议,我在那里上大学。通过大学课程,我发现自己更倾向于算法类型的编程问题,这自然让我对机器学习和 NLP 感兴趣。

在创立 AssemblyAI 之前,您曾是 Cisco 的高级软件工程师,您当时在做什么?

在 Cisco,我是一名高级软件工程师,专注于他们的协作产品的机器学习。

您在 Cisco 的工作和语音识别技术的来源问题如何激发您创立 AssemblyAI 的灵感?

在我之前的工作中,我有机会参与了许多 AI 项目,包括几个需要语音识别的项目。但是,所有提供语音识别服务的公司都非常过时,难以购买,并且正在运行过时的 AI 技术。

当我越来越感兴趣于 AI 研究时,我注意到语音识别领域的研究进展非常迅速。因此,我想,“如果你可以建立一个类似 Twilio 的 API 公司,使用最新的 AI 研究,使开发者更容易访问最先进的 AI 模型用于语音识别,并提供更好的开发者体验?”

正是从那里,AssemblyAI 的想法诞生了。

构建准确可靠的语音识别技术的最大挑战是什么?

成本和人才是任何公司在构建准确可靠的语音识别技术时面临的最大挑战。

数据的获取成本很高,通常需要数十万小时来构建一个强大的语音识别系统。并且,训练这些模型的计算要求非常高,服务这些模型在生产环境中的成本也很高,需要专门的人才来优化和使其变得经济。

构建这些技术还需要专门的技能,这很难找到。这也是为什么客户来到我们这里,使用我们研究、训练和部署的强大 AI 模型的原因。他们可以通过一个简单的 API 获取多年的 AI 研究成果,包括最先进的 AI 模型用于 ASR 和 NLP。

除了纯粹转录音频和视频内容,AssemblyAI 还提供了额外的模型,可以讨论这些模型吗?

我们的 AI 模型套件超出了实时和异步转录。我们将这些额外的模型称为音频智能模型,因为它们帮助客户分析和更好地理解音频数据。

我们的总结模型提供了一个总体的总结,以及时间编码的总结,自动分段和生成每个“章节”的总结(类似于 YouTube 章节)。

我们的情感分析模型检测音频文件中每个句子的情感。每个句子可以被标记为积极、消极或中立。

我们的实体检测模型识别音频文件中提到的广泛的实体,例如人名、公司名称、电子邮件地址、日期和位置。

我们的主题检测模型标记音频和视频文件中讨论的主题。预测的主题标签遵循标准化的 IAB 分类法,这使得它们适合上下文定位。

我们的内容审查模型检测音频和视频文件中的敏感内容,例如仇恨言论、暴力、敏感的社会问题、酒精、毒品等。

使用 AssemblyAI 的公司中,有哪些最大的用例?

使用 AssemblyAI 的公司中,最大的用例涵盖四个类别:电话、视频、虚拟会议和媒体。

CallRail 是一个很好的例子,他们是我们的客户,位于 电话 领域,利用 AssemblyAI 的 AI 模型——核心转录、自动转录亮点和 PII 红action——来提供强大的对话智能解决方案给他们的客户。

本质上,CallRail 现在可以自动在他们的电话中为客户提供关键内容的表面和定义——例如特定的客户请求、常见问题和频繁使用的关键词和短语。我们的 PII 红action 模型帮助他们自动检测和删除转录文本中的敏感数据(例如社会安全号码、信用卡号码、个人地址等)。

视频 用例范围从视频流媒体平台到视频编辑器,如 Veed,他们使用 AssemblyAI 的核心转录模型来简化用户的视频编辑过程。Veed 允许其用户转录他们的视频并直接使用字幕编辑。

虚拟会议 中,会议转录软件公司,如 Fathom,正在使用 AssemblyAI 来构建智能功能,以帮助他们的用户转录和突出 Zoom 通话中的关键时刻,促进更好的会议参与和消除会议期间和之后的繁琐任务(例如记笔记)。

媒体 中,我们看到播客托管平台,例如,使用我们的内容审查和主题检测模型,以便他们可以为品牌安全用例提供更好的广告工具,并使用动态广告来货币化用户生成的内容。

AssemblyAI最近完成了3000万美元的B轮融资。这将如何加速AssemblyAI的使命?

AI 领域的进展非常令人兴奋。我们的目标是通过一个简单的 API 将这些进展暴露给互联网上的每个开发者和产品团队。随着我们继续研究和训练最先进的 AI 模型用于 ASR 和 NLP 任务(例如语音识别、总结、语言识别等),我们将继续通过简单的 API 将这些 AI 模型暴露给开发者和产品团队。

AssemblyAI 是一个开发者和产品团队可以来获取他们需要的高级 AI 模型的地方,以便构建令人兴奋的新产品、服务和整个公司。

在过去的 6 个月里,我们已经为 15 种新语言 提供了 ASR 支持,包括西班牙语、德语、法语、意大利语、印地语和日语,并发布了对我们的总结模型、实时 ASR 模型、内容审查模型和 无数其他产品更新 的重大改进。

我们几乎没有使用我们的 A 轮资金,但这笔新资金将使我们能够更积极地扩大我们的努力——而不妥协我们的跑道。

通过这笔新资金,我们将能够加速我们的产品路线图,构建更好的 AI 基础设施以加速我们的 AI 研究和推理引擎,并扩大我们的 AI 研究团队——今天包括来自 DeepMind、Google Brain、Meta AI、BMW 和 Cisco 的研究人员。

您是否还有其他关于 AssemblyAI 的内容想要分享?

我们的使命是通过一个简单的 API 将最先进的 AI 模型暴露给开发者和产品团队,以极大的规模。

感谢这次伟大的采访,希望了解更多的读者应该访问 AssemblyAI

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。