访谈

弗兰克·刘,Zilliz 运营总监 – 采访系列

mm

弗兰克·刘是 Zilliz 的运营总监,Zilliz 是一家领先的向量数据库和人工智能技术提供商。他们也是创建了世界上最流行的开源向量数据库 LF AI Milvus® 的工程师和科学家。

最初是什么吸引你进入机器学习领域?

我第一次接触到机器学习/人工智能的力量是在斯坦福大学读本科的时候,尽管它与我的专业(电气工程)有点远。最初,我被电气工程领域吸引,因为能够将复杂的电气和物理系统简化为数学近似值感觉非常强大,统计和机器学习也给我留下了深刻的印象。我在研究生阶段又上了更多的计算机视觉和机器学习课程,并写了一篇关于使用机器学习评估图像美观度的硕士论文。之后,我在雅虎的计算机视觉和机器学习团队找到了一份工作,在那里我同时担任研究和软件开发角色。那个时候,我们还处于 AlexNet 和 VGG 的前期阶段,看到整个领域和行业如此迅速地发展,从数据准备到大规模并行模型训练再到模型生产化,真是令人惊叹。在很多方面,使用“当时”这个词来描述发生在不到10年前的事件感觉有点可笑,但这就是这个领域的进步如此之快的原因。

离开雅虎后,我曾担任一家创业公司的CTO,该公司由我联合创立,我们在那里利用机器学习进行室内定位。那里,我们需要为非常小的微控制器优化顺序模型,这是一个与今天的大型语言模型和扩散模型不同的但相关的工程挑战。我们还开发了硬件、可视化仪表板和简单的云原生应用程序,但人工智能/机器学习始终是我们工作的核心组成部分。

尽管我已经从事机器学习相关工作7年或8年了,但我仍然非常喜欢电路设计和数字逻辑设计。拥有电气工程背景在很多方面对我现在从事的工作非常有帮助。数字设计中的许多重要概念,例如虚拟内存、分支预测和HDL中的并发执行,能够对今天的许多机器学习和分布式系统提供全栈视角。虽然我理解计算机科学的吸引力,但我希望在未来几年内看到更传统的工程领域(例如电气工程、机械工程、化学工程等)在机器学习领域重新受到重视。

对于不熟悉“非结构化数据”这个术语的读者来说,什么是非结构化数据?

非结构化数据是指“复杂”的数据,它不能存储在预定义的格式中或适应现有的数据模型。相比之下,结构化数据是指具有预定义结构的任何类型的数据,例如数字数据、字符串、表格、对象和键值存储都是结构化数据的例子。

为了真正理解非结构化数据是什么以及为什么它传统上难以计算处理,比较它与结构化数据会有所帮助。简而言之,传统的结构化数据可以通过关系模型存储。例如,一个关系数据库中有一个用于存储书籍信息的表格,每行代表一本书,通过ISBN号索引,而列代表对应的信息类别,例如标题、作者、出版日期等。现在,有更灵活的数据模型,例如宽列存储、对象数据库、图数据库等。但是,总体思想仍然相同:这些数据库旨在存储适合特定数据模板或数据模型的数据。

另一方面,非结构化数据可以被认为是一种基本上是二进制数据的随机块。它可以代表任何东西,可以任意大或小,并且可以以无数种方式转换和读取。这使得它不可能适应任何数据模型,更不用说关系数据库中的一个表格了。

什么是这种类型的数据的例子?

人生成的数据(例如图像、视频、音频、自然语言等)是非结构化数据的很好例子。但是,也有很多不太常见的非结构化数据的例子。用户个人资料、蛋白质结构、基因序列,甚至人类可读的代码也是非结构化数据的很好例子。非结构化数据之所以传统上难以管理的主要原因是非结构化数据可以有任何形式,并且可能需要非常不同的运行时来处理。

以图像为例,同一场景的两张照片可能具有非常不同的像素值,但总体内容相似。自然语言也是我喜欢提到的非结构化数据的一个例子。短语“电气工程”和“计算机科学”极其相关,以至于斯坦福大学的电气工程和计算机科学楼彼此相邻,但如果没有一种方法来编码这些短语背后的语义含义,计算机可能会天真地认为“计算机科学”和“社会科学”更相关。

什么是向量数据库?

要了解向量数据库,首先需要了解嵌入(embedding)的概念。我稍后会详细解释,但简而言之,嵌入是一种高维向量,可以表示非结构化数据的语义含义。一般来说,两个在距离上接近的嵌入很可能对应语义相似的输入数据。有了现代机器学习,我们可以将各种类型的非结构化数据(例如图像和文本)编码和转换为语义强大的嵌入向量。

从组织的角度来看,一旦非结构化数据的数量超过一定限制,就会变得难以管理。这就是向量数据库(如 Zilliz Cloud )的用途。向量数据库专门设计用于存储、索引和搜索大量非结构化数据,利用嵌入作为底层表示。向量数据库的搜索通常使用查询向量进行,查询结果是基于距离的最相似的前N个结果。

最好的向量数据库具有与传统关系数据库相同的可用性特性,例如水平扩展、缓存、复制、故障转移和查询执行。作为一个类别定义者,我们一直活跃在学术圈,并在 SIGMOD 2021 和 VLDB 2022 发表了论文,这两个会议是目前最顶尖的数据库会议。

你能讨论一下什么是嵌入?

一般来说,嵌入是来自多层神经网络中间层的激活的高维向量。许多神经网络被训练为输出嵌入本身,一些应用程序使用来自多个中间层的连接向量作为嵌入,但我现在不会深入探讨这些内容。生成嵌入的另一种较少见但同样重要的方法是通过手工特征工程。与其让机器学习模型自动学习输入数据的正确表示,不如使用传统的特征工程方法。无论使用什么底层方法,语义相似的对象的嵌入在距离上接近,这一特性就是向量数据库的基础。

使用这种技术的最流行的用例是什么?

向量数据库适用于任何需要某种语义搜索的应用程序,例如产品推荐、视频分析、文档搜索、威胁和欺诈检测以及人工智能聊天机器人。为了说明这一点,Milvus ,由 Zilliz 创建的开源向量数据库,是 Zilliz Cloud 的底层核心,已经被超过一千个企业用户在各种用例中使用过。

我很乐意讨论这些应用程序,并帮助人们了解它们的工作原理,但我也非常喜欢讨论一些不太为人所知的向量数据库用例。新药发现是我最喜欢的“小众”向量数据库用例之一。这个应用程序的挑战是从一个包含8亿化合物的数据库中搜索可能用于治疗某种疾病或症状的潜在候选药物。我们与一家制药公司沟通,他们通过将 Milvus 与一个名为 RDKit 的化学生物信息学库相结合,能够显著改进药物发现过程并减少硬件资源。

克利夫兰艺术博物馆(CMA)的 AI ArtLens 是我喜欢提到的另一个例子。AI ArtLens 是一个交互式工具,接受查询图像作为输入,并从博物馆的数据库中检索出视觉上相似的图像。这通常被称为反向图像搜索,是向量数据库的一个常见用例,但 Milvus 为 CMA 提供的独特价值主张是能够在一周内用一个很小的团队将应用程序启动并运行。

你能讨论一下开源平台 Towhee 是什么吗?

当我们与 Milvus 社区的人们交流时,我们发现他们中的很多人希望有一个统一的方法来为 Milvus 生成嵌入。对于我们与之交谈的几乎所有组织来说,这都是如此,尤其是对于没有很多机器学习工程师的公司来说。通过 Towhee ,我们旨在通过我们称之为“向量数据 ETL”的方法来解决这一差距。虽然传统的 ETL 管道专注于将来自多个来源的结构化数据组合和转换为可用的格式,但 Towhee 旨在处理非结构化数据,并且在生成的 ETL 管道中明确包含机器学习。Towhee 通过提供可以用作向量数据 ETL 管道构建块的数百个模型、算法和转换来实现这一点。此外,Towhee 还提供了一个易于使用的 Python API ,允许开发人员在一行代码中构建和测试这些 ETL 管道。

虽然 Towhee 是一个独立的项目,但它也是 Zilliz 创建的以 Milvus 为中心的更广泛的向量数据库生态系统的一部分。我们设想 Milvus 和 Towhee 将是两个高度互补的项目,当它们一起使用时,可以真正实现非结构化数据处理的民主化。

Zilliz最近完成了6000万美元的B轮融资。如何利用这笔资金来加速Zilliz的使命?

首先,我想感谢Prosperity7 Ventures、Pavilion Capital、Hillhouse Capital、5Y Capital、Yunqi Capital等投资者相信Zilliz的使命并在此B轮融资中支持我们。我们现在总共筹集了1.13亿美元,这笔最新的融资将支持我们扩大工程和市场团队的努力。特别是,我们将改进我们的托管云服务,该服务目前处于早期访问阶段,但计划在今年晚些时候向所有人开放。我们还将继续投资于最前沿的数据库和人工智能研究,就像我们过去四年所做的那样。

您是否还有其他关于Zilliz的信息想要分享?

作为一家公司,我们正在迅速增长,但真正使我们当前团队与数据库和机器学习领域其他团队区别开来的,是我们对所建设内容的热情。我们正在执行民主化非结构化数据处理的使命,看到这么多才华横溢的Zilliz团队成员为实现这一目标而努力,真是令人惊叹。如果您对我们正在做的事情感兴趣,请随时通过我们的职业页面与我们联系。我们很乐意欢迎您加入我们的团队。

如果您想了解更多信息,我也非常乐意与您讨论Zilliz、向量数据库或人工智能/机器学习中的嵌入相关进展。我的(虚拟的)门永远是敞开的,因此请随时在Twitter或LinkedIn上直接联系我。

最后,感谢您的阅读!

感谢这次精彩的采访,希望读者能够通过访问Zilliz的网站来了解更多信息。

安托万是一位具有远见的领导者和Unite.AI的联合创始人,他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者,他相信人工智能将对社会产生电力的影响一样的颠覆性影响,并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他还是Securities.io的创始人,这是一个专注于投资尖端技术的平台,这些技术正在重新定义未来并重塑整个行业。