Connect with us

访谈

Frank Liu,Zilliz 运营总监 – 采访系列

mm

Frank Liu 是 Zilliz 的运营总监,Zilliz 是领先的向量数据库和 AI 技术提供商。他们也是创建了世界上最流行的开源向量数据库 LF AI Milvus® 的工程师和科学家。

您最初是什么时候被机器学习吸引的?

我第一次接触到机器学习/人工智能的力量是在斯坦福大学读本科的时候,尽管这与我的专业(电气工程)有点远。最初,我被电气工程这一领域吸引,因为能够将复杂的电气和物理系统分解为数学近似值,这让我感到非常强大,统计和机器学习也给我留下了同样的感觉。我在研究生阶段上了更多的计算机视觉和机器学习课程,并写了关于使用机器学习评估图像美学的硕士论文。这一切都让我进入了雅虎的计算机视觉和机器学习团队的第一份工作,在那里我同时担任研究和软件开发角色。那时候,我们还处于 AlexNet 和 VGG 的前期,看到整个领域和行业如此迅速地发展,从数据准备到大规模并行模型训练到模型生产化,真是令人惊叹。在很多方面,使用“过去”这个词来描述发生在不到 10 年前的事件,感觉有点可笑,但这就是这个领域取得的进步。

在雅虎之后,我曾担任一家我联合创立的初创公司的首席技术官,我们利用机器学习进行室内定位。在那里,我们不得不优化顺序模型以适应非常小的微控制器 – 这是一个与今天的大型语言模型和扩散模型相关但不同的工程挑战。我们还构建了硬件、可视化仪表盘和简单的云原生应用程序,但人工智能/机器学习始终是我们工作的核心组成部分。

尽管我已经从事机器学习相关工作7年或8年了,但我仍然非常喜欢电路设计和数字逻辑设计。拥有电气工程背景,在很多方面,对于我现在从事的工作非常有帮助。许多数字设计中的重要概念,例如虚拟内存、分支预测和 HDL 中的并发执行,能够为许多机器学习和分布式系统提供全栈视角。虽然我理解计算机科学的吸引力,但我希望在接下来的几年内看到更传统的工程领域 – 电气工程、机械工程、化学工程等 – 的复兴。

对于不熟悉这个术语的读者,什么是非结构化数据?

非结构化数据是指“复杂”的数据,基本上是不能存储在预定义格式或适应现有数据模型的数据。相比之下,结构化数据是指具有预定义结构的任何类型的数据 – 数值数据、字符串、表格、对象和键/值存储都是结构化数据的例子。

为了真正理解什么是非结构化数据以及为什么它传统上难以用计算机处理,比较它与结构化数据有助于理解。从最简单的方面来说,传统的结构化数据可以通过关系模型存储。例如,一个存储书籍信息的关系数据库,其中每一行代表一本书,索引由 ISBN 编号,列代表对应的信息类别,例如标题、作者、出版日期等。如今,有更灵活的数据模型 – 宽列存储、对象数据库、图数据库等等。但是,整体思想仍然相同:这些数据库旨在存储适合特定数据模板或数据模型的数据。

另一方面,非结构化数据可以被认为是基本上是一个伪随机的二进制数据块。它可以代表任何东西,可以任意大或小,并且可以通过无数种不同的方式转换和读取。这使得它不可能适应任何数据模型,更不用说关系数据库中的表了。

这种类型的数据有哪些例子?

人生成的数据 – 图像、视频、音频、自然语言等 – 是非结构化数据的优秀例子。但是,也有许多不太平凡的非结构化数据的例子。用户个人资料、蛋白质结构、基因序列,甚至人类可读代码也是非结构化数据的优秀例子。非结构化数据传统上如此难以管理的主要原因是非结构化数据可以采取任何形式,并且可能需要大不相同的运行时来处理。

以图像为例,两张同一场景的照片可能具有非常不同的像素值,但总体内容却非常相似。自然语言是另一个我喜欢引用的非结构化数据的例子。短语“电气工程”和“计算机科学”极为相关 – 以至于斯坦福大学的电气工程和计算机科学大楼相邻 – 但如果没有一种方法来编码这些短语背后的语义含义,计算机可能会天真地认为“计算机科学”和“社会科学”更相关。

什么是向量数据库?

为了理解向量数据库,首先需要了解什么是嵌入。我稍后会详细解释,但简而言之,嵌入是一个高维向量,可以表示非结构化数据的语义含义。一般来说,两个在距离方面接近的嵌入很可能对应于语义相似的输入数据。有了现代机器学习,我们有能力将各种类型的非结构化数据 – 例如图像和文本 – 编码和转换为语义强大的嵌入向量。

从组织的角度来看,一旦非结构化数据的数量超过一定限制,就会变得非常难以管理。这就是向量数据库(如 Zilliz Cloud)的用途。向量数据库旨在通过利用嵌入作为底层表示来存储、索引和搜索大量非结构化数据。通常使用查询向量在向量数据库中进行搜索,查询的结果是基于距离的最相似的前 N 个结果。

最好的向量数据库具有传统关系数据库的许多可用性功能:水平扩展、缓存、复制、故障转移和查询执行只是真正的向量数据库应实现的众多功能中的几个。作为一个类别定义者,我们也在学术界活跃,曾在 SIGMOD 2021VLDB 2022 上发表过论文,这两个会议是当今最顶尖的数据库会议。

您能讨论一下什么是嵌入吗?

一般来说,嵌入是来自多层神经网络中间层的激活产生的高维向量。许多神经网络本身就是为了输出嵌入而训练的,有些应用程序使用来自多个中间层的连接向量作为嵌入,但我现在不会深入讨论这些。生成嵌入的另一种不太常见但同样重要的方法是通过手工特征。与其让机器学习模型自动学习输入数据的正确表示,不如使用传统的特征工程来实现。这两种方法都可以使用,无论使用哪种方法,语义相似的对象的嵌入在距离方面是接近的,这一特性就是向量数据库的基础。

这种技术有哪些最流行的用例?

向量数据库非常适合任何需要某种语义搜索的应用程序 – 产品推荐、视频分析、文档搜索、威胁和欺诈检测以及人工智能驱动的聊天机器人都是向量数据库今天最流行的用例。为了说明这一点,Milvus,由 Zilliz 创建的开源向量数据库,也是 Zilliz Cloud 的底层核心,已被超过一千个企业用户在各种用例中使用。

我很乐意讨论这些应用程序,并帮助人们了解它们的工作原理,但我也非常喜欢讨论一些不太知名的向量数据库用例。新药物发现是我最喜欢的“小众”向量数据库用例之一。这个应用程序的挑战是在一个包含 8 亿化合物的数据库中搜索潜在的候选药物来治疗某种疾病或症状。我们与一家制药公司沟通,他们能够通过将 Milvus 与一个叫做 RDKit 的化学生物信息学库结合使用,显著改进了药物发现过程,并减少了硬件资源。

克利夫兰艺术博物馆(CMA)的 AI ArtLens 是另一个我喜欢提到的例子。AI ArtLens 是一个交互工具,接受查询图像作为输入,并从博物馆的数据库中提取出视觉上相似的图像。这通常被称为反向图像搜索,是向量数据库的一个相当常见的用例。但 Milvus 为 CMA 提供的独特价值主张是能够在一周内用一个非常小的团队让应用程序上线。

您能讨论一下开源平台 Towhee 是什么吗?

当我们与 Milvus 社区的人们交流时,我们发现他们中的很多人都希望有一种统一的方式来为 Milvus 生成嵌入。这对我们交谈的几乎所有组织来说都是如此,尤其是对于没有很多机器学习工程师的公司来说。通过 Towhee,我们旨在通过我们称之为“向量数据 ETL”的方式来解决这一差距。虽然传统的 ETL 管道专注于将来自多个来源的结构化数据合并和转换为可用的格式,但 Towhee 旨在处理非结构化数据,并且显式地将机器学习包含在生成的 ETL 管道中。Towhee 通过提供可以用作向量数据 ETL 管道构建块的数百个模型、算法和转换来实现这一点。此外,Towhee 还提供了一个易于使用的 Python API,允许开发人员用一行代码构建和测试这些 ETL 管道。

虽然 Towhee 是一个独立的项目,但它也是 Zilliz 正在创建的围绕 Milvus 的更广泛的向量数据库生态系统的一部分。我们设想 Milvus 和 Towhee 将是两个高度互补的项目,当它们一起使用时,可以真正实现非结构化数据处理的民主化。

Zilliz 最近 完成了 6000 万美元的 B 轮融资。这将如何加速 Zilliz 的使命?

首先,我想感谢 Prosperity7 Ventures、Pavilion Capital、Hillhouse Capital、5Y Capital、Yunqi Capital 等投资者相信 Zilliz 的使命并在本次 B 轮扩募中支持我们。我们现在总共筹集了 1.13 亿美元,本次最新的融资将支持我们扩大工程和市场团队的努力。特别是,我们将改进我们的托管云服务,该服务目前处于早期访问阶段,但计划在今年晚些时候向所有人开放。我们还将继续投资于尖端的数据库和人工智能研究,就像我们过去四年所做的那样。

您还想分享关于 Zilliz 的其他信息吗?

作为一家公司,我们正在迅速发展,但真正使我们的团队与数据库和机器学习领域的其他团队区别开来的,是我们对所做事情的热情。我们正在执行一项使命,即让非结构化数据处理民主化,看到这么多才华横溢的 Zilliz 人才为实现这一目标而努力,真是令人惊叹。如果您对我们所做的事情感兴趣,请随时 联系我们。我们很乐意您加入。

如果您想了解更多,我也非常乐意讨论 Zilliz、向量数据库或嵌入相关的 AI/ML 进展。我的(虚拟)门始终是敞开的,所以请随时在 Twitter/LinkedIn 上联系我。

最后但同样重要的是,感谢您的阅读!

感谢这次精彩的采访,希望了解更多的读者请访问 Zilliz

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。