访谈
查尔斯·谢,Zilliz 的创始人和 CEO – 采访系列

查尔斯·谢 是 Zilliz 的创始人和 CEO,专注于为 AI 和 LLM 应用构建下一代数据库和搜索技术。在 Zilliz,他还发明了 Milvus,世界上最受欢迎的开源向量数据库,适用于生产就绪的 AI。他目前是 LF AI & 数据基金会的董事会成员,并于 2020 年和 2021 年担任董事会主席。查尔斯此前曾在 Oracle 工作,是 Oracle 12c 云数据库项目的创始工程师。查尔斯拥有威斯康星大学麦迪逊分校的计算机科学硕士学位。
Zilliz 是 LF AI Milvus® 的背后团队,后者是一种广泛使用的开源向量数据库。该公司专注于简化数据基础设施管理,旨在使 AI 更加容易被企业、组织和个人使用。
您能否分享创立 Zilliz 的故事以及是什么激发您开发 Milvus 和专注于向量数据库的灵感?
我的数据库领域经历跨越了 15 年,其中包括六年在 Oracle 任软件工程师,我是 Oracle 12c 多租户数据库团队的创始成员。在此期间,我注意到一个关键限制:虽然结构化数据得到了良好的管理,但未结构化数据——占所有数据的 90%——仍然基本上没有被利用,只有 1% 被有意义地分析。
2017 年,AI 处理未结构化数据的能力日益增长,标志着一个转折点。NLP 的进步表明,未结构化数据可以转换为向量嵌入,解锁其语义含义。这激发了我创立 Zilliz 的灵感,具有管理“数十亿数据”的愿景。向量嵌入成为弥合未结构化数据和可行见解之间差距的基石。我们开发了 Milvus 作为一种专用向量数据库来实现这一愿景。
在过去的两年里,行业已经验证了这种方法,认识到向量数据库是管理未结构化数据的基础。对于我们来说,这不仅仅是关于技术——它是关于赋予人类在 AI 时代利用未结构化数据的潜力的能力。
Zilliz 自成立六年以来,其发展之旅如何演变,您在开创向量数据库空间时面临了哪些关键挑战?
这段旅程是变革性的。当我们七年前开始 Zilliz 时,真正的挑战不是筹集资金或招聘——而是 xây dựng一款完全处于未知领域的产品。没有现有的路线图、最佳实践或既定的用户期望,我们不得不自己绘制航程。
我们的突破点是 Milvus 的开源。通过降低采用门槛和培养社区参与,我们获得了宝贵的用户反馈来迭代和改进产品。当 Milvus 在 2019 年推出时,我们年底有大约 30 名用户。到 2020 年,这个数字增长到 200 多个,很快之后就接近 1000 个。
如今,向量数据库已经从新颖的概念转变为 AI 时代的基本基础设施,验证了我们开始时的愿景。
作为向量数据库公司,Zilliz 为支持现代 AI 应用中的多模态向量搜索提供了哪些独特的技术能力?
Zilliz 已经开发了先进的技术能力来支持多模态向量搜索:
- 混合搜索: 我们实现了跨不同模态的同时搜索,例如将图像的视觉特征与其文本描述相结合。
- 优化算法: 我们的专有量化技术在跨模态搜索中平衡召回准确率和内存效率。
- 实时和离线处理: 我们的双轨系统支持低延迟的实时写入和高吞吐量的离线导入,确保数据的新鲜度。
- 成本效率: 我们的扩展容量实例利用智能分层存储显著降低存储成本,同时保持高性能。
- 嵌入式 AI 模型: 通过集成多模态嵌入和排名模型,我们降低了实施复杂搜索应用的门槛。
这些能力使开发人员能够高效地处理多种数据类型,使现代 AI 应用更加强大和多样化。
您如何看待多模态 RAG 在处理复杂的真实世界数据(如图像、音频和视频)以及文本方面推动 AI 的发展?
多模态 RAG(检索增强生成)代表了 AI 的一个重要演进。虽然基于文本的 RAG 很突出,但大多数企业数据涵盖图像、视频和音频。将这些多样化格式集成到 AI 工作流中的能力至关重要。
这种转变是及时的,因为 AI 社区正在讨论可用于训练的互联网文本数据的局限性。虽然文本数据是有限的,但多模态数据仍然被严重低估——从企业视频到好莱坞电影和音频录音。
多模态 RAG 解锁了这一未被利用的资源,启用了 AI 系统处理和利用这些丰富的数据类型。它不仅仅是解决数据稀缺的问题——它是关于扩展 AI 的能力边界,以更好地理解和与真实世界进行交互。
Zilliz 如何在迅速增长的向量数据库市场中与竞争对手区分开来?
Zilliz 通过以下几个独特的方面脱颖而出:
- 双重身份: 我们既是 AI 公司,又是数据库公司,推动数据管理和 AI 集成的边界。
- 云原生设计: Milvus 2.0 是第一个采用分离存储和计算架构的分布式向量数据库,实现了超过 100 亿向量的可扩展性和成本效率。
- 专有增强: 我们的 Cardinal 引擎比开源 Milvus 提高了 3 倍的性能,比竞争对手提高了 10 倍。我们还提供基于磁盘的索引和智能分层存储,以实现成本有效的扩展。
- 持续创新: 从混合搜索能力到迁移工具,如 VTS,我们不断推进向量数据库技术的发展。
我们致力于开源,确保灵活性,同时我们的托管服务 Zilliz Cloud 提供企业级性能,具有最小的运营复杂性。
您能否详细说明 Zilliz Cloud 的重要性及其在使 AI 和向量搜索服务更容易被小型开发人员和企业使用方面的作用?
向量搜索自 2015 年以来一直被科技巨头使用,但专有实现限制了其更广泛的采用。在 Zilliz,我们通过两种互补的方法使这一技术民主化:
- 开源: Milvus 允许开发人员构建和拥有自己的向量搜索基础设施,降低了技术障碍。
- 托管服务: Zilliz Cloud 消除了运营开销,提供了一种简单、经济的解决方案,供企业采用向量搜索,而无需专门的工程师。
这种双重方法使向量搜索对开发人员和企业都可用,使他们能够专注于构建创新 AI 应用。
随着 LLM 和基础模型的进步,您认为 AI 数据基础设施的下一个重大转变将是什么?
下一个重大转变将是 AI 数据基础设施的全面转变,以处理未结构化数据,这占世界数据的 90%。现有的系统是为结构化数据设计的,无法适应这一转变。
这种转变将影响数据栈的每一层,从基础数据库到安全协议和可观察性系统。这不仅仅是关于增量升级——它是关于为未结构化数据的复杂性量身定制新的范式。
这种转变将影响数据栈的每个方面:
- 基础数据库系统
- 数据管道和 ETL 过程
- 数据清理和转换机制
- 安全和加密协议
- 合规和治理框架
- 数据可观察性系统
我们不仅仅是在谈论升级现有的系统——我们正在谈论从头开始构建整个新范式。就像从一个为图书馆中书籍组织而优化的世界转变为一个需要管理、理解和处理整个互联网的世界一样。这一转变代表了一个全新的世界,每个数据基础设施的组件可能需要从头开始重新构想。
这种革命将重新定义我们存储、管理和处理数据的方式,解锁巨大的 AI 创新机会。
NVIDIA GPU 的集成如何影响您向量搜索的性能和可扩展性?
NVIDIA GPU 的集成在两个关键领域显著提高了我们的向量搜索性能。
首先是在索引构建中,这是向量数据库中最计算密集的操作之一。与传统数据库索引相比,向量索引构建需要几个数量级更高的计算能力。通过利用 GPU 加速,我们大大减少了索引构建时间,实现了更快的数据摄取和改进的数据可见性。
其次,GPU 对于高吞吐量的查询用例至关重要。在电子商务等应用中,系统需要处理每秒数千甚至数万个查询(QPS),GPU 的并行处理能力已被证明是无价的。通过利用 GPU 加速,我们可以高效地处理这些高容量的向量相似性搜索,同时保持低延迟。
自 2021 年以来,我们一直与 NVIDIA 合作,优化我们的算法以适应 GPU 架构,同时也开发了我们的系统以支持不同处理器架构的异构计算。这为我们的客户提供了灵活性,让他们可以选择最适合其特定需求的硬件基础设施。
作为向量数据库在 AI 中发挥关键作用,您是否看到其应用扩展到传统用例(如推荐系统和搜索)以外的行业,如医疗保健?
向量数据库正在迅速扩展到传统应用,如推荐系统和搜索,渗透到我们以前从未想象过的行业。让我分享一些例子。
在医疗保健和制药研究中,向量数据库正在革新药物发现。分子可以根据其功能特性向量化,使用高级功能如范围搜索,研究人员可以发现所有可能治疗特定疾病或症状的潜在药物候选项。与传统的 top-k 搜索不同,范围搜索识别所有在目标范围内的分子,提供了对潜在候选项的全面视图。
在自动驾驶中,向量数据库正在提高车辆的安全性和性能。一个有趣的应用是处理边缘情况——当遇到不寻常的场景时,系统可以快速搜索大量的类似情况数据库,以找到相关的训练数据来微调自动驾驶模型。
我们还看到金融服务中的创新应用,如欺诈检测,网络安全中的威胁检测,以及有针对性的广告中的客户参与度提高。例如,在银行中,交易可以被向量化并与历史模式进行比较,以识别潜在的欺诈活动。
向量数据库的力量在于其理解和处理任何领域的相似性的能力——无论是分子结构、驾驶场景、金融模式还是安全威胁。随着 AI 的不断演进,我们才刚刚开始探索可能性的表面。高效处理和在大量未结构化数据中找到模式的能力开启了我们刚刚开始探索的可能性。
开发人员和企业如何最好地与 Zilliz 和 Milvus 接触,以便在其 AI 项目中利用向量数据库技术?
有两条主要路径来利用 Zilliz 和 Milvus 的向量数据库技术,每条路径适用于不同的需求和优先级。如果您重视灵活性和自定义,Milvus,我们的开源解决方案,是您的最佳选择。使用 Milvus,您可以:
- 自由实验和以自己的节奏学习技术
- 根据您的特定要求自定义解决方案
- 为开发做出贡献并修改代码库
- 保持对基础设施的完全控制
然而,如果您希望专注于构建应用程序而不管理基础设施,Zilliz Cloud 是最佳选择。它提供:
- 一键式部署的即用型解决方案
- 企业级安全和合规
- 高可用性和稳定性
- 无需运营开销的优化性能
可以这样想:如果您喜欢“摆弄”并希望拥有最大程度的灵活性,请使用 Milvus。如果您希望最小化运营复杂性并快速开始构建应用程序,请选择 Zilliz Cloud。
两条路径都将带您到达目的地——只是您控制旅程的多少与您需要到达目的地的速度有关。












