访谈
Dr. 斯塔夫罗斯·帕帕多普洛斯,TileDB 创始人兼 CEO – 采访系列

TileDB 是一种现代数据库,集成了所有数据模式、代码和计算于一体的产品。 TileDB 于 2017 年 5 月从 MIT 和 Intel 实验室分拆出来。
在 2017 年 2 月创立 TileDB 公司之前,斯塔夫罗斯·帕帕多普洛斯博士曾是英特尔并行计算实验室的高级研究科学家,并在 MIT CSAIL 的英特尔大数据科学与技术中心工作了三年。他还曾在香港科技大学的计算机科学与工程系担任访问助理教授约两年。斯塔夫罗斯在香港科技大学获得了计算机科学博士学位,师从 Dimitris Papadias 教授,并在香港中文大学与 Yufei Tao 教授合作进行了博士后研究。
您之前曾是英特尔并行计算实验室的高级研究科学家,并在 MIT CSAIL 的英特尔科学与技术中心(ISTC)的大数据部门工作了三年。您能否与我们分享您在那段时间的一些关键亮点?
在我在英特尔实验室和 MIT 的时间里,我有机会与两个不同科学领域的杰出人物合作:高性能计算(在英特尔)和数据库(在 MIT)。我在那段时间里获得的知识和专业知识成为我创建一种新型数据库系统的愿景的关键,这最终成为了一项在 ISTC 内部的研究项目,并演变成了 TileDB。
您能否解释 TileDB 背后的愿景以及它如何旨在革新现代数据库格局?
在过去的几年里,机器学习和生成式 AI 应用程序的采用率大幅增加,这些应用程序帮助组织做出更好的决策。每天,组织都在其数据中发现新的模式,并利用这些信息来获得竞争优势。这些模式来自必须被管理和利用的日益增长的数据模式谱系。从传统的表格数据到更复杂的数据源,如社交帖子、电子邮件、图像、视频和传感器数据,数据的多样性使得从数据中提取意义变得更加困难。因此,需要一种新型的数据库。这就是为什么创建了 TileDB。
为什么组织在开发高级分析和机器学习能力之前需要优先考虑其数据基础设施?
在采用 AI 的热潮中,有一个关键且常被忽视的事实:任何 AI 计划的成功与其底层数据基础设施的质量和性能密切相关。
问题在于,复杂的数据如果不能自然地表示为表格,则被视为“非结构化”数据,通常以特定数据格式的平面文件存储,或由不同的、专用数据库管理。数据科学家们花费大量时间整理数据以便整合。据估计,80-90% 的数据科学家的时间花在清理数据和准备数据以便合并上。这样一来,数据科学家们只有 10-20% 的时间用于创建洞察。
组织在专注于 AI 和 ML 应用程序而忽视强大的数据库基础设施时会遇到哪些常见的陷阱?
组织倾向于关注新颖的事物。像大型语言模型、向量数据库和基于数据基础设施的生成式 AI 应用程序目前是热点,然而忽视了对底层数据基础设施的关注,这对于分析成功至关重要。简单来说,如果您的组织这样做,您可能会花费大量时间拼凑数据基础设施,并可能延迟或完全错过获取洞察力的机会。
您能否详细说明什么使得数据库“适应性”强以及为什么这种适应性对于现代数据分析至关重要?
一个适应性数据库是指能够改变形态以适应所有数据(无论其模式如何)并以统一的方式存储它们。适应性数据库为原本被认为是“非结构化”的数据带来结构。据估计,80% 或更多的世界数据是非表格的或非结构化的,大多数 AI/ML 模型(包括 LLM)都是在此类数据上训练的。
TileDB 以多维数组的形式结构化数据。这种格式与传统数据库相比如何提高性能和成本效率?
多维数组数据库的基础优势在于它可以改变形态以适应几乎任何数据模式和应用程序。例如,一个向量只是一个一维数组。通过为这种“非结构化”数据带来结构,您可以整合数据基础设施,显著降低成本,消除数据孤岛,提高生产力和安全性。进一步来说,当计算基础设施与数据管理基础设施相结合时,您可以从数据中立即提取价值。
TileDB 在哪些值得注意的用例中显著提高了数据管理和分析性能?
TileDB 的第一个用例是存储、管理和分析大量基因组数据,这在传统的表格数据库中很难且昂贵。我们观察到性能有了惊人的提高(在许多情况下比其他数据库和定制解决方案快 100 倍)。然而,我们的多维数组模型是通用的,可以高效地捕获其他数据模式。例如,TileDB 在处理生物医学图像、卫星图像、单细胞转录组学和点云数据(如 LiDAR 和 SONAR)方面表现出色。
TileDB 提供开源工具以实现互操作性。开源方法如何造福科学和数据科学界?
我们在 TileDB 是开源的坚定支持者。核心库和数据格式规范都是开源的。此外,我们的生命科学产品也是开源的,包括 TileDB-SOMA,一款用于高效和可扩展的单细胞数据管理的软件包,该软件包是与 Chan Zuckerberg 基金会合作开发的,并支持世界上最大的、完全注释的单细胞数据集 CELLxGENE Discover Census。这也是开源的,正在被全球各地的学术机构和大型制药公司使用。
您认为数据管理的未来趋势是什么?
随着数据变得更加丰富,AI 应用程序变得更加智能。大型语言模型变得越来越强大,利用多种数据模式,并且这些 LLM 与多样化数据集的集成正在开启 AI 的新前沿,即多模态 AI。
实际上,多模态 AI 意味着用户不再局限于一种输入和一种输出类型,可以用几乎任何输入来提示模型生成几乎任何内容类型。我们认为 TileDB 是支持多模态 AI 的理想数据库,能够支持可能出现的任何新颖的数据类型。
感谢您的精彩评论,希望了解更多的读者请访问 TileDB。












