访谈
MinIO 首席技术官 Ugur Tigli – 采访系列

Ugur Tigli 是 MinIO 的首席技术官,MinIO 是高性能对象存储的领导者,专为 AI 而设计。作为 CTO,Ugur 帮助客户架构和部署 API 驱动、云原生和可扩展的企业级数据基础设施,使用 MinIO。
您能否描述您成为 MinIO 首席技术官的经历,以及您的经验如何塑造您对 AI 和数据基础设施的方法?
我在美林证券的基础设施工程部门开始了我的职业生涯,担任备份和恢复管理员。我继续接受不同的挑战和各种技术职位。我通过美林证券的收购加入了美国银行,担任存储工程的副总裁。然而,我的角色扩展到包括计算和数据中心工程。
作为我工作的一部分,我还与各种风险投资公司(VC)和他们的投资公司合作,引入最新和最好的技术。在一次与 General Catalyst 的会议中,我被介绍到 MinIO 的理念和人员。它吸引了我,因为他们对数据基础设施的方法与市场上的其他公司不同。该公司意识到对象存储和标准 API 的重要性,这些 API 是应用程序正在使用的。那些年,他们可以预测计算和 AI 的未来,比任何其他人或甚至在它被称为现在的名字之前。 我想成为执行该愿景和构建真正独特的东西的一部分。MinIO 现在是地球上部署最广泛的对象存储。
我之前的角色和经验对我如何处理新技术(特别是 AI 和数据基础设施)的影响,也只是我多年来支持应用程序团队在金融服务公司中参与的许多项目的积累。
从有限的网络带宽时代(这导致 Hadoop 技术 15 年前成为最新的技术)到各种数据介质技术(从硬盘驱动器(HDD)到固态驱动器(SSD)),这些技术变化都塑造了我对 AI 生态系统和数据基础设施的当前看法。
MinIO 以其高性能对象存储能力而闻名。MinIO 如何满足当今 AI 驱动型企业的需求?
当 AB 和 Garima 概念化 MinIO 时,他们的首要任务是思考一个问题陈述 —— 他们知道数据将继续增长,现有的存储技术与这种增长不兼容。AI 的快速出现使他们对市场的预见成为现实。从那时起,对象存储成为 AI 基础设施的基础(所有主要的 LLM,如 OpenAI 和 Anthropic,都建立在对象存储上),现代数据中心建立在对象存储基础上。
MinIO最近推出了一个新的对象存储平台,具有关键的企业级功能,以支持组织的 AI 计划:MinIO 企业对象存储。它的设计目的是为了解决大规模 AI 工作负载带来的性能和扩展挑战,并使客户更容易地处理数十亿个对象以及每秒每个节点的数十万个加密操作。它具有六个新的商业功能,针对 AI 工作负载面临的关键操作和技术挑战:目录(解决对象存储命名空间和元数据搜索问题),防火墙(专为数据设计),密钥管理系统(解决处理数十亿加密密钥的问题),缓存(作为缓存服务运行),可观察性(允许管理员查看所有系统组件,跨每个实例),最后,企业控制台(作为所有 MinIO 实例的单一窗口)。
处理大规模 AI 正变得越来越重要。您能否详细说明为什么这是如此,以及 MinIO 如何满足现代企业的这些需求?
几乎所有组织构建的东西现在都存储在对象存储中,这将随着基础设施运行设备的现代数据湖和 AI 的出现而加速。组织正在寻找新的基础设施来管理进入系统的所有数据,并在其上构建数据驱动的应用程序 —— 这需要对象存储才能支持的非凡规模和灵活性。 这就是 MinIO 的用途,也是为什么该公司一直领先于竞争对手,因为它的设计满足了 AI 的需求 —— 存储大量结构化和非结构化数据,并在规模上提供性能。
与之前 AI 生成中的机器学习(ML)需求类似,数据和现代数据湖对于任何“预测性”AI 的成功至关重要。然而,随着“生成性”AI 的发展,这个范围已经扩大到包括其他组件,例如 AI 操作数据和文档管道、基础模型和向量数据库。
所有这些额外的组件都使用对象存储,大多数组件直接与 MinIO 集成。例如,Milvus(一个向量数据库)使用 MinIO,许多现代查询引擎通过 S3 API 与 MinIO 集成。
AI 技术债务是许多组织关心的问题。MinIO 采用什么策略来帮助客户避免这个问题,特别是在利用 GPU 更高效方面?
一条链只有在其最弱的环节上才是强大的 —— 而您的 AI/ML 基础设施的速度只有在其最慢的组件上才是快的。如果您使用 GPU 训练机器学习模型,您的弱点可能是您的存储解决方案。结果就是我所说的“饥饿 GPU 问题”。饥饿 GPU 问题发生在您的网络或存储解决方案无法快速地为您的训练逻辑提供训练数据以充分利用您的 GPU 时,导致宝贵的计算能力白白浪费。组织可以做的事情是首先了解糟糕的数据架构的迹象以及它如何直接导致 AI 技术的利用不足。为了避免技术债务,公司必须改变他们对数据的看法(和存储)。
组织可以在与计算基础设施相同的数据中心设置存储解决方案。理想情况下,这将与计算位于同一个集群。由于 MinIO 是软件定义的存储解决方案,因此它能够提供所需的性能来满足饥饿的 GPU —— 最近的基准测试使用仅 32 个节点的非定制 NVMe SSD 就达到了 325 GiB/s 的 GET 和 165 GiB/s 的 PUT。
您在全球金融机构创建高性能数据基础设施的丰富经验如何影响您在 MinIO 的工作,特别是在为不同行业需求架构解决方案方面?
我帮助为美国银行建立了第一个私有云,这一举措通过提供与公共云相同的功能和功能(但成本较低)节省了数十亿美元。不仅是这一重大举措,我在美国银行美林证券工作期间参与的许多其他具有不同应用需求的项目都塑造了我在 MinIO 的工作,特别是在为客户架构解决方案方面。例如,我曾与团队合作,建立了仅使用服务器数据存储组件的 Hadoop 集群,同时让服务器 CPU 空闲或几乎空闲。像这样的简单例子或教训使我能够在现代数据基础设施中使用分离的数据和计算解决方案,同时帮助我们的客户和合作伙伴,这些解决方案在技术上更好,成本更低,使用了当今的高带宽网络技术和高性能对象存储,如 MinIO 和任何查询或处理引擎。
混合云带来独特的挑战和复杂性。您能否详细讨论这些,并解释 MinIO 的混合“突发”云模型如何有效地控制云成本?
转向多云不应该导致 IT 预算膨胀和无法达到里程碑 —— 它应该帮助管理成本并加速组织的路线图。需要考虑的是云复制 —— 现实是,将操作从云转移到本地基础设施可能会带来巨大的成本节约,具体取决于情况,您应该始终将云视为运营模式,而不是目的地。例如,组织会启动 GPU 实例,然后花时间预处理数据以适应 GPU。这浪费了宝贵的时间和金钱 —— 组织需要通过选择云原生和更重要的是云可移植的技术来优化,这些技术可以在不产生巨大成本的情况下解锁多云的力量。使用云优先的运营模式原则并遵循该框架可以提供适应不断变化的运营需求的敏捷性。
Kubernetes 原生解决方案对于现代基础设施至关重要。MinIO 与 Kubernetes 的集成如何增强其可扩展性和灵活性,以满足 AI 数据基础设施的需求?
MinIO 从设计上就是 Kubernetes 原生的,且从一开始就是 S3 兼容的。开发人员可以快速部署所有云原生应用程序的持久对象存储。MinIO 和 Kubernetes 的组合提供了一个强大的平台,允许应用程序跨任何多云和混合云基础设施扩展,并且仍然可以集中管理和保护,避免公有云锁定。
拥有 Kubernetes 作为其引擎,MinIO 可以在 Kubernetes 运行的任何地方运行 —— 在现代云原生/AI 世界中,这几乎是无处不在。
展望未来,用户可以从 MinIO 在 AI 数据基础设施方面期待什么样的发展或增强?
我们最近的合作伙伴关系和产品发布是对市场的信号,表明我们不会放慢脚步,我们将继续在有意义的领域推动发展。例如,我们最近与 Carahsoft 合作,使 MinIO 的软件定义对象存储产品组合可供政府、国防、情报和教育部门使用。这使公共部门组织能够构建从现代数据湖到自治边缘的任意规模数据基础设施。我们共同将这些尖端、独特的解决方案带给公共部门客户,赋予他们轻松高效地应对数据基础设施挑战的能力。这个合作伙伴关系发生在公共部门需要 AI 就绪的推动增加之时,最近的 OMB 要求规定所有联邦机构都需要一名首席 AI 官(以及其他内容)。总体而言,这个合作伙伴关系有助于加强行业的 AI 姿态,并为公共部门提供必要的工具以取得成功。
此外,MinIO 对未来有很好的定位。AI 数据基础设施仍处于初期阶段。未来几年将会出现更多的领域。例如,大多数企业将希望使用其专有数据和文档与基础模型和检索增强生成(RAG)一起使用。由于所有这些架构选择和部署模式都有一个共同点 —— 所有这些数据都已经存储在 MinIO 上 —— 因此将更容易实现对此类部署模式的进一步集成。
最后,对于希望构建或增强 AI 数据基础设施的技术领导者,您会提供什么建议,基于您在 MinIO 的经验和见解?
为了使任何 AI 计划成功,必须坚持三个关键要素:拥有合适的数据,拥有合适的基础设施,拥有合适的应用程序。它真正从了解您需要什么开始 —— 不要仅仅因为害怕错过 AI 热潮就购买昂贵的 GPU。我坚信,仅仅关注模型本身而不是数据的企业 AI 战略将在 2024 年失败。思考模型而不是数据是一个关键错误 —— 您必须从数据开始。构建适当的数据基础设施。然后,思考您的模型。随着组织转向 AI 首要架构,确保数据基础设施能够支持数据 —— 而不是限制数据 —— 至关重要。
感谢这次精彩的采访,希望了解更多的读者可以访问 MinIO。












