访谈
科里·桑德斯(Corey Sanders),CoreWeave 产品高级副总裁 – 采访系列

科里·桑德斯,CoreWeave 产品高级副总裁,负责CoreWeave 快速增长的AI云平台的产品战略和执行。他负责扩大创新,打造专用解决方案,与客户合作,并加强CoreWeave 在AI基础设施市场的地位。在加入CoreWeave之前,桑德斯在微软担任了二十年的高级领导职务,包括云工程、行业特定平台、商业解决方案战略和大型企业合作伙伴关系等方面,具有丰富的技术执行和市场战略经验。
CoreWeave 是一家专门为高性能计算和大规模人工智能工作负载而设计的AI原生云提供商。该公司在美国和欧洲拥有迅速扩张的数据中心群,提供GPU加速的基础设施和软件,专门用于AI训练、推理和高级计算用例。通过专注于专用架构而不是通用云,CoreWeave 已成为AI实验室和企业的关键基础设施合作伙伴,为他们提供性能、可扩展性和效率。
您在微软工作了二十多年,跨越了Windows工程、云销售策略和行业云等多个领域。这种经历教会了您什么关于企业采用,以及您如何将这些经验应用于CoreWeave的工作中?
企业采用始于解决特定的客户问题。仅仅为了创新而进行创新并不是真正重要的;重要的是站在客户的角度,了解他们真正面临的问题——无论是支持成本、运营复杂性、与客户建立联系还是管理全球团队和新产品线——然后提供帮助他们解决这些问题的服务。客户通常愿意在方法上进行创新,但最关键的考虑是帮助他们解决问题。产品设计中最常见的错误是过于沉迷于产品的“酷炫”因素。虽然在消费者领域,这有一定的价值,但企业客户最终更关心实用性而不是酷炫因素。
CoreWeave 经常被描述为提供专用AI基础设施。在产品方面,这意味着什么,以及通用云平台在处理AI工作负载时面临哪些困难?
专用基础设施的最大优势是能够专注于特定服务的交付,而不需要解决每个通用用例。让我举两个例子:一个是软件,一个是硬件。
在软件方面,我们的对象存储产品配备了LOTA缓存,专门针对AI工作负载进行了优化。它直接部署在GPU节点上,为应用程序提供S3端点,并响应GPU请求,跨多个节点扩展其缓存。这样可以将GPU的吞吐量提高到每秒7 GB,远远超过了通用云平台的能力。我们能够实现这一点,是因为我们对AI特定工作负载、读写比例和集群布局做出了设计假设。如果客户将其用于托管数据库或电子商务网站,它将不会产生相同的影响。这就是专用软件的定义。
硬件的例子类似。由于我们大量部署了最新一代的NVIDIA GPU(许多需要液体冷却),CoreWeave 已经建立了专门的专业知识和数据中心设计来支持这些需求。与其他大型云平台不同,后者需要在后期添加液体冷却,CoreWeave 从一开始就为AI而设计数据中心。这导致成本降低,最新GPU型号的可用性提高。
下面是LOTA缓存的图片。

当客户首次考虑扩大AI规模时,他们经常认为只需要访问GPU。然而,一旦他们开始大规模训练或提供AI模型,他们通常会意识到自己缺乏什么?
由于在大规模GPU集群上运行工作负载的复杂性,周围的服务成为成功的真正驱动力。这些服务包括明显的,如存储和网络,以及关键的运营服务,如可观察性、编排和安全性。这就是CoreWeave 的Mission Control产品的优势所在。它为客户提供了对节点健康状态和运行时的深入了解,并将这些信息直接集成到编排引擎中。这样,客户可以将基础设施视为一个单一的、连贯的作业实体,而不是1000个单独的GPU。
您目前的主要产品优先事项是什么,以提高客户的成果,无论是性能、可靠性、成本可预测性还是开发者体验?
在核心平台方面,我们始终专注于性能、可靠性和可观察性。我们必须确保客户能够以可重复和可预测的方式运行作业,同时充分利用每个GPU的每个TFLOP。此外,我们正在努力简化那些可能不熟悉SLURM等工具的客户的入门过程(几乎每个人都在使用SLURM,但几乎每个人都讨厌它)。最后,我们正在开发更多服务和计费模型,以使创新和小规模启动变得更容易。目前,尝试新事物非常困难,因为存在高进入壁垒,例如容量限制、三年承诺和需要专家才能开始。我们希望将创新变得更容易。
随着更多AI工作负载从训练密集型转向推理密集型,这种转变如何影响基础设施设计和产品路线图决策?
这为应用CoreWeave现有的差异化优势到推理需求创造了重要的机会。例如,我之前提到的LOTA缓存,专注于为训练中的GPU提供服务;然而,我们可以采用相同的技术,将其集成到KVCache等产品中,并将其转变为强大的推理差异化因素。同样,像Mission Control这样的工具对于推理变得更加重要,因为观察GPU健康状况对于运行高可用性代理应用程序至关重要。
在接下来的1-2年内,什么将成为AI云市场的领导力定义,哪些能力将对客户最重要?
我认为领导力将由两件事定义。首先是交付不断增长的训练规模需求。这需要在可观察性、健康监测和自动恢复方面取得进展。当您从数百个GPU扩展到全球分布的数万个GPU时,手动响应故障是不切实际的。
第二是为推理和代理工作负载提供合适的服务。这需要全球部署能力和鼓励实验的商业模式。这种使用模式曾经推动了云计算的增长,但在AI时代有些丢失了。我们需要通过更好的平台支持、多云能力和多区域易用性将其带回来。
您之前曾领导过医疗保健、零售、金融服务、制造业和主权云等行业特定云计划。这些领域的哪些经验教训可以直接应用于AI基础设施,哪些不能?
GPU的世代更替继续引入新的复杂性。每个新发布的GPU都带来了更高的互联性、更大的内存和更高的功耗需求,这些都需要我们重新审视节点连接和软件交付的假设。我们必须在这里保持领先地位。另一方面,客户能够利用大规模计算能力所取得的进步速度非常令人印象深刻。
随着AI数据中心和集群的扩大,哪些运营挑战目前最难解决,哪些正在最快速改进?
GPU的世代更替继续引入新的复杂性,需要我们重新审视节点连接、机架管理和软件交付的假设。我们需要继续专注于这项工作,以保持我们的领导地位。正在快速改进的方面是客户能够利用大规模计算能力所取得的进展速度。
在AI基础设施中,可靠性超出了正常的运行时间。CoreWeave如何定义可靠性,哪些指标最能反映客户的成功?
在大规模操作中,客户最关心的是简单地完成工作。在大规模操作中,个别故障或减速是预期的。关键是我们如何检测和自动响应这些问题,以确保工作完成。因此,我们将Mission Control集成到更高级的服务中,如SUNK(Slurm on Kubernetes)。这允许客户自动响应故障而不会失去数小时或数周的工作。对于我们来说,成功不仅仅是节点的正常运行时间;它是工作的成功。
展望未来,AI基础设施中哪些重大变化尚未被充分重视,无论是与硬件演进、栈的专业化、主权要求还是新的部署模型有关?
我相信强化学习(RL)作为AI栈中重新受到重视的部分仍然被低估。虽然这不是一个新领域,但它在最初的LLM开发浪潮中被掩盖了。强化学习将在使AI服务更能适应用户不断变化的环境中发挥至关重要的作用。因此,我们对今天的无服务器RL产品非常兴奋。
感谢这次精彩的采访,希望读者能够通过访问CoreWeave了解更多信息。












