人工智能
PyTorch 基金会整合 Ray,一种分布式计算框架,以构建统一的 AI 基础设施栈

开源 AI 生态系统今天迈出了决定性的步伐,因为 PyTorch 基金会 宣布 Ray,一种最初由 Anyscale 开发的分布式计算框架,正式加入其行列。这一举动标志着向统一、互操作和生产就绪的 AI 计算栈迈出了重要一步——这一栈将模型开发(PyTorch)、分布式推理(vLLM)和大规模执行(Ray)等基础层紧密联系在一起。
统一的开源 AI 基础
托管在 Linux 基金会下的 PyTorch 基金会,作为一些最重要的 开源 AI 技术的中心枢纽。其使命是减少碎片化,促进 AI 开发各个阶段的协作。通过将 Ray 与 PyTorch 和 vLLM 整合,基金会提供了行业长期以来所需的东西——一个用于构建、训练和部署 AI 的整体、端到端的栈。
Ray 的加入也代表了多年学术和工业演进的结晶。诞生于 UC Berkeley 的 RISELab,Ray 被设计为简化 AI 和机器学习工作负载的分布式计算。它使开发人员能够无缝地将作业从单个笔记本电脑扩展到成千上万台机器,而无需重写代码或管理复杂的系统。截至今日,Ray 拥有超过 39,000 个 GitHub 星标 和超过 2.14 亿次下载,使其成为世界上最广泛采用的分布式计算框架之一。
Ray 如何补充 PyTorch 和 vLLM
Ray 位于训练和推理框架(如 PyTorch、DeepSpeed 和 vLLM)与容器编排层(如 Kubernetes 或 Slurm)之间。这一位置使 Ray 能够高效地协调分布式工作负载,同时弥合模型训练和生产级部署之间的差距。
Ray 的关键能力包括:
- 多模态数据处理: 并行处理大量、多样化的数据集——文本、图像、音频和视频——以最大化吞吐量和效率。
- 预训练和后调优: 将 PyTorch 和其他框架扩展到成千上万个 GPU 上,用于预训练和微调任务。
- 分布式推理: 以高吞吐量和低延迟部署模型到生产环境中,动态管理工作负载突发,跨异构集群。
这些功能共同使 Ray 成为“粘合剂”,将模型创建、优化和服务绑定在一起,有效地形成现代 AI 基础设施的 分布式计算引擎 层。
这对开发人员和企业意味着什么
在今天的 AI 驱动经济中,组织面临着巨大的挑战,包括扩展、供应商锁定和计算效率。专有系统通常会碎片化工作流程,减缓创新。随着 Ray 加入 PyTorch 基金会,开发人员获得了一个完全开源、互操作的计算栈,消除了许多这些痛点。
正如 Matt White,Linux 基金会 AI 事业部总经理所解释的,这次合作 “团结了构建下一代 AI 系统所需的关键组件。” 这一统一允许团队开发先进的 AI 系统——从大型语言模型到多模态应用——而无需依赖封闭的专有基础设施。相反,开发人员可以使用一个可扩展、模块化和社区驱动的生态系统来训练和部署 AI 模型。
对开源 AI 的更广泛影响
PyTorch、vLLM 和 Ray 之间的合作指向了开源计算互操作性的新时代。有 Linux 基金会提供中立的治理,AI 行业获得了开发共享基础设施的可持续模型——类似于 Kubernetes 标准化云编排。
行业领袖也回应了这一观点。Cloud Native Computing Foundation 的 Chris Aniszczyk 指出,”Ray 和 Kubernetes 是自然互补的,” 结合编排和分布式计算的优势,驱动下一代 AI 系统。Uber 的工程总监 Zhitao Li 补充说,Ray 已经是他们的 AI 平台的 “核心部分”,用于大规模训练和数据处理。而 Meta 的 Joe Spisak,PyTorch 基金会董事会成员,称 Ray 的加入是一个 “开源 AI 的重要里程碑”, 强调了它如何创建一个统一、社区驱动的计算栈。
展望未来
Anyscale 的联合创始人 Robert Nishihara 简洁地总结了这一里程碑:
“我们的目标是让分布式计算像编写 Python 代码一样简单。加入 PyTorch 基金会确保 Ray 将继续成为开发人员的开源、社区驱动的骨干。”
开发人员和贡献者可以通过 Ray 的 GitHub 仓库或参加 Ray Summit 2025 在旧金山的会议进一步了解这一新开源基金会对 AI 可扩展性和可访问性的未来意味着什么。
本质上,Ray 的加入完成了开源 AI 生态系统中缺失的层——将 建模、推理和分布式执行 统一在一个基金会下。这是一个至关重要的步骤,朝着一个 AI 基础设施不仅更强大,而且更开源、更高效、更适合开发人员的未来迈进。
