人工智能

人工智能军备竞赛加剧:AMD与OpenAI的战略合作

mm
The AI Arms Race Intensifies: AMD’s Strategic Partnership with OpenAI

2025年10月6日,AMD和OpenAI宣布了一项现代人工智能(AI)领域最大的计算合作。根据此协议,OpenAI计划在未来几代产品中使用高达六千瓦的AMD Instinct GPU。第一阶段将于2026年开始,部署AMD的Instinct MI450芯片。AMD还向OpenAI发行了约1.6亿股的认购权证,如果全部行使,OpenAI将获得近10%的股份。

市场立即做出反应,AMD的股票在几小时内上涨了20%以上。这一反应表明投资者对该公告表示了强烈的信心。该协议也具有更广泛的意义。它将AMD纳入OpenAI的长期计算计划,并增加了对Nvidia的压力,Nvidia多年来一直领导着数据中心AI市场。

由于此次合作被认为是人工智能计算竞赛中的重要时刻。它表明未来高级模型的开发将依赖于更广泛的芯片供应商群体。它还表明该领域的竞争正在加剧,这可能会定义全球人工智能发展的下一个阶段。

OpenAI与AMD合作的战略原因

现代人工智能模型需要巨大且持续的计算资源,高性能GPU的全球需求增长速度快于供应速度。Nvidia长期以来一直占据着人工智能加速器市场的主导地位,造成了供应瓶颈和大型人工智能客户的价格波动。通过与AMD合作,OpenAI减少了对单一供应商的依赖,并确保了大规模计算能力的可预测性和可靠性,这对于训练和部署高级模型至关重要。

此次合作还提供了超出简单供应的重要战略优势。与AMD合作加强了OpenAI与所有硬件供应商的谈判地位,并赋予了公司对模型发布的时机和执行的更大控制权。此外,该协议补充了OpenAI与Nvidia和其他定制芯片合作伙伴的现有关系,形成了一种多供应商战略,旨在实现弹性和可扩展性。另外,它使得硬件和软件的协同优化成为可能,确保计算基础设施能够与OpenAI日益复杂的AI模型同步演进。

技术概述:MI300X到MI450和数据中心部署

AMD的Instinct GPU家族目前包括MI300X,它被设计为具有高内存容量和带宽,以处理大型AI模型。这些GPU已经在早期云和超大规模环境中部署,例如Microsoft Azure,给AMD带来了在大规模运营方面的宝贵经验。在这一基础上,预计于2026年初部署的MI450系列将提供更高的吞吐量和更好的能效。根据行业报告,MI450将采用先进的工艺节点,实现更好的每瓦性能,使其适合非常大的AI工作负载。

然而,在超大规模数据中心部署GPU需要的不仅仅是安装硬件。机架系统必须将MI450 GPU与优化的电源供应和冷却基础设施集成。工程师需要监测每张卡的内存带宽、GPU互连速度和整体机架密度等关键指标,以确保可靠的运行。此外,硬件性能严重依赖于软件。AMD的ROCm平台已经成熟,以支持大型AI模型,并且预计将与OpenAI合作,重点是使硬件和软件保持一致。这一协调将有助于在OpenAI的多千瓦部署中最大化吞吐量和效率。

市场反应、财务细节和战略考虑

AMD-OpenAI合作的公告在金融市场引起了显著的反应。AMD的股票在消息发布当天大幅上涨,反映了投资者对该公司在AI基础设施中的扩大角色的信心。分析师迅速修订了他们的预测,指出该协议可能带来的巨大收入增长潜力。虽然AMD强调了扩大数据中心AI市场的机会,但独立分析师警告说,财务结果将在很大程度上取决于GPU交付的速度和使用该技术的客户的组成。

该协议的一个重要财务组成部分是向OpenAI发行的认购权证,涵盖了大约1.6亿AMD股份。这些认购权证的行权条件与GPU部署的里程碑相绑定。这种安排将AMD的执行与OpenAI的潜在财务收益联系起来,创造了双方共同的利益,以确保计算基础设施的成功和及时部署。因此,双方都有动力密切协调,以确保部署目标得到满足,运营目标得到实现。

每方的战略动机进一步说明了合作的深度。对于OpenAI来说,该协议减少了对单一供应商的依赖,提供了大型AI工作负载的可预测定价,并确保了对下一代计算资源的获取。这一方法有助于模型训练和推理的连续性,同时支持长期的研究和开发。此外,与AMD的密切合作使得硬件和软件的协同优化成为可能,这对于在多千瓦部署中实现最大效率和性能至关重要。

AMD反过来从获得一家大型超大规模客户中受益。该合作验证了其AI产品战略,并加强了其在竞争激烈的数据中心市场中的地位。超越收入之外,该合作向其他云提供商和企业客户发出信号,表明其在AI基础设施中的可信度。与简单的设备销售不同,该协议涉及工程对齐、联合测试和共同解决问题,强调了长期战略关系而非纯粹的交易性安排。

对全球人工智能军备竞赛的影响

AMD和OpenAI的合作表明了硬件和软件在人工智能竞争中的重要性。虽然高性能GPU至关重要,但软件对于充分利用硬件同样重要。AMD的ROCm平台现在支持主要框架,如PyTorch、JAX和Triton,并与包括Hugging Face和Azure在内的平台合作。该领域的进展有助于确保OpenAI的承诺,该合作为硬件和软件的紧密协作奠定了基础,包括编译器、内存管理和调度。这种协调确保了大规模AI模型在OpenAI计划的多千瓦部署中高效运行。

该协议还改变了公司对人工智能基础设施的态度。凭借如此大量的承诺,AMD被定位为超大规模计算资源的主要提供商。其他供应商可能需要考虑多供应商战略,因为更多组织寻求可靠、可扩展的解决方案。这将创造一个更加多样化和竞争激烈的环境,选择取决于工作负载和软件支持的具体要求,而不是单一的主导供应商。

对于更广泛的AI生态系统来说,有明显的好处。超大规模云提供商和研究实验室可以更好地获取强大的GPU,使得AI项目的规划和扩展更加可预测。企业客户可以期待更好的可用性和更好的性价比,因为竞争的加剧将推动创新,并鼓励在这些系统的管理和优化方面的创新。支持多供应商集群的软件和MLOps平台也可能会看到更多的需求,促进这些系统的管理和优化的创新。另一方面,较小的硬件供应商或那些没有强大软件支持的供应商可能难以获得大型合同,凸显了有效地将硬件与软件结合起来的重要性。

扩大人工智能计算的风险和挑战

虽然AMD-OpenAI合作代表了全球人工智能军备竞赛中的一个重要步骤,但它也带来了显著的风险和不确定性。交付六千瓦的先进计算是一个复杂的任务,需要双方的共同努力。AMD必须在先进工艺节点上扩大MI450 GPU的生产,保持高产量,并组装大量的机架级系统。同时,OpenAI面临着设计、构建和操作多千瓦数据中心的挑战,同时还需要在统一的基础设施中协调多个GPU世代和供应商。生产、集成或部署中的任何延迟都可能限制该合作的预期价值。软件也是一个关键因素。虽然ROCm已经成熟,但它必须继续随着快速变化的AI框架和模型而演进,同时保持性能和可靠性。

能源、监管和地缘政治因素增加了复杂性。多千瓦数据中心消耗了大量的电力,这可能会引起当地监管机构或社区的审查,他们担心环境影响。审批流程或电网限制可能会减慢某些地区新容量的推出。此外,先进芯片的供应取决于复杂的全球网络,出口管制或贸易政策的变化可能会影响特定硬件的部署地点和方式。

竞争也提出了战略挑战。对手公司可能会以激进的定价、为大客户提供定制解决方案或扩大软件支持来应对。虽然这些反应可能会使买家受益,降低成本或提供更好的功能,但也可能会给供应商的利润率带来压力。随着时间的推移,这样的动态可能会创造一个更加波动的市场,在那里,维持领导地位需要仔细的执行、战略规划和快速适应技术和监管发展。

结论

AMD-OpenAI合作代表了人工智能基础设施发展的一个重要步骤。通过承诺多千瓦GPU的部署,OpenAI确保了训练和部署日益复杂的模型所需的计算能力,而AMD则加强了其作为超大规模资源主要提供商的角色。该合作强调了硬件和软件之间的密切联系,ROCm和优化工作确保了大规模的高效运行。

同时,该协议也强调了必须谨慎管理的运营、监管和竞争挑战。随着人工智能生态系统的扩展,多供应商战略和芯片制造商与人工智能组织之间的协调开发可能会变得至关重要。该合作展示了如何通过大规模的合作来支持人工智能技术在未来几年中的增长、可靠性和创新。

阿萨德·阿巴斯博士(Dr. Assad Abbas)是巴基斯坦伊斯兰堡COMSATS大学的终身副教授,他在美国北达科他州立大学获得了博士学位。他的研究重点是包括云计算、雾计算、边缘计算、大数据分析和人工智能在内的先进技术。阿巴斯博士在著名的科学期刊和会议上发表了大量的论文,并做出了重要的贡献。他也是 MyFastingBuddy 的创始人。