思想领袖
AI加速的秘密不是更多的GPU,而是更智能的网络

AI正在重新定义各个行业的可能性,包括医疗保健、金融、制造和零售。但是,随着其潜力的增长,它也带来了巨大的基础设施需求。
全球各地的组织正在以前所未有的规模投资GPU,以加速AI训练和推理。到2028年,Gartner 预测 生成性AI IT支出将超过1万亿美元。Hyperion Research 预测 到那时,整个HPC市场支出将超过1000亿美元。然而,尽管投资于最先进的加速器,许多CIO仍然看到GPU处于空闲状态,利用率徘徊在35%或以下。这不仅导致性能下降,还浪费了能量和成本。
虽然许多AI项目停滞不前,但这并不是因为他们缺乏GPU或计算能力,而是因为网络无法跟上,这需要一种新的方法来设计大规模AI。
网络瓶颈的隐藏成本
当网络无法快速提供数据来保持GPU一致性繁忙时,组织会经历几个关键影响:
- 由于数据传输瓶颈导致GPU和CPU利用率低下:GPU设计用于大规模并行计算,但它们只能以数据传输的速度处理数据。如果网络结构无法跟上,GPU会空闲等待数据,而不是进行计算。CPU也可能停滞,因为它们正在协调任务并通过管道移动数据,导致低利用率,尽管有昂贵的硬件可用。
- 由于网络效率低下导致推理性能不一致:网络效率低下会产生不均匀的数据流,导致GPU在全速和空闲状态之间波动。这会产生不可预测的推理性能,可能会在生产中瘫痪AI应用程序。
- 由于网络瓶颈导致训练周期延长,延迟上市时间:训练AI模型需要在服务器、GPU和存储之间移动大量数据。网络瓶颈会限制这个过程,因此GPU花费的时间更少用于训练,更多用于等待。这直接减慢了产品开发和部署时间表。
- 由于网络效率低下导致功耗和运营成本增加:即使在空闲状态下,GPU和周围的基础设施也会消耗大量功耗。如果由于网络效率低下导致GPU利用率低,组织将为高功耗支付费用,而没有获得相应的性能。运营成本增加,因为设施必须支持峰值功耗和冷却负载,即使计算吞吐量被人为地限制。
企业可以继续投资更多的GPU,但如果没有合适的网络增强,他们只会加剧这些瓶颈和低效率。
网络作为加速器:一个范式转变
解决方案需要完全重新思考网络架构。引入一种利用网络作为加速器的模型,颠覆了传统的HPC和AI性能思维方式,解锁了新的功能。
与其专注于添加更多计算能力(如GPU和CPU),“网络作为加速器”的方法将互连结构视为性能倍增器。因此,网络可以更好地支持高密度计算,并通过消除瓶颈、扩展以满足计算需求以及合理调整硬件投资来加速投资回报率。通过使计算能力更大而不会减慢速度,组织可以在更小的空间内运行更大的工作负载,获得更快的结果,并避免在额外硬件上过度支出。
“网络作为加速器”模型的工作原理
那么,这个模型是如何工作的,以便组织可以将其网络从被动的数据移动者转变为计算的主动使能器并开始实现其益处?它提供了四个关键功能,传统网络缺乏这些功能:
- 硬件级保证交付:传统网络会给CPU和GPU带来包跟踪、重传和重新排序的开销。这种开销会消耗可以用于训练或推理的计算周期。具有硬件级保证交付的网络结构可以将这些任务从计算节点中移除,导致CPU和GPU开销降低,性能可预测且一致,扩展性简化了编程和集群编排。
- 智能动态路由:传统路由依赖于固定或次优路径,这可能会导致网络的某些部分未被充分利用或在大量数据同时流动时创建瓶颈。智能路由可以动态利用所有可用的路径来优化流量。它可以实现更高的吞吐量,通过多个活跃路径平衡流量,降低延迟,通过最佳路径选择,提高恢复能力,因为网络流量会自动绕过链路或节点故障。这减少了空闲时间,并让GPU始终保持忙碌状态。
- 链路级自动重传:当包丢失或损坏时,标准网络依赖于计算层来检测和重传它们,这会引入显著的延迟并中断计算流。具有内置链路级自动重传功能的结构可以在网络内部处理重传。它允许近乎透明的可靠性,因为包丢失对计算节点来说是不可见的,同时减少了延迟影响,因为重传发生在链路级而不是整个网络栈中。它还消除了对复杂应用程序级错误处理的需求。自动重传功能确保了分布式计算的无中断、高效运行,这对于跨数千个GPU进行扩展至关重要。
- 网络内计算:虽然传统的网络结构主要用于移动数据,但网络内计算使网络能够成为协处理器,在结构内直接执行某些操作。NVIDIA SHARP是一个很好的例子 – 它可以在网络交换机本身上执行归约。它可以加速分布式操作,降低延迟,因为数据在网络中传输时会被聚合,并提高效率,因为计算节点被解放 khỏi执行聚合任务,从而为训练和模拟留出更多的计算周期。
总的来说,这些功能使“网络主导计算”成为扩展下一代AI和HPC环境的基础。网络为中心的方法提供了有形的回报,包括更高的GPU利用率,消除了数据饥饿,训练周期更快,推理性能更稳定,资源利用率更高,总拥有成本更低。
发现真正的网络力量
大规模AI不仅仅是一个计算问题 – 它是一个系统级工程挑战,网络处于其中心。将网络视为加速器将其转变为计算的倍增器,使HPC和AI数据中心能够在不牺牲性能的情况下扩展密度。它可以更快地提供可衡量的投资回报率,通过在投资更多硅材料之前从现有基础设施中提取最大价值。
通过消除瓶颈,提高利用率,提供可预测的性能,智能网络可以实现更高效的AI团队,在GPU基础设施上获得更好的投资回报率,并实现更快的洞察力、创新和市场领导力。它使组织能够发现其网络的真正潜力,并以新的方式利用AI的力量。












