思想领袖
驯服野兽:集成电压调节器如何解决人工智能的电力危机

人工智能正在迅速发展。从训练大规模语言模型到在云端进行实时推理,人工智能的计算需求正在飞速增长。这一迅速增长的需求已经创造了一个次要危机,即电力危机。数据中心,这些现代计算的圣殿,正在消耗大量的电力,而人工智能工作负载正是主要驱动因素。根据国际能源机构(IEA)的数据,数据中心在2022年消耗了大约2%的全球电力,这一数字预计将会大幅增加。
这个电力问题不仅仅是关于巨大的电费和环境影响;它是一个根本性的工程瓶颈。那些驱动人工智能的处理器——GPU、TPU和定制的ASIC——正在面临热墙。你不能简单地将更多的晶体管塞到一个芯片上,如果你不能干净高效地将电力传递给它们,而不让芯片过热。这个挑战不仅仅在于产生电力,还在于如何有效地将其传递到最后几毫米的距离。但现在,一种叫做集成电压调节器(IVR)的微小技术正在从根本上改变高性能计算的未来。
电力传递的“最后一寸”问题
为了理解IVR的创新,我们必须首先了解传统的高性能芯片供电方法。现代处理器有数十亿个晶体管以每秒数十亿次的速度开关。这些操作需要一个精确、稳定和低电压的直流电源。然而,从墙上来的电力是高电压的交流电。从墙上的插座到硅片的旅程涉及一个复杂的转换和调节链,称为电源传递网络(PDN)。
通常,这个过程涉及多个阶段。电力在服务器主板上被转换和降压,最后的关键转换由称为电压调节器(VR)的组件处理。这些VR通常是体积庞大的离散组件——控制器、电源级和大型线圈——围绕着处理器插座摆放在主板上。
这种传统方法在人工智能时代有几个关键缺陷:
- 能量浪费: 电力必须从这些离芯片的VR传递到主板上,然后通过芯片的封装。每一毫米的路径都会引入电阻,导致显著的能量损失(I2R损失)。这种损失的能量以热量的形式散发出来,必须由更耗能的冷却系统来去除。
- 慢响应时间: 当处理器突然从空闲状态切换到满负载状态(人工智能工作负载中常见的瞬态负载)时,它需要大量的瞬时电流。离芯片的VR可能反应太慢,导致暂时的电压下降或“下垂”。为了弥补,工程师必须设计整个系统以更高的基线电压运行,浪费更多的电力。
- 空间限制: 这些体积庞大的离芯片组件占据了主板上宝贵的空间,这些空间本可以用于更多的内存通道、更快的互连或其他性能增强功能。处理器周围的“海滩”是电子领域中最有价值的空间。
芯片内电源和薄膜磁性
最近在薄膜磁性技术方面的进展使得高性能电感可以使用半导体制造技术直接在芯片或其封装基板上制造。这些微观、高效率的电感使整个电压调节器可以放在离电路仅几微米的距离。
这种位置的变化带来了几个好处:
- 降低能量损失: 缩短电力传递路径从英寸到微米显著降低了传输过程中的能量损失,提高了整个系统的效率。
- 细粒度电源管理: 多个独立的超低电压电源域可以提供每个核心或功能块所需的精确电源,并在不需要时立即关闭。
- 近乎瞬间的响应: 芯片上的IVR可以在纳秒内响应瞬态负载,几乎消除了电压下降,允许在不牺牲性能的情况下使用更低、更高效的工作电压。
- 简化设计和更小的占地面积: 从主板上移除电压调节器可以释放板载空间,简化设计,并支持更密集、更高性能的架构。
重塑人工智能硬件的未来
IVR的优点直接解决了人工智能硬件设计师面临的最大挑战。对于开发下一代GPU和人工智能加速器的公司来说,集成电源管理不是“可有可无”的功能;它是一种必备技术。
先进的半导体封装技术,如芯片级和三维堆叠,被认为是传统摩尔定律缩放放缓后的发展方向。这些技术涉及将多个较小的专用芯片组装成一个强大的封装。正如行业领袖如台积电的CoWoS技术所解释的那样,这种方法需要复杂的电源传递策略。IVR,包括Ferric公司的产品,非常适合这种范式,提供了管理这些复杂、异构系统所需的细粒度、高效的电源。
挑战和结论
广泛采用IVR的道路并非一帆风顺。将新材料和工艺集成到保守且复杂的半导体制造生态系统中是一项艰巨的任务。
然而,解决方案的必要性是不可否认的。人工智能的当前电力消耗轨迹是不可持续的。仅仅使晶体管更小已经不够;整个系统,从软件到电源传递,需要进行根本性的重新架构。像Ferric这样的公司的工作是这一拼图的关键部分。通过在源头上驯服电力野兽,他们不仅创造了更高效的组件,还为下一代人工智能和高性能计算铺平了道路。
人工智能硬件创新之旅是一场克服瓶颈的旅程。几十年来,重点一直放在计算速度和晶体管密度上。今天,最紧迫的瓶颈是电力。解决这一挑战的公司将在未来几年内定义计算的格局。
您认为在电力传递优化后,人工智能硬件设计的下一个主要瓶颈是什么?能效方面的进步将如何改变大规模人工智能部署的经济效益?












