思想领袖
驯服野兽:集成电压调节器如何解决人工智能的电力危机

人工智能正在消耗大量资源。从训练大规模语言模型到在云中实现实时推理,人工智能的计算需求正在飙升。这无止境的胃口已经创造了一个次要危机,威胁到进步:对电力的不可持续需求。数据中心,这些现代计算的大教堂,正在消耗世界上大量的电力,人工智能工作负载是主要驱动力。根据 国际能源机构(IEA)的数据,数据中心在2022年消耗了大约2%的全球电力,这个数字预计将会大幅增加。
这个电力问题不仅仅是关于巨大的电费和环境影响;它是一个基本的工程瓶颈。那些驱动人工智能的处理器——GPU、TPU和定制的ASIC——正在遇到一个热墙。你不能简单地将更多的晶体管塞到一个芯片上,如果你不能清洁高效地将电力交付给它们而不使芯片过热。挑战不仅在于产生电力,还在于在最后几毫米内有效地将其交付给硅。然而,一种名为 集成电压调节器(IVR) 的微小技术正在从根本上改变高性能计算的未来。
电力交付的“最后一寸”问题
要了解IVR的创新,首先需要了解传统的高性能芯片供电方法。现代处理器有数十亿个晶体管每秒开关数十亿次。这些操作需要一个精确、稳定和低压直流电源。然而,来自墙壁的电力是高压交流电。从墙壁插座到硅的旅程涉及一个称为电源交付网络(PDN)的复杂链条的转换和调节。
通常,这个过程涉及多个阶段。电力在服务器主板上被转换和降压,最后的关键转换由称为电压调节器(VR)的组件处理。这些VR通常是体积庞大的离散组件——控制器、电源级和大型线圈绕线电感——它们位于主板上,周围是处理器插座。
这种传统方法在人工智能时代有几个关键缺陷:
- 能量浪费: 电力必须从这些离芯片的VR传输到主板上,然后通过芯片的包装。这个路径的每一毫米都会引入电阻,导致显著的电力损失(I2R损失)。这种损失的电力会以热量的形式散发出来,然后必须通过更耗电的冷却系统来去除。
- 响应时间慢: 当处理器突然从空闲状态切换到满负载状态(人工智能工作负载中常见的瞬态负载)时,它需要大量的瞬时电流。离芯片的VR可能反应太慢,导致暂时的电压下降或“下垂”。为了弥补,工程师必须设计整个系统以更高的基线电压运行,浪费更多的电力。
- 空间限制: 这些体积庞大的离芯片组件占用了主板上宝贵的空间,这些空间可以用于更多的内存通道、更快的互联或其他性能增强功能。处理器周围的“海滩地产”是电子中最有价值的区域之一。
芯片级电源和薄膜磁性
最近在薄膜磁性技术方面的进展现在可以使用半导体制造技术直接在芯片或其包装基板上制造高性能电感。这些微观、高效率的电感使整个电压调节器可以仅距离它所供电的电路几微米。
这种位置的变化带来了几个优势:
- 降低电力损失: 将电力交付路径从英寸缩短到微米显著降低了传输过程中损失的能量,提高了整个系统的效率。
- 细粒度电源管理: 多个独立的超低压电源域可以提供每个核心或功能块需要的东西,需要时提供,需要时关闭。
- 近乎瞬间的响应: 包级IVR可以在纳秒内响应瞬态负载,基本上消除了电压下降,使得可以在不牺牲性能的情况下实现更低、更高效的工作电压。
- 简化设计和更小的占地面积: 从主板上移除电压调节器可以释放板载空间,简化设计,并支持更密集、更高性能的架构。
重塑人工智能硬件的未来
IVR的优势直接解决了人工智能硬件设计师面临的最大挑战。对于开发下一代GPU和人工智能加速器的公司来说,集成电源管理不仅是一种“很好的功能”,而是一种使能技术。
先进的半导体封装技术,如 芯片组 和 3D 堆叠,被认为是现在传统的摩尔定律缩放正在放缓的道路。这些技术涉及将多个较小的专用芯片组装成一个强大的包。正如行业领袖 TSMC及其CoWoS技术 所解释的,这种方法需要一个复杂的电源交付策略。IVR,包括Ferric制造的IVR,非常适合这种范式,提供了管理这些复杂、异构系统所需的细粒度、有效的电源。
挑战和结论
通往广泛采用之路并非没有障碍。将新材料和工艺集成到高度保守和复杂的半导体制造生态系统中是一项艰巨的任务。
然而,需要解决方案是不可否认的。人工智能的当前电力消耗轨迹是不可持续的。仅仅使晶体管变小已经不够;需要从软件到电源交付的整个系统进行整体重构。像Ferric这样的公司的工作代表了拼图的关键部分。通过在源头驯服电力野兽,他们不仅创造了一个更高效的组件,还为下一代人工智能和高性能计算铺平了道路。
这个硬件创新之旅是克服瓶颈的过程。几十年来,重点是计算速度和晶体管密度。今天,最紧迫的瓶颈是电力。解决这个挑战的公司将定义未来几年的计算格局。
你认为在电力交付优化后,人工智能硬件设计的下一个主要瓶颈是什么?能效的进步将如何改变大规模人工智能部署的经济效益?












