人工智能
为什么 AI 推理,而不是训练,是下一个伟大的工程挑战

在过去的十年中,人工智能的焦点一直集中在训练上。突破性进展主要来自大规模计算集群、万亿参数模型和投入到教导系统“思考”的数十亿美元。我们将人工智能开发视为一个建筑项目:建设智能的摩天大楼。但现在,这座摩天大楼已经建成,真正的挑战是如何让数百万需要在其中生活和运作的人能够同时使用它。这将人工智能研究人员和工程师的焦点从训练(创建智能的行为)转移到推理(使用智能的行为)。虽然训练是一次性的大规模资本支出(CapEx),但推理是一个持续的运营支出(OpEx),将无限期地持续下去。当企业部署为数百万用户提供服务的代理时,他们发现了一个残酷的现实:推理不仅仅是“反向训练”。它是一个根本不同的,可能更难的工程挑战。
为什么推理成本比以往任何时候都重要
为了理解工程挑战,必须首先了解潜在的经济原则。在训练阶段,低效是可以忍受的。如果训练运行需要四周而不是三周,那是一个烦恼。在推理中,低效可能对业务来说是灾难性的。例如,训练一个前沿模型可能需要100万美元。但是,如果部署该模型来回答每天1000万个查询,并且没有优化,成本可能在几个月内超过100万美元。这就是为什么我们正在见证市场转变,推理投资预计将超过训练投资。
对于工程师来说,这意味着目标的转变。我们不再优化吞吐量(我可以多快处理这个大型数据集?)。我们优化延迟(我可以多快返回一个单独的令牌?)和并发性(我可以在一个GPU上为多少用户提供服务?)。训练阶段中占主导地位的“蛮力”方法(简单地添加更多计算资源)在这里行不通。如果内存带宽是瓶颈,你不能通过向延迟问题中添加更多H100来解决它。
内存墙:真正的瓶颈
关于大型语言模型(LLM)推理的一个鲜为人知的真相是,它很少受到计算能力的限制;它受到内存的限制。在训练期间,我们以大批量处理数据,充分利用GPU的计算单元。在推理中,特别是在实时应用程序(如聊天机器人或代理)中,请求是顺序到达的。每个生成的令牌都需要模型从高带宽内存(HBM)加载数十亿个参数到计算核心。这就是“内存墙”。这就像拥有一个法拉利引擎(GPU核心)却被困在交通堵塞中(内存带宽有限)。
这个挑战正在推动工程团队重新思考系统架构,直到硅级别。这就是为什么我们看到线性处理单元(LPUs)如Groq的崛起,以及专用神经处理单元(NPUs)如Unite.AI的出现。这些芯片旨在通过使用大量片上SRAM来绕过HBM瓶颈,将内存访问视为连续的数据流,而不是简单的获取操作。对于软件工程师来说,这标志着“默认使用CUDA”时代的结束。我们现在必须编写能够理解数据如何通过线路移动的硬件感知代码。
人工智能效率的新前沿
由于我们不能总是改变硬件,未来的工程前沿在于软件优化。这是目前一些最具创新性的突破发生的地方。我们正在见证重新定义计算机如何实现和执行神经网络的技术的复兴。
- 连续批处理: 传统批处理等待“公共汽车”填满后才出发,这会引入延迟。连续批处理(由vLLM等框架开创)像地铁系统一样运行,允许新请求在每次迭代时加入或退出GPU处理列车。它最大限度地提高了吞吐量而不牺牲延迟,解决了一个需要深入OS级别专业知识的复杂调度问题。
- 推测解码: 该技术使用一个小型、快速、廉价的模型来草拟响应,同时一个更大、更慢、更强大的模型在并行中验证它。它依赖于验证文本比生成文本需要更少计算资源的事实。
- 键值缓存管理: 在长时间对话中,“历史记录”(键值缓存)会迅速增长,占用大量GPU内存。工程师现在正在实施“分页注意力”技术,受操作系统中的虚拟内存分页技术启发。该技术将内存分成碎片并非连续地管理它们。
代理复杂性
如果标准推理很难,代理人工智能使其变得指数级更难。标准聊天机器人是无状态的:用户询问,人工智能回答,过程结束。人工智能代理则有一个循环。它计划、执行工具、观察结果并迭代。从工程角度来说,这是一个噩梦。这种架构转变引入了几个基本挑战:
- 状态管理: 推理引擎必须在多个步骤中维护代理的“状态”,通常需要几分钟。
- 无限循环: 与可预测的前向传递不同,代理可能会陷入推理循环中。为概率代码编写强大的“看门狗”和“断路器”是一个全新的领域。
- 可变计算: 一个用户查询可能会触发一个推理调用,而另一个可能会触发50个。管理负载和自动扩展基础设施对于每个请求都具有极端的方差,需要一个全新的编排逻辑类别。
我们基本上正在从“服务模型”转向“编排认知架构”。
将人工智能带到日常设备
最后,能量和网络延迟的限制最终会将推理推向边缘。我们不能期望每个智能灯泡、自主车辆或工厂机器人都将其请求路由到数据中心。这里的工程挑战是压缩。如何将一个从整个互联网中学习的模型压缩到一个小于指甲的小芯片上,在电池上运行?
像量化(将精度从16位降低到4位甚至1位)和模型蒸馏(教导一个小型学生模型模仿一个大型教师模型)这样的技术正在成为标准实践。但真正的挑战是将这些模型部署到一个由数十亿设备组成的分散生态系统中,包括Android、iOS、嵌入式Linux、自定义传感器,每个设备都有其自身的硬件限制。这是移动开发的“碎片化噩梦”,乘以神经网络的复杂性。
结论
我们正在进入生成人工智能的“第2天”时代。第1天是关于展示人工智能可以写诗。第2天是关于工程,如何使这种能力更加可靠、经济和普遍。未来十年的定义将由那些不一定是发明新模型架构的工程师来完成。他们是可以想出如何在不熔化电网或使公司破产的情况下每秒提供10亿令牌的系统工程师、内核黑客和基础架构架构师。人工智能推理不再仅仅是一个运行时细节。它是产品。而优化它是下一个伟大的工程挑战。












