为何AI推理,而非训练,是下一个伟大的工程挑战
过去十年, 人工智能的聚光灯一直被训练所垄断。突破主要来自大规模计算集群、万亿参数模型以及投入数十亿美元用于教导系统 “思考”。我们很大程度上将Искусственный интеллект использует методы искусственного интеллекта:成,真正的挑战在于如何让数百万需要同时在其中生活和运作的人能够顺畅使用。这将AI研究和工程的重点从训练(创造智能的行为)转向了推理(使用智能的行为)。训练是一次性的大规模资本支出(CapEx), 而推理则持续不断的运营支出 (OpEx), 会无限期持续下去。随着企业部署全天候为数百万用户服务的智能体,他们发现了一个严峻的现实:推理不仅仅是“反向训练”。它是一个根本不同,或许更难的工程挑战。为何推理成本比以往任何时候都更重低效是可以容忍的。如果一次训练运行需要四周而不是三周,这只是个烦恼。然而在推理阶段,低效对企业来说可能是灾难性的。例如,训练一个前沿模型可能花费1亿美元。但如果部署该模型来每天回答1000万个查询,若未优化,其成本可能在几个月内超过训练成本。这就是为什么我们正见证市场转变,推理投资预计将超过训练投资。对工程师而言,这改变了目标。我们不再为吞吐量优化(我能多快处理这个庞大的数据集?)。我们正在为延迟(我能多快返回一个词元?)和并发性(我能在单个GPU上服务多少用户?)进行优化。在训练阶段占主导地位的“蛮力”方法——简单地增加更多计算资源——在这里行不通。如果瓶颈是内存带宽, 你无法通过增加更多H100来解带宽问题。内存墙:真正的瓶颈关于大语言模型推理的一个鲜为人知的真相是,它很少受计算限制;而是受内存限制。在训练期间,我们以大批量处理数据, 使的计算单元保持完全利用.生成的每个词元都需要模型将其数十亿参数从高带宽内存加载到计算核心中。这就是“内存墙”。这就像让法拉利引擎(GPU核心)堵在拥堵的车流中(有限内存带宽).就是为什么我们看到像Groq的线性处理单元以及专门的神经处理单元的兴起。些-芯片旨在通过使用大量片上片上来绕过HBM瓶颈, 将内存访问视为连续的数据流而非简单的取操作。对于软件工程师而言,这标志着“默认使用C UDA» может быть использовано только в одном месте.何在线路中移动。AI效率的新前沿因为我们不能总是改变硬件,即将到来的工程前沿在于软件优化。这正是目前一些最具创新性的突破正在发生的领域。我们正见证一场技术复兴,这些技术正在重新定义计算机如何实现和执行神经网络。连续批处理: 传统批处理等待“巴士”坐满才出发,这会引入延迟。连续批处理(由vLLM等框架首创)则像地铁系统,允许新请求在每次迭代Использование графического процессора и графического процессора.吐量, 解决了一个需要深厚操作系统级专业知识的复杂调度问题。 Источник:该技术使用一个快速、廉价的小模型来草拟响应, 同时由一个更大、更慢、能力更强的大模型并行验证它。它基于一个事实。成文本。 КВ:在长对话中,“历史记录”(键值缓存)会迅速增长,消耗大量GPU内存。工程师们现在正在实现“分页注意力”,这是一种受操作系统虚拟内存分页启发的技术。该技术将内存分解成片段并进行非连续管理。 智能体的复杂性如果标准推理很难,那么智能体AI则使其难度呈指数级增加。标准聊天机器人是无状态的:用户提问,AI回答,过程结束。然而,AI智能体有一个循环。它计划、执行工具、观察结果并迭代。从工程角度来看, 这是一场噩梦。这种架构转变引入了几个根本性挑战: 状态管理:推理引擎必须在多个步骤(通常跨越数分钟)中维护智能体思维过程的“状态”。无限循环: 与可预测的前向传播不同,智能体可能陷入推理循环。为概率性代码设计健壮的“看门狗” и “断路器”完全是一个新领域。可变计算: 一个用户查询可能触发一次推理调用,而另一个可能触发五十次。当每个请求的计算量差异如此巨大时,管理负载和自动扩展基础设施需要一种全新的编排逻辑。 我们基本上正在从“服务模型”转向“编排认知架构”。将AI带入日常设备最后,能源和网络延迟的限制将不可避免地迫使推理走向边缘。我们不能指望每个智能灯泡、自动驾驶汽车或工厂机器人都将其请求路由通过数据中心。这里的工程挑战是压缩。如何将一个从整个互联网学习到的模型,塞进比指甲还小、靠电池运行的芯片上?诸如量化(将精度从16位降低到4位甚至1位)和模型蒸馏(教导一个小型学生模型模仿大型教师模型)等技术正成为标准实践。但真正的挑战是将这些模型部署到由数十亿设备组成的碎片化生态系统中, 如Andr oid、iOS、嵌入式Linux、定制传感器等,每种设备都有其自身的硬件限制。这是移动开发的“碎片化噩梦”,,再乘以神经网络的复杂性。结论我们正在进入生成式AI的“第二天”时代。第一天是证明AI能写诗。第二天是关于工程,使这种能力更可靠、更经济、更普及。将定义未来十年的工程师,未必是那些发明新模型架构的人。他们是那些能够弄清楚如何每秒服务十亿词元而不烧毁电网或让公司破产的系统工程师、内核黑客和基础设施架构师。AI推理不再仅仅是一个运行时细节。它就是产品。而优化它,是下一个伟大的工程挑战。