GPU之墙正在开裂:后Transformer架构中看不见的革命
过去五年,人工智能产业实际上已成为一个词的同义词:Transformer。自2017年开创性的论文”Attention Is All You Need“发布以来,这种架构已席卷整个领域。从GPT到Claude,几乎所有引人注目的模型都依赖于相同的底层机制——自注意力。我们很大程度上认为,通往更好AI的道路仅仅是规模问题。在实践中,这意味着用更多数据在更大的GPU集群上训练更大的Transformer。虽然这种信念推动了许多突破,但它现在正达到极限。我们正在撞上一堵”GPU之墙”,这不仅是原始计算能力的壁垒,更是内存带宽和经济可持续性的壁垒。当世界聚焦于万亿参数模型的竞赛时,研究实验室里正在发生一场根本性的转变。一股新的”后Transformer架构”浪潮正在涌现,旨在打破当前范式的局限。这一转变有望使AI更高效、更易获取,并具备在无限上下文上进行推理的能力。硅基天花板:为何Transformer正撞上南墙要理解为何需要转变,我们首先需要理解当前体制的瓶颈。Transformer极其强大,但在某些方面也显著低效。其能力的核心在于”注意力机制”,该机制允许模型查看序列中的每个标记,并计算其与其他每个标记的关系。这赋予了它们出色理解上下文的能力。然而,这种能力伴随着一个致命缺陷——二次方缩放。如果你想让AI阅读的文档长度翻倍,所需的计算工作量并非仅仅翻倍,而是变为四倍。随着我们追求能够阅读整个图书馆或代码库的”无限上下文”模型,计算需求变得极其高昂。但更直接的问题是内存,特别是”KV缓存“(键值缓存)。为了流畅地生成文本,Transformer必须在GPU的高速内存(VRAM)中持续保存它刚刚说过的所有内容的运行历史。随着对话变长,这个缓存会膨胀,消耗大量内存仅仅是为了记住三段之前的内容。这就形成了”GPU之墙”。我们不仅面临芯片短缺,更缺乏喂饱它们的内存带宽。我们制造的引擎越来越大,但它们正变得无法被驱动。长期以来,行业的解决方案仅仅是购买更多的NVIDIA H100。但这种蛮力正达到收益递减的临界点。我们需要的不是一个以二次方消耗燃料的引擎,而是一种新的架构。看不见的革命当主流研究聚焦于LLM时,一群研究人员一直在重新审视一个旧想法:循环神经网络。在Transformer之前,RNN是语言处理的标准。它们按顺序、逐字处理文本,在此过程中更新一个隐藏的内部”状态”。它们极其高效,因为它们不需要回看整个历史,只需在记忆中携带其”要点”。RNN之所以失败,是因为它们无法处理长距离依赖;它们会在到达句子末尾时”忘记”开头。它们训练速度也很慢,因为你无法将它们并行化。这意味着你必须先处理词A,才能处理词B。Transformer通过同时处理所有内容(并行化)并将所有内容保存在内存中(注意力)解决了这个问题。现在,我们正见证着结合两者优势的架构的崛起。这些架构被统称为状态空间模型。它们提供了Transformer的训练速度(可并行化)和RNN的推理效率(线性缩放)。这股新浪潮中一个突出的架构是Mamba。Mamba于2023年底发布,并在2024年不断完善,它是模型处理信息方式的根本性转变。与Transformer在其内存缓冲区中保留它见过的每个单词的原始副本不同,Mamba使用了一种”选择性状态空间”。我们可以通过一个比喻来理解Transformer和Mamba之间的区别:想象Transformer是一位学者,他将读过的每一本书都摊开在一张巨大的书桌上,不断地来回扫描以寻找联系。相比之下,Mamba则是一位学者,他读一遍书,并将关键见解压缩成一本极其高效的笔记。当Mamba生成下一个词时,它不需要这种区别改变了AI部署的经济学。对于Mamba和类似架构如RWKV(Receptance Weighted Key Value),生成文本的成本不会随着序列变长而爆炸式增长。理论上,你可以给这些模型输入一百万个词的上下文,而生成下一个标记的计算成本与你只输入十个词时保持不变。循环的回归Mamba背后的技术突破是“选择性”。先前现代化RNN的尝试之所以失败,是因为它们过于僵化。它们均等地压缩信息,无论其是重要的还是噪音。Mamba引入了一种机制,允许模型在流式处理数据时动态决定记住什么和忘记什么。如果模型获得一个重要信息,比如代码块中的变量定义,它会“打开门”,并将其强力写入其状态。如果它遇到填充词或不相关的噪音,它就会关上门,将其有限的内存容量留给重要内容。这种选择性有效地解决了困扰旧式RNN的“遗忘”问题。在许多测试中,基于Mamba的模型达到了同等规模Transformer的性能,但在推理过程中运行速度提高了五倍。更重要的是,它们的内存占用要小得多。这为高性能LLM在以前被认为无法运行它们的设备上运行打开了大门,例如笔记本电脑、边缘计算网络,甚至智能手机,而无需卸载到云端。我们也看到了Hyena的兴起,这是另一种使用长卷积处理数据的次二次方架构。与Mamba一样,Hyena旨在移除Transformer沉重的“注意力”层,并用硬件执行成本低得多的数学运算来替代。这些模型现在已经开始在主要排行榜上挑战Transformer的现有地位。混合模型的崛起然而,这场革命可能并非完全取代Transformer,而是演变成混合形式。我们已经看到了像Jamba(来自AI21 Labs)这样的模型的出现,它结合了Transformer层和Mamba层。这种混合方法提供了一种解决Transformer局限性的实用途径。Transformer在某些任务上仍然异常强大,尤其是在从上下文中复制精确细节方面。通过将Mamba层(负责大部分数据处理和长期记忆)与少数Transformer注意力层(负责敏锐的即时推理)混合,我们得到了一个集两者之长的模型。混合模型创建了一个真正可用的大规模上下文窗口。目前,许多“长上下文”Transformer声称能处理10万个标记,但随着上下文填满,其性能会迅速下降。这种现象被称为“迷失在中间”。混合架构在长距离上能更好地保持其连贯性,因为SSM层是专门为随时间压缩和传递状态而设计的。这些发展将行业焦点从“训练算力”(我需要多大的集群来构建模型?)转向“推理经济学”(我能以多低的成本向十亿用户提供这个模型?)。如果一个混合模型服务用户的成本只有Transformer的10%,那么AI应用的商业案例将在一夜之间改变。AI部署的未来这场后Transformer革命的影响不仅限于数据中心。GPU墙历来充当着守门员的角色,确保只有拥有数十亿美元硬件的最大的科技巨头才能构建和运行最先进的模型。像Mamba和RWKV这样的高效架构使这种力量民主化。如果你可以在消费级显卡上运行GPT-4级别的模型,因为你不再需要数TB的VRAM来存储键值缓存,那么AI的集中控制就开始松动。我们可能会看到本地、私有的AI代理的复兴,它们完全在你的计算机上运行,处理你的私人数据,而无需向云端发送任何数据包。此外,这种效率是解锁“代理式AI”系统的关键,这些系统可以在后台运行数小时或数天以完成复杂任务。当前的Transformer过于昂贵和缓慢,无法长时间连续循环运行。一个高效的线性时间架构可以持续“思考”和处理循环,而不会让用户破产或使硬件过热。结论Transformer主导了AI的头条新闻,但在幕后,一场静悄悄的革命正在进行。GPU墙正在推动研究人员重新思考模型如何处理内存和计算。后Transformer架构如Mamba和混合模型这些创新使得海量上下文窗口变得实用,推理成本更低,先进人工智能得以超越数据中心而普及。人工智能的未来不在于更大的模型,而在于更智能的模型——那些能够高效记忆、推理和扩展的模型。