人工智能

GPU墙即将崩溃：后Transformer架构的无声革命

发布于 2025年11月21日

更新于 2026年5月17日

作者

Dr. Tehseen Zia

过去五年里，人工智能行业基本上与一个词汇密不可分：Transformer。自2017年发布的开创性论文《Attention Is All You Need》以来，这种架构已经主导了整个领域。从GPT到Claude，几乎每个引人注目的模型都依赖于相同的自注意力机制。我们一直认为，改进人工智能的途径就是增加规模。这意味着训练更大的Transformer模型，使用更多的数据，并在更大的GPU集群上运行。

虽然这种信念推动了许多突破，但现在它已经达到极限。我们正在面临“GPU墙”，这不仅仅是一个计算能力的问题，也是内存带宽和经济可持续性的问题。虽然世界关注着 trillion 参数模型的竞争，一场激进的变革正在研究实验室中发生。新的“后Transformer架构”正在出现，以打破当前范式的局限性。这一转变承诺使人工智能更加高效、可及和能够推理无限的上下文。

硅谷天花板：为什么Transformer正在遇到瓶颈

为了理解为什么我们需要这种转变，我们首先需要了解当前体制的瓶颈。Transformer非常强大，但它们在某些方面也非常低效。它们的核心能力在于“注意力机制”，它允许模型查看序列中的每个令牌并计算其与每个其他令牌的关系。这使它们能够非常好地理解上下文。

然而，这种能力带来了一个致命的缺陷，即二次方增长。如果你将文档的长度加倍，你希望人工智能阅读的计算工作量不仅仅是加倍，而是四倍。随着我们努力开发“无限上下文”模型，这些模型可以阅读整个图书馆或代码库，计算需求变得非常高。

但更紧迫的问题是内存，特别是“KV Cache”（键值缓存）。为了流畅地生成文本，Transformer必须在GPU的高速内存（VRAM）中保持对其刚刚说过的所有内容的运行历史。随着对话变得更长，这个缓存变得非常庞大，消耗了大量的内存，只是为了记住三段话之前发生了什么。

这就形成了“GPU墙”。我们不仅仅是缺乏芯片，我们还缺乏内存带宽来供给它们。我们已经建造了越来越大的引擎，但它们变得难以维持。很长一段时间以来，行业的解决方案就是购买更多的NVIDIA H100。但这种蛮力方法已经到了回报递减的点上。我们不需要一个耗费能量的引擎，而是一个新的架构。

无声革命

虽然主流研究专注于LLM，但一群研究人员正在重新审视一个旧的想法：循环神经网络（RNN）。在Transformer之前，RNN是语言处理的标准。它们顺序处理文本，逐字更新内部的“状态”。它们非常高效，因为它们不需要查看整个历史，只需要在内存中保留其“精髓”。

RNN失败是因为它们无法处理长距离依赖；它们会“忘记”句子的开头，当它们到达句子的结尾时。它们也很难训练，因为你不能并行化它们。这意味着你必须在处理单词B之前处理单词A。Transformer通过同时处理所有内容（并行化）和在内存中保留所有内容（注意力）来解决这个问题。

现在，我们正在见证“状态空间模型”（SSM）的崛起，这些模型结合了两者的优点。它们提供了Transformer的训练速度（可并行化）和RNN的推理效率（线性缩放）。

这一新浪潮中的一种著名架构是Mamba。Mamba于2023年末发布，并在2024年得到改进，它从根本上改变了模型处理信息的方式。与Transformer不同，Transformer在其内存缓冲区中保留每个单词的原始副本，Mamba使用“选择性状态空间”。

我们可以通过将Transformer想象成一个学者，他在一个巨大的桌子上打开了他读过的每一本书，并不断扫描以找到联系来理解Transformer和Mamba之间的区别。Mamba则像一个学者，他读过一本书，并将关键见解压缩成一个高效的笔记本。当Mamba生成下一个单词时，它不需要查看原始文本；它查看的是其压缩状态。

这种区别改变了人工智能部署的经济学。使用Mamba和类似的架构，如RWKV（接收权重键值），生成文本的成本不会随着序列长度的增加而爆炸。你可以理论上将这些模型输入一百万个上下文单词，生成下一个令牌的计算成本仍然与输入十个单词时相同。

递归的回归

Mamba背后的技术突破是“选择性”。之前尝试现代化RNN的尝试失败了，因为它们太僵化了。它们以相同的方式压缩信息，无论它是重要的还是噪音。Mamba引入了一种机制，允许模型动态地决定什么应该记住，什么应该忘记，当它处理数据时。

如果模型接收到重要信息，例如代码块中的变量定义，它会“打开大门”并将其强烈地写入其状态。如果它面临填充单词或不相关的噪音，它会关闭大门，保持其有限的内存容量以保留重要信息。

这种选择性有效地解决了困扰旧RNN的“忘记”问题。在许多测试中，基于Mamba的模型与同样大小的Transformer相比，匹配了性能，但推理速度快了五倍。更重要的是，它们的内存占用要小得多。这为高性能LLM在以前认为无法处理它们的设备上运行打开了大门，例如笔记本电脑、边缘计算网络，甚至智能手机，而无需将数据发送到云端。

我们还看到Hyena的崛起，这是一种使用长卷积来处理数据的亚二次架构。像Mamba一样，Hyena旨在消除Transformer的重“注意力”层，并用对硬件来说更便宜的数学运算来替换它们。这些模型已经开始在主要排行榜上挑战Transformer的现状。

混合模型的崛起

然而，这场革命可能不是完全用新的架构取代Transformer，而是Transformer演变成混合形式。我们已经看到像Jamba（来自AI21 Labs）这样的模型的出现，它将Transformer层与Mamba层相结合。

这种混合方法为解决Transformer的局限性提供了一个实用途径。Transformer在某些任务中仍然非常强大，尤其是在从上下文中复制精确细节时。通过混合Mamba层（处理大部分数据处理和长期内存）和一些Transformer注意力层（处理尖锐的即时推理），我们得到一个模型，它结合了两者的优点。

混合模型创建了一个巨大的上下文窗口，这实际上是可用的。目前，许多“长上下文”Transformer声称可以处理100,000个令牌，但随着上下文填满时，它们的性能会迅速下降。这被称为“迷失在中间”现象。混合架构在长距离上保持其连贯性得更好，因为SSM层专门设计用于压缩和随时间传递状态。

这些发展将行业的焦点从“训练计算”（我需要建造多大的集群来构建模型？）转移到“推理经济学”（我如何以最低的成本为十亿用户提供服务？）。如果混合模型可以以Transformer的10%的成本为用户提供服务，人工智能应用的商业案例就会在一夜之间改变。

人工智能部署的未来

这种后Transformer革命的影响不仅仅局限于数据中心。GPU墙一直作为一个门槛，确保只有最大的科技巨头拥有数十亿美元的硬件才能构建和运行最先进的模型。像Mamba和RWKV这样的高效架构使这种力量民主化。如果你可以在消费级别的显卡上运行GPT-4级别的模型，因为你不再需要数十亿字节的VRAM来缓存键值对，你就可以在不将数据包发送到云端的情况下在你的计算机上运行私人AI代理。

此外，这种效率是解锁“代理AI”系统的关键，这些系统可以在后台运行数小时或数天来完成复杂任务。当前的Transformer太昂贵和太慢，无法在长时间内连续运行。高效、线性时间架构可以连续“思考”和处理循环，而不会使用户破产或使硬件过热。

结论

Transformer主导了人工智能的头条新闻，但在幕后，一场安静的革命正在发生。GPU墙正在推动研究人员重新思考模型如何处理内存和计算。像Mamba和混合模型这样的后Transformer架构正在证明，效率，而不仅仅是规模，将定义下一个时代。这些创新使得巨大的上下文窗口变得实用，推理变得更便宜，先进的人工智能可以超越数据中心。人工智能的未来不在于更大的模型，而在于更聪明的模型，它们能够记住、推理和高效地扩展。