人工智能

xLSTM : 一个关于扩展长短期记忆的综合指南

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

在过去的二十多年里，Sepp Hochreiter 的开创性长短期记忆（LSTM）架构一直在许多深度学习突破和实际应用中发挥着重要作用。从生成自然语言到支持语音识别系统，LSTMs 一直是人工智能革命的驱动力。

然而，即使 LSTMs 的创造者也认识到它们的固有局限性，这些局限性阻止了它们发挥出全部潜力。例如，无法修改存储的信息、存储容量有限以及缺乏并行化，这些问题为变压器和其他模型超越 LSTMs 在更复杂的语言任务中提供了机会。

但是在最近的发展中，Hochreiter 和他的团队在 NXAI 引入了一种新的变体，称为扩展 LSTM（xLSTM），它解决了这些长期存在的问题。在最近的一篇研究论文中，xLSTM 建立在使 LSTMs 强大的基本思想之上，同时通过架构创新克服了它们的关键弱点。

xLSTM 的核心是两个新组件：指数门控和增强的存储结构。指数门控允许对信息流有更灵活的控制，使 xLSTMs 能够有效地修改决策，当遇到新的上下文时。同时，引入矩阵存储大大增加了与传统标量 LSTMs 相比的存储容量。

但增强并不止于此。通过利用大型语言模型中借用的技术，例如并行化和残差块的堆叠，xLSTMs 可以高效地扩展到数十亿个参数。这解锁了它们对非常长序列和上下文窗口的建模潜力，这对于复杂的语言理解至关重要。

Hochreiter 最新创作的影响是巨大的。想象一下虚拟助手，可以可靠地跟踪几个小时的对话。或者语言模型可以更强健地推广到新的领域，在广泛的数据上进行训练。应用领域遍及 LSTMs 产生影响的所有地方——聊天机器人、翻译、语音接口、程序分析等——但现在 xLSTM 的突破性能力得到了增强。

在这篇深入的技术指南中，我们将深入探讨 xLSTM 的架构细节，评估其新颖的组件，例如标量和矩阵 LSTMs、指数门控机制、存储结构等。您将从实验结果中获得见解，这些结果展示了 xLSTM 相对于最新的变压器和循环神经网络架构的显著性能改进。

理解起源：LSTM 的局限性

在我们深入探讨 xLSTM 的世界之前，了解传统 LSTM 架构所面临的局限性至关重要。这些局限性是 xLSTM 和其他替代方法发展的驱动力。

无法修改存储决策：LSTM 的主要局限性之一是它难以修改存储的值，当遇到更相似的向量时。这可能导致在需要动态更新存储信息的任务中表现不佳。
存储容量有限：LSTMs 将信息压缩到标量单元状态，这可能限制了它们有效存储和检索复杂数据模式的能力，特别是在处理罕见标记或长距离依赖时。
缺乏 并行化：LSTMs 中的内存混合机制，涉及时间步之间的隐藏-隐藏连接，强制执行顺序处理，阻碍计算的并行化，限制了可扩展性。

这些局限性为变压器和其他架构的出现铺平了道路，这些架构在某些方面，尤其是在扩展到更大模型时，已经超越了 LSTMs。

xLSTM 架构

扩展 LSTM（xLSTM）家族

xLSTM 的核心是对传统 LSTM 框架的两个主要修改：指数门控和新颖的存储结构。这些增强引入了两种新的 LSTM 变体，分别称为 sLSTM（标量 LSTM）和 mLSTM（矩阵 LSTM）。

sLSTM：具有指数门控和内存混合的标量 LSTM
- 指数门控：sLSTM 集成了输入和遗忘门的指数激活函数，实现对信息流的更灵活的控制。
- 归一化和稳定：为了防止数值不稳定，sLSTM 引入了一个跟踪输入门和未来遗忘门乘积的归一化状态。
- 内存混合：sLSTM 支持多个内存单元，并允许通过循环连接进行内存混合，实现复杂模式的提取和状态跟踪能力。
mLSTM：具有增强存储容量的矩阵 LSTM
- 矩阵存储：mLSTM 使用矩阵存储代替标量存储，增加了存储容量，实现了信息的更高效检索。
- 协方差更新规则：mLSTM 采用了协方差更新规则，受双向关联记忆（BAMs）的启发，高效地存储和检索键值对。
- 并行化：通过放弃内存混合，mLSTM 实现了完全并行化，允许在现代硬件加速器（如 GPU）上进行高效计算，并实现了可扩展性。

这两个变体，sLSTM 和 mLSTM，可以集成到残差块架构中，形成 xLSTM 块。通过残差堆叠这些 xLSTM 块，研究人员可以构建强大的 xLSTM 架构，适用于特定的任务和应用领域。

数学

传统 LSTM：

原始的 LSTM 架构引入了恒定误差旋转木马和门控机制，以克服循环神经网络中的消失梯度问题。

LSTM 中的重复模块 – 来源

LSTM 内存单元更新由以下方程控制：

单元状态更新：ct = ft ⊙ ct-1 + it ⊙ zt

隐藏状态更新：ht = ot ⊙ tanh(ct)

其中：

是时间 $t$ 的单元状态向量
是遗忘门向量
是输入门向量
是输出门向量
是由输入门调制的输入
表示元素级乘法

门、和控制着哪些信息被存储、遗忘和从单元状态中输出，缓解了消失梯度问题。

具有指数门控的 xLSTM：

xLSTM 架构引入了指数门控，以实现更灵活的信息流控制。对于标量 xLSTM（sLSTM）变体：

单元状态更新：ct = ft ⊙ ct-1 + it ⊙ zt

归一化状态更新：nt = ft ⊙ nt-1 + it

隐藏状态更新：ht = ot ⊙ (ct / nt)

输入和遗忘门：it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) 或 ft = exp(W_f xt + R_f ht-1 + b_f)

输入（it）和遗忘（ft）门的指数激活函数，以及归一化状态 nt，使得对内存更新和修改存储信息的控制更加有效。

具有矩阵存储的 xLSTM：

对于具有增强存储容量的矩阵 xLSTM（mLSTM）变体：

单元状态更新：Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

归一化状态更新：nt = ft ⊙ nt-1 + it ⊙ kt

隐藏状态更新：ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

其中：

$是矩阵单元状态$
和是值和键向量
是用于检索的查询向量

这些关键方程突出了 xLSTM 如何通过指数门控和矩阵存储扩展原始 LSTM 架构，实现更灵活的内存控制和增强的存储能力。这些创新使 xLSTM 能够克服传统 LSTMs 的局限性。

xLSTM 的关键特性和优势

修改存储决策的能力：由于指数门控，xLSTM 可以有效地修改存储的值，当遇到更相关的信息时，克服了传统 LSTMs 的一个重大局限性。
增强的存储容量：mLSTM 中的矩阵存储提供了增加的存储容量，使 xLSTM 能够更有效地处理罕见标记、长距离依赖和复杂的数据模式。
并行化：mLSTM 变体的 xLSTM 是完全可并行的，允许在现代硬件加速器（如 GPU）上进行高效计算，并实现了可扩展性。
内存混合和状态跟踪：sLSTM 变体的 xLSTM 保留了传统 LSTMs 的内存混合能力，实现了状态跟踪，使 xLSTM 比变压器和状态空间模型在某些任务中更具表现力。
可扩展性：通过利用大型语言模型的最新技术，xLSTM 可以扩展到数十亿个参数，解锁语言建模和序列处理任务中的新可能性。

实验评估：展示 xLSTM 的能力

研究论文对 xLSTM 进行了全面实验评估，突出了其在各种任务和基准测试中的性能。以下是其中一些关键发现：

合成任务和长距离竞技场：
- xLSTM 在需要状态跟踪的形式语言任务中表现出色，超越了变压器、状态空间模型和其他循环神经网络架构。
- 在多查询关联回忆任务中，xLSTM 展示了增强的存储容量，超越了非变压器模型，并且其性能与变压器相媲美。
- 在长距离竞技场基准测试中，xLSTM 展示了稳定的强大性能，展示了其处理长距离问题的效率。
语言建模和下游任务：
- 当在 15B 个标记的 SlimPajama 数据集上进行训练时，xLSTM 在验证集上的困惑度方面超越了现有方法，包括变压器、状态空间模型和其他循环神经网络变体。
- 随着模型规模的增加，xLSTM 继续保持其性能优势，展示了有利的扩展行为。
- 在下游任务中，如常识推理和问答，xLSTM 在各种模型规模下表现为最佳方法，超越了最先进的方法。
在 PALOMA 语言任务中的性能：
- 在 PALOMA 语言基准测试的 571 个文本域中评估，xLSTM[1:0]（sLSTM 变体）在 99.5% 的域中实现了比 Mamba 更低的困惑度，在 85.1% 的域中实现了比 Llama 更低的困惑度，在 99.8% 的域中实现了比 RWKV-4 更低的困惑度。
缩放法则和长度外推：
- 当在 300B 个标记的 SlimPajama 数据集上进行训练时，xLSTM 展示了有利的缩放法则，表明其在模型规模增加时具有进一步提高性能的潜力。
- 在序列长度外推实验中，xLSTM 模型即使在训练中看到的上下文明显更长的情况下，也保持了低困惑度，超越了其他方法。

这些实验结果突出了 xLSTM 的显著能力，将其定位为语言建模任务、序列处理和广泛应用领域的有前途的竞争者。

实际应用和未来方向

xLSTM 的潜在应用领域遍及多个领域，从自然语言处理和生成到序列建模、时间序列分析等。以下是一些 xLSTM 可能产生重大影响的令人兴奋的领域：

语言建模和文本生成：凭借其增强的存储容量和修改存储信息的能力，xLSTM 可能会革命性地改变语言建模和文本生成任务，使得文本生成更加连贯、上下文感知和流畅。
机器翻译：xLSTM 的状态跟踪能力在机器翻译任务中可能非常有价值，在这些任务中，维护上下文信息和理解长距离依赖至关重要，以实现准确的翻译。
语音识别和生成：xLSTM 的并行化和可扩展性使其非常适合语音识别和生成应用，在这些应用中，长序列的高效处理至关重要。
时间序列分析和预测：xLSTM 处理长距离依赖和有效存储复杂模式的能力可能会在时间序列分析和预测任务中带来显著的改进，跨越金融、天气预报和工业应用等多个领域。
强化学习和控制系统：xLSTM 在强化学习和控制系统中的潜力是有前途的，因为其增强的存储能力和状态跟踪能力可能会实现更智能的决策和在复杂环境中的控制。

架构优化和超参数调优

虽然当前的结果很有前途，但仍有优化 xLSTM 架构和微调其超参数的空间。研究人员可以探索不同的 sLSTM 和 mLSTM 块组合，改变它们在整体架构中的比例和位置。此外，对超参数进行系统搜索可能会带来进一步的性能改进，特别是对于更大的模型。

硬件感知优化：为了充分利用 xLSTM（尤其是 mLSTM 变体）的并行化，研究人员可以研究针对特定 GPU 架构或其他加速器的硬件感知优化。这可能涉及优化 CUDA 内核、内存管理策略以及利用专用指令或库进行高效的矩阵运算。

与其他神经网络组件集成：探索将 xLSTM 与其他神经网络组件（如注意力机制、卷积或自监督学习技术）集成可能会导致混合架构的出现，这些架构结合了不同方法的优势。这些混合模型可能会解锁新的能力并提高更广泛任务的性能。

少样本学习和迁移学习：在少样本学习和迁移学习场景中探索 xLSTM 的使用可能是一个令人兴奋的研究方向。通过利用其增强的存储能力和状态跟踪能力，xLSTM 可能会实现更高效的知识转移和适应新任务或具有有限训练数据的领域的快速适应。

可解释性和可说明性：与许多深度学习模型一样，xLSTM 的内部工作原理可能是模糊和难以解释的。开发解释和说明 xLSTM 做出决策的技术可能会导致更透明和值得信赖的模型，促进其在关键应用中的采用和促进问责制。

高效和可扩展的训练策略：随着模型的增长和复杂性增加，高效和可扩展的训练策略变得越来越重要。研究人员可以探索模型并行、数据并行和分布式训练方法，专门针对 xLSTM 架构，实现更大模型的训练，并可能降低计算成本。

这些是 xLSTM 的一些潜在的未来研究方向和探索领域。

结论

xLSTM 的引入标志着更强大和高效的语言建模和序列处理架构的发展中的一个重要里程碑。通过解决传统 LSTMs 的局限性并利用新颖的技术，如指数门控和矩阵存储结构，xLSTM 在广泛的任务和基准测试中展示了显著的性能。然而，这段旅程还没有结束。作为任何开创性技术，xLSTM 为进一步的探索、改进和在实际场景中的应用提供了令人兴奋的机会。随着研究人员继续推动可能性的边界，我们可以期待在自然语言处理和人工智能领域看到进一步的令人印象深刻的进步。