曼巴的主要特点包括:
- 选择性SSM:这些允许 Mamba 过滤不相关的信息并专注于相关数据,从而增强其对序列的处理。这种选择性对于有效的基于内容的推理至关重要。
- 硬件感知算法:Mamba 采用针对现代硬件(尤其是 GPU)优化的并行算法。与传统模型相比,这种设计可以实现更快的计算速度并降低内存需求。
- 简化架构:通过集成选择性 SSM 并消除注意力和 MLP 块,Mamba 提供了更简单、更均匀的结构。这会带来更好的可扩展性和性能。
Mamba 在语言、音频和基因组学等多个领域表现出了卓越的性能,在预训练和特定领域任务中表现出色。例如,在语言建模中,Mamba 的性能可与大型 Transformer 模型相媲美或超过。
Mamba 的代码和预训练模型已公开供社区使用,网址为 GitHub上.

对于线性模型来说,标准复制任务很简单。选择性复印和感应头需要用于法学硕士的动态、内容感知存储器。
结构化状态空间 (S4) 模型最近成为一类有前途的序列模型,包含 RNN、CNN 和经典状态空间模型的特征。 S4 模型的灵感来自连续系统,特别是通过隐式潜在状态映射一维函数或序列的系统。在深度学习的背景下,它们代表了一项重大创新,为设计高效且高度适应性的序列模型提供了一种新的方法。
S4 车型的动力学
SSM(S4) 这是基本的结构化状态空间模型。需要一个序列 x 并产生输出 y 使用学习到的参数 A, B, C,和一个延迟参数 Δ转换涉及离散化参数(将连续函数转换为离散函数)并应用 SSM 操作,该操作是时不变的,这意味着它不会随着时间步骤而改变。
离散化的意义
离散化是通过固定公式将连续参数转化为离散参数的关键过程,使S4模型能够与连续时间系统保持联系。这赋予模型额外的属性,例如分辨率不变性,并确保适当的归一化,从而增强模型的稳定性和性能。离散化还与 RNN 中的门控机制相似,这对于管理网络中的信息流至关重要。
线性时不变性 (LTI)
S4 模型的核心特征是其线性时不变性。此属性意味着模型的动态随着时间的推移保持一致,所有时间步长的参数都是固定的。 LTI 是递归和卷积的基石,为构建序列模型提供了一个简化但功能强大的框架。
克服基本限制
S4 框架传统上受到其 LTI 性质的限制,这对需要自适应动态的数据建模提出了挑战。最近的研究论文提出了一种通过引入时变参数来克服这些限制的方法,从而消除了 LTI 的约束。这使得 S4 模型能够处理更加多样化的序列和任务,从而显着扩展了其适用性。
“状态空间模型”这一术语广泛涵盖任何涉及潜在状态的循环过程,并已用于描述多个学科的各种概念。在深度学习的背景下,S4 模型(或称结构化 SSM)是指一类特定的模型,这些模型经过优化,可实现高效计算,同时保留了对复杂序列进行建模的能力。
S4 模型可以集成到端到端神经网络架构中,充当独立的序列转换。它们可以被视为类似于 CNN 中的卷积层,为各种神经网络架构中的序列建模提供骨干。

SSM 与 SSM + 选择
序列建模中选择性的动机

结构化SSM
该论文认为,序列建模的一个基本方面是将上下文压缩为可管理的状态。可以选择性地关注或过滤输入的模型提供了维持这种压缩状态的更有效方法,从而产生更高效和更强大的序列模型。这种选择性对于模型自适应地控制信息如何沿着序列维度流动至关重要,这是处理语言建模及其他领域的复杂任务的基本能力。
选择性 SSM 通过允许其参数依赖于输入来增强传统 SSM,这引入了以前时不变模型无法实现的一定程度的自适应性。这导致时变 SSM 无法再使用卷积来进行高效计算,而是依赖于线性递归机制,这与传统模型存在显着偏差。
SSM + 选择 (S6) 该变体包括选择机制,为参数添加输入依赖性 B 与 C,和一个延迟参数 Δ。这允许模型有选择地关注输入序列的某些部分 x。考虑到选择,对参数进行离散化,并使用扫描操作以随时间变化的方式应用 SSM 操作,该扫描操作顺序处理元素,随时间动态调整焦点。
曼巴的性能亮点