Mamba的关键特点包括:
- 选择性SSM:这些使Mamba能够过滤不相关的信息并专注于相关数据,增强其处理序列的能力。这种选择性对于高效的内容基于推理至关重要。
- 硬件感知算法:Mamba使用一个针对现代硬件(尤其是GPU)优化的并行算法。这种设计使计算更快,内存需求更低,相比传统模型有了显著改进。
- 简化架构:通过整合选择性SSM并消除注意力和MLP块,Mamba提供了一个更简单、更均匀的结构。这种结构带来更好的可扩展性和性能。
Mamba在各种领域表现出色,包括语言、音频和基因组学,在预训练和特定领域任务中都取得了优异的成绩。例如,在语言建模中,Mamba的性能与更大型的Transformer模型相匹配或甚至超越。
Mamba的代码和预训练模型在GitHub上公开提供。

标准复制任务对于线性模型来说很简单。选择性复制和归纳头需要动态、内容感知的内存用于LLM。
结构化状态空间(S4)模型近期作为一种有前途的序列模型类别出现,涵盖了来自RNN、CNN和经典状态空间模型的特征。S4模型从连续系统中汲取灵感,特别是一种将一维函数或序列映射到隐式潜在状态的系统。在深度学习的背景下,它们代表了一项重要的创新,提供了一种新的设计序列模型的方法,这些模型既高效又高度适应性。
S4模型的动态
SSM(S4) 这是基本的结构化状态空间模型。它接受一个序列 x 并使用学习到的参数 A、B、C 和延迟参数 Δ 生成输出 y。转换涉及将连续参数离散化(将连续函数转换为离散函数)并应用SSM操作,这是一个时间不变的操作——它不会随时间变化。
离散化的重要性
离散化是一个关键过程,它通过固定公式将连续参数转换为离散参数,使S4模型能够保持与连续时间系统的联系。这种过程赋予了模型额外的属性,例如分辨率不变性,并确保了适当的归一化,提高了模型的稳定性和性能。离散化还与RNN中的门控机制相似,这对于管理信息在网络中的流动至关重要。
线性时间不变性(LTI)
S4模型的一个核心特征是其线性时间不变性。这意味着模型的动态在时间上保持一致,所有时间步骤的参数都保持固定。LTI是递归和卷积的基石,提供了一个简化但强大的框架,用于构建序列模型。
克服基本限制
S4框架传统上受到其LTI性质的限制,这使得它难以建模需要自适应动态的数据。最近的研究论文提出了一种方法,通过引入时间变化的参数来克服这些限制,消除了LTI的限制。这使得S4模型能够处理更广泛的序列和任务,显著扩大了其适用性。
“状态空间模型”这个术语广泛涵盖了任何涉及潜在状态的递归过程,并被用于描述多个学科中的各种概念。在深度学习的背景下,S4模型或结构化SSM指的是一类经过优化以实现高效计算同时保留处理复杂序列能力的特定模型。
S4模型可以集成到端到端的神经网络架构中,作为独立的序列转换。它们可以被视为类似于CNN中的卷积层,为各种神经网络架构中的序列建模提供了基础。

SSM与SSM + 选择
序列建模中选择性的动机

结构化SSM
该论文认为,序列建模的一个基本方面是将上下文压缩成可管理的状态。能够选择性地关注或过滤输入的模型提供了一种更有效的方式来维护这种压缩状态,导致更高效和更强大的序列模型。这种选择性对于模型自适应地控制信息在序列维度上的流动至关重要,这是处理语言建模和其他任务中复杂任务的必备能力。
选择性SSM增强了传统SSM,允许其参数依赖于输入,这引入了一种以前无法用时间不变模型实现的自适应性。这种时间变化的SSM不能使用卷积进行高效计算,而是依赖于线性递归机制,这是与传统模型的一个重大偏离。
SSM + 选择(S6) 这个变体包括一个选择机制,向参数 B 和 C 以及延迟参数 Δ 添加了输入依赖性。这使得模型能够选择性地关注输入序列 x 的某些部分。参数在考虑选择的情况下被离散化,SSM操作以时间变化的方式应用,使用扫描操作,该操作按顺序处理元素,并动态地调整焦点。
Mamba的性能亮点