ms-Mamba: 多尺度 Mamba 时间序列预测论文解读

综述由AI生成Transformer 模型在时间序列预测中面临注意力机制局限与二次方复杂度瓶颈，而线性模型虽高效却难捕捉全局依赖。ms-Mamba 提出多尺度 Mamba 层，通过并行处理不同采样率的输入来融合多尺度特征。文章对比了固定、可学习及动态三种采样率策略，指出独立可学习变量方案在效果与调优成本间取得了较好平衡，为解决长序列预测中的效率与精度矛盾提供了新思路。

BigDataPan发布于 2026/3/30更新于 2026/5/98 浏览

ms-Mamba: 多尺度 Mamba 时间序列预测

在时间序列预测领域，主流模型往往需要在表达能力和计算效率之间做权衡。Transformer 架构虽然擅长捕捉长程依赖，但存在明显的瓶颈；而线性模型虽然高效，却难以处理复杂的非线性模式。ms-Mamba 正是为了解决这些矛盾而提出的多尺度方案。

Transformer 的局限性与线性模型的困境

注意力机制的盲区 Transformer 的自注意力机制是基于内容（content-based）的，它主要依据元素间的相似性建立连接，而非显式建模时间结构。这导致它在处理以下情况时表现不佳：

难以检测关键的时间依赖关系，尤其是当依赖随时间逐渐减弱时。
面对强季节性模式（strong seasonal patterns）时，标准注意力机制难以有效提取特征。

计算复杂度的硬伤 对于长度为 L 的输入序列，标准自注意力机制的计算成本和内存占用是 O(L^2)。这意味着在处理需要长输入序列以捕获长期模式的场景时，计算开销会急剧增加，成为实际应用的主要限制。

线性模型的悖论 为了追求速度，多层感知机（MLP）等线性模型架构简单且高效。但它们牺牲了关键的建模能力：

难以处理复杂的非线性依赖关系。
在面对高度波动或非平稳模式时性能下降。
缺乏全局依赖关系的捕捉能力。

这就带来了一个有趣的悖论：由于线性架构无法像 Transformer 那样高效地捕捉全局信息，为了达到可比较的预测精度，它反而需要更长的输入序列，从而抵消了其'更快'的优势，增加了整体计算成本。

ms-Mamba 的核心设计

传统的 SSMs 和 Mamba 变体通常只使用一个可学习的采样率 Δ。然而，时间序列数据本质上包含多个时间尺度的信号。ms-Mamba 旨在通过在不同采样率下并行处理输入，更好地利用数据的多尺度特性。

多尺度 Mamba 层结构 该层由多个配置了不同采样率的 Mamba 模块组合而成。对于第 l 层的输出嵌入 E_l，ms-Mamba 将其分解并进行并行处理： E_m^l = Avg(Mamba(E_l; Δ_1), ..., Mamba(E_l; Δ_n))

具体流程如下：

输入嵌入被送入 n 个并行的 Mamba 模块。
每个模块使用特定的采样率 Δ_i 进行处理。
最终输出是这 n 个并行结果的平均值。

采样率获取策略 为了得到用于并行模块的不同采样率 Δ_i，ms-Mamba 探索了三种策略：

固定时间尺度（Fixed temporal scales） 只有基础采样率 Δ_1 是可学习的，其他采样率通过 Δ_1 乘以固定的超参数 α_i 获得：Δ_i = α_i × Δ_1。特点：α_i 需作为超参数调优。消融实验表明系数 (1, 2, 4, 8) 在不同数据集上表现最佳。这种方法引入了额外的调参负担。
可学习时间尺度（Learnable temporal scales） 所有采样率 Δ_i 都被定义为独立的可学习变量。特点：通常能提供略优于固定尺度的结果，且避免了对 α_i 的调优，是更优选的方案。
动态时间尺度（Dynamic temporal scales） 这是最灵活的方法，所有采样率通过一个 MLP 根据当前输入嵌入动态估计：Δ_i = MLP(Flatten(E_l))。实现细节包括将输入张量展平，并通过包含 ReLU 激活函数的两层线性网络映射到 n 个采样率。

ms-Mamba: 多尺度 Mamba 时间序列预测论文解读