ms-Mamba: 多尺度 Mamba 时间序列预测
在时间序列预测领域,主流模型往往需要在表达能力和计算效率之间做权衡。Transformer 架构虽然擅长捕捉长程依赖,但存在明显的瓶颈;而线性模型虽然高效,却难以处理复杂的非线性模式。ms-Mamba 正是为了解决这些矛盾而提出的多尺度方案。
Transformer 的局限性与线性模型的困境
注意力机制的盲区 Transformer 的自注意力机制是基于内容(content-based)的,它主要依据元素间的相似性建立连接,而非显式建模时间结构。这导致它在处理以下情况时表现不佳:
- 难以检测关键的时间依赖关系,尤其是当依赖随时间逐渐减弱时。
- 面对强季节性模式(strong seasonal patterns)时,标准注意力机制难以有效提取特征。
计算复杂度的硬伤 对于长度为 L 的输入序列,标准自注意力机制的计算成本和内存占用是 O(L^2)。这意味着在处理需要长输入序列以捕获长期模式的场景时,计算开销会急剧增加,成为实际应用的主要限制。
线性模型的悖论 为了追求速度,多层感知机(MLP)等线性模型架构简单且高效。但它们牺牲了关键的建模能力:
- 难以处理复杂的非线性依赖关系。
- 在面对高度波动或非平稳模式时性能下降。
- 缺乏全局依赖关系的捕捉能力。
这就带来了一个有趣的悖论:由于线性架构无法像 Transformer 那样高效地捕捉全局信息,为了达到可比较的预测精度,它反而需要更长的输入序列,从而抵消了其'更快'的优势,增加了整体计算成本。
ms-Mamba 的核心设计
传统的 SSMs 和 Mamba 变体通常只使用一个可学习的采样率 Δ。然而,时间序列数据本质上包含多个时间尺度的信号。ms-Mamba 旨在通过在不同采样率下并行处理输入,更好地利用数据的多尺度特性。
多尺度 Mamba 层结构 该层由多个配置了不同采样率的 Mamba 模块组合而成。对于第 l 层的输出嵌入 E_l,ms-Mamba 将其分解并进行并行处理: E_m^l = Avg(Mamba(E_l; Δ_1), ..., Mamba(E_l; Δ_n))
具体流程如下:
- 输入嵌入被送入 n 个并行的 Mamba 模块。
- 每个模块使用特定的采样率 Δ_i 进行处理。
- 最终输出是这 n 个并行结果的平均值。
采样率获取策略 为了得到用于并行模块的不同采样率 Δ_i,ms-Mamba 探索了三种策略:
-
固定时间尺度(Fixed temporal scales) 只有基础采样率 Δ_1 是可学习的,其他采样率通过 Δ_1 乘以固定的超参数 α_i 获得:Δ_i = α_i × Δ_1。 特点:α_i 需作为超参数调优。消融实验表明系数 (1, 2, 4, 8) 在不同数据集上表现最佳。这种方法引入了额外的调参负担。
-
可学习时间尺度(Learnable temporal scales) 所有采样率 Δ_i 都被定义为独立的可学习变量。 特点:通常能提供略优于固定尺度的结果,且避免了对 α_i 的调优,是更优选的方案。
-
动态时间尺度(Dynamic temporal scales) 这是最灵活的方法,所有采样率通过一个 MLP 根据当前输入嵌入动态估计:Δ_i = MLP(Flatten(E_l))。 实现细节包括将输入张量展平,并通过包含 ReLU 激活函数的两层线性网络映射到 n 个采样率。

