ms-Mamba: 多尺度 Mamba 时间序列预测模型解析

Transformer 模型在时间序列预测中的局限性
- 注意力机制局限性:难以捕捉关键的时间依赖关系
虽然 Transformer 模型最初是为 NLP 设计的,并因其自注意力机制在捕获长程依赖关系方面的出色表现而被应用于时间序列预测任务,但在处理时间序列数据时,其基于内容的注意力机制暴露了关键缺陷:
- 难以检测关键的时间依赖关系:Transformer 的注意力机制是基于内容(content-based)的,这意味着它主要根据序列中不同元素之间的相似性来建立连接,而不是明确地建模时间结构。
- 依赖关系随时间减弱的问题:这种基于内容的机制在处理那些依赖关系随时间逐渐减弱(vanishing correlations over extended horizons)的序列时,表现不佳。
- 强季节性模式问题:当时间序列数据中存在强大的季节性模式(strong seasonal patterns)时,Transformer 的标准注意力机制也难以有效检测或处理这些模式。
- 计算复杂度:二次方复杂度限制了长序列处理能力
Transformer 模型的另一个主要限制是其自注意力机制的二次方复杂度。
- 复杂度与序列长度的关系:对于长度为 L 的输入序列,标准的自注意力机制的计算成本和内存使用量是 O(L^2),即与序列长度的平方成正比。
- 对长序列的影响:在时间序列预测中,处理长输入序列(long input sequences)以捕获长期模式是很常见的需求,但二次方复杂度极大地增加了计算成本和内存使用,成为模型应用的一个限制因素。
线性模型在时间序列预测中的局限
- 线性模型的优势:简洁与效率
线性模型(通常使用多层感知机,MLPs)的优点:它们架构更简单、速度更快,相比于基于 Transformer 的模型具有更高的效率。
- 线性模型的局限性:缺乏复杂的建模能力
为了追求速度和简洁性,线性模型牺牲了关键的建模能力:
- 难以处理非线性依赖关系:这些模型通常难以处理复杂的非线性依赖关系(non-linear dependencies)。
- 不适用于复杂模式:在涉及**高度波动(highly volatile)或非平稳(non-stationary)**模式的场景中,线性模型的性能往往不佳。
- 难以捕捉全局依赖关系:与 Transformer 模型相比,线性架构在**捕捉全局依赖关系(global dependencies)**方面效率较低。
- 局限性带来的计算成本悖论
线性模型缺乏全局依赖关系捕捉能力的后果,反而抵消了其'更快'的优势:
- 对长输入序列的需求:由于线性架构不能像 Transformer 那样高效地捕捉全局信息,为了达到可比较的预测性能,它需要更长的输入序列(longer input sequences)。

