时间序列预测的全面综述:架构多样性与开放挑战

摘要
时间序列预测(Time Series Forecasting, TSF)是一个至关重要的任务,它为经济规划、供应链管理和医学诊断等各个领域的决策提供了关键信息。过去,传统统计方法和机器学习曾被广泛应用于时间序列预测问题,然而,随着多种基础的深度学习架构如多层感知机(MLP)、卷积神经网络(CNN)、递归神经网络(RNN)和图神经网络(GNN)的发展,这些架构被逐步应用于时间序列预测问题的解决。然而,由于每种深度学习架构的归纳偏置所带来的结构性限制,它们的性能也受到了制约。变换器模型(Transformer),擅长处理长期依赖关系,已经成为时间序列预测中的重要架构组件。然而,近期的研究表明,简单的线性层等替代方案能够超越变换器模型。这些发现为使用多样化架构提供了新的可能性。在探索各种模型的背景下,时间序列预测的架构建模已经进入了一个复兴阶段。本综述不仅为时间序列预测提供了历史背景,还对向架构多样化发展的趋势进行了全面而及时的分析。通过比较和重新审视多种深度学习模型,我们揭示了新的视角,并呈现了时间序列预测中的最新趋势,包括混合模型、扩散模型、Mamba 模型和基础模型的出现。通过聚焦时间序列数据的内在特性,我们还讨论了时间序列预测中受到关注的开放挑战,如通道依赖性、分布变化、因果关系和特征提取等。本综述探讨了通过多样化方法提升预测性能的关键要素。
关键词: 时间序列预测,深度学习,基础模型,分布变化,因果关系

1. 引言
时间序列预测(Time Series Forecasting, TSF)是一个基于历史数据序列预测未来值的任务。它作为各个领域的关键决策工具,广泛应用于经济与金融、供应链管理、交通运输、能源、气象和医疗保健等领域。这些应用提供了诸多机会,包括降低成本、提高效率和增强竞争力。然而,时间序列数据固有的多样性和复杂性使得预测变得极具挑战性。除了显而易见的信息外,各种隐藏的模式使得学习时间依赖关系变得更加困难,而在某些时候不规则的值进一步加剧了这一难题。在多变量问题中,诸如通道相关性等额外因素使得任务变得更加复杂。此外,时间序列数据因领域的不同而展现出不同的特征,数据采集的时间和环境也导致了显著不同的模式。因此,TSF 问题通常具有有限的模型泛化能力,需要多样化的架构和方法。日益复杂的 TSF 问题给研究人员带来了更大的挑战,近期这也促使了新方法和算法的积极发展,以应对这些问题。
在主要的人工智能和机器学习会议上接受的论文数量急剧增加,证明了 TSF 研究在人工智能和机器学习领域的重要性不断上升。随着越来越多的研究致力于解决时间序列预测问题,综述性论文也频繁发表。随着时间的推移,许多综述性论文系统地整理了 TSF 的广泛领域,提供了深入的研究,给研究人员提供了宝贵的指导和方向。然而,现有的综述论文仍有改进的空间,特别是在应对模型多样性日益增加和领域中的开放挑战方面。
TSF 模型经历了长时间的发展。过去,主要使用基于移动平均的统计方法,后来发展成了传统方法,如指数平滑和自回归综合滑动平均(ARIMA)。机器学习技术,如决策树模型和支持向量机(SVM),也曾被广泛应用,但它们在学习复杂的非线性模式方面存在局限性。随着可用数据量的增加和硬件计算能力的提升,各种深度学习架构如多层感知机(MLP)、递归神经网络(RNN)、卷积神经网络(CNN)和图神经网络(GNN)被开发出来,能够学习更复杂的模式。然而,这些早期的深度学习架构的性能受限于它们的内在设计。为了克服这些结构性限制,像长短期记忆网络(LSTM)和时序卷积网络(TCN)等变种被广泛应用。变换器(Transformer)因其处理长期依赖关系的能力,在自然语言处理领域表现出色,随后也自然地扩展到时间序列数据。尽管变换器在 TSF 中表现良好并且广泛流行,但近期的研究表明,简单的线性模型也可以超越变换器模型。因此,重新审视传统深度学习方法的兴趣显著增加,并且对各种架构(如基础模型、扩散模型和 Mamba 模型等)产生了越来越多的关注。变换器模型仍在持续改进,并在 TSF 中扮演着重要角色。因此,TSF 进入了一个建模的复兴阶段,各种方法正在积极竞争,且没有任何单一方法占据主导地位。
在这种背景下,本综述具有两个主要优点,使其与以往的 TSF 综述论文区别开来。首先,我们关注架构多样性的不可避免性,提供了一个及时和全面的视角,帮助理解当前架构多样化的趋势。现有的 TSF 综述论文主要集中在对特定架构的详细分析,但在广泛比较多样化架构,包括新兴架构方面存在局限性。本论文系统地比较了各种架构(MLP、CNN、RNN、GNN、Transformer、扩散模型、基础模型、Mamba)的发展进展,并分析了每种架构的优缺点和贡献。此外,本文还探讨了结合多种架构优点的混合模型的性能,清晰地展示了 TSF 中的关键趋势。通过这些贡献,读者能够有效地理解该领域不断发展的趋势和方向。
其次,我们从开放挑战的角度进行探讨。尽管许多先进的架构已经解决了许多问题,但 TSF 中的核心挑战仍然存在。特别是,通道相关性、分布变化、因果关系和特征提取等问题依然是需要解决的重要挑战。本综述探讨了旨在解决这些挑战的最新方法,并为读者提供了宝贵的解决问题的见解。尽管先前的综述提供了有关开放挑战的有用视角,但它们在这些问题的探讨深度上有所不足。本综述旨在弥补这一空白,提供更为全面的分析并提出新的解决方案。
本综述首先介绍了时间序列数据的基本概念和预测问题定义(第 2 节),然后回顾了过去方法的发展历程(第 3 节)。在第 4 节中,分析了最新模型的关键特征,最后在第 5 节中,探讨了 TSF 中的开放挑战及其解决方案。通过这些内容,读者将获得对 TSF 研究过去和现在的广泛理解,并为未来的研究提供新的思路。




2. 时间序列数据基础与问题定义
2.1 时间序列的定义与分类
时间序列数据是指按时间顺序排列的一组观测值集合。根据变量的数量,可以分为单变量时间序列和多变量时间序列。单变量时间序列仅包含一个变量随时间的变化,例如股票价格或气温记录。多变量时间序列则包含多个相互关联的变量,例如同时监测的温度、湿度和气压。在多变量场景下,变量之间的相互作用(即通道依赖性)是建模的关键难点之一。
2.2 时间序列的特性
时间序列数据通常表现出以下特性:
- 趋势性(Trend):数据在长期内呈现出的上升或下降趋势。
- 季节性(Seasonality):数据在固定周期内重复出现的模式,如每日、每周或每年的周期性波动。
- 周期性(Cyclicity):类似于季节性,但周期不固定,通常与经济周期相关。
- 噪声(Noise):随机波动,掩盖了真实信号。
理解这些特性对于选择合适的预测模型至关重要。例如,季节性强的数据可能需要专门处理周期的模型,而趋势明显的数据则需要具备捕捉长期变化的能力。
2.3 预测任务形式
时间序列预测任务通常分为点预测(Point Forecasting)和概率预测(Probabilistic Forecasting)。点预测旨在预测未来的具体数值,而概率预测则输出未来值的分布,提供不确定性估计。此外,根据预测步长的不同,可分为一步预测和多步预测。多步预测又可分为直接法(Direct Method)和递归法(Recursive Method)。
3. 时间序列预测方法的发展历程
3.1 传统统计方法
早期时间序列预测主要依赖于统计方法。移动平均(Moving Average)是最简单的方法之一,通过计算过去若干时刻的平均值来预测未来。指数平滑(Exponential Smoothing)引入了权重因子,给予近期数据更高的权重。自回归综合滑动平均模型(ARIMA)是经典的统计模型,结合了自回归(AR)、差分(I)和滑动平均(MA)三个部分,能够有效处理非平稳时间序列。然而,这些方法通常假设数据满足特定的统计分布,且在处理高维非线性关系时表现有限。
3.2 机器学习方法
随着支持向量机(SVM)和决策树等机器学习算法的兴起,时间序列预测进入了新的阶段。SVM 通过核技巧将数据映射到高维空间,能够拟合非线性关系。集成学习方法如随机森林和梯度提升树(GBDT)也被广泛应用,它们通过组合多个弱分类器来提高预测精度。然而,这些方法通常需要人工特征工程,且难以自动捕捉时间维度上的深层依赖关系。
3.3 深度学习时代的到来
深度学习技术的突破彻底改变了时间序列预测的格局。
- 多层感知机(MLP):作为最基础的神经网络,MLP 能够通过隐藏层提取非线性特征。虽然结构简单,但在处理短序列时表现尚可。
- 循环神经网络(RNN):RNN 及其变体 LSTM 和 GRU 专为序列数据处理设计,通过门控机制解决了梯度消失问题,能够捕捉长期的时间依赖。然而,RNN 的串行计算结构限制了训练速度,且并行化困难。
- 卷积神经网络(CNN):一维卷积被引入时间序列,用于提取局部特征。时序卷积网络(TCN)通过膨胀卷积扩大了感受野,能够在保持并行计算的同时捕捉长距离依赖。
- 图神经网络(GNN):针对多变量时间序列,GNN 能够建模变量之间的拓扑结构,捕捉通道间的相关性。
4. 最新模型架构与关键技术
4.1 Transformer 及其变体
Transformer 架构通过自注意力机制(Self-Attention)实现了全局上下文建模,成为 NLP 领域的基石。在时间序列领域,Transformer 被广泛用于捕捉长期依赖。然而,标准 Transformer 的计算复杂度随序列长度呈平方级增长,这限制了其在超长序列上的应用。为此,研究者提出了多种改进版本,如稀疏注意力机制、线性注意力以及针对时间序列优化的 PatchTST 等模型,旨在降低计算成本并提升效率。
4.2 线性模型的回潮
尽管 Transformer 曾被视为 SOTA,但近期研究发现,简单的线性模型在某些基准测试中表现优于复杂的注意力机制。例如,DLinear 模型通过将输入分解为趋势项和季节项,分别使用线性层进行预测,取得了优异的效果。这表明,对于某些类型的时间序列数据,复杂的非线性变换可能并非必要,甚至可能引入过拟合风险。线性模型的高效性和可解释性使其重新受到重视。
4.3 Mamba 与状态空间模型
Mamba 是一种基于状态空间模型(SSM)的新兴架构,结合了 RNN 的线性推理速度和 Transformer 的全局建模能力。Mamba 通过选择性机制动态调整信息流,能够高效处理长序列数据。在时间序列预测中,Mamba 展现了处理超长依赖关系的潜力,为后续研究提供了新的方向。
4.4 扩散模型与生成式预测
扩散模型(Diffusion Models)最初用于图像生成,近年来被引入时间序列预测。通过模拟去噪过程,扩散模型能够生成符合数据分布的未来轨迹,特别适用于概率预测任务。这种方法能够提供更丰富的不确定性估计,但在计算资源消耗上相对较高。
4.5 基础模型(Foundation Models)
大模型时代催生了时间序列基础模型的概念。通过在大规模数据集上进行预训练,基础模型能够学习到通用的时间序列表示,并通过微调适应下游特定任务。这种范式有望解决小样本场景下的预测难题,并提升模型的泛化能力。目前,多个研究机构正在探索构建通用的时间序列基础模型。
5. 开放挑战与未来方向
尽管现有模型在特定任务上取得了显著进展,但时间序列预测仍面临诸多核心挑战。
5.1 通道依赖性建模
在多变量时间序列中,变量之间往往存在复杂的动态相关性。传统的独立建模方法忽略了这种交互,导致预测精度受限。如何有效捕捉并利用通道间的依赖关系,尤其是在变量数量庞大且结构未知的情况下,仍是亟待解决的问题。图神经网络提供了一种思路,但如何动态学习图结构仍需深入研究。
5.2 分布变化与非平稳性
现实世界中的数据分布往往随时间发生变化(Distribution Shift)。例如,经济政策调整可能导致金融市场数据分布突变。模型在面对非平稳数据时,容易出现性能退化。自适应机制和在线学习策略是应对这一挑战的主要方向,要求模型具备持续学习和快速适应新分布的能力。
5.3 因果关系推断
相关性不等于因果性。许多预测模型仅捕捉到了数据间的相关性,而非真正的因果驱动因素。在干预分析或反事实推理场景中,缺乏因果理解的模型可能会给出误导性结论。将因果推断融入时间序列预测框架,有助于提高模型的可解释性和鲁棒性。
5.4 特征提取与表示学习
如何从原始数据中提取最具代表性的特征,同时去除噪声干扰,是提升预测性能的关键。自动化特征工程和无监督表示学习是当前的研究热点。此外,如何将多模态数据(如文本、图像)与时间序列融合,也是扩展应用场景的重要方向。
6. 结论
时间序列预测正处于架构多样化的复兴阶段。从传统的统计方法到深度学习,再到如今的 Transformer、Mamba 及基础模型,技术的演进不断推动着预测精度的边界。本综述系统梳理了各类架构的优劣,并重点探讨了通道依赖性、分布变化、因果关系等开放挑战。未来的研究应致力于构建更具通用性、可解释性和适应性的预测模型,以应对日益复杂的现实世界需求。通过融合不同架构的优势,并结合因果推断等新理论,时间序列预测将在更多关键领域发挥更大的价值。