时间序列预测架构演进:从传统深度学习到大模型时代
摘要
时间序列预测是一个至关重要的任务,它为经济规划、供应链管理和医学诊断等各个领域的决策提供了关键信息。过去,传统统计方法和机器学习曾被广泛应用于时间序列预测问题,然而,随着多种基础的深度学习架构如多层感知机(MLP)、卷积神经网络(CNN)、递归神经网络(RNN)和图神经网络(GNN)的发展,这些架构被逐步应用于时间序列预测问题的解决。然而,由于每种深度学习架构的归纳偏置所带来的结构性限制,它们的性能也受到了制约。变换器模型(Transformer),擅长处理长期依赖关系,已经成为时间序列预测中的重要架构组件。然而,近期的研究表明,简单的线性层等替代方案能够超越变换器模型。这些发现为使用多样化架构提供了新的可能性。在探索各种模型的背景下,时间序列预测的架构建模已经进入了一个复兴阶段。
本综述不仅为时间序列预测提供了历史背景,还对向架构多样化发展的趋势进行了全面而及时的分析。通过比较和重新审视多种深度学习模型,我们揭示了新的视角,并呈现了时间序列预测中的最新趋势,包括混合模型、扩散模型、Mamba 模型和基础模型的出现。通过聚焦时间序列数据的内在特性,我们还讨论了时间序列预测中受到关注的开放挑战,如通道依赖性、分布变化、因果关系和特征提取等。本综述探讨了通过多样化方法提升预测性能的关键要素。这些贡献有助于降低新入门者进入时间序列预测领域的门槛,同时为经验丰富的研究者提供了广阔的视野、新的机会和深刻的见解。
关键词: 时间序列预测,深度学习,基础模型,分布变化,因果关系
1. 引言
时间序列预测(Time Series Forecasting, TSF)是一个基于历史数据序列预测未来值的任务(Cryer, 1986)。它作为各个领域的关键决策工具,广泛应用于经济与金融、供应链管理、交通运输、能源、气象和医疗保健等领域(Danese 和 Kalchschmidt, 2011;Abu-Mostafa 和 Atiya, 1996;Alghamdi 等,2019;Nti 等,2020;Dimri 等,2020;Soyiri 和 Reidpath, 2013)。这些应用提供了诸多机会,包括降低成本、提高效率和增强竞争力(Danese 和 Kalchschmidt, 2011)。然而,时间序列数据固有的多样性和复杂性使得预测变得极具挑战性。除了显而易见的信息外,各种隐藏的模式使得学习时间依赖关系变得更加困难,而在某些时候不规则的值进一步加剧了这一问题。在多变量问题中,诸如通道相关性等额外因素使得任务变得更加复杂。此外,时间序列数据因领域的不同而展现出不同的特征,数据采集的时间和环境也导致了显著不同的模式。因此,TSF 问题通常具有有限的模型泛化能力,需要多样化的架构和方法。日益复杂的 TSF 问题给研究人员带来了更大的挑战,近期这也促使了新方法和算法的积极发展,以应对这些问题(Lim 和 Zohren, 2021)。
在主要的人工智能和机器学习会议上接受的论文数量急剧增加,证明了 TSF 研究在人工智能和机器学习领域的重要性不断上升。随着越来越多的研究致力于解决时间序列预测问题,综述性论文也频繁发表。随着时间的推移,许多综述性论文系统地整理了 TSF 的广泛领域,提供了深入的研究,给研究人员提供了宝贵的指导和方向。然而,现有的综述论文仍有改进的空间,特别是在应对模型多样性日益增加和领域中的开放挑战方面。
TSF 模型经历了长时间的发展。过去,主要使用基于移动平均的统计方法,后来发展成了传统方法,如指数平滑和自回归综合滑动平均(ARIMA)(Bartholomew, 1971)。机器学习技术,如决策树模型(Quinlan, 1986)和支持向量机(SVM)(Cortes, 1995),也曾被广泛应用,但它们在学习复杂的非线性模式方面存在局限性。随着可用数据量的增加和硬件计算能力的提升,各种深度学习架构如多层感知机(MLP)(Rumelhart 等,1986)、递归神经网络(RNN)(Hopfield, 1982)、卷积神经网络(CNN)(LeCun 等,1998)和图神经网络(GNN)(Scarselli 等,2008)被开发出来,能够学习更复杂的模式。然而,这些早期的深度学习架构的性能受限于它们的内在设计。为了克服这些结构性限制,像长短期记忆网络(LSTM)(Hochreiter 和 Schmidhuber, 1997a)和时序卷积网络(TCN)(Bai 等,2018)等变种被广泛应用。变换器(Transformer)(Vaswani, 2017)因其处理长期依赖关系的能力,在自然语言处理领域表现出色,随后也自然地扩展到时间序列数据。尽管变换器在 TSF 中表现良好并且广泛流行,但近期的研究表明,简单的线性模型也可以超越变换器模型。因此,重新审视传统深度学习方法的兴趣显著增加,并且对各种架构(如基础模型、扩散模型和 Mamba 模型等)产生了越来越多的关注。变换器模型仍在持续改进,并在 TSF 中扮演着重要角色。因此,TSF 进入了一个建模的复兴阶段,各种方法正在积极竞争,且没有任何单一方法占据主导地位。
在这种背景下,本综述具有两个主要优点,使其与以往的 TSF 综述论文区别开来。首先,我们关注架构多样性的不可避免性,提供了一个及时和全面的视角,帮助理解当前架构多样化的趋势。现有的 TSF 综述论文主要集中在对特定架构的详细分析,但在广泛比较多样化架构,包括新兴架构方面存在局限性。本论文系统地比较了各种架构(MLP、CNN、RNN、GNN、Transformer、扩散模型、基础模型、Mamba)的发展进展,并分析了每种架构的优缺点和贡献。此外,本文还探讨了结合多种架构优点的混合模型的性能,清晰地展示了 TSF 中的关键趋势。通过这些贡献,读者能够有效地理解该领域不断发展的趋势和方向。其次,我们从开放挑战的角度进行探讨。尽管许多先进的架构已经解决了许多问题,但 TSF 中的核心挑战仍然存在。特别是,通道相关性、分布变化、因果关系和特征提取等问题依然是需要解决的重要挑战。本综述探讨了旨在解决这些挑战的最新方法,并为读者提供了宝贵的解决问题的见解。
2. 时间序列数据基础
时间序列数据是按时间顺序排列的数据点序列。其基本特性包括趋势(Trend)、季节性(Seasonality)、周期性(Cycle)和噪声(Noise)。
- 趋势:数据随时间变化的长期走向,可能向上或向下。
- 季节性:数据在固定时间间隔内重复出现的模式。
- 周期性:类似季节性,但周期长度不固定。
- 噪声:随机波动,掩盖了真实信号。
理解这些特性对于选择合适的预测模型至关重要。例如,ARIMA 模型擅长处理具有趋势和季节性的数据,而深度学习模型则能更好地捕捉复杂的非线性关系和多变量之间的相互作用。
3. 预测方法的发展历程
3.1 统计方法与机器学习
早期时间序列预测主要依赖统计方法,如移动平均(MA)、指数平滑(ES)和自回归积分滑动平均(ARIMA)。这些方法假设数据是平稳的,或者可以通过差分转换为平稳。虽然解释性强,但在处理高维和非线性数据时表现有限。
随后,支持向量机(SVM)、随机森林(RF)等机器学习算法被引入。它们通过核函数或集成策略提升了非线性拟合能力,但仍需人工特征工程,且难以直接处理长序列依赖。
3.2 深度学习的兴起
随着计算能力的提升,深度学习成为主流。
- 多层感知机(MLP):结构简单,适合处理固定长度的输入窗口,但缺乏对时间结构的显式建模。
- 循环神经网络(RNN/LSTM/GRU):通过隐藏状态捕捉时间依赖,解决了部分长期依赖问题,但训练速度慢且易受梯度消失影响。
- 卷积神经网络(CNN):利用局部感受野提取特征,时序卷积网络(TCN)通过膨胀卷积扩大了感受野,实现了并行计算,效率较高。
- 图神经网络(GNN):适用于多变量时间序列,能够建模变量间的空间拓扑结构。
3.3 Transformer 与注意力机制
Transformer 引入自注意力机制(Self-Attention),能够直接捕捉任意位置间的依赖关系,无需递归。在时间序列中,它被证明能有效处理长序列预测。然而,其二次方复杂度限制了超长序列的应用,且对局部特征的捕捉不如 CNN。
4. 新兴架构与前沿趋势
4.1 线性模型复兴
近期研究发现,经过精心设计的简单线性层(如 PatchTST 中的线性投影)在某些基准上超越了复杂的 Transformer 变体。这表明在特定场景下,过度复杂的架构并非必要,简化模型有助于提升推理速度和泛化能力。
4.2 混合模型
结合不同架构优势成为趋势。例如,将 CNN 用于局部特征提取,Transformer 用于全局依赖建模。这种混合设计旨在兼顾计算效率与预测精度。
4.3 扩散模型与生成式预测
扩散模型(Diffusion Models)原本用于图像生成,现被引入时间序列预测。它们通过逐步去噪过程生成未来序列,能够捕捉预测的不确定性,提供概率分布而非单点估计,增强了鲁棒性。
4.4 Mamba 与状态空间模型
Mamba 是一种基于选择性状态空间模型(SSM)的新架构。它结合了 RNN 的线性推理成本和 Transformer 的全局建模能力,在处理超长序列时表现出极高的效率,是当前的研究热点之一。
4.5 基础模型(Foundation Models)
类似于 NLP 领域的大语言模型,时间序列基础模型试图在大规模数据集上进行预训练,以适配下游多个任务。这有望解决数据稀缺问题,提升小样本场景下的预测性能。
5. 开放挑战与解决方案
尽管技术进步显著,以下挑战仍需关注:
- 通道依赖性(Channel Dependency):多变量间的相关性动态变化,如何自适应地建模变量间关系是关键。
- 分布变化(Distribution Shift):现实环境中数据分布随时间漂移,模型需要具备在线学习或域适应的能力。
- 因果关系(Causality):区分相关性与因果性对于干预分析和决策支持至关重要,避免虚假关联导致的错误预测。
- 特征提取(Feature Extraction):自动提取有效特征以减少人工干预,尤其是在非结构化或多模态数据融合场景下。
6. 总结
时间序列预测正处于架构多样化的复兴期。从传统的统计方法到深度学习,再到 Transformer 及 Mamba 等新型架构,技术演进不断突破性能瓶颈。未来的研究方向将集中在提升模型的可解释性、处理分布变化以及构建通用的时间序列基础模型。通过深入理解各架构的特性与局限,研究者可以更有效地选择或设计适合特定业务场景的预测方案。