MIT 与 IBM 联合提出 Inter-Series Transformer 用于供应链需求预测
时间序列预测在现代数据分析中扮演着至关重要的角色。它不仅在金融市场、天气预报等领域广泛应用,更是供应链管理中的核心技术之一。通过对历史数据的分析和建模,时间序列预测能够帮助企业预测未来的需求、优化库存管理、提高供应链效率,从而降低成本、提升客户满意度。在供应链管理中,准确的需求预测可以避免库存过剩或短缺,确保产品能够及时供应,满足市场需求。
尽管 Transformer 神经网络在自然语言处理和计算机视觉等领域取得了显著成功,但其在供应链需求预测中的应用仍然面临诸多挑战。传统的时间序列预测方法,如指数平滑、ARIMA 等,虽然在某些情况下表现良好,但在处理复杂的供应链需求预测时,往往力不从心。Transformer 模型虽然在时间序列预测中展示了潜力,但其在处理供应链需求预测中特有的稀疏性和跨系列效应时,表现仍有待提高。现有的 Transformer 模型大多针对通用的时间序列数据集进行优化,缺乏对供应链需求预测这一特定应用场景的专门设计和调整。
8 月 8 日,来自 IBM 研究中心和麻省理工学院(MIT)的研究团队提出了一种新的 Transformer 模型——Inter-Series Transformer。该模型通过引入系列间注意力层,旨在捕捉不同产品时间序列之间的动态关系,从而改进需求预测的准确性。具体来说,Inter-Series Transformer 模型在初始阶段应用跨时间序列的注意力机制,以捕捉交互并解决稀疏性问题。随后模型使用共享的多任务每时间序列网络,独立地对每个时间序列进行转换,捕捉时间效应并生成预测。通过这种方式,Inter-Series Transformer 模型不仅能够有效利用跨系列信息,还能避免多变量建模中常见的过拟合问题。
团队成员包括 Rares Cristian、Pavithra Harsha、Clemente Ocejo、Georgia Perakis、Brian Quanz、Ioannis Spantidakis 和 Hamza Zerhouni。IBM 研究中心的研究人员主要来自位于纽约约克镇高地的 IBM TJ Watson 研究中心,而 MIT 的研究人员则来自位于马萨诸塞州剑桥市的麻省理工学院。这支跨机构的研究团队结合了 IBM 在实际应用中的丰富经验和 MIT 在理论研究中的深厚积累,为本研究提供了坚实的基础和广泛的视角。
相关工作
在时间序列预测领域,传统模型如指数平滑、Holt-Winters 和 ARIMA 模型依然被广泛应用。
- 指数平滑法:通过对过去观测值加权求和进行预测,权重随时间指数递减。指数平滑法简单易用,适用于平稳时间序列,但在处理复杂的季节性和趋势时效果有限。
- Holt-Winters 模型:作为指数平滑法的扩展,增加了捕捉趋势和季节性的组件,能够更好地处理具有季节性和趋势的时间序列。然而该模型在面对高维、多变量时间序列时表现不佳。
- 自回归积分滑动平均模型(ARIMA):结合了自回归模型、移动平均模型和差分步骤,适用于平稳和非平稳时间序列。尽管 ARIMA 模型在理论上非常强大,但其复杂性和对参数调优的高要求使其在实际应用中具有一定的局限性。
随着深度学习的发展,循环神经网络(RNN)和卷积神经网络(CNN)在时间序列预测中展现了巨大的潜力。
- LSTM(长短期记忆网络):是 RNN 的一种变体,旨在解决长时间依赖问题。通过引入记忆单元,LSTM 能够捕捉时间序列中的长期模式,广泛应用于语言翻译、自然语言处理和时间序列预测。
- DeepAR:基于自回归 RNN 的概率预测方法,通过学习季节性行为和协变量依赖关系,能够对具有有限历史数据的时间序列进行预测。其多任务学习方法使其在处理多个时间序列时表现出色。
- TCN(时间卷积网络):是一种基于 CNN 的模型,使用因果卷积来确保卷积输出仅依赖于当前和之前的时间点。TCN 在许多序列建模任务中表现优于 RNN 和 LSTM,特别是在处理长时间依赖时。
Transformer 模型通过自注意力机制在时间序列预测中取得了显著进展。
- TFT(Temporal Fusion Transformer):结合变量选择网络和静态协变量编码器,使用序列到序列层和多头注意力机制,能够学习长时间关系并解释特征重要性。TFT 在捕捉复杂时间依赖关系方面表现出色。
- Pyraformer:引入金字塔注意力模块,利用金字塔图和注意力机制描述不同范围的时间依赖性,适用于长时间序列预测。
- Autoformer:用自相关机制替代自注意力机制,进行长时间序列预测,能够有效处理复杂的时间模式。
- FEDformer:是频率增强型 Transformer,将输入分解为趋势和季节成分,结合简单线性层进行预测,特别适用于长序列预测。
以上为 Inter-Series Transformer 模型提供了背景和动机。通过结合传统方法和现代深度学习技术,Inter-Series Transformer 模型旨在解决供应链需求预测中的特定挑战,如稀疏性和跨系列效应。


