MIT 与 IBM 联合提出 Inter-Series Transformer 用于供应链需求预测
基于时间序列预测技术,MIT 与 IBM 联合团队提出 Inter-Series Transformer 模型,旨在解决供应链需求预测中的稀疏性和跨系列效应问题。该模型引入系列间注意力层捕捉产品间的动态关系,结合共享多任务网络避免过拟合。实验表明,该模型在私有数据集及 Walmart 零售数据集上均优于传统方法及 DeepAR、TFT 等神经网络模型,显著提升了预测准确性与稳定性。

基于时间序列预测技术,MIT 与 IBM 联合团队提出 Inter-Series Transformer 模型,旨在解决供应链需求预测中的稀疏性和跨系列效应问题。该模型引入系列间注意力层捕捉产品间的动态关系,结合共享多任务网络避免过拟合。实验表明,该模型在私有数据集及 Walmart 零售数据集上均优于传统方法及 DeepAR、TFT 等神经网络模型,显著提升了预测准确性与稳定性。

时间序列预测在现代数据分析中扮演着至关重要的角色。它不仅在金融市场、天气预报等领域广泛应用,更是供应链管理中的核心技术之一。通过对历史数据的分析和建模,时间序列预测能够帮助企业预测未来的需求、优化库存管理、提高供应链效率,从而降低成本、提升客户满意度。在供应链管理中,准确的需求预测可以避免库存过剩或短缺,确保产品能够及时供应,满足市场需求。
尽管 Transformer 神经网络在自然语言处理和计算机视觉等领域取得了显著成功,但其在供应链需求预测中的应用仍然面临诸多挑战。传统的时间序列预测方法,如指数平滑、ARIMA 等,虽然在某些情况下表现良好,但在处理复杂的供应链需求预测时,往往力不从心。Transformer 模型虽然在时间序列预测中展示了潜力,但其在处理供应链需求预测中特有的稀疏性和跨系列效应时,表现仍有待提高。现有的 Transformer 模型大多针对通用的时间序列数据集进行优化,缺乏对供应链需求预测这一特定应用场景的专门设计和调整。
8 月 8 日,来自 IBM 研究中心和麻省理工学院(MIT)的研究团队提出了一种新的 Transformer 模型——Inter-Series Transformer。该模型通过引入系列间注意力层,旨在捕捉不同产品时间序列之间的动态关系,从而改进需求预测的准确性。具体来说,Inter-Series Transformer 模型在初始阶段应用跨时间序列的注意力机制,以捕捉交互并解决稀疏性问题。随后模型使用共享的多任务每时间序列网络,独立地对每个时间序列进行转换,捕捉时间效应并生成预测。通过这种方式,Inter-Series Transformer 模型不仅能够有效利用跨系列信息,还能避免多变量建模中常见的过拟合问题。
团队成员包括 Rares Cristian、Pavithra Harsha、Clemente Ocejo、Georgia Perakis、Brian Quanz、Ioannis Spantidakis 和 Hamza Zerhouni。IBM 研究中心的研究人员主要来自位于纽约约克镇高地的 IBM TJ Watson 研究中心,而 MIT 的研究人员则来自位于马萨诸塞州剑桥市的麻省理工学院。这支跨机构的研究团队结合了 IBM 在实际应用中的丰富经验和 MIT 在理论研究中的深厚积累,为本研究提供了坚实的基础和广泛的视角。
在时间序列预测领域,传统模型如指数平滑、Holt-Winters 和 ARIMA 模型依然被广泛应用。
随着深度学习的发展,循环神经网络(RNN)和卷积神经网络(CNN)在时间序列预测中展现了巨大的潜力。
Transformer 模型通过自注意力机制在时间序列预测中取得了显著进展。
以上为 Inter-Series Transformer 模型提供了背景和动机。通过结合传统方法和现代深度学习技术,Inter-Series Transformer 模型旨在解决供应链需求预测中的特定挑战,如稀疏性和跨系列效应。
Inter-Series Transformer 模型通过引入一系列创新组件,旨在解决供应链需求预测中的特定挑战,如稀疏性和跨系列效应。
Inter-Series Transformer 的编码器和解码器结构类似于传统的 Transformer 模型。编码器由多个自注意力层和逐位置前馈网络层组成,每个层后面都有残差连接和层归一化,以提高训练的稳定性。编码器的自注意力组件负责计算输入序列中所有元素之间的注意力权重,并基于这些注意力权重对元素进行转换。解码器的架构与编码器相似,但在每个编码器块的两个子层之外,解码器还增加了一个多头注意力子层,该子层对编码器堆栈的输出进行多头注意力计算,从而生成最终的预测。
系列间注意力层是 Inter-Series Transformer 模型的核心创新之一。该层通过学习不同产品时间序列之间的动态关系,改进目标时间序列的表示。具体来说,系列间注意力层将目标时间序列的上下文窗口作为查询向量,所有其他时间序列的上下文窗口作为键和值向量,从而生成一个更好地表示目标时间序列的上下文窗口。这种方法不仅能够捕捉跨产品的交互,还能帮助解决稀疏性问题,使稀疏的时间序列能够从高体量的时间序列中学习,从而改进预测。
在系列间注意力层之后,Inter-Series Transformer 模型应用一个共享的 Transformer 网络,对目标序列进行转换,捕捉时间效应并生成预测。该网络对所有时间序列共享,即所有时间序列使用相同的网络参数进行训练。这种多任务应用方法能够利用更多的数据进行训练,避免多变量建模中常见的过拟合问题,同时提高模型的性能。
在时间序列预测中,输入特征可能包含离散和连续的数值。为了优化学习,Inter-Series Transformer 模型将这些特征映射到高维表示。对于连续特征,使用线性层学习最佳映射方式;对于分类特征,使用嵌入层创建特征向量。最终,这些特征向量和投影的连续输入在传递给 Transformer 模型之前进行拼接,从而创建一个更全面和信息丰富的输入。
在自然语言处理应用中,位置编码用于为序列中的每个元素分配相对位置。然而,在时间序列预测中,我们有实际的时间特征,因此可以通过日期特征来捕捉相对位置。实验表明,移除位置编码并依赖日期特征能够提高模型性能。具体做法是将日期映射为两个连续特征:年龄(年)和月份,并进行适当缩放。这种方法不仅简化了模型,还提高了训练的稳定性和预测的准确性。
通过这些创新组件,Inter-Series Transformer 模型在处理供应链需求预测中的稀疏性和跨系列效应方面表现出色,显著提高了预测的准确性和稳定性。
为了评估 Inter-Series Transformer 模型的性能,研究团队使用了一个私有数据集和两个公开的零售数据集。
为了最大化 Inter-Series Transformer 模型的性能,研究团队对多个关键参数进行了超参数调优,包括编码器/解码器层数、模型维度、嵌入维度、批量大小和训练周期数。
此外,研究团队还对所有用于比较的神经网络方法进行了类似的超参数调优,以确保结果的一致性和可靠性。
为了全面评估模型的性能,研究团队使用了多种评估指标,包括加权平均绝对误差(wMAPE)、均方根误差(RMSE)和均方根缩放误差(RMSSE)。
通过这些评估指标,研究团队能够全面衡量 Inter-Series Transformer 模型在不同数据集和预测范围内的性能。
在实验中,研究团队首先分析了几种传统时间序列预测模型的表现,包括 Holt-Winters、ARIMA 和简单指数平滑(SES)模型。这些模型分别针对每个时间序列进行拟合,结果如下:
总体而言,这些传统方法未能达到预期的准确度,尤其是在处理稀疏性和跨系列效应时表现不佳。
接下来,研究团队实验了几种基于神经网络的时间序列预测模型,包括 DeepAR、GluonTS Transformer 和 TFT。这些模型在处理复杂时间序列数据时展示了更大的潜力。
尽管这些神经网络模型在某些方面表现出色,但在处理供应链需求预测中特有的稀疏性和跨系列效应时,仍存在一定的局限性。
研究团队还实验了几种最新的时间序列预测模型,包括 FEDformer、DLinear 和 PatchTST。
这些结果表明,尽管这些最新模型在某些方面具有优势,但在处理供应链需求预测的特定挑战时,仍存在一定的不足。
Inter-Series Transformer 模型在所有实验数据集上均表现出色,特别是在处理稀疏性和跨系列效应方面,显著提高了预测的准确性。
总体而言,Inter-Series Transformer 模型通过引入系列间注意力层和多任务每系列转换等创新组件,在供应链需求预测中展示了显著的性能提升,证明了其在处理稀疏性和跨系列效应方面的有效性。
为了验证 Inter-Series Transformer 模型的鲁棒性,研究团队采用了时间序列交叉验证技术。这种方法通过在不同的时间段内训练和评估模型,确保模型不仅在特定的评估期内表现良好,还能在不同的时间段内保持稳定的性能。
结果表明,Inter-Series Transformer 模型在不同时间段内均能显著优于基线预测,证明了其鲁棒性和稳定性。
在时间序列预测中,处理不同类型的特征(如离散和连续特征)是一个重要的挑战。研究团队实验了多种特征投影方法,以优化模型的学习效果。
结果表明,独立嵌入两个 ID 特征的方法效果最佳,因为这种方法能够分别优化每个嵌入,从而提高模型的性能。
在时间序列预测中,位置编码用于为序列中的每个元素分配相对位置。然而,研究团队发现,位置编码可能会改变初始输入,影响模型的稳定性和关系学习能力。因此团队实验了以下两种方法:
实验结果表明,移除位置编码并使用连续时间特征的方法效果最佳。位置编码未能提供额外信息,反而增加了训练复杂性。因此,研究团队建议在时间序列预测中移除位置编码,改用日期特征。
通过这些进一步的分析与消融研究,研究团队验证了 Inter-Series Transformer 模型的鲁棒性,并优化了特征投影和位置编码的方法,从而进一步提高了模型的性能和稳定性。
Inter-Series Transformer 模型通过引入一系列创新组件,显著提升了供应链需求预测的准确性和稳定性。
通过系列间注意力层,模型能够利用高体量时间序列的信息来改进稀疏时间序列的预测。这种方法有效地解决了供应链需求预测中常见的稀疏性问题。系列间注意力层能够捕捉不同产品时间序列之间的动态关系,从而改进目标时间序列的表示。这对于处理供应链中不同产品之间的相互影响尤为重要。
共享的 Transformer 网络能够利用更多的数据进行训练,避免多变量建模中常见的过拟合问题,同时提高模型的性能。通过将不同类型的特征映射到高维表示,模型能够更全面地利用输入特征的信息,从而提高预测的准确性。
实验表明,移除位置编码并使用连续时间特征能够提高模型性能,简化模型结构,提高训练稳定性。总体而言,Inter-Series Transformer 模型在处理供应链需求预测中特有的挑战时,展示了显著的性能提升,证明了其在实际应用中的潜力。
尽管 Inter-Series Transformer 模型在供应链需求预测中表现出色,但仍有一些潜在的改进方向可以进一步提升其性能。
未来的研究可以探索将系列间注意力机制扩展到其他时间序列数据的特征上,而不仅仅是目标时间序列。这将允许更全面地分析不同特征之间的关系,可能会带来更准确的预测结果。
研究可以进一步探讨增加 Inter-Series Transformer 模型的深度,通过添加多个系列间注意力层来捕捉更复杂的非线性转换。这可能会进一步提高模型的预测性能,特别是在处理更复杂的时间序列数据时。
虽然本研究主要集中在供应链需求预测上,但未来可以将 Inter-Series Transformer 模型应用于其他领域,如金融预测、天气预报等,以验证其在不同应用场景中的有效性。这些研究方向为进一步改进和扩展 Inter-Series Transformer 模型提供了有趣的机会,有望在时间序列预测领域带来更多的突破和创新。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online