NLP 大模型应用于时间序列预测的五大方法综述
近期,加利福尼亚大学发表了一篇关于时间序列大语言模型的工作综述,文章系统性地总结了将自然语言处理(NLP)领域预训练好的大语言模型(LLM)应用到时间序列预测领域的五种主要方法。随着大语言模型在文本生成、理解等任务上的卓越表现,研究者开始探索其在结构化数据,特别是时间序列数据上的潜力。本文将详细介绍这五类核心方法,分析其技术原理、优缺点及适用场景。
1. 基于 Prompt 的方法
基于 Prompt 的方法是直接利用大语言模型的上下文学习能力,让模型针对时间序列数据输出结果。这种方法的核心思路是将时间序列数据视为文本的一部分,通过构造特定的提示词(Prompt),引导模型生成预测值。
1.1 基本流程
在典型的实现中,首先预定义一个 Prompt 模板,描述具体的时间序列任务(如'预测未来 24 小时的气温')。然后,将历史时间序列数据填充到模板中的占位符位置。最后,将完整的文本输入到大语言模型中,要求模型直接生成预测结果。
例如,构造一段文本:
任务:预测接下来 3 天的股票价格。
历史数据:[100, 102, 98, 105, ...]
预测结果:
模型根据上下文推断并输出数值。
1.2 数字 Tokenization 挑战
这种方式面临的主要挑战是数字的 Tokenization(分词)问题。大语言模型通常是为文本设计的,对连续数字的处理能力有限。如果直接将数字字符串化,可能会导致词典中对数字的区分不合理,或者无法捕捉数字间的细微变化。
为了解决这个问题,一些研究工作专门针对数字的 Tokenization 进行了优化。常见的策略包括在每个数字之间加入空格,使数字能更清晰地被模型区分;或者设计专门的数字编码器,将数值映射为特殊的 Token ID。这些改进旨在避免模型因分词错误而忽略数值的大小关系或趋势。
1.3 优缺点
- 优点:无需微调模型参数,推理速度快,利用了 LLM 强大的通用推理能力。
- 缺点:对于长序列的精度可能不如专用模型,且容易受到 Prompt 措辞的影响,存在幻觉风险。
2. 离散化方法
这类方法的核心思想是将连续的时间序列数值转换为离散的符号或 ID,以适配 NLP 大模型的输入形式。通过将数值空间离散化,模型可以像处理文本词汇一样处理时间序列模式。
2.1 VQ-VAE 离散化
一种主流方法是借助 Vector Quantized-Variational AutoEncoder(VQ-VAE)技术。VQ-VAE 是一种在变分自编码器(VAE)基础上的结构。
- Encoder:将原始连续输入映射成表征向量。
- Quantization:保证中间生成的表征向量是离散化的,即从码本(Codebook)中选择最近的向量。
- Decoder:还原原始数据。
通过这种机制,可以将时间序列映射成离散的表征向量,并构造成一个词典。这样,时间序列数据就被转换成了类似'单词'的离散序列,可以直接输入给 LLM。
2.2 K-means 离散化
另一种方法是基于 K-means 聚类算法的离散化。利用 K-means 生成的质心将原始的时间序列片段进行聚类,每个簇对应一个离散 ID。这种方法计算相对简单,适合资源受限的场景。
2.3 符号化转换
在一些特定工作流中,也将时间序列直接转换成文本符号。例如在金融场景中,将每天的涨价、降价、持平等信息直接转换成相应的字母符号(如 U, D, F)作为 NLP 大模型的输入。这种抽象方式降低了数据的复杂度,但可能会丢失部分幅度信息。
3. 时间序列 - 文本对齐
这类方法借助多模态领域的对齐技术,将时间序列的表征空间与文本空间对齐,以此实现时间序列数据直接输入到 NLP 大模型的目标,同时保留语义信息。
3.1 对比学习对齐
最典型的方法是基于对比学习的多模态对齐,类似于 CLIP(Contrastive Language-Image Pre-training)架构。
- 双塔结构:使用时间序列编码器和文本编码器分别提取时间序列和文本的表示向量。


