利用大模型与金融新闻数据微调,精准预测股市收益
摘要
本文探讨了通过金融新闻流对大型语言模型(LLMs)进行微调以预测股票回报,强调回报预测在量化投资中的重要性。模型包括文本表示和预测模块,比较了编码器和解码器模型的表现。实验结果显示:LLM 的 token 级嵌入聚合表示能提升长短仓组合的回报预测性能;在较大投资宇宙中,解码器模型表现更强;在小宇宙中无明显优劣;LLM 的文本表示在组合构建中优于传统情感评分。研究表明 LLM 微调在回报预测和组合构建中具有潜力。
引言
量化投资通过提取市场价格、经济指标和金融文本等数据源的量化特征来构建投资组合。近年来,得益于自然语言处理技术的发展,金融新闻文本数据在定量投资中的应用显著增加。大型语言模型(LLMs)在语言理解和生成任务中表现优越,且可通过微调适应投资相关应用。
传统的金融新闻应用方法涉及多步骤的特征提取和验证过程,耗时且需额外数据。LLMs 生成的文本数值表示可直接用于预测任务,本文探索通过微调 LLMs 实现新闻到回报的直接预测。相比传统的情感分析或关键词匹配,端到端的微调能够捕捉更复杂的语义信息和上下文依赖关系。
相关工作
之前有多项研究利用金融文本数据进行预测,包括情感分析和文本表示学习。LLMs(如 BERT、GPT-3)为量化投资中的文本数据预测提供了新方法。LLMs 通过预训练学习语言模式,使用提示技术和微调技术来适应特定任务。一些研究将 LLMs 作为特征提取器,进行金融情感分析和新闻因素提取。本文关注微调 LLMs,直接建模金融新闻文本与数值回报之间的关系,并评估不同 LLMs 的文本表示效果。
问题建模
投资组合选择基于定量标准,从股票集合 U 中选取子集,定期更新。设定 $r_{s,t+\ell}$ 为股票 s 在时间 t 的 $\ell$ 步前回报,新闻文本 $x_{s,i}$ 用于预测。在时间 t,使用时间窗口 W 内的新闻文本 ${ x_{s,i} }{i \in T{s,<t}}$ 进行回报预测。将新闻文本串联为序列 $X_{s,<t}$,并通过文本表示模块 $g(\cdot)$ 和预测模块 $f(\cdot)$ 构建回报预测模型。模型训练使用数据实例 ${(r_{s,t+\ell}, X_{s,<t})}$,在测试时评估预测误差并进行股票选择。
长期投资组合选择预期上涨的股票,基于回报预测排名选取前 K 只股票。长短期投资组合同时选择预期上涨和下跌的股票,前 K 和后 K 股票均被纳入。这种策略允许做空机制,从而在市场下跌时也能获利,对冲系统性风险。
方法
LLMs 分为三种类型:编码器(encoder-only)、解码器(decoder-only)和混合型(encoder-decoder),它们通过不同的预训练目标生成文本的高维向量表示。
模型架构差异
- 编码器 LLMs:使用掩码语言模型(MLM)进行预训练,通过掩码某些令牌来预测缺失的令牌,表示包含左右上下文信息。这使得它们在理解句子整体含义方面非常强大。
- 解码器 LLMs:采用自回归的下一个令牌预测任务,表示基于已见令牌的信息。这使得它们在生成任务和序列建模上具有优势。
文本表示整合策略
为了将 LLM 生成的 token 表示整合到预测模块中,本文提出了两种主要方法:
- 瓶颈表示(Bottleneck Representation):通过在微调时压缩序列信息为单一向量。对于编码器 LLMs,EOS 令牌与掩码令牌一致,有助于有效总结序列特征。这种方法试图让模型学会将整段新闻浓缩为一个关键特征向量。
- 聚合表示(Aggregation Representation):针对最后一个 token 的表示崩溃问题,提出了一种简单的替代 Bottleneck 表示的方法,即聚合所有 token 的表示,采用简单的平均方法。这对于解码器 LLMs 尤为重要,因为它们的最后令牌已自然总结整个序列,EOS 令牌冗余。
对于编码器-only LLMs,使用聚合表示时,预训练和微调之间存在差异,因为每个 token 的表示基于上下文和自身,而非预训练中的 mask token。对于解码器-only LLMs,平均所有表示可能导致对输入序列早期 token 的偏向,因为早期 token 在自回归设置中反复融入后续 token 的表示。实验使用了 DeBERTa、Mistral-7B 和 Llama3-8B 模型,损失函数为均方误差(MSE)。
实验设计
数据集
数据来源于 2003 至 2019 年的公司级金融新闻,涵盖北美、欧洲和新兴市场的投资数据集。这确保了模型在不同市场环境和经济周期下的泛化能力。
实验设置
长期投资组合基于预测排名的第 9 个分位数构建,长短期投资组合则包括第 9 和第 0 分位数,所有股票均等权重。进行月度再平衡的回测,比较不同 LLM 的预测与基于情感的投资组合(FinBERT 和 FinVADER)。月度再平衡是量化策略中的常见做法,旨在控制交易成本的同时保持策略的时效性。


