基于大模型与金融新闻数据微调的股市收益预测研究
本文研究了利用大型语言模型(LLMs)微调预测股票回报的方法。通过对比编码器和解码器模型,发现聚合 token 表示能提升组合收益。在北美等市场中,解码器模型表现更佳,且优于传统情感评分。实验表明 LLM 微调能有效捕捉文本信息,优化投资组合构建,降低波动性。未来可探索多模态融合及模型可解释性。

本文研究了利用大型语言模型(LLMs)微调预测股票回报的方法。通过对比编码器和解码器模型,发现聚合 token 表示能提升组合收益。在北美等市场中,解码器模型表现更佳,且优于传统情感评分。实验表明 LLM 微调能有效捕捉文本信息,优化投资组合构建,降低波动性。未来可探索多模态融合及模型可解释性。

本文探讨了通过金融新闻流对大型语言模型(LLMs)进行微调以预测股票回报,强调回报预测在量化投资中的重要性。模型包括文本表示和预测模块,比较了编码器和解码器模型的表现。实验结果显示:LLM 的 token 级嵌入聚合表示能提升长短仓组合的回报预测性能;在较大投资宇宙中,解码器模型表现更强;在小宇宙中无明显优劣;LLM 的文本表示在组合构建中优于传统情感评分。研究表明 LLM 微调在回报预测和组合构建中具有潜力。
量化投资通过提取市场价格、经济指标和金融文本等数据源的量化特征来构建投资组合。近年来,得益于自然语言处理技术的发展,金融新闻文本数据在定量投资中的应用显著增加。大型语言模型(LLMs)在语言理解和生成任务中表现优越,且可通过微调适应投资相关应用。
传统的金融新闻应用方法涉及多步骤的特征提取和验证过程,耗时且需额外数据。LLMs 生成的文本数值表示可直接用于预测任务,本文探索通过微调 LLMs 实现新闻到回报的直接预测。相比传统的情感分析或关键词匹配,端到端的微调能够捕捉更复杂的语义信息和上下文依赖关系。
之前有多项研究利用金融文本数据进行预测,包括情感分析和文本表示学习。LLMs(如 BERT、GPT-3)为量化投资中的文本数据预测提供了新方法。LLMs 通过预训练学习语言模式,使用提示技术和微调技术来适应特定任务。一些研究将 LLMs 作为特征提取器,进行金融情感分析和新闻因素提取。本文关注微调 LLMs,直接建模金融新闻文本与数值回报之间的关系,并评估不同 LLMs 的文本表示效果。
投资组合选择基于定量标准,从股票集合 U 中选取子集,定期更新。设定 $r_{s,t+\ell}$ 为股票 s 在时间 t 的 $\ell$ 步前回报,新闻文本 $x_{s,i}$ 用于预测。在时间 t,使用时间窗口 W 内的新闻文本 ${ x_{s,i} }{i \in T{s,<t}}$ 进行回报预测。将新闻文本串联为序列 $X_{s,<t}$,并通过文本表示模块 $g(\cdot)$ 和预测模块 $f(\cdot)$ 构建回报预测模型。模型训练使用数据实例 ${(r_{s,t+\ell}, X_{s,<t})}$,在测试时评估预测误差并进行股票选择。
长期投资组合选择预期上涨的股票,基于回报预测排名选取前 K 只股票。长短期投资组合同时选择预期上涨和下跌的股票,前 K 和后 K 股票均被纳入。这种策略允许做空机制,从而在市场下跌时也能获利,对冲系统性风险。
LLMs 分为三种类型:编码器(encoder-only)、解码器(decoder-only)和混合型(encoder-decoder),它们通过不同的预训练目标生成文本的高维向量表示。
为了将 LLM 生成的 token 表示整合到预测模块中,本文提出了两种主要方法:
对于编码器-only LLMs,使用聚合表示时,预训练和微调之间存在差异,因为每个 token 的表示基于上下文和自身,而非预训练中的 mask token。对于解码器-only LLMs,平均所有表示可能导致对输入序列早期 token 的偏向,因为早期 token 在自回归设置中反复融入后续 token 的表示。实验使用了 DeBERTa、Mistral-7B 和 Llama3-8B 模型,损失函数为均方误差(MSE)。
数据来源于 2003 至 2019 年的公司级金融新闻,涵盖北美、欧洲和新兴市场的投资数据集。这确保了模型在不同市场环境和经济周期下的泛化能力。
长期投资组合基于预测排名的第 9 个分位数构建,长短期投资组合则包括第 9 和第 0 分位数,所有股票均等权重。进行月度再平衡的回测,比较不同 LLM 的预测与基于情感的投资组合(FinBERT 和 FinVADER)。月度再平衡是量化策略中的常见做法,旨在控制交易成本的同时保持策略的时效性。
评估指标包括分位数 RMSE(均方根误差)、精度和收益,以及累计收益图和年化收益、夏普比率等性能统计。夏普比率衡量每单位风险所获得的超额回报,是评估投资策略质量的关键指标。
北美市场的结果显示,聚合表示模型在第 9 分位数的收益普遍高于 Bottleneck 模型,尽管 RMSE 可能较高。第 0 分位数的低收益对长短期组合有利,聚合模型在此分位数的表现不如 Bottleneck 模型,但整体长短期组合的表现有所改善。编码器和解码器 LLM 的比较显示,聚合表示在北美市场表现优于 Bottleneck 表示,欧洲和新兴市场的结果在附录中提供。
解码器模型 Mistral 和 Llama 在第 9 个分位数表现优异,而在第 0 个分位数表现较差,导致其在累积回报图中超越了长仓和长短仓组合。长仓组合在编码器和解码器 LLM 中表现相似,但长短仓组合中,DeBERTa 的短仓拖累了整体表现,强调了有效选股的重要性。这表明解码器模型在捕捉正向信号方面更具优势,而编码器模型可能在捕捉负向信号上存在偏差。
所有基于预测的组合回报均高于市场平均水平。基于预测的组合在回报和夏普比率上优于传统情绪基础组合,且其回报曲线更平滑,短仓降低了组合波动性。预测模型更有效地捕捉文本信息,提升了未来股票表现的选股能力。这意味着 LLM 不仅识别了明显的利好消息,还能理解隐含的市场情绪和复杂因果关系。
本文探讨了利用金融新闻流进行回报预测,以优化量化投资组合,采用微调 LLM 直接建模新闻文本与股票未来回报的关系。
实验结果显示:
未来研究可关注 DeBERTa 在大范围内表现不佳的原因及其在不同小范围内的表现差异,评估新提出的大型编码器 LLM 的效果。此外,还可以探索多模态数据融合,结合量价数据与新闻文本,进一步提升预测精度。
在实际部署中,需要注意计算资源的消耗。Llama3-8B 和 Mistral-7B 虽然效果好,但推理延迟较高。对于高频交易场景,可能需要蒸馏小型模型或使用量化技术加速推理。同时,数据清洗至关重要,金融新闻中包含大量噪音,需要建立有效的过滤机制去除无关信息。此外,模型的可解释性也是金融领域关注的重点,未来的工作可以结合注意力可视化技术分析模型关注了哪些关键词,以增强投资者信任度。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online