基于大模型与金融新闻数据微调的股市收益预测研究

研究了利用大型语言模型（LLMs）微调预测股票回报的方法。通过对比编码器和解码器模型，发现聚合 token 表示能提升组合收益。在北美等市场中，解码器模型表现更佳，且优于传统情感评分。实验表明 LLM 微调能有效捕捉文本信息，优化投资组合构建，降低波动性。未来可探索多模态融合及模型可解释性。

栈溢出发布于 2025/2/7更新于 2026/7/2437 浏览

利用大模型与金融新闻数据微调，精准预测股市收益

摘要

本文探讨了通过金融新闻流对大型语言模型（LLMs）进行微调以预测股票回报，强调回报预测在量化投资中的重要性。模型包括文本表示和预测模块，比较了编码器和解码器模型的表现。实验结果显示：LLM 的 token 级嵌入聚合表示能提升长短仓组合的回报预测性能；在较大投资宇宙中，解码器模型表现更强；在小宇宙中无明显优劣；LLM 的文本表示在组合构建中优于传统情感评分。研究表明 LLM 微调在回报预测和组合构建中具有潜力。

引言

量化投资通过提取市场价格、经济指标和金融文本等数据源的量化特征来构建投资组合。近年来，得益于自然语言处理技术的发展，金融新闻文本数据在定量投资中的应用显著增加。大型语言模型（LLMs）在语言理解和生成任务中表现优越，且可通过微调适应投资相关应用。

传统的金融新闻应用方法涉及多步骤的特征提取和验证过程，耗时且需额外数据。LLMs 生成的文本数值表示可直接用于预测任务，本文探索通过微调 LLMs 实现新闻到回报的直接预测。相比传统的情感分析或关键词匹配，端到端的微调能够捕捉更复杂的语义信息和上下文依赖关系。

问题建模

投资组合选择基于定量标准，从股票集合 U 中选取子集，定期更新。设定 $r_{s,t+\ell}$ 为股票 s 在时间 t 的 $\ell$ 步前回报，新闻文本 $x_{s,i}$ 用于预测。在时间 t，使用时间窗口 W 内的新闻文本 ${ x_{s,i} }{i \in T{s,<t}}$ 进行回报预测。将新闻文本串联为序列 $X_{s,<t}$，并通过文本表示模块 $g(\cdot)$ 和预测模块 $f(\cdot)$ 构建回报预测模型。模型训练使用数据实例 ${(r_{s,t+\ell}, X_{s,<t})}$，在测试时评估预测误差并进行股票选择。

长期投资组合选择预期上涨的股票，基于回报预测排名选取前 K 只股票。长短期投资组合同时选择预期上涨和下跌的股票，前 K 和后 K 股票均被纳入。这种策略允许做空机制，从而在市场下跌时也能获利，对冲系统性风险。

方法

LLMs 分为三种类型：编码器（encoder-only）、解码器（decoder-only）和混合型（encoder-decoder），它们通过不同的预训练目标生成文本的高维向量表示。

模型架构差异

编码器 LLMs：使用掩码语言模型（MLM）进行预训练，通过掩码某些令牌来预测缺失的令牌，表示包含左右上下文信息。这使得它们在理解句子整体含义方面非常强大。
解码器 LLMs：采用自回归的下一个令牌预测任务，表示基于已见令牌的信息。这使得它们在生成任务和序列建模上具有优势。

文本表示整合策略

为了将 LLM 生成的 token 表示整合到预测模块中，本文提出了两种主要方法：

瓶颈表示（Bottleneck Representation）：通过在微调时压缩序列信息为单一向量。对于编码器 LLMs，EOS 令牌与掩码令牌一致，有助于有效总结序列特征。这种方法试图让模型学会将整段新闻浓缩为一个关键特征向量。
聚合表示（Aggregation Representation）：针对最后一个 token 的表示崩溃问题，提出了一种简单的替代 Bottleneck 表示的方法，即聚合所有 token 的表示，采用简单的平均方法。这对于解码器 LLMs 尤为重要，因为它们的最后令牌已自然总结整个序列，EOS 令牌冗余。

对于编码器-only LLMs，使用聚合表示时，预训练和微调之间存在差异，因为每个 token 的表示基于上下文和自身，而非预训练中的 mask token。对于解码器-only LLMs，平均所有表示可能导致对输入序列早期 token 的偏向，因为早期 token 在自回归设置中反复融入后续 token 的表示。实验使用了 DeBERTa、Mistral-7B 和 Llama3-8B 模型，损失函数为均方误差（MSE）。

实验设计

数据集

数据来源于 2003 至 2019 年的公司级金融新闻，涵盖北美、欧洲和新兴市场的投资数据集。这确保了模型在不同市场环境和经济周期下的泛化能力。

实验设置

长期投资组合基于预测排名的第 9 个分位数构建，长短期投资组合则包括第 9 和第 0 分位数，所有股票均等权重。进行月度再平衡的回测，比较不同 LLM 的预测与基于情感的投资组合（FinBERT 和 FinVADER）。月度再平衡是量化策略中的常见做法，旨在控制交易成本的同时保持策略的时效性。

基于大模型与金融新闻数据微调的股市收益预测研究

利用大模型与金融新闻数据微调，精准预测股市收益

摘要

引言

相关工作

问题建模

方法

模型架构差异

文本表示整合策略

实验设计

数据集

实验设置

更多推荐文章

相关免费在线工具

评估指标

实验结果与分析

北美市场表现

模型对比

综合收益

总结与展望

技术细节补充

更多推荐文章

相关免费在线工具

基于大模型与金融新闻数据微调的股市收益预测研究

利用大模型与金融新闻数据微调，精准预测股市收益

摘要

引言

相关工作

问题建模

方法

模型架构差异

文本表示整合策略

实验设计

数据集

实验设置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

评估指标

实验结果与分析

北美市场表现

模型对比

综合收益

总结与展望

技术细节补充

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具