ChatGLM 医药行业舆情精选策略与大模型微调指南

本文介绍利用 ChatGLM2 结合 LoRA 技术进行医药行业舆情分析的策略。通过对比直接收益率标签与 ChatGPT 生成标签的效果，发现后者能显著提升模型推理能力。微调后的模型在样本外准确率达 0.84，构建的周度选股策略年化超额收益约 30%，扣除手续费后仍有 12% 以上。文章涵盖微调原理、步骤及量化回测细节，展示了私有化大模型在投研中的应用价值。

lzdxwyh发布于 2025/2/60 浏览

大语言模型微调介绍与一般步骤

在前期对于 ChatGPT 的相关研究中发现，虽然模型展现出了极强的通用领域各项能力，但投研人员也需要在保证数据安全的前提下有一个更加垂直领域的模型来辅助进行投研决策。而大语言模型的微调就提供了一种定制私有化大模型、提升其专业能力的方式。由于全量参数微调对于显卡的消耗巨大，我们着重介绍了各类 PEFT（参数高效型）微调的方法和特点，其中 P-Tuning 和 LoRA 是两种目前表现较好的微调方式。

一般的微调包括定义任务并收集数据、数据加载及预处理、训练和评估这几个步骤。其中数据预处理时，我们需要首先将数据及标签转换为模型支持的数据格式，然后进行 padding 和 truncation 的处理以方便后续进行向量运算。选择合适的超参数后进行多轮训练，最终观察样本内和样本外的模型表现。

Lesson-32910b7985aec

ChatGLM2-LoRA 微调构建的医药行业舆情精选策略

我们选用表现较好的 LoRA 模式针对前期部署的 ChatGLM2 进行微调。为实际测试模型的微调效果，我们在数据选择上，发现医药行业新闻对于公司的业绩影响推导逻辑链条会更加直接，对大模型而言更易于学习。首先进行了直接以收益率为标签进行训练，但发现微调后的模型在样本外的准确率极低，说明由于文本与收益率之间相关性较弱，难以使模型直接学习。

最终我们综合对比各大模型在中文金融领域的能力后，选择首先使用 ChatGPT3.5 的输出结果作为标签让 ChatGLM2 进行学习。结果发现，该标签质量较高，对于未来股价一段时间的超额收益率走势有一定的预测作用。且通过微调后，ChatGLM2 也可以学到相应的逻辑推理能力，达到近似于 ChatGPT3.5 的预测效果，综合准确率达到 0.9 左右。而 FinBERT 模型微调后也有一定的提升，但表现略差于 ChatGLM2。最终我们以微调后的 ChatGLM2-LoRA 模型所给出标签构建医药行业周度舆情精选策略，发现在不考虑手续费的情况年化超额收益率达到 30% 左右。不过由于个股新闻覆盖度的问题，策略换手较高，我们通过换手率缓冲的方式降低换手后，在单边千分之二的情况，策略的年化超额收益率依然有 12.17%。充分说明，通过合适的标签令 ChatGLM2 进行微调学习，可以使其在特定领域能够达到与 ChatGPT3.5 类似的效果。是一种绝佳的能够在控制成本和数据隐私性安全的情况下使用大模型进行投研辅助的方式。

风险提示

大语言模型基于上下文预测进行回答，不能保证回答准确性，由此可能产生误导影响用户判断。
不同的微调方式和超参数选择可能对微调效果产生较大影响，若模型产生过拟合，样本外失效可能会导致策略效果不及预期。
市场若出现超出模型预期的变化，过往逻辑链条适用性下降可能会导致策略失效，需要动态对模型进行微调以修正偏差。

一、大语言模型的微调方式简介

我们在前期的 ChatGPT 量化研究报告中，从各个维度利用 ChatGPT 或其他大语言模型助力量化研究。实证结果发现，ChatGPT 在处理非结构化的文本数据上有得天独厚的优势，针对给定金融文本进行情感分析从而判断投资标的的预期收益能够在行业轮动策略上取得良好效果。同时，ChatGPT 在逻辑推理方面同样具有出色表现，针对一些新闻事件可能对于相关资产价格产生的影响也具有较强的预测能力。

不过，纯粹依赖 ChatGPT 作为投研辅助工具仍然存在以下问题：

作为一个通用的大语言模型，ChatGPT 对于金融领域的很多具体概念和知识并不掌握，对于较专业的金融术语会出现错误理解并给出错误判断。 ChatGPT 本身并未开源，若需使用则只能通过网页对话或 API 接口调用的方式解决，这一方面对于关注数据隐私性的投资者来说是一个亟需解决的问题，而另一方面，长期、大量的使用依然会产生高昂的费用。

因此，我们在上篇报告中详细阐述了国产开源大语言模型 ChatGLM 的部署和使用，通过 Langchain 知识库挂载的方式提升了 ChatGLM 的专业知识和问答能力。在本篇报告中，我们将通过微调的方式，对模型重新训练，从而进一步提升 ChatGLM 的实际投研辅助能力。

1.1 大语言模型微调应用案例

现在通用的大部分大语言模型基本都是使用海量的文本语料数据进行训练，从而给了模型较强的泛化性能，在各个领域都能回答一些基础问题。但并不能立即适用于我们特定的任务需求。

而微调（Fine-Tuning）就能很好的解决这一问题，通过将一个预训练（Pre-Trained）好的模型在一些特定语料、特定任务上进一步训练来大幅增强模型的针对性和专业性。微调目前已经出现了很多比较成功的应用案例，包括机器翻译、情感分析、实体识别、特定类型的文本生成。

在医学领域，已有比较多的问诊类模型出现，BianQue, Med-ChatGLM 等都是基于国产大模型 ChatGLM 进行微调训练得到的。

Lesson-307af6aab19d9