基于中文金融知识的 LLaMA 系微调模型智能问答系统
本项目基于 LLaMA 系列基座模型,经过中文金融知识指令精调(Instruct-tuning)构建而成。通过整合中文金融公开问答数据与爬取的金融垂直领域数据,构建了高质量的指令数据集,并在此基础上对 LLaMA 系模型进行了指令微调,显著提升了模型在金融领域的问答效果。
1. 环境安装
首先安装依赖包,建议 Python 环境版本为 3.9 及以上。
pip install -r requirements.txt
其次安装 Git LFS 以便本地下载大模型权重文件。
git lfs install
# 下载 7B 模型到本地
bash ./base_models/load.sh
2. 模型下载
LoRA 权重可以通过 Huggingface 下载,目录结构如下:
Fin-Alpaca-LoRA-7B-Meta/
- adapter_config.json # LoRA 权重配置文件
- adapter_model.bin # LoRA 权重文件
模型对比表
| LoRA 模型 | 分类 | 重构模型 | 训练数据量 | 训练序列长度 | 版本 |
|---|---|---|---|---|---|
| Fin-Alpaca-LoRA-7B-Meta | 中文金融问答微调模型 | decapoda-research/llama-7b-hf | 12M 指令数据 | 512 | V1.0 |
| Fin-Alpaca-LoRA-7B-Linly | 中文金融问答微调模型 | Linly-AI/Chinese-LLaMA-7B | 14M 指令数据 | 512 | V1.1 |
3. 推理测试
目前在 ./instruction_data/infer.json 中提供了一些测试用例,也可替换成其它的数据集但注意格式保持一致。
运行 infer 脚本进行单模型推理或多模型对比测试:
# 单模型推理
bash ./scripts/infer.sh
# 多模型对比
bash ./scripts/comparison_test.sh
4. 数据集构建
此前版本采用了公开和爬取的中文金融领域问答数据,涉及保险、理财、股票、基金、贷款、信用卡、社保等细分领域。
指令数据示例
{
"instruction":


