基于中文金融知识的 LLaMA 系微调模型智能问答系统

本项目基于 LLaMA 系列基座模型，经过中文金融知识指令精调（Instruct-tuning）构建而成。通过整合中文金融公开问答数据与爬取的金融垂直领域数据，构建了高质量的指令数据集，并在此基础上对 LLaMA 系模型进行了指令微调，显著提升了模型在金融领域的问答效果。

1. 环境安装

首先安装依赖包，建议 Python 环境版本为 3.9 及以上。

pip install -r requirements.txt

其次安装 Git LFS 以便本地下载大模型权重文件。

git lfs install

# 下载 7B 模型到本地
bash ./base_models/load.sh

2. 模型下载

LoRA 权重可以通过 Huggingface 下载，目录结构如下：

Fin-Alpaca-LoRA-7B-Meta/
   - adapter_config.json   # LoRA 权重配置文件
   - adapter_model.bin     # LoRA 权重文件

模型对比表

LoRA 模型	分类	重构模型	训练数据量	训练序列长度	版本
Fin-Alpaca-LoRA-7B-Meta	中文金融问答微调模型	decapoda-research/llama-7b-hf	12M 指令数据	512	V1.0
Fin-Alpaca-LoRA-7B-Linly	中文金融问答微调模型	Linly-AI/Chinese-LLaMA-7B	14M 指令数据	512	V1.1

3. 推理测试

目前在 ./instruction_data/infer.json 中提供了一些测试用例，也可替换成其它的数据集但注意格式保持一致。

运行 infer 脚本进行单模型推理或多模型对比测试：

# 单模型推理
bash ./scripts/infer.sh

# 多模型对比
bash ./scripts/comparison_test.sh

4. 数据集构建

此前版本采用了公开和爬取的中文金融领域问答数据，涉及保险、理财、股票、基金、贷款、信用卡、社保等细分领域。

指令数据示例

{
    "instruction": "办理商业汇票应遵守哪些原则和规定？",
    "input": "",
    "output": "办理商业汇票应遵守下列原则和规定：1.使用商业汇票的单位，必须是在银行开立帐户的法人；2.商业汇票在同城和异地均可使用..."
}

针对此前数据仍存在不准确和类型单一等不完善的地方，目前利用 GPT3.5/4.0 接口进一步优化数据，并扩充中文金融知识库。设置多种 Prompt 形式、multi-task 形式拓展丰富指令数据集，实现金融领域多业务场景覆盖。

数据增强策略

数据清洗：去除重复、低质量及包含敏感信息的样本。
多样性生成：利用大模型 API 对同一问题进行多角度改写，增加输入多样性。
负样本构造：引入部分错误回答作为负样本，提升模型的判别能力。

5. 微调 (Fine-tune)

若想用自己的数据集微调 LLaMA，请按照 ./instruction_data/fin_data.json 的格式构建自己的数据集。

微调参数配置

在微调过程中，关键超参数包括学习率、Batch Size 和 Epochs。推荐使用以下默认配置作为起点：

Learning Rate: 2e-5
Weight Decay: 0.01
Warmup Ratio: 0.03
Max Steps: 根据数据集大小动态调整

运行 finetune 脚本：

bash ./scripts/finetune.sh

6. 训练细节

6.1 计算资源需求

目前训练设备为一张 A100-SXM-80GB 显卡，训练总轮次 10 轮。

batch_size=64：显存占用约 40G。
batch_size=96：显存占用约 65G。

预计 3090/4090 显卡 (24GB 显存) 以上显卡可以较好支持，需根据显存大小调整 batch_size 或开启梯度累积（Gradient Accumulation）。

6.2 实验记录

训练过程中的 Loss 下降曲线及验证集表现是评估模型收敛情况的关键指标。通常观察到 Loss 在前几个 epoch 快速下降，随后趋于平稳。

6.3 模型效果对比

下表展示了不同模型在特定金融问题上的输出对比：

测试输入	原始 Llama 输出	Cornucopia(Fin-Alpaca-LoRA-7B-Meta) 输出	Cornucopia(Fin-Alpaca-LoRA-7B-Linly) 输出	文心一言输出	讯飞星火认知输出
老年人理财好还是存定期好？	老年人的理财办法应该适合于自身情况...	若投资者风险承受能力比较高，那么可以选择理财产品进行投资...	对于风险承受能力比较低的老年人来说，选择定期存款比较好...	老年人存定期比较好。老年人没工作收入...	作为 AI 语言模型，我没有个人观点和建议...
股票和基金能当天随买随卖吗？	Yes, stocks and funds can be bought...	不能，股票和基金实行 T+1 交易...	不能，股票交易时间：周一至周五上午 9:30-11:30...	不可以，股票基金实行 T+1 交易...	股票和基金的交易方式因不同的证券市场而异...

从对比结果可见，经过金融领域微调的模型在专业术语使用和逻辑准确性上优于通用大模型。

7. 提示词模板 (Prompt Templates)

此目录包含用于 LoRA 微调 LLaMa 模型的提示的模板样式。

7.1 模板结构

模板是通过一个 JSON 文件描述的，该文件包含以下键：

prompt_input: 当 input 不为 None 时使用的模板。使用 {instruction} 和 {input} 占位符。
prompt_no_input: 当 input 为 None 时使用的模板。使用 {instruction} 占位符。
description: 模板的简短描述及适用场景。
response_split: 用于从模型输出中切割真实响应的分隔符文本。

未使用 {response} 占位符，因为响应始终是模板的最后一个元素，只需拼接即可。

7.2 模板案例

默认模板除非另有指定，否则使用 alpaca.json。

{
    "description": "Template used by Alpaca-LoRA.",
    "prompt_input": "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Input:\n{input}\n\n### Response:\n",
    "prompt_no_input": "Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Response:\n",
    "response_split": "### Response:"
}

7.3 现有模板说明

7.3.1 alpaca

到目前为止，用于通用 LoRA 微调的默认模板。

7.3.2 alpaca_legacy

原始羊驼使用的旧模板，响应字段后没有换行符。保留以供参考和实验。

7.3.3 alpaca_short

一个修剪过的羊驼模板，它似乎也表现得很好，并节省了一些 tokens。使用默认模板创建的模型似乎也可以通过短时间查询。

8. 提示构建模块

prompter.py

Prompter class, a template manager.

from utils.prompter import Prompter

9. 模型部署与优化

为了在实际生产环境中高效使用该模型，建议采用以下步骤进行部署。

9.1 量化加速

对于显存受限的场景，可以使用 GGUF 或 AWQ 量化技术将模型压缩至 4bit 或 8bit，在保持精度损失可控的前提下大幅降低显存占用。

9.2 API 服务化

使用 FastAPI 封装推理接口，结合 uvicorn 进行异步处理，以支持高并发请求。

from fastapi import FastAPI
import torch

app = FastAPI()

@app.post("/chat")
def chat(instruction: str):
    # 调用模型推理逻辑
    response = model.generate(instruction)
    return {"answer": response}

9.3 性能监控

在生产环境中，应集成 Prometheus 和 Grafana 监控 GPU 利用率、推理延迟及 QPS，以便及时发现瓶颈并进行扩容。

10. 常见问题排查

显存溢出 (OOM)：尝试减小 batch_size，启用 gradient checkpointing，或使用 DeepSpeed ZeRO 优化。
推理速度慢：检查是否使用了 Flash Attention，或考虑使用 vLLM 等高性能推理引擎。
幻觉严重：在 Prompt 中加入'请基于已知事实回答'的约束，或增加 Few-shot 示例。

本系统旨在提供一个可复现、可扩展的金融领域大模型微调方案，帮助开发者快速构建垂直领域的智能问答应用。

基于中文金融知识的 LLaMA 系微调模型智能问答系统