本文将分享基于 LLaMA-Factory 微调 Qwen3.5-4B 构建医疗 AI 助手的完整流程。核心工具链为 LLaMA-Factory + Qwen3.5-4B + 医疗问答数据集。
Qwen3.5 是阿里最新发布的千问系列模型,4B 参数量在效果与显存占用之间取得了很好的平衡;LLaMA-Factory 则是目前开源社区最成熟的微调框架,上手简单且坑相对较少。
准备工作
先说硬件要求。使用 LoRA 微调 4B 模型的话,一张 12GB 显存的显卡就够了(比如 RTX 4070)。如果手头只有 8GB 显存的卡,可以上 QLoRA 量化方案,牺牲一点精度换显存空间。
| 微调方式 | 4B 模型显存需求 | 推荐显卡 |
|---|---|---|
| LoRA (16-bit) | ~10-12 GB | RTX 4070 / RTX 3090 |
| QLoRA (8-bit) | ~6-8 GB | RTX 4060 / RTX 3070 |
| QLoRA (4-bit) | ~4-6 GB | RTX 3060 |
软件环境建议 Python 3.11+,PyTorch 2.0 以上。CUDA 版本最好 12.x,兼容性更好。
下载 Qwen3.5-4B 模型
模型从魔搭社区下载,国内速度很快:
# 安装 modelscope
pip install modelscope
方式一:Python 代码下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3.5-4B')
print(f"模型已下载到:{model_dir}")
方式二:命令行下载
modelscope download --model Qwen/Qwen3.5-4B --local_dir ./models/Qwen3.5-4B
注意: 模型大约 9.3GB,建议挂个代理或者选择网络好的时间段下载。下载完记得检查一下文件完整性。
搭建 LLaMA-Factory 环境
LLaMA-Factory 的安装很直接:
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .
pip install -r requirements/metrics.txt
# 如果需要 DeepSpeed 加速(可选)
pip install -r requirements/deepspeed.txt
装完之后可以跑一下测试命令确认环境没问题:
llamafactory-cli version
准备医疗数据集
数据集是微调效果的关键。这里用的是开源的中文医疗问答数据,主要来自几个渠道:GitHub 上的 llm-medical-data 仓库整理了几十万条医疗问答数据,覆盖内科、外科、妇产科、儿科等科室。另外 HuggingFace 上的 shibing624/medical 数据集也不错,格式比较规范。


