近期协助医疗团队将通用大模型改造为专业助手,现整理全流程供参考。
**技术栈选择:**LLaMA-Factory + Qwen3.5-4B + 医疗问答数据集
Qwen3.5 是阿里最新发布的千问系列模型,4B 参数量在效果与显存占用之间取得了平衡;LLaMA-Factory 则是目前开源社区最成熟的微调框架,上手简单且坑相对较少。
硬件与环境准备
LoRA 微调 4B 模型时,12GB 显存的显卡即可满足需求(如 RTX 4070)。若显存受限(8GB),可考虑 QLoRA 量化方案以空间换精度。
| 微调方式 | 4B 模型显存需求 | 推荐显卡 |
|---|---|---|
| LoRA (16-bit) | ~10-12 GB | RTX 4070 / RTX 3090 |
| QLoRA (8-bit) | ~6-8 GB | RTX 4060 / RTX 3070 |
| QLoRA (4-bit) | ~4-6 GB | RTX 3060 |
软件环境建议 Python 3.11+,PyTorch 2.0 以上,CUDA 版本推荐 12.x 以保证兼容性。
下载 Qwen3.5-4B 模型
模型可从魔搭社区下载,国内访问速度较快:
# 安装 modelscope
pip install modelscope
# 方式一:Python 代码下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3.5-4B')
print(f"模型已下载到:{model_dir}")
# 方式二:命令行下载
modelscape download --model Qwen/Qwen3.5-4B --local_dir ./models/Qwen3.5-4B
**注意:**模型体积约 9.3GB,建议挂代理或选择网络空闲时段下载,完成后请校验文件完整性。
搭建 LLaMA-Factory 环境
安装过程较为直接:
# 克隆仓库
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
# 安装依赖
pip install -e .
pip install -r requirements/metrics.txt
# 如需 DeepSpeed 加速(可选)
pip install -r requirements/deepspeed.txt
安装后可运行测试命令确认环境:
llamafactory-cli version
准备医疗数据集
数据质量直接影响微调效果。这里选用开源中文医疗问答数据,来源包括 GitHub 上的 llm-medical-data 仓库及 HuggingFace 的 shibing624/medical 数据集。
LLaMA-Factory 要求的数据格式如下:


