Qwen3.5-4B 微调实战:基于 LLaMA-Factory 构建医疗 AI 助手
在垂直领域落地大模型时,微调往往是必经之路。本文将分享如何利用 LLaMA-Factory 框架配合 Qwen3.5-4B 模型,快速构建一个具备专业医疗问答能力的智能助手。
核心工具链
- 基座模型:Qwen3.5-4B(阿里千问系列,效果与显存占用的平衡点)
- 微调框架:LLaMA-Factory(开源社区成熟方案,上手门槛低)
- 数据集:中文医疗问答数据
硬件与环境准备
LoRA 微调对显存要求相对友好。若使用 16-bit LoRA,建议配备 12GB 以上显存的显卡(如 RTX 4070/3090);若显存受限(8GB),可启用 QLoRA 量化方案以空间换精度。
| 微调方式 | 4B 模型显存需求 | 推荐显卡 |
|---|---|---|
| LoRA (16-bit) | ~10-12 GB | RTX 4070 / RTX 3090 |
| QLoRA (8-bit) | ~6-8 GB | RTX 4060 / RTX 3070 |
| QLoRA (4-bit) | ~4-6 GB | RTX 3060 |
软件环境方面,推荐使用 Python 3.11+ 及 PyTorch 2.0 以上版本,CUDA 版本建议 12.x 以获得最佳兼容性。
下载基座模型
国内用户可通过魔搭社区获取模型,速度较快。
# 安装 modelscope
pip install modelscope
# 方式一:Python 代码下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3.5-4B')
print(f"模型已下载到:{model_dir}")
# 方式二:命令行下载
modelscope download --model Qwen/Qwen3.5-4B --local_dir ./models/Qwen3.5-4B
注意:模型文件约 9.3GB,建议在网络稳定时段下载并校验完整性。
搭建 LLaMA-Factory 环境
克隆仓库并安装依赖即可启动:
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .
pip install -r requirements/metrics.txt
# 如需 DeepSpeed 加速(可选)
pip install -r requirements/deepspeed.txt
安装完成后执行以下命令验证环境:
llamafactory-cli version
准备医疗数据集
数据质量直接决定微调效果。推荐使用开源的中文医疗问答数据,例如 GitHub 上的 或 HuggingFace 上的 。


