基于 LLaMA-Factory 的 Qwen3.5-4B 医疗助手微调指南
针对垂直领域的医疗问答场景,利用开源大模型构建专业助手已成为趋势。Qwen3.5-4B 参数量适中,在效果与显存占用之间取得了不错的平衡;配合 LLaMA-Factory 这一成熟框架,开发者可以快速完成从环境搭建到模型部署的全流程。
硬件与环境准备
LoRA 微调对显存要求相对友好。对于 4B 模型,12GB 显存的显卡(如 RTX 4070)即可满足基础需求。若资源有限,QLoRA 量化方案能进一步降低门槛。
| 微调方式 | 4B 模型显存需求 | 推荐显卡 |
|---|---|---|
| LoRA (16-bit) | ~10-12 GB | RTX 4070 / RTX 3090 |
| QLoRA (8-bit) | ~6-8 GB | RTX 4060 / RTX 3070 |
| QLoRA (4-bit) | ~4-6 GB | RTX 3060 |
软件层面建议 Python 3.11+,PyTorch 2.0 以上,CUDA 版本推荐 12.x 以保证兼容性。
模型下载与安装
获取基座模型
国内用户推荐使用魔搭社区下载,速度较快:
# 方式一:Python 脚本下载
pip install modelscope
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3.5-4B')
print(f"模型已下载到:{model_dir}")
# 方式二:命令行下载
modelscape download --model Qwen/Qwen3.5-4B --local_dir ./models/Qwen3.5-4B
*注意:模型体积约 9.3GB,建议预留足够空间并校验文件完整性。
搭建 LLaMA-Factory 环境
克隆仓库并安装依赖:
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .
pip install -r requirements/metrics.txt
# 如需 DeepSpeed 加速可额外安装
pip install -r requirements/deepspeed.txt
安装完成后执行 llamafactory-cli version 确认环境正常。
数据集构建
数据质量直接决定微调上限。医疗领域建议使用结构清晰的问答对,覆盖内科、外科等常见科室。
LLaMA-Factory 支持 JSON 格式,字段映射如下:
[
{
"instruction":


