Qwen3.5-4B 微调实战：基于 LLaMA-Factory 构建医疗 AI 助手

在垂直领域落地大模型时，微调往往是必经之路。本文将分享如何利用 LLaMA-Factory 框架配合 Qwen3.5-4B 模型，快速构建一个具备专业医疗问答能力的智能助手。

核心工具链

基座模型：Qwen3.5-4B（阿里千问系列，效果与显存占用的平衡点）
微调框架：LLaMA-Factory（开源社区成熟方案，上手门槛低）
数据集：中文医疗问答数据

硬件与环境准备

LoRA 微调对显存要求相对友好。若使用 16-bit LoRA，建议配备 12GB 以上显存的显卡（如 RTX 4070/3090）；若显存受限（8GB），可启用 QLoRA 量化方案以空间换精度。

微调方式	4B 模型显存需求	推荐显卡
LoRA (16-bit)	~10-12 GB	RTX 4070 / RTX 3090
QLoRA (8-bit)	~6-8 GB	RTX 4060 / RTX 3070
QLoRA (4-bit)	~4-6 GB	RTX 3060

软件环境方面，推荐使用 Python 3.11+ 及 PyTorch 2.0 以上版本，CUDA 版本建议 12.x 以获得最佳兼容性。

下载基座模型

国内用户可通过魔搭社区获取模型，速度较快。

# 安装 modelscope
pip install modelscope

# 方式一：Python 代码下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3.5-4B')
print(f"模型已下载到：{model_dir}")

# 方式二：命令行下载
modelscope download --model Qwen/Qwen3.5-4B --local_dir ./models/Qwen3.5-4B

注意：模型文件约 9.3GB，建议在网络稳定时段下载并校验完整性。

搭建 LLaMA-Factory 环境

克隆仓库并安装依赖即可启动：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .
pip install -r requirements/metrics.txt

# 如需 DeepSpeed 加速（可选）
pip install -r requirements/deepspeed.txt

安装完成后执行以下命令验证环境：

llamafactory-cli version

准备医疗数据集

数据质量直接决定微调效果。推荐使用开源的中文医疗问答数据，例如 GitHub 上的或 HuggingFace 上的。

Qwen3.5-4B 微调实战：基于 LLaMA-Factory 构建医疗 AI 助手

Qwen3.5-4B 微调实战：基于 LLaMA-Factory 构建医疗 AI 助手

核心工具链

硬件与环境准备

下载基座模型

搭建 LLaMA-Factory 环境

准备医疗数据集

更多推荐文章

相关免费在线工具

训练配置与执行

测试与部署

常见问题排查

更多推荐文章

相关免费在线工具

Qwen3.5-4B 微调实战：基于 LLaMA-Factory 构建医疗 AI 助手

Qwen3.5-4B 微调实战：基于 LLaMA-Factory 构建医疗 AI 助手

核心工具链

硬件与环境准备

下载基座模型

搭建 LLaMA-Factory 环境

准备医疗数据集

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

训练配置与执行

测试与部署

常见问题排查

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具