Qwen3.5-4B 微调实战：基于 LLaMA-Factory 构建医疗 AI 助手 | 极客日志

PythonAI算法

Qwen3.5-4B 微调实战：基于 LLaMA-Factory 构建医疗 AI 助手

基于 LLaMA-Factory 微调 Qwen3.5-4B 模型构建医疗 AI 助手的完整流程。涵盖硬件选型、环境搭建、数据准备、LoRA 配置训练及模型部署。重点解决显存优化、Loss 监控及过拟合问题，最终实现垂直领域专业问答能力。

月光旅人发布于 2026/4/8更新于 2026/7/632 浏览

Qwen3.5-4B 微调实战：基于 LLaMA-Factory 构建医疗 AI 助手

近期协助医疗团队将通用大模型改造为专业助手，现整理全流程供参考。

**技术栈选择：**LLaMA-Factory + Qwen3.5-4B + 医疗问答数据集

Qwen3.5 是阿里最新发布的千问系列模型，4B 参数量在效果与显存占用之间取得了平衡；LLaMA-Factory 则是目前开源社区最成熟的微调框架，上手简单且坑相对较少。

硬件与环境准备

LoRA 微调 4B 模型时，12GB 显存的显卡即可满足需求（如 RTX 4070）。若显存受限（8GB），可考虑 QLoRA 量化方案以空间换精度。

微调方式	4B 模型显存需求	推荐显卡
LoRA (16-bit)	~10-12 GB	RTX 4070 / RTX 3090
QLoRA (8-bit)	~6-8 GB	RTX 4060 / RTX 3070
QLoRA (4-bit)	~4-6 GB	RTX 3060

软件环境建议 Python 3.11+，PyTorch 2.0 以上，CUDA 版本推荐 12.x 以保证兼容性。

下载 Qwen3.5-4B 模型

模型可从魔搭社区下载，国内访问速度较快：

# 安装 modelscope
pip install modelscope

# 方式一：Python 代码下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3.5-4B')
print(f"模型已下载到：{model_dir}")

# 方式二：命令行下载
modelscape download --model Qwen/Qwen3.5-4B --local_dir ./models/Qwen3.5-4B

**注意：**模型体积约 9.3GB，建议挂代理或选择网络空闲时段下载，完成后请校验文件完整性。

搭建 LLaMA-Factory 环境

安装过程较为直接：

# 克隆仓库
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

# 安装依赖
pip install -e .
pip install -r requirements/metrics.txt

# 如需 DeepSpeed 加速（可选）
pip install -r requirements/deepspeed.txt

安装后可运行测试命令确认环境：

llamafactory-cli version

准备医疗数据集

数据质量直接影响微调效果。这里选用开源中文医疗问答数据，来源包括 GitHub 上的 llm-medical-data 仓库及 HuggingFace 的 shibing624/medical 数据集。

LLaMA-Factory 要求的数据格式如下：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

[
    {
        "instruction": "你是一个专业的医疗助手，请根据患者描述给出建议。",
        "input": "我最近总是头痛，尤其是下午的时候，已经持续一周了。",
        "output": "持续性头痛需要关注。建议您先排除以下几个常见原因：1）睡眠质量，2）用眼过度，3）颈椎问题。如果休息后仍不缓解，建议到医院神经内科就诊，做个头部 CT 检查。"
    },
    {
        "instruction": "你是一个专业的医疗助手，请根据患者描述给出建议。",
        "input": "孩子 3 岁，发烧 38.5 度，要不要去医院？",
        "output": "38.5 度属于中度发热。可以先在家观察处理：1）物理降温，温水擦拭腋下、腹股沟；2）保持室内通风；3）多喝水。如果体温超过 39 度、持续超过 3 天、或出现精神萎靡、抽搐等情况，需要立即就医。"
    }
]

{
    "medical_qa": {
        "file_name": "medical_qa.json",
        "columns": {
            "prompt": "instruction",
            "query": "input",
            "response": "output"
        }
    }
}

### 模型配置 ###
model_name_or_path: ./models/Qwen3.5-4B
trust_remote_code: true

### 微调方法 ###
stage: sft
do_train: true
finetuning_type: lora
lora_rank: 64
lora_alpha: 128
lora_target: all

### 数据集配置 ###
dataset: medical_qa
template: qwen3
cutoff_len: 2048
preprocessing_num_workers: 8

### 训练参数 ###
output_dir: ./output/qwen35_medical_lora
per_device_train_batch_size: 2
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
logging_steps: 10
save_steps: 500

### 显存优化 ###
bf16: true
gradient_checkpointing: true

llamafactory-cli train examples/train_lora/qwen35_medical_lora.yaml

tensorboard --logdir=./output/qwen35_medical_lora/runs

llamafactory-cli chat examples/inference/qwen35_medical_lora.yaml

model_name_or_path: ./models/Qwen3.5-4B
adapter_name_or_path: ./output/qwen35_medical_lora
template: qwen3
finetuning_type: lora

llamafactory-cli export examples/merge_lora/qwen35_medical_merge.yaml

model_name_or_path: ./models/Qwen3.5-4B
adapter_name_or_path: ./output/qwen35_medical_lora
template: qwen3
finetuning_type: lora
export_dir: ./models/Qwen35-Medical
export_size: 2
export_device: cuda
export_legacy_format: false

# vLLM 部署
pip install vllm
vllm serve ./models/Qwen35-Medical --port 8000

# 或者 LLaMA-Factory 内置的 API 服务
API_PORT=8000 llamafactory-cli api examples/inference/qwen35_medical.yaml

Qwen3.5-4B 微调实战：基于 LLaMA-Factory 构建医疗 AI 助手

硬件与环境准备

下载 Qwen3.5-4B 模型

搭建 LLaMA-Factory 环境

准备医疗数据集

更多推荐文章

相关免费在线工具

开始微调

测试效果

导出和部署

常见问题与排查

更多推荐文章

相关免费在线工具

Qwen3.5-4B 微调实战：基于 LLaMA-Factory 构建医疗 AI 助手

硬件与环境准备

下载 Qwen3.5-4B 模型

搭建 LLaMA-Factory 环境

准备医疗数据集

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

开始微调

测试效果

导出和部署

常见问题与排查

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具