Qwen3.5-4B 微调实战:LLaMA-Factory 打造医疗AI助手

Qwen3.5-4B 微调实战:LLaMA-Factory 打造医疗AI助手

最近在帮一个医疗创业团队做技术支持,他们想把通用大模型改造成能回答专业医疗问题的智能助手。今天就把整个过程整理出来,希望对有类似需求的朋友有所帮助。

核心工具链:LLaMA-Factory + Qwen3.5-4B + 医疗问答数据集

Qwen3.5 是阿里最新发布的千问系列模型,4B 参数量刚好卡在"效果够用 + 显存友好"的甜蜜点;LLaMA-Factory 则是目前开源社区最成熟的微调框架,上手简单,坑也相对少。

准备工作

先说硬件要求。4B 模型用 LoRA 微调的话,一张 12GB 显存的显卡就够了(比如 RTX 4070)。如果手头只有 8GB 显存的卡,可以上 QLoRA 量化方案,牺牲一点精度换显存空间。

微调方式

4B 模型显存需求

推荐显卡

LoRA (16-bit)

~10-12 GB

RTX 4070 / RTX 3090

QLoRA (8-bit)

~6-8 GB

RTX 4060 / RTX 3070

QLoRA (4-bit)

~4-6 GB

RTX 3060

软件环境这边,建议 Python 3.11+,PyTorch 2.0 以上。CUDA 版本最好 12.x,兼容性更好。

下载 Qwen3.5-4B 模型

模型从魔搭社区下载,国内速度很快:

# 安装 modelscope pip install modelscope # 方式一:Python 代码下载 from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3.5-4B') print(f"模型已下载到: {model_dir}") # 方式二:命令行下载 modelscope download --model Qwen/Qwen3.5-4B --local_dir ./models/Qwen3.5-4B

💡 小贴士:模型大约 9.3GB,建议挂个代理或者选择网络好的时间段下载。下载完记得检查一下文件完整性。

搭建 LLaMA-Factory 环境

LLaMA-Factory 的安装很直接:

# 克隆仓库 git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory # 安装依赖 pip install -e . pip install -r requirements/metrics.txt # 如果需要 DeepSpeed 加速(可选) pip install -r requirements/deepspeed.txt

装完之后可以跑一下测试命令确认环境没问题:

llamafactory-cli version

准备医疗数据集

数据集是微调效果的关键。这里用的是开源的中文医疗问答数据,主要来自几个渠道:

数据来源推荐:

GitHub 上有个 llm-medical-data 仓库,整理了几十万条医疗问答数据,覆盖内科、外科、妇产科、儿科等科室。另外 HuggingFace 上的 shibing624/medical 数据集也不错,格式比较规范。

LLaMA-Factory 要求的数据格式是这样的:

[ { "instruction": "你是一个专业的医疗助手,请根据患者描述给出建议。", "input": "我最近总是头痛,尤其是下午的时候,已经持续一周了。", "output": "持续性头痛需要关注。建议您先排除以下几个常见原因:1)睡眠质量,2)用眼过度,3)颈椎问题。如果休息后仍不缓解,建议到医院神经内科就诊,做个头部CT检查。" }, { "instruction": "你是一个专业的医疗助手,请根据患者描述给出建议。", "input": "孩子3岁,发烧38.5度,要不要去医院?", "output": "38.5度属于中度发热。可以先在家观察处理:1)物理降温,温水擦拭腋下、腹股沟;2)保持室内通风;3)多喝水。如果体温超过39度、持续超过3天、或出现精神萎靡、抽搐等情况,需要立即就医。" }, ... ]

把处理好的数据放到 data/ 目录下,然后在 data/dataset_info.json 里注册:

{ "medical_qa": { "file_name": "medical_qa.json", "columns": { "prompt": "instruction", "query": "input", "response": "output" } } }

开始微调

配置文件是整个流程的核心。在 examples/train_lora/ 下创建一个 qwen35_medical_lora.yaml:

### 模型配置 ### model_name_or_path: ./models/Qwen3.5-4B trust_remote_code: true ### 微调方法 ### stage: sft do_train: true finetuning_type: lora lora_rank: 64 lora_alpha: 128 lora_target: all ### 数据集配置 ### dataset: medical_qa template: qwen3 cutoff_len: 2048 preprocessing_num_workers: 8 ### 训练参数 ### output_dir: ./output/qwen35_medical_lora per_device_train_batch_size: 2 gradient_accumulation_steps: 8 learning_rate: 1.0e-4 num_train_epochs: 3.0 lr_scheduler_type: cosine warmup_ratio: 0.1 logging_steps: 10 save_steps: 500 ### 显存优化 ### bf16: true gradient_checkpointing: true

参数解读:
• lora_rank: 64 —— LoRA 秩,越大表达能力越强,但显存占用也越大
• lora_target: all —— 对所有线性层应用 LoRA,效果更好
• gradient_checkpointing: true —— 用时间换空间,降低显存占用

一切就绪,启动训练:

llamafactory-cli train \ examples/train_lora/qwen35_medical_lora.yaml

训练过程中可以通过 TensorBoard 监控 loss 曲线:

tensorboard --logdir=./output/qwen35_medical_lora/runs

在我的测试环境(RTX 4090)上,1万条数据训练 3 个 epoch 大约需要 40 分钟。

测试效果

训练完成后,先在命令行跑个快速测试:

llamafactory-cli chat \ examples/inference/qwen35_medical_lora.yaml

对应的推理配置文件 qwen35_medical_lora.yaml:

model_name_or_path: ./models/Qwen3.5-4B adapter_name_or_path: ./output/qwen35_medical_lora template: qwen3 finetuning_type: lora

实测下来,微调后的模型在医疗问答上明显比原版更专业。比如问"孕妇能不能吃螃蟹",原版模型可能给个模棱两可的回答,微调后的版本会从中医寒凉属性、现代营养学、个体差异等多个角度分析,更像一个有经验的医生。

导出和部署

如果效果满意,可以把 LoRA 权重合并到基座模型里,方便后续部署:

llamafactory-cli export \ examples/merge_lora/qwen35_medical_merge.yaml

合并配置:

model_name_or_path: ./models/Qwen3.5-4B adapter_name_or_path: ./output/qwen35_medical_lora template: qwen3 finetuning_type: lora export_dir: ./models/Qwen35-Medical export_size: 2 export_device: cuda export_legacy_format: false

合并后的模型可以直接用 vLLM 或者 SGLang 部署成 API 服务:

# vLLM 部署 pip install vllm vllm serve ./models/Qwen35-Medical \ --port 8000 # 或者 LLaMA-Factory 内置的 API 服务 API_PORT=8000 llamafactory-cli api \ examples/inference/qwen35_medical.yaml

踩坑记录

分享几个我遇到过的问题:

1. 显存不够用

把 per_device_train_batch_size 调小,或者启用 gradient_checkpointing。实在不行就上 4-bit 量化。

2. Loss 不下降

检查数据格式是否正确,尤其是 dataset_info.json 里的字段映射。另外学习率不要设太大,1e-4 到 5e-5 之间比较稳。

3. 微调后模型变傻了

可能是数据质量问题,或者训练轮数太多导致过拟合。适当减少 epoch 数,或者在数据里混入一些通用对话保持泛化能力。

医疗领域的 AI 应用一定要注意:模型输出仅供参考,不能替代专业医生的诊断。在产品设计时要做好免责声明和人工审核机制。

整个流程走下来,从环境搭建到模型部署,熟练的话半天就能搞定。LLaMA-Factory 确实把微调的门槛降低了很多,配合 Qwen3.5 这样的高质量基座模型,普通开发者也能做出效果不错的垂直领域 AI 助手。

当然,真要做成产品级的医疗 AI,还需要在数据质量、安全合规、持续迭代等方面下功夫。但至少,迈出第一步没那么难。

Read more

2026年AI编程工具推荐:从Copilot到Trae,开发者该如何选型?

2026年AI编程工具推荐:从Copilot到Trae,开发者该如何选型?

面对琳琅满目的AI编程工具,字节跳动的Trae正以其本土化优势和工程级代码生成能力,悄然改变着中国开发者的工作流。 “有没有一个能完美适应国内网络环境,理解中文开发需求的AI编程工具?” 当字节跳动推出Trae时,这个问题开始有了清晰答案。与需要科学上网的Cursor、订阅费用昂贵的GitHub Copilot不同,Trae作为原生AI IDE,深度结合了中国开发者的实际工作环境。 一个有趣的现象是,越来越多的中国开发者开始将Trae与VS Code的无缝迁移体验作为选择标准之一。这种“无感切换”正成为本土AI编程工具获取用户的关键策略。 01 核心选型维度 开发者选择AI编程工具时往往陷入功能对比的细节中,而忽略了更本质的匹配度问题。真正影响工作效率的,不是工具宣传的“强大功能”,而是工具与开发者身份、工作场景的契合程度。 对于中国开发者而言,选型维度需要特别增加本土化适配这一项。网络稳定性、中文语境理解、本地支付便利性以及是否符合国内数据安全法规,这些在评估海外工具时常被忽略的因素,实际上决定了工具能否真正融入日常工作流。 不同规模的团队对AI编程工具的需求差异显著

微信群“智”变:扣子机器人无缝接入实战

微信群“智”变:扣子机器人无缝接入实战

一、引言 在数字化时代,微信群已经成为人们日常沟通、工作协作和社群运营的重要阵地。但随着群成员数量的增加和信息交流的日益频繁,群管理的难度也在不断攀升。想象一下,你运营着一个几百人的技术交流群,每天要回复大量重复的问题,还要时刻关注群内动态,防止广告和不良信息的干扰,这无疑是一项耗时耗力的工作。 这时,扣子(Coze)机器人的出现,为我们解决这些问题提供了新的思路。扣子机器人是一款强大的人工智能工具,它能够理解自然语言,执行各种任务,如自动回复问题、智能提醒、信息整理等 。将扣子机器人无缝接入微信群,就相当于为你的微信群配备了一位不知疲倦、反应迅速的智能助手,能够大大提升群管理的效率和质量,让你的微信群运营更加轻松高效。接下来,本文将详细介绍如何将扣子机器人接入微信群,让我们一起开启微信群智能管理的新篇章。 二、准备工作 2.1 注册与账号准备 要使用扣子机器人,首先需要在扣子平台进行注册。打开扣子平台的官方网站,点击注册按钮,按照提示填写有效的邮箱地址、设置密码,并完成人机验证。注册成功后,系统会发送一封验证邮件到您填写的邮箱,点击邮件中的验证链接,激活账号。 登录扣子

Mission Planner无人机地面站软件:从入门到精通的完整指南

Mission Planner无人机地面站软件:从入门到精通的完整指南 【免费下载链接】MissionPlanner 项目地址: https://gitcode.com/gh_mirrors/mis/MissionPlanner 想要轻松掌控无人机飞行任务,实现专业级的空中操作?Mission Planner作为功能全面的无人机控制软件,将复杂的飞行管理转化为直观的可视化体验。这款地面站系统不仅提供实时监控能力,更集成了完整的任务规划工具,满足从新手到专家的多层次需求。 🎯 为什么选择Mission Planner? 核心价值:你的智能飞行管家 想象一下,当你面对复杂的飞行参数时,Mission Planner就像一位经验丰富的飞行教官,帮你把专业术语转化为易懂的操作指南。无论你是航拍爱好者还是专业测绘人员,这款软件都能成为你最可靠的飞行伙伴。 关键优势:一应俱全的飞行解决方案 * 实时数据监控:飞行高度、GPS定位、电池状态一目了然 * 智能任务规划:从简单航点到复杂条件判断的全覆盖 * 硬件配置管理:支持主流飞控设备的参数优化 * 多场景应用:航拍、测绘、

HarmonyOS 5.0物联网开发实战:基于星闪(NearLink)技术的智能家居边缘计算网关

HarmonyOS 5.0物联网开发实战:基于星闪(NearLink)技术的智能家居边缘计算网关

文章目录 * 每日一句正能量 * 前言 * 一、物联网通信技术演进与星闪机遇 * 1.1 传统智能家居痛点 * 1.2 星闪(NearLink)技术架构 * 二、系统架构设计 * 2.1 核心模块划分 * 三、核心代码实现 * 3.1 星闪(NearLink)接入管理 * 3.2 边缘AI推理引擎 * 3.3 智能场景引擎 * 四、网关主界面实现 * 五、总结与物联网价值 每日一句正能量 自律是反人性的,所以,刚开始的几秒,势必会挣扎,打退堂鼓,但只要克服了,之后的神清气爽,会让你感谢自己最初那几秒的坚持。 前言 摘要: 本文基于HarmonyOS 5.0.0版本,