Qwen3.5-4B 微调实战:LLaMA-Factory 打造医疗AI助手

Qwen3.5-4B 微调实战:LLaMA-Factory 打造医疗AI助手

最近在帮一个医疗创业团队做技术支持,他们想把通用大模型改造成能回答专业医疗问题的智能助手。今天就把整个过程整理出来,希望对有类似需求的朋友有所帮助。

核心工具链:LLaMA-Factory + Qwen3.5-4B + 医疗问答数据集

Qwen3.5 是阿里最新发布的千问系列模型,4B 参数量刚好卡在"效果够用 + 显存友好"的甜蜜点;LLaMA-Factory 则是目前开源社区最成熟的微调框架,上手简单,坑也相对少。

准备工作

先说硬件要求。4B 模型用 LoRA 微调的话,一张 12GB 显存的显卡就够了(比如 RTX 4070)。如果手头只有 8GB 显存的卡,可以上 QLoRA 量化方案,牺牲一点精度换显存空间。

微调方式

4B 模型显存需求

推荐显卡

LoRA (16-bit)

~10-12 GB

RTX 4070 / RTX 3090

QLoRA (8-bit)

~6-8 GB

RTX 4060 / RTX 3070

QLoRA (4-bit)

~4-6 GB

RTX 3060

软件环境这边,建议 Python 3.11+,PyTorch 2.0 以上。CUDA 版本最好 12.x,兼容性更好。

下载 Qwen3.5-4B 模型

模型从魔搭社区下载,国内速度很快:

# 安装 modelscope pip install modelscope # 方式一:Python 代码下载 from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3.5-4B') print(f"模型已下载到: {model_dir}") # 方式二:命令行下载 modelscope download --model Qwen/Qwen3.5-4B --local_dir ./models/Qwen3.5-4B

💡 小贴士:模型大约 9.3GB,建议挂个代理或者选择网络好的时间段下载。下载完记得检查一下文件完整性。

搭建 LLaMA-Factory 环境

LLaMA-Factory 的安装很直接:

# 克隆仓库 git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory # 安装依赖 pip install -e . pip install -r requirements/metrics.txt # 如果需要 DeepSpeed 加速(可选) pip install -r requirements/deepspeed.txt

装完之后可以跑一下测试命令确认环境没问题:

llamafactory-cli version

准备医疗数据集

数据集是微调效果的关键。这里用的是开源的中文医疗问答数据,主要来自几个渠道:

数据来源推荐:

GitHub 上有个 llm-medical-data 仓库,整理了几十万条医疗问答数据,覆盖内科、外科、妇产科、儿科等科室。另外 HuggingFace 上的 shibing624/medical 数据集也不错,格式比较规范。

LLaMA-Factory 要求的数据格式是这样的:

[ { "instruction": "你是一个专业的医疗助手,请根据患者描述给出建议。", "input": "我最近总是头痛,尤其是下午的时候,已经持续一周了。", "output": "持续性头痛需要关注。建议您先排除以下几个常见原因:1)睡眠质量,2)用眼过度,3)颈椎问题。如果休息后仍不缓解,建议到医院神经内科就诊,做个头部CT检查。" }, { "instruction": "你是一个专业的医疗助手,请根据患者描述给出建议。", "input": "孩子3岁,发烧38.5度,要不要去医院?", "output": "38.5度属于中度发热。可以先在家观察处理:1)物理降温,温水擦拭腋下、腹股沟;2)保持室内通风;3)多喝水。如果体温超过39度、持续超过3天、或出现精神萎靡、抽搐等情况,需要立即就医。" }, ... ]

把处理好的数据放到 data/ 目录下,然后在 data/dataset_info.json 里注册:

{ "medical_qa": { "file_name": "medical_qa.json", "columns": { "prompt": "instruction", "query": "input", "response": "output" } } }

开始微调

配置文件是整个流程的核心。在 examples/train_lora/ 下创建一个 qwen35_medical_lora.yaml:

### 模型配置 ### model_name_or_path: ./models/Qwen3.5-4B trust_remote_code: true ### 微调方法 ### stage: sft do_train: true finetuning_type: lora lora_rank: 64 lora_alpha: 128 lora_target: all ### 数据集配置 ### dataset: medical_qa template: qwen3 cutoff_len: 2048 preprocessing_num_workers: 8 ### 训练参数 ### output_dir: ./output/qwen35_medical_lora per_device_train_batch_size: 2 gradient_accumulation_steps: 8 learning_rate: 1.0e-4 num_train_epochs: 3.0 lr_scheduler_type: cosine warmup_ratio: 0.1 logging_steps: 10 save_steps: 500 ### 显存优化 ### bf16: true gradient_checkpointing: true

参数解读:
• lora_rank: 64 —— LoRA 秩,越大表达能力越强,但显存占用也越大
• lora_target: all —— 对所有线性层应用 LoRA,效果更好
• gradient_checkpointing: true —— 用时间换空间,降低显存占用

一切就绪,启动训练:

llamafactory-cli train \ examples/train_lora/qwen35_medical_lora.yaml

训练过程中可以通过 TensorBoard 监控 loss 曲线:

tensorboard --logdir=./output/qwen35_medical_lora/runs

在我的测试环境(RTX 4090)上,1万条数据训练 3 个 epoch 大约需要 40 分钟。

测试效果

训练完成后,先在命令行跑个快速测试:

llamafactory-cli chat \ examples/inference/qwen35_medical_lora.yaml

对应的推理配置文件 qwen35_medical_lora.yaml:

model_name_or_path: ./models/Qwen3.5-4B adapter_name_or_path: ./output/qwen35_medical_lora template: qwen3 finetuning_type: lora

实测下来,微调后的模型在医疗问答上明显比原版更专业。比如问"孕妇能不能吃螃蟹",原版模型可能给个模棱两可的回答,微调后的版本会从中医寒凉属性、现代营养学、个体差异等多个角度分析,更像一个有经验的医生。

导出和部署

如果效果满意,可以把 LoRA 权重合并到基座模型里,方便后续部署:

llamafactory-cli export \ examples/merge_lora/qwen35_medical_merge.yaml

合并配置:

model_name_or_path: ./models/Qwen3.5-4B adapter_name_or_path: ./output/qwen35_medical_lora template: qwen3 finetuning_type: lora export_dir: ./models/Qwen35-Medical export_size: 2 export_device: cuda export_legacy_format: false

合并后的模型可以直接用 vLLM 或者 SGLang 部署成 API 服务:

# vLLM 部署 pip install vllm vllm serve ./models/Qwen35-Medical \ --port 8000 # 或者 LLaMA-Factory 内置的 API 服务 API_PORT=8000 llamafactory-cli api \ examples/inference/qwen35_medical.yaml

踩坑记录

分享几个我遇到过的问题:

1. 显存不够用

把 per_device_train_batch_size 调小,或者启用 gradient_checkpointing。实在不行就上 4-bit 量化。

2. Loss 不下降

检查数据格式是否正确,尤其是 dataset_info.json 里的字段映射。另外学习率不要设太大,1e-4 到 5e-5 之间比较稳。

3. 微调后模型变傻了

可能是数据质量问题,或者训练轮数太多导致过拟合。适当减少 epoch 数,或者在数据里混入一些通用对话保持泛化能力。

医疗领域的 AI 应用一定要注意:模型输出仅供参考,不能替代专业医生的诊断。在产品设计时要做好免责声明和人工审核机制。

整个流程走下来,从环境搭建到模型部署,熟练的话半天就能搞定。LLaMA-Factory 确实把微调的门槛降低了很多,配合 Qwen3.5 这样的高质量基座模型,普通开发者也能做出效果不错的垂直领域 AI 助手。

当然,真要做成产品级的医疗 AI,还需要在数据质量、安全合规、持续迭代等方面下功夫。但至少,迈出第一步没那么难。

Read more

vivado2023.2下载安装教程:手把手教你完成FPGA开发环境搭建

手把手带你搞定 Vivado 2023.2 安装:从零搭建专业级 FPGA 开发环境 你是不是也曾在准备开启 FPGA 学习之旅时,被那个动辄十几GB的安装包卡在第一步? 下载慢、权限报错、许可证激活失败、GUI闪退……明明只是想点个“下一步”,却仿佛在破解一道嵌入式系统的“入门密钥”。 别担心,这并不是你的问题。Vivado —— 这款由 AMD(原 Xilinx)推出的旗舰级 FPGA 开发工具,功能强大毋庸置疑,但它的安装过程确实称得上“劝退新手三连”: 体积大、依赖多、流程长 。 而今天我们要攻克的目标,就是 Vivado 2023.2 —— 一个兼具稳定性与前沿支持的长期候选版本(LTS),特别适合用于教学、科研和工业项目开发。本文将彻底拆解“vivado2023.2下载安装教程”这一高频搜索关键词背后的真实痛点,用工程师视角带你一步步完成从账号注册到环境验证的全过程,

OpenClaw 集成飞书机器人:从入门到精通

OpenClaw 集成飞书机器人:从入门到精通 作者: 你的智能助手 发布时间: 2026-03-11 标签: #OpenClaw #飞书机器人 #自动化 #AIGC 📋 目录 1. 前言 2. 什么是 OpenClaw 3. 前期准备 4. 飞书应用创建与授权 5. OpenClaw 环境搭建 6. 飞书插件配置详解 7. 核心功能实战 8. 进阶技巧与最佳实践 9. 常见问题排查 10. 总结与展望 前言 在当今的数字化办公环境中,企业通讯工具已经成为日常协作的核心。飞书作为国内领先的企业协同平台,其强大的 API 生态为开发者提供了广阔的创作空间。而 OpenClaw 作为一个创新的 AI 代理框架,能够让你轻松地将大语言模型的能力接入到飞书中,实现真正的智能化办公。 本文将带你从零开始,

别再被忽悠!云计算+低代码,才是企业转型的真解药

别再被忽悠!云计算+低代码,才是企业转型的真解药

作为从业7年的IT互联网产品技术,我对接过数十家不同规模、不同行业的企业数字化转型项目,从中小型制造企业到大型政务单位,见过太多企业陷入“转型怪圈”:要么砸重金上云,却只做到“数据上云=转型完成”,核心业务流程依旧脱节;要么盲目跟风低代码,被厂商“3天开发一套系统”的宣传忽悠,最后只做出一堆无法复用、无法扩展的“无用表单”;更有甚者,将云计算与低代码割裂开来,各自为战,导致技术架构混乱、成本翻倍,转型半途而废。         今天不唱赞歌、不聊虚的,纯技术流视角拆解核心逻辑:企业转型的核心困境从来不是“缺技术”,而是“技术与业务脱节、效率与成本失衡、落地与迭代矛盾”;而云计算与低代码的深度协同,不是“锦上添花”,而是破解这些困境的唯一最优解——但前提是,你得看透二者的底层逻辑,避开行业里的那些坑,别再被厂商的虚假宣传带偏。 一、先破后立:企业转型的4大核心技术困境         在聊解决方案之前,我们先明确一个核心:企业数字化转型,本质是“用技术重构业务流程、用工具提升运营效率、

FPGA实现双线性插值缩放:代码与实现详解

FPGA实现双线性插值缩放:代码与实现详解

fpga实现双线性插值缩放代码及资料 在数字图像处理领域,双线性插值是一种常用的技术,用于图像的缩放、旋转和剪切等操作。而在硬件加速方面,FPGA(现场可编程门阵列)因其高度的并行处理能力和灵活的架构,成为实现这些算法的理想选择。本文将详细介绍如何在FPGA上实现双线性插值缩放,并附上相应的VHDL代码及分析,帮助读者更好地理解和实现这一功能。 一、背景介绍 图像缩放是图像处理中的基础操作,常见的缩放方法包括最近邻插值、双线性插值和双三次插值等。其中,双线性插值因其均衡的计算量和插值质量,广泛应用于各种场合。在FPGA上实现双线性插值,可以极大地提高图像处理的速度和效率,尤其是在实时处理和嵌入式系统中。 二、双线性插值的基本原理 双线性插值是一种通过线性插值实现二维数据点的估计方法。对于一个缩放后的像素点 (x, y),我们首先找到与之最邻近的四个像素点 (x1, y1)、(x1, y2)、(x2, y1) 和 (x2, y2)。接下来,分别在x轴和y轴方向上进行线性插值,计算出该点的像素值。 具体步骤如下: 1. 找到与目标点相邻的四个像素点。 2. 计算目标点在x