LoRA 微调实战：基于 LLaMA-Factory 定制你的专属医疗大模型

Ne0inhk

22 Mar 2026 — 7 min read

从理论到实践，手把手教你使用 LoRA 技术高效微调 Qwen3-4B 模型

一、为什么需要 LoRA 微调？

大语言模型（LLM）在通用领域表现出色，但在特定专业领域（如医疗、法律、金融）往往力不从心。全量微调（Full Fine-tuning）虽然效果好，但需要巨大的计算资源和存储空间。

LoRA（Low-Rank Adaptation） 提供了一种参数高效微调方案：

✅ 显存友好：只训练少量参数（通常 <1% 的总参数量）
✅ 训练快速：显著减少训练时间和计算成本
✅ 效果可佳：在特定任务上接近全量微调效果
✅ 部署灵活：支持多 LoRA 动态切换，一个基座模型服务多个场景

二、LoRA 核心原理

2.1 基本思想

LoRA 的核心思想是不改变原始预训练权重，通过引入可训练的低秩分解矩阵来调整模型行为，使其适应特定任务。

2.2 工作机制

冻结基座模型：原始权重 W 保持不动
引入旁路矩阵：添加低秩矩阵 A 和 B ，其中 A 负责降维，B 负责升维
前向传播修改：h=Wx+BAx （原始输出 + 旁路输出）

2.3 初始化技巧

矩阵 B 初始化为 全 0，确保训练开始时偏移为 0，维持网络原有输出
矩阵 A 采用高斯初始化，保证开始学习后能够正常收敛

三、实战环境准备

3.1 硬件配置参考

配置	单卡 A100 40GB	双卡 4090
训练时间	19 分 15 秒	8 分 12 秒
显存占用	~16GB	~8GB/卡
训练参数	单卡 batch=1, 梯度累积=8	双卡 batch=1, 梯度累积=8

💡 结论：双卡训练不仅更快，而且单卡显存压力更小，性价比更高

3.2 环境搭建

# 创建 Python 3.11 环境 conda create -n lora python=3.11 -y conda activate lora # 安装核心依赖（注意版本匹配） pip install torch==2.7.1 pip install transformers==4.57.1 pip install datasets==4.0.0 pip install peft==0.17.0 pip install accelerate==1.11.0 pip install deepspeed==0.18.2 pip install bitsandbytes==0.48.2 pip install vllm==0.10.0 pip install trl==0.18.0 pip install modelscope # 国内下载模型必备

3.3 下载 Qwen3-4B 模型

# download.py from modelscope import snapshot_download model_dir = snapshot_download( "Qwen/Qwen3-4B", cache_dir="./Qwen3-4B" ) print('model_dir:', model_dir)

3.4 安装 LLaMA-Factory 框架

git clone -b v0.9.4 --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install --no-deps -e .

验证安装：

llamafactory-cli version # 输出：Welcome to LLaMAFactory, version 0.9.4

🍎安装成功会显示如下信息：

(Lora_py311) root@feadc3bc4205:/workspace/LLaMA-Factory# llamafactory-cli version ---------------------------------------------------------- | Welcome to LLaMA Factory, version 0.9.4 | | | | Project page: https://github.com/hiyouga/LLaMA-Factory | ----------------------------------------------------------

四、数据准备：医疗问答数据集

4.1 数据格式规范

LLaMA-Factory 使用 Alpaca 格式，每个样本包含 instruction、input、output 三个字段：

[ { "instruction": "现在你是一个颅咽管瘤医生，请根据患者的问题给出建议：", "input": "颅咽管瘤手术成功率到底有多少？在川医手术切除后1个月之久，总是未见好转...", "output": "可以手术，但是成功率很小。可以做放射治疗。" }, { "instruction": "现在你是一个前列腺癌医生，请根据患者的问题给出建议：", "input": "男性如何预防前列腺癌疾病？", "output": "前列腺癌的发生，是环境污染、遇事心态、诸多不良的生活习惯..." } ]

4.2 数据预处理

如果你的原始数据是 JSONL 格式，需要先转换：

import json output = [] with open('train_medical.json', 'r', encoding='utf-8') as f: for line in f.readlines(): line = line.strip() data = json.loads(line) output.append(data) print(f"总样本数: {len(output)}") with open('alpaca_zh_medical.json', 'w', encoding='utf-8') as f: json.dump(output, f, ensure_ascii=False, indent=2)

4.3 注册数据集

修改 data/dataset_info.json，添加你的数据集：

{ "alpaca_zh_medical": { "file_name": "alpaca_zh_medical.json" } }

五、配置 LoRA 微调参数

5.1 核心配置文件 `qwen3_lora_sft.yaml`

### model 模型配置 model_name_or_path: /workspace/Qwen3-4B/Qwen/Qwen3-4B # 本地模型路径 trust_remote_code: true ### method 训练方法配置 stage: sft # 监督微调阶段 do_train: true finetuning_type: lora # 使用 LoRA 微调 lora_rank: 8 # LoRA 秩，通常 4-64 lora_target: all # 应用到所有线性层（q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj） ### dataset 数据集配置 dataset: alpaca_zh_medical # 使用我们准备的医疗数据集 template: qwen3_nothink # Qwen3 模板，无思考链模式 cutoff_len: 2048 # 最大序列长度 max_samples: 1000 # 训练样本数限制 preprocessing_num_workers: 16 # 数据预处理进程数 ### output 输出配置 output_dir: saves/qwen3-4b/lora/sft logging_steps: 10 # 每 10 步记录日志 save_steps: 500 # 每 500 步保存检查点 plot_loss: true # 绘制损失曲线 overwrite_output_dir: true ### train 训练参数 per_device_train_batch_size: 1 # 单卡 batch size gradient_accumulation_steps: 8 # 梯度累积，等效 batch size = 8 learning_rate: 1.0e-4 # 学习率 num_train_epochs: 3.0 # 训练轮数 lr_scheduler_type: cosine # 余弦退火调度 warmup_ratio: 0.1 # 预热比例 bf16: true # 使用 bfloat16 混合精度 ddp_timeout: 180000000 # 分布式训练超时时间

5.2 关键参数解析

参数	说明	建议值
`lora_rank`	低秩矩阵的秩，越大表达能力越强	4-64，医疗任务建议 8-16
`lora_target`	目标模块	`all` 或指定具体投影层
`learning_rate`	LoRA 层学习率	1e-4 ~ 5e-4，比全量微调大
`gradient_accumulation_steps`	梯度累积步数	根据显存调整，保持有效 batch size ≥ 8

六、启动训练

6.1 单卡训练（A100）

llamafactory-cli train examples/train_lora/qwen3_lora_sft.yaml

训练日志关键信息：

trainable params: 16,515,072 || all params: 4,038,983,168 || trainable%: 0.4089 Num examples = 1,000 Num Epochs = 3 Total optimization steps = 375 Training completed. train_loss = 2.4426 train_runtime = 1155.54 seconds (19分15秒)

🎯 观察点：仅 0.41% 的参数参与训练，却能让模型掌握医疗领域知识！

完整训练日志如下：

(lora) ➜ LLaMA-Factory git:(v0.9.4) ✗ llamafactory-cli train examples/train_lora/qwen3_lora_sft.yaml /root/.pyenv/versions/3.11.1/lib/python3.11/site-packages/jieba/_compat.py:18: UserWarning: pkg_resources is deprecated as an API. See https://setuptools.pypa.io/en/latest/pkg_resources.html. The pkg_resources package is slated for removal as early as 2025-11-30. Refrain from using this package or pin to Setuptools<81. import pkg_resources [INFO|2026-02-04 06:06:31] llamafactory.hparams.parser:465 >> Process rank: 0, world size: 1, device: cuda:0, distributed training: False, compute dtype: torch.bfloat16 [INFO|tokenization_utils_base.py:2093] 2026-02-04 06:06:31,695 >> loading file vocab.json [INFO|tokenization_utils_base.py:2093] 2026-02-04 06:06:31,695 >> loading file merges.txt [INFO|tokenization_utils_base.py:2093] 2026-02-04 06:06:31,695 >> loading file tokenizer.json [INFO|tokenization_utils_base.py:2093] 2026-02-04 06:06:31,695 >> loading file added_tokens.json [INFO|tokenization_utils_base.py:2093] 2026-02-04 06:06:31,695 >> loading file special_tokens_map.json [INFO|tokenization_utils_base.py:2093] 2026-02-04 06:06:31,695 >> loading file tokenizer_config.json [INFO|tokenization_utils_base.py:2093] 2026-02-04 06:06:31,695 >> loading file chat_template.jinja [INFO|tokenization_utils_base.py:2364] 2026-02-04 06:06:32,030 >> Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. [INFO|configuration_utils.py:763] 2026-02-04 06:06:32,031 >> loading configuration file /workspace/Qwen3-4B/Qwen/Qwen3-4B/config.json [INFO|configuration_utils.py:839] 2026-02-04 06:06:32,033 >> Model config Qwen3Config { "architectures": [ "Qwen3ForCausalLM" ], "attention_bias": false, "attention_dropout": 0.0, "bos_token_id": 151643, "dtype": "bfloat16", "eos_token_id": 151645, "head_dim": 128, "hidden_act": "silu", "hidden_size": 2560, "initializer_range": 0.02, "intermediate_size": 9728, "layer_types": [ "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention", "full_attention",

Flutter for OpenHarmony: Flutter 三方库 intersperse 优雅在鸿蒙列表项间插入间隔或装饰（UI 细节处理助手）

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net 前言在 OpenHarmony 应用的 UI 设计中，我们经常需要在列表（List）或一排组件（Column/Row）之间插入特定的元素，例如： 1. 在一排按钮中间插入分隔线。 2. 在列表数据项之间插入间隙（Spacing）。 3. 为每个组件之间添加逗号或其他符号。常见的做法是手写 for 循环并通过索引判断。但这种方式不仅代码丑陋，且在处理动态列表时极其容易出错（例如忘记最后一个元素不加分隔符）。 intersperse 是一个极简的扩展库。它通过为 Iterable 增加一个极其直观的方法，彻底解决了“元素间插入”这一烦人的小问题。一、核心操作图解 intersperse 提供了一种“无感插入”的流式处理方式。 [A, B, C] (原始数据) intersperse(

鸿蒙电商购物全栈项目——数据安全与合规

《鸿蒙APP开发从入门到精通》第39篇：鸿蒙电商购物全栈项目——数据安全与合规 🛡️📝📊 内容承接与核心价值这是《鸿蒙APP开发从入门到精通》的第39篇——数据安全与合规篇，100%承接第38篇的数据分析与商业洞察场景，并基于电商购物场景的数据安全与合规要求，设计并实现鸿蒙电商购物全栈项目的数据安全与合规功能。学习目标： * 掌握鸿蒙应用数据安全的核心设计与实现； * 实现数据加密、数据脱敏、数据备份； * 理解数据合规的战略设计与实现； * 实现GDPR合规、用户数据权益保护、数据审计； * 掌握数据安全与合规的协同管理策略； * 优化电商购物项目的数据安全与合规水平。学习重点： * 鸿蒙应用数据安全的全流程设计原则； * 数据合规的战略规划与技术落地； * 数据安全与合规的协同管理策略。一、数据安全基础 🛡️ 1.1 数据安全定义数据安全是指保护电商购物项目中的数据安全，主要包括以下方面： * 数据加密：加密数据； * 数据脱敏：脱敏数据； * 数据备份：备份数据。 1.2 数据安全架构数据安全采用分层架构，

Flutter 三方库 holiday_jp 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、透明、全维度的日本法定节假日（公休日）查询与日历调度引擎

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 holiday_jp 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、透明、全维度的日本法定节假日（公休日）查询与日历调度引擎在鸿蒙（OpenHarmony）系统的全球化（Globalization）出海应用、针对日本市场的日程管理、财务结算系统（需考虑日本银行休假）或带有国际化特色的鸿蒙版日历组件中，如何瞬间获取任意年份日本的法定节假日、判定当前是否为公休日？holiday_jp 为开发者提供了一套工业级的、基于官方精细化数据集的日本节假日处理方案。本文将深入实战其在鸿蒙出海应用逻辑层中的应用。前言什么是 Holiday JP？它是一个专注于提供日本法定假期（祝日）数据的专业库。它涵盖了从传统的“元日”到现代的“体育之日”等所有官方假期，并能自动处理由于由于由于由于“振替休日（补休）”产生的动态调休逻辑。在 Flutter

Flutter 组件 fletch 的适配鸿蒙Harmony 实战 - 驾驭高性能网络爬虫、实现鸿蒙端多并发与自定义拦截器的资产自动化抓取方案

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 fletch 的适配鸿蒙Harmony 实战 - 驾驭高性能网络爬虫、实现鸿蒙端多并发与自定义拦截器的资产自动化抓取方案前言在数据驱动的鸿蒙（OpenHarmony）应用开发中，很多时候我们需要从外部网络环境大规模采集实时资讯、获取海量资源路径或者是进行自动化的接口探测。传统的 http 库虽然简单，但在面对数十路并发下载、复杂的 Cookie 状态维持以及多级的请求拦截（Interceptor）时，往往显得捉襟见肘。 fletch 正是一款专为高性能、工业级抓取任务设计的 Dart 网络增强库。它不仅支持极致的并发限流，更提供了一套类似拦截器管线的强大插件化能力。适配到鸿蒙系统后，配合鸿蒙底层的网络切片和能效策略，fletch 能让你的数据采集应用在保持低功耗的同时，展现出前所未有的吞吐力。本文将为你深入剖析 fletch 在鸿蒙实战环境下的深度集成与优化。一、原理解析 / 概念介绍 1.1