LLaMA-Factory 合并 LoRA 适配器实战指南 | 极客日志

PythonAI算法

LLaMA-Factory 合并 LoRA 适配器实战指南

LoRA 权重融合是模型部署的关键环节，能将微调成果固化为基础模型的一部分。利用 LLaMA-Factory 的 export 功能，配合 YAML 配置即可实现跨架构的一键合并。务必注意使用非量化原始模型加载适配器，防止精度损失。配置中需明确对话模板与导出设备，支持 CPU 或 GPU 加速。生成的模型包可直接用于本地推理、Ollama 部署或云端发布。建议通过对比 logits 验证合并效果，确保工程落地稳定可靠。

GopherDev发布于 2026/4/7更新于 2026/7/2038 浏览

LLaMA-Factory 合并 LoRA 适配器实战指南

在大模型落地的实战中，一个常见的痛点是：明明只微调了少量参数，部署时却还得背负整个基础模型 + LoRA 插件的双重重担。启动慢、依赖多、运维复杂——这些问题让原本轻量高效的 PEFT 方法显得有些'名不副实'。

而真正的生产级解决方案，应该是把训练成果固化下来：将 LoRA 的增量更新永久融合进原始模型，生成一个独立、自包含、开箱即用的新模型。这不仅是工程上的简化，更是从实验走向服务的关键一步。

LLaMA-Factory 提供了一条极为简洁的路径来实现这一目标——通过一条 export 命令和一个 YAML 配置文件，就能完成跨架构、跨模态、安全可靠的 LoRA 合并。本文将带你深入这个过程的每一个细节，避开常见陷阱，并分享一些提升效率的实用技巧。

关键操作：一键导出合并模型

整个流程的核心就是这条命令：

llamafactory-cli export examples/merge_lora/qwen2_5vl_lora_sft.yaml

别看这行命令短，它背后完成了一系列精密操作：

加载原始浮点精度的基础模型（如 Qwen2.5-VL-7B-Instruct）
读取指定路径下的 LoRA 权重（adapter_model.bin）及其配置
将低秩矩阵 ΔW = A · B 按照预设规则叠加到对应层的原始权重 W 上，得到 W' = W + ΔW
卸载所有 LoRA 相关结构，恢复为标准 Transformer 架构
分片保存为完整的模型包，包含 tokenizer、generation config、对话模板等全套组件

这套机制支持包括 Qwen、LLaMA、ChatGLM、Baichuan、Phi、Mistral 在内的上百种主流架构，甚至涵盖多模态模型如 Qwen-VL 和 LLaVA。你只需要换一下配置文件里的路径和模板名称，其余工作全部自动化处理。

配置文件怎么配？

下面是一个典型的合并配置示例：

### 注意：合并 LoRA 时禁止使用量化模型或设置 quantization_bit！ ### 模型配置 model_name_or_path: Qwen/Qwen2.5-VL-7B-Instruct adapter_name_or_path: saves/qwen2_5vl-7b/lora/sft template: qwen2_vl trust_remote_code: true ### 导出配置 export_dir: output/qwen2_5vl_lora_sft export_size: 5 export_device: cpu export_legacy_format: false

我们来逐个拆解这些参数的实际意义与选择逻辑。

model 模块关键参数

参数	说明
`model_name_or_path`	必须指向未量化的原始模型。可以是 Hugging Face Hub 的 ID，也可以是本地路径。重点强调：不能是 GPTQ/AWQ/INT4 等任何量化版本。这类模型的权重已经被近似压缩，无法与 LoRA 的增量矩阵精确相加，强行合并会导致输出混乱甚至崩溃。
`adapter_name_or_path`	LoRA 训练完成后保存的目录，必须包含 `adapter_model.bin` 和 `adapter_config.json`。建议使用绝对路径或相对于项目根目录的相对路径，避免加载失败。
`template`	对话模板名称，直接影响 prompt 的拼接方式。例如 Qwen 多模态模型需用 `qwen2_vl`，LLaMA 系列常用 `llama3` 或 `alpaca`。一旦设错，模型可能无法识别 system/user/assistant 角色标记，导致交互异常。
`trust_remote_code`	对于 Qwen、ChatGLM 这类非标准架构模型，必须设为，否则会因找不到自定义模型类或 tokenizer 而报错。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

true

参数	说明
`export_dir`	输出目录，最终生成的模型将完整存放于此。该目录可直接用于 `from_pretrained()`、Ollama 部署或上传至 Hugging Face Hub。
`export_size`	控制分片数量。设为 `5` 表示最多生成 5 个权重文件（如 `pytorch_model-00001-of-00005.safetensors`），适用于 7B~13B 模型，避免单文件过大影响加载性能。对于更大模型可适当增加。
`export_device`	推荐根据硬件条件灵活选择： • 显存充足 → `auto`（利用 GPU 加速，速度快） • 显存紧张或无 GPU → `cpu`（稳定但较慢）注意：即使选 `cpu`，PyTorch 仍会使用 CUDA 进行数据搬运，因此基本 CUDA 环境仍是必需的。
`export_legacy_format`	强烈建议保持 `false`，使用 `safetensors` 格式。相比传统的 `.bin` 文件，它具备内存映射优势且能防止恶意代码注入，已被 vLLM、TGI 等现代推理引擎广泛支持。

[INFO] Setting ds_accelerator to cuda (auto detect) INFO Automatically detected platform cuda.

[INFO] loading file vocab.json [INFO] loading file tokenizer.json [INFO] Instantiating Qwen2_5_VLForConditionalGeneration model under default dtype torch.bfloat16.

[INFO] Merged 1 adapter(s). [INFO] Loaded adapter(s): saves/qwen2_5vl-7b/lora/sft

[INFO] The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 4 checkpoint shards.

saves/qwen2_5vl-7b/lora/sft/ ├── adapter_config.json ├── adapter_model.bin └── README.md # 可选

from peft import PeftModel
model = PeftModel.from_pretrained(base_model, "saves/qwen2_5vl-7b/lora/sft")
print(model.active_adapters()) # 应输出 ['default']

场景	推荐设置
单卡 24GB+（如 3090/4090）	`export_device: auto`
显存 < 16GB 或无 GPU	`export_device: cpu`
多卡服务器	`export_device: auto`，框架自动调度

from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("output/qwen2_5vl_lora_sft")
tokenizer = AutoTokenizer.from_pretrained("output/qwen2_5vl_lora_sft")
inputs = tokenizer("你好，请介绍一下你自己。", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

cd output/qwen2_5vl_lora_sft
ollama create my-qwen-lora -f Modelfile
ollama run my-qwen-lora

FROM ./pytorch_model-00001-of-00005.safetensors
PARAMETER temperature 0.1
PARAMETER top_p 0.001
TEMPLATE """{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}<|im_start|>user {{ .Prompt }}<|im_end|> <|im_start|>assistant {{ .Response }}"""

huggingface-cli login
git lfs install
git clone https://huggingface.co/spaces/yourname/qwen2_5vl_finetuned
cp -r output/qwen2_5vl_lora_sft/* yourname-qwen2_5vl_finetuned/
cd yourname-qwen2_5vl_finetuned && git add . && git commit -m "upload merged model"
git push

export_device: cpu

for task in sft dpo rl; do sed "s|lora/sft|lora/$task|" examples/merge_lora/template.yaml > temp.yaml llamafactory-cli export temp.yaml done

# 合并前（基础模型 + LoRA）
model_with_lora = PeftModel.from_pretrained(base, "lora/sft")
input_ids = tokenizer("请写一首关于春天的诗", return_tensors="pt").input_ids.to("cuda")
with torch.no_grad():
    logits_before = model_with_lora(input_ids).logits

# 合并后（独立模型）
merged_model = AutoModelForCausalLM.from_pretrained("merged_model")
with torch.no_grad():
    logits_after = merged_model(input_ids).logits

# 比较输出差异
assert torch.allclose(logits_before, logits_after, atol=1e-4), "合并前后 logits 差异过大！"

关键点	实践建议
核心价值	固化微调成果，便于共享、部署、版本管理
最大风险	使用量化模型合并 → 输出失真
推荐配置	`export_device: auto`, `export_legacy_format: false`, `export_size: 5`
适用范围	支持 100+ 主流架构，含多模态
最终产物	完整、可移植、无需依赖 PEFT 的标准模型

LLaMA-Factory 合并 LoRA 适配器实战指南

LLaMA-Factory 合并 LoRA 适配器实战指南

关键操作：一键导出合并模型

配置文件怎么配？

model 模块关键参数

更多推荐文章

相关免费在线工具

export 模块控制输出行为

合并流程发生了什么？

1. 环境初始化与设备探测

2. 加载基础模型与 Tokenizer

3. LoRA 融合与卸载

4. 模型保存与分片输出

避坑指南

❗ 错误一：用了量化模型做合并

❗ 错误二：adapter 路径无效或损坏

❗ 错误三：忽略多模态组件

❗ 错误四：export_device 设置不当

合并后的模型如何使用？

方式一：Transformers 原生加载

方式二：Ollama 快速部署

方式三：发布到 Hugging Face Hub

高阶技巧与最佳实践

✅ 技巧一：低显存机器也能合并

✅ 技巧二：批量合并多个任务的 LoRA

✅ 技巧三：校验合并前后的一致性

最后聊聊

更多推荐文章

相关免费在线工具

LLaMA-Factory 合并 LoRA 适配器实战指南

LLaMA-Factory 合并 LoRA 适配器实战指南

关键操作：一键导出合并模型

配置文件怎么配？

model 模块关键参数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

export 模块控制输出行为

合并流程发生了什么？

1. 环境初始化与设备探测

2. 加载基础模型与 Tokenizer

3. LoRA 融合与卸载

4. 模型保存与分片输出

避坑指南

❗ 错误一：用了量化模型做合并

❗ 错误二：adapter 路径无效或损坏

❗ 错误三：忽略多模态组件

❗ 错误四：export_device 设置不当

合并后的模型如何使用？

方式一：Transformers 原生加载

方式二：Ollama 快速部署

方式三：发布到 Hugging Face Hub

高阶技巧与最佳实践

✅ 技巧一：低显存机器也能合并

✅ 技巧二：批量合并多个任务的 LoRA

✅ 技巧三：校验合并前后的一致性

最后聊聊

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具