LLaMA-Factory 合并 LoRA 适配器实战指南 | 极客日志

PythonAI算法

LLaMA-Factory 合并 LoRA 适配器实战指南

大模型微调后常面临部署负担重的问题，将 LoRA 适配器权重融合进基础模型是生产环境的关键步骤。基于 LLaMA-Factory 工具，详解如何通过一条命令及 YAML 配置完成模型合并。重点涵盖配置参数解析、量化模型避坑指南、设备选择策略以及合并后的多种部署方式（Transformers、Ollama、Hugging Face Hub）。通过实战案例与代码验证，确保合并过程稳定可靠，实现模型资产的标准化封装与高效服务化落地。

道系青年发布于 2026/4/7更新于 2026/5/2312 浏览

LLaMA-Factory 合并 LoRA 适配器完整指南

在大模型落地的实战中，一个常见的痛点是：明明只微调了少量参数，部署时却还得背负整个基础模型 + LoRA 插件的双重重担。启动慢、依赖多、运维复杂——这些问题让原本轻量高效的 PEFT 方法显得有些名不副实。

而真正的生产级解决方案，应该是把训练成果固化下来：将 LoRA 的增量更新永久融合进原始模型，生成一个独立、自包含、开箱即用的新模型。这不仅是工程上的简化，更是从实验走向服务的关键一步。

LLaMA-Factory 提供了一条极为简洁的路径来实现这一目标——通过一条 export 命令和一个 YAML 配置文件，就能完成跨架构、跨模态、安全可靠的 LoRA 合并。本文将带你深入这个过程的每一个细节，避开常见陷阱，并分享一些提升效率的实用技巧。

核心命令：一键导出合并模型

整个流程的核心就是这条命令：

llamafactory-cli export examples/merge_lora/qwen2_5vl_lora_sft.yaml

别小看这一行，它背后完成了一系列精密操作：

加载原始浮点精度的基础模型（如 Qwen2.5-VL-7B-Instruct）
读取指定路径下的 LoRA 权重（adapter_model.bin）及其配置
将低秩矩阵 ΔW = A · B 按照预设规则叠加到对应层的原始权重 W 上，得到 W' = W + ΔW
卸载所有 LoRA 相关结构，恢复为标准 Transformer 架构
分片保存为完整的模型包，包含 tokenizer、generation config、对话模板等全套组件

这套机制支持包括 Qwen、LLaMA、ChatGLM、Baichuan、Phi、Mistral 在内的上百种主流架构，甚至涵盖多模态模型如 Qwen-VL 和 LLaVA。你只需要换一下配置文件里的路径和模板名称，其余工作全部自动化处理。

配置详解：YAML 文件怎么写？

下面是一个典型的合并配置示例：

# 注意：合并 LoRA 时禁止使用量化模型或设置 quantization_bit！
model_name_or_path: Qwen/Qwen2.5-VL-7B-Instruct
adapter_name_or_path: saves/qwen2_5vl-7b/lora/sft
template: qwen2_vl
trust_remote_code: true
export_dir: output/qwen2_5vl_lora_sft
export_size: 5
export_device: cpu
export_legacy_format: false

我们来逐个拆解这些参数的实际意义与选择逻辑。

model 模块关键参数

参数	说明
`model_name_or_path`	必须指向未量化的原始模型。可以是 Hugging Face Hub 的 ID，也可以是本地路径。重点强调：不能是 GPTQ/AWQ/INT4 等任何量化版本。这类模型的权重已经被近似压缩，无法与 LoRA 的增量矩阵精确相加，强行合并会导致输出混乱甚至崩溃。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

参数	说明
`export_dir`	输出目录，最终生成的模型将完整存放于此。该目录可直接用于 from_pretrained()、Ollama 部署或上传至 Hugging Face Hub。
`export_size`	控制分片数量。设为 5 表示最多生成 5 个权重文件（如 pytorch_model-00001-of-00005.safetensors），适用于 7B~13B 模型，避免单文件过大影响加载性能。对于更大模型可适当增加。
`export_device`	推荐根据硬件条件灵活选择： • 显存充足 → auto（利用 GPU 加速，速度快） • 显存紧张或无 GPU → cpu（稳定但较慢）注意：即使选 cpu，PyTorch 仍会使用 CUDA 进行数据搬运，因此基本 CUDA 环境仍是必需的。
`export_legacy_format`	强烈建议保持 false，使用 safetensors 格式。相比传统的 .bin 文件，它具备内存映射优势且能防止恶意代码注入，已被 vLLM、TGI 等现代推理引擎广泛支持。

[INFO] Setting ds_accelerator to cuda (auto detect) INFO Automatically detected platform cuda.

[INFO] loading file vocab.json [INFO] loading file tokenizer.json [INFO] Instantiating Qwen2_5_VLForConditionalGeneration model under default dtype torch.bfloat16.

[INFO] Merged 1 adapter(s). [INFO] Loaded adapter(s): saves/qwen2_5vl-7b/lora/sft

[INFO] The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 4 checkpoint shards.

saves/qwen2_5vl-7b/lora/sft/
├── adapter_config.json
├── adapter_model.bin
└── README.md # 可选

from peft import PeftModel
model = PeftModel.from_pretrained(base_model, "saves/qwen2_5vl-7b/lora/sft")
print(model.active_adapters()) # 应输出 ['default']

场景	推荐设置
单卡 24GB+（如 3090/4090）	export_device: auto
显存 < 16GB 或无 GPU	export_device: cpu
多卡服务器	export_device: auto，框架自动调度

from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("output/qwen2_5vl_lora_sft")
tokenizer = AutoTokenizer.from_pretrained("output/qwen2_5vl_lora_sft")
inputs = tokenizer("你好，请介绍一下你自己。", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

cd output/qwen2_5vl_lora_sft
ollama create my-qwen-lora -f Modelfile
ollama run my-qwen-lora

FROM ./pytorch_model-00001-of-00005.safetensors
PARAMETER temperature 0.1
PARAMETER top_p 0.001
TEMPLATE """{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}<|im_start|>user {{ .Prompt }}<|im_end|> <|im_start|>assistant {{ .Response }}"""

huggingface-cli login
git lfs install
git clone https://huggingface.co/spaces/yourname/qwen2_5vl_finetuned
cp -r output/qwen2_5vl_lora_sft/* yourname-qwen2_5vl_finetuned/
cd yourname-qwen2_5vl_finetuned && git add . && git commit -m "upload merged model"
git push

export_device: cpu

for task in sft dpo rl; do sed "s|lora/sft|lora/$task|" examples/merge_lora/template.yaml > temp.yaml llamafactory-cli export temp.yaml done

# 合并前（基础模型 + LoRA）
model_with_lora = PeftModel.from_pretrained(base, "lora/sft")
input_ids = tokenizer("请写一首关于春天的诗", return_tensors="pt").input_ids.to("cuda")
with torch.no_grad():
    logits_before = model_with_lora(input_ids).logits

# 合并后（独立模型）
merged_model = AutoModelForCausalLM.from_pretrained("merged_model")
with torch.no_grad():
    logits_after = merged_model(input_ids).logits

# 比较输出差异
assert torch.allclose(logits_before, logits_after, atol=1e-4), "合并前后 logits 差异过大！"

关键点	实践建议
核心价值	固化微调成果，便于共享、部署、版本管理
最大风险	使用量化模型合并 → 输出失真
推荐配置	export_device: auto, export_legacy_format: false, export_size: 5
适用范围	支持 100+ 主流架构，含多模态
最终产物	完整、可移植、无需依赖 PEFT 的标准模型

LLaMA-Factory 合并 LoRA 适配器实战指南

LLaMA-Factory 合并 LoRA 适配器完整指南

核心命令：一键导出合并模型

配置详解：YAML 文件怎么写？

model 模块关键参数

更多推荐文章

相关免费在线工具

export 模块控制输出行为

合并流程发生了什么？

1. 环境初始化与设备探测

2. 加载基础模型与 Tokenizer

3. LoRA 融合与卸载

4. 模型保存与分片输出

常见问题与避坑指南

❗ 错误一：用了量化模型做合并

❗ 错误二：adapter 路径无效或损坏

❗ 错误三：忽略多模态组件

❗ 错误四：export_device 设置不当

合并后的模型如何使用？

方式一：Transformers 原生加载

方式二：Ollama 快速部署

方式三：发布到 Hugging Face Hub

高阶技巧与最佳实践

✅ 技巧一：低显存机器也能合并

✅ 技巧二：批量合并多个任务的 LoRA

✅ 技巧三：校验合并前后的一致性

总结与思考

更多推荐文章

相关免费在线工具

LLaMA-Factory 合并 LoRA 适配器实战指南

LLaMA-Factory 合并 LoRA 适配器完整指南

核心命令：一键导出合并模型

配置详解：YAML 文件怎么写？

model 模块关键参数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

export 模块控制输出行为

合并流程发生了什么？

1. 环境初始化与设备探测

2. 加载基础模型与 Tokenizer

3. LoRA 融合与卸载

4. 模型保存与分片输出

常见问题与避坑指南

❗ 错误一：用了量化模型做合并

❗ 错误二：adapter 路径无效或损坏

❗ 错误三：忽略多模态组件

❗ 错误四：export_device 设置不当

合并后的模型如何使用？

方式一：Transformers 原生加载

方式二：Ollama 快速部署

方式三：发布到 Hugging Face Hub

高阶技巧与最佳实践

✅ 技巧一：低显存机器也能合并

✅ 技巧二：批量合并多个任务的 LoRA

✅ 技巧三：校验合并前后的一致性

总结与思考

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具