Llama-Factory 微调常见错误及解决方案 | 极客日志

PythonAI算法

Llama-Factory 微调常见错误及解决方案

总结了使用 Llama-Factory 进行大模型微调时的十个常见问题及解决方案，涵盖显存溢出、LoRA 配置、Tokenizer 缺失、Loss 不下降、WebUI 端口冲突、数据格式错误、DeepSpeed 启动、QLoRA 依赖、Checkpoint 恢复及模型导出等场景。通过调整参数、检查配置文件、验证数据质量及理解底层机制，帮助开发者避免训练崩溃和无效结果，实现高效稳定的模型微调。

雾岛听风发布于 2026/4/6更新于 2026/7/747 浏览

Llama-Factory 微调常见错误及解决方案

在大模型时代，越来越多的研究者和开发者希望将预训练语言模型应用于垂直领域——比如客服问答、法律咨询或医疗辅助。然而，直接从零开始训练一个大模型既不现实也不经济。于是，微调（Fine-tuning） 成为最主流的方式。

但问题来了：传统微调需要写复杂的训练脚本、管理分布式环境、处理显存瓶颈……这对新手来说简直是'劝退三连'。直到 Llama-Factory 的出现。

这个开源项目像是一站式自助餐厅，把数据预处理、模型加载、LoRA/QLoRA 配置、训练监控、权重合并全都打包好了，甚至提供了可视化界面，点点鼠标就能启动训练。听起来很美好？没错，但它也有自己的'隐藏规则'——稍有不慎，就会遇到训练崩溃、显存溢出、权重无效等问题。

下面我们就来盘点一下，使用 Llama-Factory 时新手最容易踩的十个坑，并结合底层机制给出真正能落地的解决建议。

为什么你明明用了 LoRA 还是爆显存？

这是最常见的第一问：'我都用 LoRA 了，参数不是只训 0.1% 吗？怎么还会 CUDA out of memory？'

答案是：可训练参数少 ≠ 显存占用低。

LoRA 确实大幅减少了梯度和优化器状态的存储需求，但以下几部分依然吃显存：

模型前向传播中的激活值（activations），尤其是深层网络；
Adam 优化器仍需保存部分状态（虽然比全参数小很多）；
Batch Size 太大时，中间缓存会迅速堆积；
使用 FP32 训练而非半精度。

实际应对策略：

per_device_train_batch_size: 1 # 能压到 1 最好
gradient_accumulation_steps: 16 # 模拟大 batch
fp16: true # 或 bf16（如果支持）

如果你连 batch_size=1 都跑不动，那下一步就是上 QLoRA，通过 4-bit 量化进一步压缩主模型权重内存。

✅ 小贴士：RTX 3090（24GB）上跑 Llama-2-7B 的 LoRA，通常 bs=4 是极限；若想更稳，降为 bs=2 + grad_acc=8 更安全。

训完发现模型'没学会'？可能是 LoRA 插错地方了

你辛辛苦苦训了几个小时，结果一推理，输出还是随机乱语或者不断重复。检查日志却发现 loss 其实在下降——这说明模型'学到了东西'，只是没起作用。

罪魁祸首往往是：target_modules 配错了。

不同架构的模型，其注意力层的命名完全不同：

模型	正确 target_modules
LLaMA / Mistral	`["q_proj", "v_proj"]`
ChatGLM	`["query_key_value"]`
Qwen	`["c_attn"]`
Bloom

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

["query_key_value"]

model.print_trainable_parameters()

trainable params: 4,194,304 || all params: 6,738,415,616 || trainable%: 0.062%

OSError: Cannot find tokenizer.model

qwen-7b/
├── config.json
├── pytorch_model.bin
├── tokenizer.json
├── tokenizer_config.json
└── special_tokens_map.json

huggingface-cli download Qwen/Qwen-7B --local-dir qwen-7b

jq '.[0:2]' your_data.json

python src/webui.py --port 7861

pip install gradio

ValueError: Expected more than 1 element in a list

jq type your_data.json # 应该返回 "array"
jq length your_data.json # 查看有多少条

template: sharegpt

deespeed.init.distributed: not initialized

torchrun --nproc_per_node=2 src/train_bash.py \
  --deepspeed ds_config.json \
  ...

{
  "train_micro_batch_size_per_gpu": 2,
  "optimizer": {
    "type": "AdamW",
    "params": {
      "lr": 2e-5
    }
  },
  "fp16": {
    "enabled": true
  },
  "zero_optimization": {
    "stage": 2
  }
}

quantization_bit: 4

# 根据你的 CUDA 版本选择
pip install bitsandbytes-cuda118 # for CUDA 11.8
pip install bitsandbytes-cuda121 # for CUDA 12.1

Cannot find optimizer state

python src/train_bash.py \
  --resume_from_checkpoint outputs/lora/llama2-7b/checkpoint-500

"zero_save_on_exit": true

python src/export_model.py \
  --model_name_or_path ./llama-2-7b \
  --adapter_name_or_path outputs/lora/llama2-7b \
  --export_dir merged_model

Llama-Factory 微调常见错误及解决方案

Llama-Factory 微调常见错误及解决方案

为什么你明明用了 LoRA 还是爆显存？

实际应对策略：

训完发现模型'没学会'？可能是 LoRA 插错地方了

更多推荐文章

相关免费在线工具

如何验证是否生效？

找不到 tokenizer？先看文件齐不全

Loss 不下降？先别怪模型，看看数据干不干净

WebUI 打不开？端口冲突最常见

DataLoader 报错 'Expected more than 1 element'？JSON 格式有问题

DeepSpeed 启动失败？别用 python，要用 torchrun

QLoRA 报错 'No module named 'bitsandbytes''？量化库没装对

中断训练后 resume 失败？checkpoint 路径搞错了

导出模型后推理异常？权重没合并好

写在最后：工具越智能，越要懂原理

更多推荐文章

相关免费在线工具

Llama-Factory 微调常见错误及解决方案

Llama-Factory 微调常见错误及解决方案

为什么你明明用了 LoRA 还是爆显存？

实际应对策略：

训完发现模型'没学会'？可能是 LoRA 插错地方了

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

如何验证是否生效？

找不到 tokenizer？先看文件齐不全

Loss 不下降？先别怪模型，看看数据干不干净

WebUI 打不开？端口冲突最常见

DataLoader 报错 'Expected more than 1 element'？JSON 格式有问题

DeepSpeed 启动失败？别用 python，要用 torchrun

QLoRA 报错 'No module named 'bitsandbytes''？量化库没装对

中断训练后 resume 失败？checkpoint 路径搞错了

导出模型后推理异常？权重没合并好

写在最后：工具越智能，越要懂原理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具