基于 LLaMA-Factory 的大模型 LoRA 微调实战 | 极客日志

PythonAI算法

基于 LLaMA-Factory 的大模型 LoRA 微调实战

综述由AI生成本文介绍了使用 LLaMA-Factory 对 Qwen3 大模型进行 LoRA 微调的完整流程。涵盖环境部署、数据集准备、参数配置、训练评估及模型导出部署。重点解析了 LoRA 秩与缩放系数的影响，以及 BLEU 和 ROUGE 指标的实际含义，适合希望快速上手大模型私有化训练的开发者参考。

t ag发布于 2026/4/9更新于 2026/5/2314 浏览

LLaMA-Factory 简介

LLaMA-Factory 是一个基于 transformers 库开发的训练、微调、推理一体化平台。它支持预训练、指令监督微调（SFT）、奖励模型训练以及 PPO、DPO、KTO、ORPO 等多种训练范式，并兼容 Accelerate 或 DeepSpeed 作为后端加速。

其核心优势在于强大的数据处理与配置能力。只要环境配置得当，直接运行脚本即可完成大部分工作，极大降低了大模型微调的门槛。

环境搭建

容器化部署

推荐使用 Docker 快速构建环境，避免依赖冲突：

git clone https://github.com/hiyouga/LlamaFactory.git
cd LlamaFactory
cd docker/docker-cuda/

# 构建镜像
docker build -f ./docker/docker-cuda/Dockerfile \
  --build-arg PIP_INDEX=https://pypi.org/simple \
  --build-arg EXTRAS=metrics \
  -t llamafactory:latest .

# 启动容器
docker run -dit --ipc=host --gpus=all \
  -p 7860:7860 -p 8000:8000 \
  --name llamafactory llamafactory:latest

# 进入容器
docker exec -it llamafactory bash

源码编译安装

若需更灵活的控制，可直接在宿主机安装：

cd workspace
git clone https://github.com/hiyouga/LlamaFactory.git

# 配置 pip 源（可选）
mkdir -p ~/.pip
cat > ~/.pip/pip.conf <<EOF
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
trusted-host = pypi.tuna.tsinghua.edu.cn
EOF

# 安装依赖
pip uninstall -y torch torchvision torchaudio nvidia-cublas nvidia-cudnn-cu12
pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple --index-url https://download.pytorch.org/whl/cu130
pip install --upgrade nvidia-cublas nvidia-cudnn-cu13

cd LlamaFactory
pip install -e '.[torch,metrics]'

验证环境

安装完成后，建议先进行基础测试：

# 检查 CLI 帮助
llamafactory-cli train -h

# 确认 GPU 状态
python -c "import torch; print(torch.cuda.get_device_name(0))"

数据集准备

LLaMA-Factory 主要支持 Alpaca 和 Sharegpt 两种格式。我们可以从魔搭社区等数据源获取角色扮演的数据集来测试效果。

下载数据集文件（如 huanhuan.json），确保符合 Alpaca 格式。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

llamafactory-cli train \
  --stage sft \
  --do_train True \
  --model_name_or_path Qwen/Qwen3-1.7B-Base \
  --preprocessing_num_workers 16 \
  --finetuning_type lora \
  --template qwen3 \
  --flash_attn auto \
  --dataset_dir data \
  --dataset huanhuan \
  --cutoff_len 1024 \
  --learning_rate 5e-05 \
  --num_train_epochs 4.0 \
  --max_samples 100000 \
  --per_device_train_batch_size 2 \
  --gradient_accumulation_steps 4 \
  --lr_scheduler_type cosine \
  --max_grad_norm 1.0 \
  --logging_steps 5 \
  --save_steps 100 \
  --warmup_steps 4 \
  --packing False \
  --enable_thinking True \
  --report_to none \
  --output_dir saves/Qwen3-1.7B-Base/lora/train_2026-01-02-06-40-31 \
  --bf16 True \
  --plot_loss True \
  --trust_remote_code True \
  --ddp_timeout 180000000 \
  --include_num_input_tokens_seen True \
  --optim adamw_torch \
  --adapter_name_or_path saves/Qwen3-1.7B-Base/lora/train_2026-01-02-06-01-20 \
  --lora_rank 8 \
  --lora_alpha 256 \
  --lora_dropout 0 \
  --lora_target all

pip install jieba rouge-chinese nltk

llamafactory-cli train \
  --stage sft \
  --model_name_or_path Qwen/Qwen3-1.7B-Base \
  --finetuning_type lora \
  --quantization_method bnb \
  --template qwen3 \
  --dataset_dir data \
  --eval_dataset huanhuan \
  --predict_with_generate True \
  --max_new_tokens 512 \
  --do_predict True \
  --adapter_name_or_path saves/Qwen3-1.7B-Base/lora/train_2026-01-02-06-40-31

# 转换格式
cd llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd gguf-py
pip install --editable .
cd ..
python convert_hf_to_gguf.py /workspace/LlamaFactory/output/Qwen3-1.7B-huanhuan/

# 部署运行
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
ollama create qwen3-huanhuan -f /workspace/LlamaFactory/output/Qwen3-1.7B-huanhuan/Modelfile
ollama run qwen3-huanhuan

基于 LLaMA-Factory 的大模型 LoRA 微调实战

LLaMA-Factory 简介

环境搭建

容器化部署

源码编译安装

验证环境

数据集准备

更多推荐文章

相关免费在线工具

开始训练

关键参数说明

执行命令

批量推理与评估

指标解读

模型导出与部署

更多推荐文章

相关免费在线工具

基于 LLaMA-Factory 的大模型 LoRA 微调实战

LLaMA-Factory 简介

环境搭建

容器化部署

源码编译安装

验证环境

数据集准备

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

开始训练

关键参数说明

执行命令

批量推理与评估

指标解读

模型导出与部署

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具