LLaMA-Factory 大模型微调实战指南 | 极客日志

PythonAI算法

LLaMA-Factory 大模型微调实战指南

介绍使用 LLaMA-Factory 平台对 Qwen3 大模型进行 LoRA 微调的完整流程。内容包括环境安装（容器与编译）、数据集准备（Alpaca/Sharegpt 格式）、执行微调训练、批量推理评估（BLEU/ROUGE 指标）、LoRA 模型合并导出以及基于 Ollama+GGUF 的最终部署。适合希望快速上手大模型微调的开发人员参考。

热情发布于 2026/4/5更新于 2026/5/2324 浏览

LLaMA-Factory

Llama-Factory 是基于 transformers 库开发的训练、微调、推理一体化平台，支持预训练、指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等多种训练范式。支持使用 Accelerate 或 DeepSpeed 作为训练加速后端。

使用 Llama-Factory 进行微调非常简单，因为其最大的优势在于强大的数据处理与训练配置能力。只要按照官方的文档配置好环境，直接运行对应的脚本即可。

LLaMA-Factory + Qwen3-7B + LoRA

安装部署

容器安装

git clone https://github.com/hiyouga/LlamaFactory.git
cd LlamaFactory
cd docker/docker-cuda/
# Build the image
docker build -f ./docker/docker-cuda/Dockerfile \
    --build-arg PIP_INDEX=https://pypi.org/simple \
    --build-arg EXTRAS=metrics \
    -t llamafactory:latest

# Run the container
docker run -dit --ipc=host --gpus=all \
    -p 7860:7860 \
    -p 8000:8000 \
    --name llamafactory \
    llamafactory:latest

# Enter the container
docker exec -it llamafactory bash

编译安装

$ cd workspace
$ git clone https://github.com/hiyouga/LlamaFactory.git
$ docker run -d --network=host --restart=always --name=llamafactory-dev \
    --gpus=all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 \
    -v "$PWD":/workspace -w /workspace \
    nvcr.io/nvidia/pytorch:25.08-py3  -f /dev/null
$ docker  -it -u root llamafactory-dev bash

$  -p ~/.pip

$  > ~/.pip/pip.conf <<
$ pip uninstall -y torch torchvision torchaudio nvidia-cublas nvidia-cudnn-cu12
$ pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple --index-url https://download.pytorch.org/whl/cu130
$ pip install --upgrade nvidia-cublas nvidia-cudnn-cu13
 LlamaFactory
$ pip install -e

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 确认安装正常
$ llamafactory-cli train -h
# 确认 GPU 和 CUDA 环境正常
python import torch
torch.cuda.current_device()
torch.cuda.get_device_name(0)
torch.__version__

$ pip install modelscope
$ modelscope download --model LLM-Research/Meta-Llama-3-8B-Instruct --local_dir /workspace/Meta-Llama-3-8B-Instruct
$ pip install -U bitsandbytes -i https://pypi.tuna.tsinghua.edu.cn/simple
vim test-inf.py
import torch
import warnings
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

# ===================== 核心修复：屏蔽警告 + 强制锁定 GPU =====================
warnings.filterwarnings('ignore', category=UserWarning, module='torch.cuda')
torch.cuda.set_device(0)
device = "cuda:0" if torch.cuda.is_available() else "cpu"
# ===============================================================================
# ===================== 4bit 量化配置（补装库后正常生效） =====================
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)
# ===============================================================================
# ===================== 加载模型和 Tokenizer =====================
model_id = "/workspace/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token = tokenizer.eos_token
# ===============================================================================
# ===================== 加载量化模型 =====================
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    torch_dtype=torch.bfloat16,
    device_map=device,
    trust_remote_code=True,
    low_cpu_mem_usage=True
)
# ===============================================================================
# 验证 GPU 加载
assert next(model.parameters()).device == torch.device(device), "模型加载失败！未使用 GPU！"
print(f"✅ 模型已 100% 加载到 GPU → {torch.cuda.get_device_name(0)}")
print(f"✅ PyTorch 版本：{torch.__version__} | CUDA 版本：{torch.version.cuda}")
print(f"✅ 运行模式：4bit 无损量化 | 显存占用≈8.5GB (减半)")

# 原有对话逻辑
messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(prompt, return_tensors="pt").to(device)
terminators = [tokenizer.eos_token_id, tokenizer.convert_tokens_to_ids("<|eot_id|>")]
outputs = model.generate(
    **inputs,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
    pad_token_id=tokenizer.eos_token_id
)
response = tokenizer.decode(outputs[0][len(inputs["input_ids"][0]):], skip_special_tokens=True)
print("\n===== 🏴‍☠️ 海盗机器人回答 🏴‍☠️ =====")
print(response)

$ CUDA_VISIBLE_DEVICES=0 llamafactory-cli webchat \
    --model_name_or_path /workspace/Meta-Llama-3-8B-Instruct \
    --template llama3
* Running on local URL: http://0.0.0.0:7860
$ telnet localhost 7860

cd LlamaFactory/
export USE_MODELSCOPE_HUB=1
llamafactory-cli webui
* Running on local URL: http://0.0.0.0:7860

llamafactory-cli train \
    --stage sft \
    --do_train True \
    --model_name_or_path Qwen/Qwen3-1.7B-Base \
    --preprocessing_num_workers 16 \
    --finetuning_type lora \
    --template qwen3 \
    --flash_attn auto \
    --dataset_dir data \
    --dataset huanhuan \
    --cutoff_len 1024 \
    --learning_rate 5e-05 \
    --num_train_epochs 4.0 \
    --max_samples 100000 \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --max_grad_norm 1.0 \
    --logging_steps 5 \
    --save_steps 100 \
    --warmup_steps 4 \
    --packing False \
    --enable_thinking True \
    --report_to none \
    --output_dir saves/Qwen3-1.7B-Base/lora/train_2026-01-02-06-40-31 \
    --bf16 True \
    --plot_loss True \
    --trust_remote_code True \
    --ddp_timeout 180000000 \
    --include_num_input_tokens_seen True \
    --optim adamw_torch \
    --adapter_name_or_path saves/Qwen3-1.7B-Base/lora/train_2026-01-02-06-01-20 \
    --lora_rank 8 \
    --lora_alpha 256 \
    --lora_dropout 0 \
    --lora_target all

$ ps -ef
UID PID PPID C STIME TTY TIME CMD
root 437212019:59 pts/1 00:00:56 /usr/bin/python /usr/local/bin/llamafactory-cli webui
root 502437521:38 pts/1 00:00:23 /usr/bin/python /usr/local/bin/llamafactory-cli train saves/Qwen3-1.7B-Base/lora/train_2026-01-02-19-59-30/training_args.yaml

[INFO|2026-01-02 21:38:43] llamafactory.hparams.parser:465 >> Process rank: 0, world size: 1, device: cuda:0, distributed training: False, compute dtype: torch.bfloat16
Downloading Model from https://www.modelscope.cn to directory: /root/.cache/modelscope/hub/models/Qwen/Qwen3-1.7B-Base

$ ll saves/Qwen3-1.7B-Base/lora/train_2026-01-02-06-01-20/
total 50012
drwxr-xr-x 17 root root 4096 Jan 222:16 ./
drwxr-xr-x 5 root root 4096 Jan 2240 ../
-rw-r--r-- 1 root root 1518 Jan 222:16 README.md
-rw-r--r-- 1 root root 966 Jan 222:16 adapter_config.json
-rw-r--r-- 1 root root 34916720 Jan 222:16 adapter_model.safetensors
-rw-r--r-- 1 root root 707 Jan 222:16 added_tokens.json
-rw-r--r-- 1 root root 240 Jan 222:16 all_results.json
-rw-r--r-- 1 root root 4116 Jan 222:16 chat_template.jinja
drwxr-xr-x 2 root root 4096 Jan 2203 checkpoint-100/
drwxr-xr-x 2 root root 4096 Jan 2212 checkpoint-1000/
drwxr-xr-x 2 root root 4096 Jan 2213 checkpoint-1100/
drwxr-xr-x 2 root root 4096 Jan 2214 checkpoint-1200/
drwxr-xr-x 2 root root 4096 Jan 2215 checkpoint-1300/
drwxr-xr-x 2 root root 4096 Jan 2216 checkpoint-1400/
drwxr-xr-x 2 root root 4096 Jan 2216 checkpoint-1401/
drwxr-xr-x 2 root root 4096 Jan 2204 checkpoint-200/
drwxr-xr-x 2 root root 4096 Jan 2205 checkpoint-300/
drwxr-xr-x 2 root root 4096 Jan 2206 checkpoint-400/
drwxr-xr-x 2 root root 4096 Jan 2207 checkpoint-500/
drwxr-xr-x 2 root root 4096 Jan 2208 checkpoint-600/
drwxr-xr-x 2 root root 4096 Jan 2209 checkpoint-700/
drwxr-xr-x 2 root root 4096 Jan 2210 checkpoint-800/
drwxr-xr-x 2 root root 4096 Jan 2211 checkpoint-900/
-rw-r--r-- 1 root root 2258 Jan 2202 llamaboard_config.yaml
-rw-r--r-- 1 root root 1671853 Jan 2216 merges.txt
-rw-r--r-- 1 root root 81222 Jan 2216 running_log.txt
-rw-r--r-- 1 root root 613 Jan 2216 special_tokens_map.json
-rw-r--r-- 1 root root 11422654 Jan 2216 tokenizer.json
-rw-r--r-- 1 root root 5431 Jan 2216 tokenizer_config.json
-rw-r--r-- 1 root root 240 Jan 2216 train_results.json
-rw-r--r-- 1 root root 67870 Jan 2216 trainer_log.jsonl
-rw-r--r-- 1 root root 81507 Jan 2216 trainer_state.json
-rw-r--r-- 1 root root 6289 Jan 2216 training_args.bin
-rw-r--r-- 1 root root 735 Jan 2202 training_args.yaml
-rw-r--r-- 1 root root 48990 Jan 2216 training_loss.png
-rw-r--r-- 1 root root 2776833 Jan 2216 vocab.json

[INFO|modeling_utils.py:1169]2026-01-02 21:53:37,228 >> loading weights file /root/.cache/modelscope/hub/models/Qwen/Qwen3-1___7B-Base/model.safetensors

--finetuning_type lora \
--adapter_name_or_path saves/Qwen3-1.7B-Base/lora/train_2026-01-02-06-01-20 \

pip install jieba
pip install rouge-chinese
pip install nltk

llamafactory-cli train \
    --stage sft \
    --model_name_or_path Qwen/Qwen3-1.7B-Base \
    --preprocessing_num_workers 16 \
    --finetuning_type lora \
    --quantization_method bnb \
    --template qwen3 \
    --flash_attn auto \
    --dataset_dir data \
    --eval_dataset huanhuan \
    --cutoff_len 1024 \
    --max_samples 100000 \
    --per_device_eval_batch_size 4 \
    --predict_with_generate True \
    --report_to none \
    --max_new_tokens 512 \
    --top_p 0.7 \
    --temperature 0.95 \
    --output_dir saves/Qwen3-1.7B-Base/lora/eval_2026-01-02-19-59-30 \
    --trust_remote_code True \
    --ddp_timeout 180000000 \
    --do_predict True \
    --adapter_name_or_path saves/Qwen3-1.7B-Base/lora/train_2026-01-02-06-40-31

BLEU-4（Bilingual Evaluation Understudy）：是一种常用的用于评估机器翻译质量的指标。BLEU-4 表示四元语法 BLEU 分数，它衡量模型生成文本与参考文本之间的 n-gram 匹配程度，其中 n=4。值越高表示生成的文本与参考文本越相似，最大值为 100%。如下，BLEU-4=0.8539 属于高分，说明模型生成的文本，和标准答案的语义贴合度极高、核心信息无遗漏、表达逻辑一致，对于 8B 量级的开源大模型，这个分数是优秀水平。
predict_rouge-1（Recall-Oriented Understudy for Gisting Evaluation）：是一种用于评估自动摘要和文本生成模型性能的指标。ROUGE-1 表示一元 ROUGE 分数，衡量模型生成文本与参考文本之间的单个词序列的匹配程度，即：词汇层面的匹配度，看生成文本有没有用到标准答案里的核心词。值越高表示生成的文本与参考文本越相似，最大值为 100。如下，rouge-1=10.37 属于高分，模型能精准捕捉到标准答案里的核心关键词，生成内容不会偏离主题，这是优质模型的核心特征。
predict_rouge-2：ROUGE-2 表示二元 ROUGE 分数，衡量模型生成文本与参考文本之间的双词序列的匹配程度，即：短语 / 短句层面的匹配度。同上，最大值为 100。如下，rouge-2=1.67 分数偏低，但这是正常现象，ROUGE-2 要求连续两个词和标准答案完全一致，而大模型的优势是语义一致但表达多样化的泛化能力。大模型使用不同的短语表达相同的意思，这是生成能力的体现，不是缺陷。如果 rouge-2 分数很高，反而说明模型在的泛化能力极差。
predict_rouge-l：ROUGE-L 表示最长公共子序列匹配率，衡量模型生成文本与参考文本之间最长公共子序列（Longest Common Subsequence）的匹配程度，即：整句的语义连贯性和语序一致性。同上，最大值为 100。如下，rouge-L=4.10 中等分数，表示模型生成的文本语义完整、逻辑通顺，虽然句式和标准答案不同，但核心信息完整、语序合理，能准确回答问题。

$ ll saves/Qwen3-1.7B-Base/lora/eval_2026-01-02-19-59-30
-rw-r--r-- 1 root root 331 Jan 3 03:36 all_results.json
-rw-r--r-- 1 root root 8123325 Jan 3 03:36 generated_predictions.jsonl
-rw-r--r-- 1 root root 465 Jan 223:19 llamaboard_config.yaml
-rw-r--r-- 1 root root 331 Jan 3 03:36 predict_results.json
-rw-r--r-- 1 root root 7492 Jan 3 03:36 running_log.txt
-rw-r--r-- 1 root root 22264 Jan 3 03:35 trainer_log.jsonl
-rw-r--r-- 1 root root 566 Jan 223:19 training_args.yaml

$ cd LlamaFactory
$ ll -h output/Qwen3-1.7B-huanhuan/
total 3.3G
drwxr-xr-x 2 root root 4.0K Jan 222:27 ./
drwxr-xr-x 3 root root 4.0K Jan 222:27 ../
-rw-r--r-- 1 root root 381 Jan 222:27 Modelfile
-rw-r--r-- 1 root root 707 Jan 222:27 added_tokens.json
-rw-r--r-- 1 root root 4.1K Jan 222:27 chat_template.jinja
-rw-r--r-- 1 root root 1.4K Jan 222:27 config.json
-rw-r--r-- 1 root root 117 Jan 222:27 generation_config.json
-rw-r--r-- 1 root root 1.6M Jan 222:27 merges.txt
-rw-r--r-- 1 root root 3.3G Jan 222:27 model.safetensors
-rw-r--r-- 1 root root 613 Jan 222:27 special_tokens_map.json
-rw-r--r-- 1 root root 11M Jan 222:27 tokenizer.json
-rw-r--r-- 1 root root 5.4K Jan 222:27 tokenizer_config.json
-rw-r--r-- 1 root root 2.7M Jan 222:27 vocab.json

$ git clone https://github.com/ggerganov/llama.cpp.git
$ cd llama.cpp/gguf-py
$ pip install --editable .
$ cd llama.cpp
$ python convert_hf_to_gguf.py /workspace/LlamaFactory/output/Qwen3-1.7B-huanhuan/
# 生成 xxx.gguf 格式文件。
$ ll /workspace/LlamaFactory/output/Qwen3-1.7B-huanhuan/
-rw-r--r-- 1 root root 381 Jan 222:27 Modelfile
-rw-r--r-- 1 root root 3447348896 Jan 3 05:13 Qwen3-1.7B-huanhuan-BF16.gguf

$ curl -fsSL https://ollama.com/install.sh |sh
$ ollama serve
$ ollama create qwen3-huanhuan -f /workspace/LlamaFactory/output/Qwen3-1.7B-huanhuan/Modelfile
$ ollama run qwen3-huanhuan

LLaMA-Factory 大模型微调实战指南

目录

LLaMA-Factory

LLaMA-Factory + Qwen3-7B + LoRA

安装部署

更多推荐文章

相关免费在线工具

准备数据集

执行微调

批量推理和训练效果评估

LoRA 模型合并导出

部署运行微调后的大模型

更多推荐文章

相关免费在线工具

LLaMA-Factory 大模型微调实战指南

目录

LLaMA-Factory

LLaMA-Factory + Qwen3-7B + LoRA

安装部署

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

准备数据集

执行微调

批量推理和训练效果评估

LoRA 模型合并导出

部署运行微调后的大模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具