LLaMa-Factory 实战进阶：WebUI 配置与分布式训练详解 | 极客日志

PythonAI算法

LLaMa-Factory 实战进阶：WebUI 配置与分布式训练详解

LLaMa-Factory 实战进阶涵盖 WebUI 配置与分布式训练详解。内容涉及基座模型选择、数据集配置、RLHF/DPO/KTO 训练阶段差异。深入解析量化技术（bitsandbytes/HQQ/EETQ）及加速方案（FlashAttention-2/Unsloth/Liger Kernel）。提供 LoRA 合并、模型导出命令行实操，并对比 DDP、DeepSpeed、FSDP 三种分布式训练引擎的配置与适用场景，助力高效微调大模型。

怪力乱神发布于 2026/4/12更新于 2026/5/2418 浏览

引言

本文聚焦 LLaMA-Factory 的高级应用，涵盖 WebUI 参数深度解析、模型合并量化以及分布式训练方案。前文已介绍过基础概念和数据格式，这一部分将深入实战细节，帮助大家在微调大模型时少走弯路。

WebUI 详解

1. 基座模型

这部分主要定义模型的来源和路径。注意，模型本体通常需要手动下载，工具只负责加载。

字段	说明
模型名称	支持的所有基座模型列表。部分名称可能不够明确，例如 DeepSeek-R1-7B-Distill，仅说明使用了 R1 作为教师模型，未指明学生模型具体版本，需自行确认。
模型路径	本地存储路径。
检查点路径	如需断点续训，填写 checkpoint 路径；否则留空。
对话模板	不同模型差异较大，建议选用同系列或相近模型的模板，避免报错。

2. 数据集

训练数据的配置相对直接，关键在于 dataset_info.json 文件的编写。

字段	说明
数据路径	存放训练数据和 `dataset_info.json` 的本地路径。
数据集	`dataset_info.json` 中定义的名称。

{
  "chat-train": {
    "file_name": "train.jsonl"
  }
}

3. 训练阶段

这里的选项并非并列关系，而是根据任务需求选择的流程组合。

训练阶段	说明
Pre-Training	预训练，大模型的起步阶段。
Supervised Fine-Tuning	有监督微调（SFT）。

更多推荐文章

查看全部

方法	易用性	压缩率	速度	典型用途
bitsandbytes	⭐⭐⭐⭐	⭐⭐	⭐⭐	个人快速部署
HQQ	⭐⭐	⭐⭐⭐⭐	⭐	手机/嵌入式
EETQ	⭐	⭐⭐	⭐⭐⭐⭐	企业级推理

参数名称	说明
学习率	0.1 仅用于探索；0.01 从头训练标准；0.001 接近目标时调整；0.0001 微调；0.00005 预训练最后微调。
训练轮数	特性简单 1 轮即可，数据集太小不建议太多，可考虑数据增强。
最大梯度范数	防止梯度爆炸。
最大样本数	限制训练样本数量。
计算类型	fp32 准确慢；fp16 省显存快但易溢出；bf16 脑浮点数，省显存快且不易溢出；pure_bf16 需硬件支持。
截断长度	输入样本的最大长度。
批处理大小	根据显存调整。
梯度累计	批处理大小 * 梯度累计 = 实际更新频率。
验证集比例	验证集占比。
学习率调节器	决定学习率变化曲线，cosine 最常用。

参数	说明
LoRA 的秩	矩阵秩，决定参数量。
LoRA 缩放系数	缩放大小。
LoRA 随机丢弃	权重丢弃概率。
LoRA+ 学习率比例	A 矩阵用优化器学习率，B 矩阵为 λ * ηA。
使用 rslora	动态调整缩放系数。
使用 DoRA	分继承幅度和方向两部分优化。
使用 PiSSA	调整主成分，减少计算量。

llamafactory-cli export merge_config.yaml

# 基座模型路径
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
# LoRA 路径
adapter_name_or_path: saves/llama3-8b/lora/sft
# 对话模板
template: llama3
# 微调类型
finetuning_type: lora
# 合并后模型路径
export_dir: models/llama3_lora_sft
# 模型文件切割的大小（GB）
export_size: 2
# 导出的设备
export_device: cpu
# 导出的文件格式 True：.bin 格式保存。False：.safetensors 格式保存。
export_legacy_format: false

llamafactory-cli export quantization_config.yaml

# 基座模型路径
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
# 对话模板
template: llama3
# 合并后模型路径
export_dir: models/llama3_gptq
# 量化等级
export_quantization_bit: 4
# 量化校验数据集
export_quantization_dataset: data/c4_demo.json
# 模型文件切割的大小（GB）
export_size: 2
# 导出的设备
export_device: cpu
# 导出的文件格式
export_legacy_format: false

FORCE_TORCHRUN=1 llamafactory-cli train examples/train_full/llama3_full_sft_ds3.yaml

FORCE_TORCHRUN=1 CUDA_VISIBLE_DEVICES=0,1 llamafactory-cli train config/config1.yaml

torchrun --standalone --nnodes=1 --nproc-per-node=8 src/train.py \
--stage sft \
--model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct \
--do_train \
--dataset alpaca_en_demo \
--template llama3 \
--finetuning_type lora \
--output_dir saves/llama3-8b/lora/ \
--overwrite_cache \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 8 \
--lr_scheduler_type cosine \
--logging_steps 100 \
--save_steps 500 \
--learning_rate 1e-4 \
--num_train_epochs 2.0 \
--plot_loss \
--bf16

accelerate launch \
--config_file accelerate_singleNode_config.yaml \
src/train.py training_config.yaml

compute_environment: LOCAL_MACHINE
distributed_type: MULTI_GPU
num_processes: 8
mixed_precision: fp16

FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=0 MASTER_ADDR=192.168.0.1 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml
FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=1 MASTER_ADDR=192.168.0.1 MASTER_PORT=29500 \
llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml

compute_environment: LOCAL_MACHINE
distributed_type: MULTI_GPU
num_machines: 2
num_processes: 16
main_process_ip: '192.168.0.1'
main_process_port: 29500

accelerate launch \
--config_file accelerate_multiNode_config.yaml \
train.py llm_config.yaml

FORCE_TORCHRUN=1 llamafactory-cli train examples/train_full/llama3_full_sft_ds3.yaml

deeepspeed: examples/deepspeed/ds_z3_config.json

deeepspeed --include localhost:1 your_program.py <normal cl args> --deepspeed ds_config.json

deeepspeed --num_gpus 8 src/train.py \
--deepspeed examples/deepspeed/ds_z3_config.json \
--stage sft \
--model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct \
--do_train \
--dataset alpaca_en \
--template llama3 \
--finetuning_type full \
--output_dir saves/llama3-8b/lora/full \
--overwrite_cache \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 8 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 500 \
--learning_rate 1e-4 \
--num_train_epochs 2.0 \
--plot_loss \
--bf16

FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=0 MASTER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft_ds3.yaml
FORCE_TORCHRUN=1 NNODES=2 NODE_RANK=1 MASTER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/train_lora/llama3_lora_sft_ds3.yaml

deeepspeed --num_gpus 8 --num_nodes 2 --hostfile hostfile --master_addr hostname1 --master_port=9901 \
your_program.py <normal cl args> --deepspeed ds_config.json

compute_environment: LOCAL_MACHINE
distributed_type: DEEPSPEED
deeepspeed_config: deepspeed_multinode_launcher: standard
zero_stage: 3
num_machines: 2
num_processes: 16

accelerate launch \
--config_file deepspeed_config.yaml \
train.py llm_config.yaml

{"zero_optimization": {"stage": 0}}

{"zero_optimization": {"stage": 2}}

{"zero_optimization": {"stage": 3}}

{"zero_optimization": {"stage": 3, "offload_optimizer": {"device": "cpu"}, "offload_param": {"device": "cpu"}}}

bash examples/extras/fsdp_qlora/train.sh

compute_environment: LOCAL_MACHINE
distributed_type: FSDP
fsdp_config:
  fsdp_sharding_strategy: FULL_SHARD
  fsdp_offload_params: true
num_processes: 2

accelerate launch \
--config_file fsdp_config.yaml \
src/train.py llm_config.yaml

LLaMa-Factory 实战进阶：WebUI 配置与分布式训练详解

引言

WebUI 详解

1. 基座模型

2. 数据集

3. 训练阶段

微信扫一扫，关注极客日志

更多推荐文章

3.1 RLHF（Reward Modeling + PPO）

3.2 DPO

3.3 KTO

4. 训练方法

5. 量化

5.1 bitsandbytes

5.2 HQQ

5.3 EETQ

6. 加速算法

6.1 FlashAttention-2

6.2 Unsloth

6.3 Liger Kernel

7. RoPE 插值方法

7.1 Linear（线性缩放）

7.2 Dynamic（动态缩放）

7.3 YaRN（NTK-aware RoPE Scaling）

7.4 LLaMA-3 的改进

8. 通用参数

9. 其它参数

10. 部分参数微调设置

11. LoRA 参数设置

12. RLHF 参数设置

13. 多模态参数设置

14. GaLore 参数设置

15. APOLLO 参数设置

16. BAdam 参数设置

17. 模型和配置的保存路径

18. SwanLab 参数设置

19. 预测与评估

20. 推理

21. 导出模型

22. 小结

LoRA 模型合并和量化

1. 模型合并

1.1 使用 WebUI

1.2 使用命令行

2. 模型量化

2.1 使用 WebUI

2.2 使用命令行

分布式训练

1. 整体介绍

2. DDP

2.1 单机多卡

2.2 多机多卡

3. DeepSpeed

3.1 单机多卡

3.2 多机多卡

4. FSDP

4.1 llamafactory-cli

4.2 accelerate

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具