PythonAI算法

LLaMA-Factory 分布式训练实践指南

介绍基于 LLaMA-Factory 进行大模型分布式训练的完整流程。涵盖环境搭建（CUDA、PyTorch、依赖库）、三种主流引擎（DDP、DeepSpeed、FSDP）的选型对比与实战配置、多机协同部署步骤以及常见问题排查。通过实测数据对比不同方案在显存占用和训练速度上的表现，帮助开发者根据硬件资源选择最优策略，实现高效微调。

星星泡饭发布于 2026/4/6更新于 2026/7/2762 浏览

LLaMA-Factory 分布式训练实践指南

在大模型时代，微调不再是少数人的专利。随着开源生态的爆发式增长，越来越多开发者希望基于 Qwen、Llama 或 ChatGLM 等主流架构定制自己的领域专家模型。然而，当模型参数从 7B 跨越到 13B 甚至 70B 时，显存墙和训练效率问题接踵而至。

LLaMA-Factory 正是在这一背景下崛起的明星项目——它不仅支持超过百种主流模型架构的全参数与高效微调（如 LoRA/QLoRA），更关键的是，提供了开箱即用的分布式训练能力。无论是单机多卡还是跨节点集群，你都可以通过统一接口快速启动训练任务。

本文将带你深入实战，从环境搭建到多机部署，覆盖 DDP、DeepSpeed 和 FSDP 三大主流分布式方案，并结合真实场景给出选型建议与避坑指南。

环境准备：让系统'准备好跑大模型'

任何高效的训练都始于一个干净、稳定的运行环境。尤其是在使用 A10/A100/H100 等高端 GPU 时，CUDA 版本、驱动兼容性和依赖库的选择直接影响能否成功加载模型。

安装基础工具链

首先确保系统具备编译和运行所需的基础组件：

sudo apt update && sudo apt install -y python3-pip python3-dev git gcc g++ make cmake libssl-dev libffi-dev

这一步看似简单，但若缺少 libffi-dev 或 cmake，后续安装 PyTorch 扩展或 FlashAttention 时可能报错无法编译 C++ 源码。

配置 CUDA 与 GPU 支持

推荐使用 CUDA 11.8 或 12.1，具体选择取决于硬件：

# 示例：Ubuntu 22.04 上安装 CUDA 11.8
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update && sudo apt install -y cuda-11-8
# 设置环境变量
echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

验证安装是否成功：

nvcc -V # 应输出 CUDA 编译器版本
nvidia-smi # 查看 GPU 状态及驱动加载情况

💡 若使用 Hopper 架构（如 H100），强烈建议升级至 CUDA 12.x 并搭配 PyTorch 2.0+，以启用 torch.compile 和 BF16 计算，这对提升吞吐至关重要。

安装 LLaMA-Factory 与核心依赖

推荐采用源码安装方式，以便获取最新功能和分布式优化补丁：

git clone https://github.com/hiyouga/LLaMA-Factory.git
 LLaMA-Factory

conda create -n llafactory python=3.10 -y
conda activate llafactory

pip install -e .[deepspeed,torch]

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

llama_factory-cli version

# 检查 PyTorch 分布式支持
python -c "import torch; print(f'Distributed available: {torch.distributed.is_available()}')"
# 检查 DeepSpeed 是否可用
deespeed --version || echo "DeepSpeed not installed"
# 检查 FSDP 支持（需 PyTorch >= 2.0）
python -c "try:
    from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
    print('FSDP supported')
except ImportError:
    print('FSDP not supported')"

引擎	核心特点	适用场景
DDP	PyTorch 原生实现，调试方便，通信开销低	单机多卡（≤8 卡），中小模型（<13B）
DeepSpeed	ZeRO 显存优化强大，支持 CPU offload，适合超大模型	大模型（≥13B）、显存受限、追求极致吞吐
FSDP	PyTorch 官方内置，兼容性强，支持 `torch.compile` 加速	多机扩展、标准化部署、长期维护项目

torchrun --nproc_per_node=4 \
src/train_bash.py \
--stage sft \
--do_train \
--model_name_or_path /models/Qwen-7B \
--dataset alpaca_en \
--finetuning_type lora \
--output_dir ./output/qwen-7b-lora-ddp \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 8 \
--learning_rate 2e-4 \
--num_train_epochs 3 \
--lr_scheduler_type cosine \
--max_grad_norm 1.0 \
--logging_steps 10 \
--save_steps 500 \
--fp16 \
--ddp_find_unused_parameters false \
--plot_loss

{
  "train_batch_size": 64,
  "train_micro_batch_size_per_gpu": 4,
  "gradient_accumulation_steps": 4,
  "fp16": {
    "enabled": true
  },
  "zero_optimization": {
    "stage": 2,
    "offload_optimizer": {
      "device": "cpu",
      "pin_memory": true
    },
    "allgather_partitions": true,
    "allgather_bucket_size": 5e8,
    "overlap_comm": true,
    "reduce_scatter": true,
    "reduce_bucket_size": 5e8,
    "contiguous_gradients": true
  },
  "optimizer": {
    "type": "AdamW",
    "params": {
      "lr": 2e-4,
      "betas": [0.9, 0.999],
      "eps": 1e-8,
      "weight_decay": 0.01
    }
  },
  "scheduler": {
    "type": "WarmupCosineLR",
    "params": {
      "warmup_min_lr": 0,
      "warmup_max_lr": 2e-4,
      "warmup_num_steps": 100,
      "total_num_steps": 10000
    }
  },
  "gradient_clipping": 1.0,
  "wall_clock_breakdown": false,
  "zero_allow_untested_optimizer": true
}

deepeed --num_gpus=4 \
src/train_bash.py \
--stage sft \
--do_train \
--model_name_or_path /models/Baichuan2-13B-Base \
--dataset medical_qa_zh \
--finetuning_type lora \
--output_dir ./output/baichuan2-13b-lora-deepspeed \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-4 \
--num_train_epochs 3 \
--deepspeed ./ds_z2_offload.json \
--fp16 \
--plot_loss

torchrun --nproc_per_node=4 \
src/train_bash.py \
--stage sft \
--do_train \
--model_name_or_path /models/ChatGLM3-6B \
--dataset finance_qa_zh \
--finetuning_type lora \
--output_dir ./output/chatglm3-6b-lora-fsdp \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--learning_rate 5e-5 \
--num_train_epochs 3 \
--lr_scheduler_type cosine \
--fp16 \
--fsdp "full_shard auto_wrap" \
--fsdp_transformer_layer_cls_to_wrap "GLMBlock" \
--fsdp_use_orig_params true \
--compile \
--plot_loss

torchrun \
--nnodes=2 \
--node_rank=0 \
--master_addr=worker01 \
--master_port=29500 \
--nproc_per_node=4 \
src/train_bash.py \
--stage sft \
--do_train \
--model_name_or_path /shared/models/Qwen-14B \
--dataset law_qa_zh \
--finetuning_type lora \
--output_dir /shared/output/qwen-14b-lora-ddp-multi \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 8 \
--learning_rate 2e-4 \
--num_train_epochs 3 \
--fp16 \
--ddp_find_unused_parameters false \
--save_steps 1000 \
--logging_steps 50 \
--plot_loss

torchrun \
--nnodes=2 \
--node_rank=1 \
--master_addr=worker01 \
--master_port=29500 \
--nproc_per_node=4 \
src/train_bash.py \
# 参数完全相同...

deepeed \
--num_nodes=2 \
--num_gpus=4 \
--master_addr=worker01 \
--master_port=29500 \
--node_rank=0 \
src/train_bash.py \
--stage sft \
--do_train \
--model_name_or_path /shared/models/Llama-2-70B-Chat \
--dataset alpaca_gpt4_en \
--finetuning_type lora \
--output_dir /shared/output/llama2-70b-lora-deepspeed \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--num_train_epochs 2 \
--deepspeed ./ds_z3_offload.json \
--fp16 \
--plot_loss

"zero_optimization": {
  "stage": 3,
  "offload_optimizer": {
    "device": "cpu"
  },
  "offload_param": {
    "device": "cpu"
  },
  "stage3_max_live_parameters": 1e9,
  "stage3_max_reuse_distance": 1e9,
  "stage3_gather_16bit_weights_on_model_save": true
}

torchrun \
--nnodes=2 \
--node_rank=0 \
--master_addr=worker01 \
--master_port=29500 \
--nproc_per_node=4 \
src/train_bash.py \
--stage sft \
--do_train \
--model_name_or_path /shared/models/Yi-34B \
--dataset instruction_zh \
--finetuning_type lora \
--output_dir /shared/output/yi-34b-lora-fsdp-multi \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 1e-4 \
--num_train_epochs 3 \
--fp16 \
--fsdp "full_shard auto_wrap" \
--fsdp_transformer_layer_cls_to_wrap "YiDecoderLayer" \
--fsdp_use_orig_params true \
--plot_loss

引擎	模型	设备	显存/卡	速度 (tokens/s)	适用性
DDP	Qwen-7B	单机 4×A10	~18GB	~920	快速迭代首选
DeepSpeed-ZeRO2	Baichuan2-13B	单机 8×A10	~14GB	~760	显存敏感场景最佳
FSDP	ChatGLM3-6B	双机 8×RTX3090	~10GB	~810	多机标准化部署优选
DeepSpeed-ZeRO3+Offload	Llama2-70B	4 节点×8GPU	~16GB	~320	超大模型唯一选择

场景	推荐方案
快速验证想法	DDP + LoRA + 单机 4 卡
显存有限训练大模型	DeepSpeed ZeRO-2 + CPU Offload
多机集群标准化训练	FSDP + `torch.compile`
超大规模模型（>70B）	DeepSpeed ZeRO-3 + Offload + 多节点

LLaMA-Factory 分布式训练实践指南

LLaMA-Factory 分布式训练实践指南

环境准备：让系统'准备好跑大模型'

安装基础工具链

配置 CUDA 与 GPU 支持

安装 LLaMA-Factory 与核心依赖

LLaMA-Factory 分布式训练实践指南

LLaMA-Factory 分布式训练实践指南

环境准备：让系统'准备好跑大模型'

安装基础工具链

配置 CUDA 与 GPU 支持

安装 LLaMA-Factory 与核心依赖

更多推荐文章

相关免费在线工具

检查分布式训练依赖

三种分布式引擎怎么选？一场关于'显存 vs 性能'的权衡

单机多卡实战：从小试牛刀到稳定压测

使用 DDP 启动 Qwen-7B 的 LoRA 微调

DeepSpeed + ZeRO-2 Offload：让 Baichuan2-13B 在消费级显卡上跑起来

第一步：编写配置文件 `ds_z2_offload.json`

第二步：启动训练

FSDP + torch.compile：面向未来的高性能组合

多机协同：突破单机天花板

准备工作清单

DDP 多机训练：两步走策略

主节点启动命令（node_rank=0）

从节点执行相同命令（node_rank=1）

DeepSpeed 多机训练：一键扩展

FSDP 多机训练：简洁而强大

常见问题与解决方案

显存溢出（OOM）

多机连接失败

DeepSpeed 报错 'Unsupported optimizer'

FSDP 报错 'Did not infer parameter location'

性能对比与选型建议（基于实测数据）

总结

不同场景下的推荐策略

更多推荐文章

相关免费在线工具

LLaMA-Factory 分布式训练实践指南

LLaMA-Factory 分布式训练实践指南

环境准备：让系统'准备好跑大模型'

安装基础工具链

配置 CUDA 与 GPU 支持

安装 LLaMA-Factory 与核心依赖

LLaMA-Factory 分布式训练实践指南

LLaMA-Factory 分布式训练实践指南

环境准备：让系统'准备好跑大模型'

安装基础工具链

配置 CUDA 与 GPU 支持

安装 LLaMA-Factory 与核心依赖

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

检查分布式训练依赖

三种分布式引擎怎么选？一场关于'显存 vs 性能'的权衡

单机多卡实战：从小试牛刀到稳定压测

使用 DDP 启动 Qwen-7B 的 LoRA 微调

DeepSpeed + ZeRO-2 Offload：让 Baichuan2-13B 在消费级显卡上跑起来

第一步：编写配置文件 ds_z2_offload.json

第二步：启动训练

FSDP + torch.compile：面向未来的高性能组合

多机协同：突破单机天花板

准备工作清单

DDP 多机训练：两步走策略

主节点启动命令（node_rank=0）

从节点执行相同命令（node_rank=1）

DeepSpeed 多机训练：一键扩展

FSDP 多机训练：简洁而强大

常见问题与解决方案

显存溢出（OOM）

多机连接失败

DeepSpeed 报错 'Unsupported optimizer'

FSDP 报错 'Did not infer parameter location'

性能对比与选型建议（基于实测数据）

总结

不同场景下的推荐策略

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第一步：编写配置文件 `ds_z2_offload.json`