LLaMA Factory 部署与微调：从零到能跑 | 极客日志

PythonAI

LLaMA Factory 部署与微调：从零到能跑

这篇记录整理了 LLaMA Factory 的完整搭建流程，涵盖硬件选型、驱动配置、Python 环境、核心库安装与 Web UI 启动，并附带基座模型和训练数据的准备方法，以及常见显存不足、加载失败等问题的排查思路，适合快速上手大模型微调。

信号故障发布于 2026/6/18更新于 2026/7/22 浏览

大模型微调是应用落地的关键一步。通用模型往往不够贴合特定领域，而微调能让它快速适配私有数据。在可用的工具里，北航开源的 LLaMA Factory 是我这几年觉得门槛最低、功能最全的，从 LoRA 到全参、从单机到 API 部署它都包了。这里记录一下我平时搭建环境的流程，希望能帮你少踩坑。

为什么是 LLaMA Factory

其实同类工具不少，阿里 Swift 偏工程化部署，DeepSpeed Chat 适合超大规模，但 LLaMA Factory 对新手最友好，支持的模型也多，Llama、千问、ChatGLM 等常用系列都能直接跑。它提供 Web UI 和命令行两套操作，不想写配置就点点界面，需要批处理时也能用脚本。社区活跃，遇到问题一搜就有答案。

硬件怎么选

微调主要看显存。现在的消费级显卡已经能搞定 7B/13B 了。下面是我实测过的配置，仅供参考：

微调模式	模型规模	最低显存	推荐显卡	内存	存储
4 位 QLoRA	7B	8GB	RTX 4060/3060（12GB 优先）	≥16GB	≥100GB NVMe SSD
8 位 QLoRA	7B/13B	12GB/20GB	RTX 4070 Ti SUPER/4080	≥32GB	≥200GB NVMe SSD
16 位 LoRA	7B/13B	20GB/40GB	RTX 4090 SUPER（24GB）	≥64GB	≥200GB NVMe SSD
16 位全参	7B/13B	60GB/120GB	A100（80GB）/H100	≥128GB	≥500GB NVMe SSD

几点经验：

优先 NVIDIA 卡，A 卡要折腾 ROCm，兼容性差一截。2025 年个人用的话 RTX 4090 SUPER 是性价比很高的选择。
存储务必上 NVMe SSD，加载模型、读数据比 SATA 盘快好几倍，不然训练时卡 I/O 很头疼。
没显卡可以租云算力，13B 模型 QLoRA 微调一次的成本其实不高。

软件环境

软件部分要保持版本兼容。我习惯用 MiniConda 建虚拟环境，隔离干净。

显卡驱动与 CUDA

驱动需要支持 CUDA 12.0+，Windows 去 GeForce Experience 更新，Linux 大部分发行版已自带。
检查：nvidia-smi，看到驱动版本 ≥550.00，CUDA Version ≥12.0 就行。
注意别手动装 CUDA Toolkit，让 PyTorch 安装时自己适配，否则很容易版本打架。

Python 虚拟环境

Python 3.11 目前最稳定，3.10 也行。

conda create -n llama_factory python=3.11
conda activate llama_factory

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

# PyTorch（含 CUDA 12.1，自动适配）
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# 微调必备
pip install transformers==4.41.0 datasets==2.19.0 accelerate==0.30.0 peft==0.11.1
pip install trl==0.8.6 deepspeed==0.14.0 bitsandbytes==0.43.0 vlm==0.2.0

# 可选 flash-attn，能提速 30% 左右，但 Windows 编译麻烦，可以略过
pip install flash-attn==2.5.9

# 中文分词和画图库
pip install jieba==0.42.1 matplotlib==3.8.4 scikit-learn==1.4.2

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -r requirements.txt

import torch
import transformers
import peft
print("PyTorch 版本：", torch.__version__)
print("CUDA 可用？", torch.cuda.is_available())
print("显卡型号：", torch.cuda.get_device_name(0))

python src/train_web.py

[
  {
    "instruction": "用一句话解释微调的作用",
    "input": "",
    "output": "微调通过注入特定领域数据，让通用模型在垂直任务上更准确。"
  }
]

LLaMA Factory 部署与微调：从零到能跑

为什么是 LLaMA Factory

硬件怎么选

软件环境

显卡驱动与 CUDA

Python 虚拟环境

更多推荐文章

相关免费在线工具

装核心库

安装 LLaMA Factory

启动试试

准备基座模型和数据

碰到问题这样查

更多推荐文章

相关免费在线工具

LLaMA Factory 部署与微调：从零到能跑

为什么是 LLaMA Factory

硬件怎么选

软件环境

显卡驱动与 CUDA

Python 虚拟环境

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

装核心库

安装 LLaMA Factory

启动试试

准备基座模型和数据

碰到问题这样查

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具