LLaMA-Factory 本地部署与微调指南 | 极客日志

PythonAI算法

LLaMA-Factory 本地部署与微调指南

在本地环境部署 LLaMA-Factory 并进行大语言模型微调的完整流程。首先检查硬件环境，确保 GPU 驱动及 CUDA 版本符合要求。接着创建 Conda 虚拟环境并安装项目依赖。通过 WebUI 界面加载预训练模型，配置 QLoRA 微调参数，选择数据集进行训练。支持实时监控 Loss 曲线与显存占用。训练完成后，执行模型合并与导出，并提供命令行推理及 API 服务部署方案，实现个性化模型的本地化应用。

乱七八糟发布于 2026/4/6更新于 2026/7/2049 浏览

LLaMA-Factory 本地部署与微调指南

在大模型技术快速发展的背景下，LLaMA-Factory 等开源项目使得大语言模型的微调不再局限于顶级实验室。本文将介绍如何搭建环境、加载模型、配置训练参数，并生成支持中文指令的个性化模型。

硬件与环境检查

虽然 LLaMA-Factory 支持 CPU 推理，但为了跑通微调任务，GPU 是必要的。

打开终端执行以下命令检查 NVIDIA 显卡驱动和 CUDA 环境：

nvidia-smi

如果输出包含 GPU 信息，说明环境基本正常。重点关注三点：

CUDA 版本 ≥ 11.8：PyTorch 训练的底线要求；
显存 ≥ 16GB：推荐用于 7B 模型的 QLoRA 微调；若只跑 3B 模型，12GB 显存勉强够用；
多卡支持：如果有多个 GPU，可以并行加速训练。

注意：如果命令报错或显示'NVIDIA-SMI has failed'，可能是驱动未安装。请前往 NVIDIA 官网下载对应驱动，并安装 CUDA Toolkit。

开始部署：从零搭建运行环境

克隆项目源码

创建专属工作目录并克隆仓库。建议使用 Gitee 镜像源以优化国内网络访问：

mkdir llama-factory-project && cd llama-factory-project
git clone https://gitee.com/hiyouga/LLaMA-Factory.git

如果 GitHub 访问稳定，也可以直接拉取官方仓库（带 --depth 1 可节省时间）：

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

创建 Conda 虚拟环境

为避免依赖冲突，建议使用 Conda 管理 Python 环境：

conda create -n llama_factory python=3.10 -y
conda activate llama_factory

激活后，命令行提示符前会出现 (llama_factory) 标识。

安装核心依赖

进入项目根目录，执行安装命令：

cd LLaMA-Factory
pip install --upgrade pip
pip install -e ".[torch,metrics]"

该命令会自动安装 transformers, datasets, peft, accelerate, trl, sentencepiece, safetensors, bitsandbytes 等关键库。

安装完成后，验证是否成功：

llamafactory-cli version

如果返回版本号，说明核心组件已就位。

验证 GPU 可用性

确认 PyTorch 是否识别到了你的 GPU：

 torch
(, torch.cuda.is_available())
(, torch.cuda.device_count())
(, torch.cuda.current_device())
(, torch.cuda.get_device_name())
(, torch.__version__)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

llamafactory-cli webui

平台	地址	特点
Hugging Face	https://huggingface.co/models	国际主流平台，模型丰富
魔搭社区 (ModelScope)	https://modelscope.cn/models	国内高速访问，适合中文用户

git lfs install
git clone https://www.modelscope.cn/qwen/Qwen2.5-3B-Instruct.git models/qwen2.5-3b-instruct

pip install modelscope

from modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download('qwen/Qwen2.5-3B-Instruct', cache_dir='./models')
print(f"Model saved to {model_dir}")

字段	值
模型名称	qwen/Qwen2.5-3B-Instruct
模型路径	./models/qwen2.5-3b-instruct
适配器名称	lora_rank_8
微调方法	LoRA
量化等级	bitsandbytes-int4

参数	值	说明
学习率	2e-4	AdamW 默认初始值
批大小	16	Global batch size
梯度累积步数	4	提升有效批大小
训练轮数	3	防止过拟合
LoRA 秩 (r)	8	控制新增参数规模
LoRA Alpha	16	一般设为 2×r
Dropout	0.1	正则化防止过拟合
最大序列长度	512	平衡上下文长度与显存占用

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \
--model_name_or_path ./models/qwen2.5-3b-instruct \
--do_train \
--dataset alpaca_zh \
--finetuning_type lora \
--lora_rank 8 \
--output_dir output/qwen_lora_3b \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--learning_rate 2e-4 \
--num_train_epochs 3.0 \
--max_seq_length 512 \
--quantization_bit 4 \
--fp16

llamafactory-cli export \
--model_name_or_path ./models/qwen2.5-3b-instruct \
--adapter_name_or_path output/qwen_lora_3b \
--export_dir merged_models/qwen2.5-3b-instruct-lora-merged \
--export_quantization_bit 4 \
--export_device cuda

llamafactory-cli chat \
--model_name_or_path merged_models/qwen2.5-3b-instruct-lora-merged

llamafactory-cli api \
--model_name_or_path merged_models/qwen2.5-3b-instruct-lora-merged \
--port 8080

curl -X POST "http://127.0.0.1:8080" \
-H "Content-Type: application/json" \
-d '{ "messages": [{"role": "user", "content": "请介绍一下你自己"}] }'

{
  "response": "我是经过指令微调的 Qwen 模型，能够更好地理解和回答中文问题……"
}

LLaMA-Factory 本地部署与微调指南

LLaMA-Factory 本地部署与微调指南

硬件与环境检查

开始部署：从零搭建运行环境

克隆项目源码

创建 Conda 虚拟环境

安装核心依赖

验证 GPU 可用性

更多推荐文章

相关免费在线工具

启动 WebUI：开启可视化操作

获取预训练模型

方法一：使用 Git LFS 下载

方法二：通过 ModelScope SDK 下载

配置并启动 QLoRA 微调任务

设置模型参数

选择训练数据集

配置超参数

启动训练

实时监控

模型合并与导出

使用 WebUI 合并

命令行方式（备用）

推理与部署

本地交互式推理

启动 API 服务

更多推荐文章

相关免费在线工具

LLaMA-Factory 本地部署与微调指南

LLaMA-Factory 本地部署与微调指南

硬件与环境检查

开始部署：从零搭建运行环境

克隆项目源码

创建 Conda 虚拟环境

安装核心依赖

验证 GPU 可用性

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

启动 WebUI：开启可视化操作

获取预训练模型

方法一：使用 Git LFS 下载

方法二：通过 ModelScope SDK 下载

配置并启动 QLoRA 微调任务

设置模型参数

选择训练数据集

配置超参数

启动训练

实时监控

模型合并与导出

使用 WebUI 合并

命令行方式（备用）

推理与部署

本地交互式推理

启动 API 服务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具