本地部署 LLaMA-Factory 全指南 | 极客日志

PythonAI算法

本地部署 LLaMA-Factory 全指南

本地部署 LLaMA-Factory 框架进行大语言模型微调的完整流程。涵盖硬件环境检查、Conda 虚拟环境搭建、项目源码克隆、核心依赖安装及 GPU 验证步骤。通过 WebUI 可视化界面配置 Qwen 预训练模型与 LoRA 微调参数，完成数据集加载、训练监控、权重合并及模型导出。最终实现本地交互式推理与 API 服务部署，适用于拥有消费级显卡的开发者和研究者进行个性化模型定制。

WenxuanMa发布于 2026/3/22更新于 2026/6/2330 浏览

本地部署 LLaMA-Factory 全指南

在大模型技术飞速发展的今天，如何让普通人也能轻松定制属于自己的 AI 助手？这曾是一个遥不可及的梦想。但随着 LLaMA-Factory 这类开源项目的出现，微调一个大语言模型不再只是顶级实验室的专利。它把复杂的训练流程封装成可点击的操作，甚至不需要写一行代码，就能完成从数据准备到模型部署的全过程。

如果你有一块消费级显卡，比如 RTX 3060 或更高，那么你已经具备了动手实践的基础条件。本文将带你一步步搭建环境、加载模型、配置训练参数，并最终生成一个能理解中文指令的个性化 Qwen 模型——整个过程就像使用图形化软件一样自然流畅。

硬件与环境检查：你的设备准备好了吗？

再强大的框架也离不开硬件支撑。虽然 LLaMA-Factory 支持 CPU 推理，但真正想跑通一次像样的微调任务，GPU 是必不可少的。

打开终端，先执行这条命令：

nvidia-smi

如果能看到类似下面的信息，说明你的 NVIDIA 显卡驱动和 CUDA 环境基本正常：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.86.05 Driver Version: 535.86.05 CUDA Version: 12.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 NVIDIA RTX 4090 Off | 00000000:01:00.0 Off | N/A |
| 30% 45C P8 25W / 450W | 1024MiB / 24576MiB | 5% Default |
+-------------------------------+----------------------+----------------------+

重点关注三点：

：这是 PyTorch 训练的底线要求；

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

mkdir llama-factory-project && cd llama-factory-project

git clone https://gitee.com/hiyouga/LLaMA-Factory.git

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

conda create -n llama_factory python=3.10 -y conda activate llama_factory

cd LLaMA-Factory pip install --upgrade pip pip install -e "[torch,metrics]"

llamafactory-cli version

import torch print("CUDA Available:", torch.cuda.is_available()) print("GPU Count:", torch.cuda.device_count()) print("Current Device:", torch.cuda.current_device()) print("Device Name:", torch.cuda.get_device_name(0)) print("PyTorch Version:", torch.__version__)

CUDA Available: True GPU Count: 1 Current Device: 0 Device Name: NVIDIA GeForce RTX 4090 PyTorch Version: 2.3.0+cu121

llamafactory-cli webui

平台	地址	特点
🤗 Hugging Face	https://huggingface.co/models	国际主流平台，模型丰富，但需科学上网
🔧 魔搭社区（ModelScope）	https://modelscope.cn/models	国内高速访问，适合中文用户

git lfs install git clone https://www.modelscope.cn/qwen/Qwen2.5-3B-Instruct.git models/qwen2.5-3b-instruct

pip install modelscope

from modelscope.hub.snapshot_download import snapshot_download model_dir = snapshot_download('qwen/Qwen2.5-3B-Instruct', cache_dir='./models') print(f"Model saved to {model_dir}")

LLaMA-Factory/
├── models/
│   └── qwen2.5-3b-instruct/
│       ├── config.json
│       ├── model.safetensors
│       ├── tokenizer.model
│       └── ...

字段	值
模型名称	qwen/Qwen2.5-3B-Instruct
模型路径	./models/qwen2.5-3b-instruct
适配器名称	lora_rank_8
微调方法	LoRA
量化等级	bitsandbytes-int4

参数	值	说明
学习率	2e-4	AdamW 默认初始值
批大小	16	Global batch size
梯度累积步数	4	提升有效批大小
训练轮数	3	防止过拟合
LoRA 秩 (r)	8	控制新增参数规模
LoRA Alpha	16	一般设为 2×r
Dropout	0.1	正则化防止过拟合
最大序列长度	512	平衡上下文长度与显存占用

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \ --model_name_or_path ./models/qwen2.5-3b-instruct \ --do_train \ --dataset alpaca_zh \ --finetuning_type lora \ --lora_rank 8 \ --output_dir output/qwen_lora_3b \ --per_device_train_batch_size 4 \ --gradient_accumulation_steps 4 \ --learning_rate 2e-4 \ --num_train_epochs 3.0 \ --max_seq_length 512 \ --quantization_bit 4 \ --fp16

llamafactory-cli export \ --model_name_or_path ./models/qwen2.5-3b-instruct \ --adapter_name_or_path output/qwen_lora_3b \ --export_dir merged_models/qwen2.5-3b-instruct-lora-merged \ --export_quantization_bit 4 \ --export_device cuda

llamafactory-cli chat \ --model_name_or_path merged_models/qwen2.5-3b-instruct-lora-merged

llamafactory-cli api \ --model_name_or_path merged_models/qwen2.5-3b-instruct-lora-merged \ --port 8080

curl -X POST "http://127.0.0.1:8080" \ -H "Content-Type: application/json" \ -d '{ "messages": [{"role": "user", "content": "请介绍一下你自己"}] }'

{
 "response": "我是经过指令微调的 Qwen 模型，能够更好地理解和回答中文问题……"
}

本地部署 LLaMA-Factory 全指南

本地部署 LLaMA-Factory 全指南

硬件与环境检查：你的设备准备好了吗？

更多推荐文章

相关免费在线工具

开始部署：从零搭建运行环境

克隆项目源码

创建 Conda 虚拟环境

安装核心依赖

验证 GPU 可用性

启动 WebUI：开启可视化操作时代

获取预训练模型：选择适合你的起点

方法一：使用 Git LFS 下载（推荐）

方法二：通过 ModelScope SDK 下载

配置并启动 QLoRA 微调任务

设置模型参数

选择训练数据集

配置超参数：平衡性能与资源消耗

启动训练

实时监控：掌控每一步进展

模型合并与导出：打造独立可用的新模型

使用 WebUI 合并

命令行方式（备用）

推理与部署：让你的模型真正'说话'

本地交互式推理

启动 API 服务

写在最后

更多推荐文章

相关免费在线工具

本地部署 LLaMA-Factory 全指南

本地部署 LLaMA-Factory 全指南

硬件与环境检查：你的设备准备好了吗？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

开始部署：从零搭建运行环境

克隆项目源码

创建 Conda 虚拟环境

安装核心依赖

验证 GPU 可用性

启动 WebUI：开启可视化操作时代

获取预训练模型：选择适合你的起点

方法一：使用 Git LFS 下载（推荐）

方法二：通过 ModelScope SDK 下载

配置并启动 QLoRA 微调任务

设置模型参数

选择训练数据集

配置超参数：平衡性能与资源消耗

启动训练

实时监控：掌控每一步进展

模型合并与导出：打造独立可用的新模型

使用 WebUI 合并

命令行方式（备用）

推理与部署：让你的模型真正'说话'

本地交互式推理

启动 API 服务

写在最后

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具