本地部署 LLaMA-Factory 全指南 | 极客日志

PythonAI算法

本地部署 LLaMA-Factory 全指南

综述由AI生成在本地环境部署 LLaMA-Factory 框架的完整流程。内容包括硬件环境检查（CUDA、显存）、Conda 虚拟环境搭建、依赖安装及 WebUI 启动。演示了从 Hugging Face 或 ModelScope 下载预训练模型（如 Qwen），配置 QLoRA 参数进行微调，以及权重合并与 API 服务部署。旨在帮助开发者利用消费级显卡完成大语言模型的定制化训练与推理。

不羁发布于 2026/4/5更新于 2026/5/2341 浏览

本地部署 LLaMA-Factory 全指南

本文介绍如何在本地使用 LLaMA-Factory 进行大语言模型的微调与部署。

硬件与环境检查：你的设备准备好了吗？

虽然 LLaMA-Factory 支持 CPU 推理，但真正想跑通一次像样的微调任务，GPU 是必不可少的。

打开终端，先执行这条命令：

nvidia-smi

如果能看到类似下面的信息，说明你的 NVIDIA 显卡驱动和 CUDA 环境基本正常：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.86.05 Driver Version: 535.86.05 CUDA Version: 12.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 NVIDIA RTX 4090 Off | 00000000:01:00.0 Off | N/A |
| 30% 45C P8 25W / 450W | 1024MiB / 24576MiB | 5% Default |
+-------------------------------+----------------------+----------------------+

重点关注三点：

CUDA 版本 ≥ 11.8：这是 PyTorch 训练的底线要求；
显存 ≥ 16GB：推荐用于 7B 模型的 QLoRA 微调；若只跑 3B 模型，12GB 显存勉强够用；
多卡支持：如果有多个 GPU，可以并行加速训练。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

mkdir llama-factory-project && cd llama-factory-project

git clone https://gitee.com/hiyouga/LLaMA-Factory.git

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

conda create -n llama_factory python=3.10 -y conda activate llama_factory

cd LLaMA-Factory pip install --upgrade pip pip install -e ".[torch,metrics]"

llamafactory-cli version

import torch 
print("CUDA Available:", torch.cuda.is_available()) 
print("GPU Count:", torch.cuda.device_count()) 
print("Current Device:", torch.cuda.current_device()) 
print("Device Name:", torch.cuda.get_device_name(0)) 
print("PyTorch Version:", torch.__version__)

CUDA Available: True 
GPU Count: 1 
Current Device: 0 
Device Name: NVIDIA GeForce RTX 4090 
PyTorch Version: 2.3.0+cu121

llamafactory-cli webui

平台	地址	特点
🤗 Hugging Face	https://huggingface.co/models	国际主流平台，模型丰富，但需科学上网
🔧 魔搭社区（ModelScope）	https://modelscope.cn/models	国内高速访问，适合中文用户

git lfs install 
git clone https://www.modelscope.cn/qwen/Qwen2.5-3B-Instruct.git models/qwen2.5-3b-instruct

pip install modelscope

from modelscope.hub.snapshot_download import snapshot_download 
model_dir = snapshot_download('qwen/Qwen2.5-3B-Instruct', cache_dir='./models') 
print(f"Model saved to {model_dir}")

LLaMA-Factory/
├── models/
│   └── qwen2.5-3b-instruct/
│       ├── config.json
│       ├── model.safetensors
│       ├── tokenizer.model
│       └── ...

字段	值
模型名称	qwen/Qwen2.5-3B-Instruct
模型路径	./models/qwen2.5-3b-instruct
适配器名称	lora_rank_8
微调方法	LoRA
量化等级	bitsandbytes-int4

参数	值	说明
学习率	2e-4	AdamW 默认初始值
批大小	16	Global batch size
梯度累积步数	4	提升有效批大小
训练轮数	3	防止过拟合
LoRA 秩 (r)	8	控制新增参数规模
LoRA Alpha	16	一般设为 2×r
Dropout	0.1	正则化防止过拟合
最大序列长度	512	平衡上下文长度与显存占用

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \
 --model_name_or_path ./models/qwen2.5-3b-instruct \
 --do_train \
 --dataset alpaca_zh \
 --finetuning_type lora \
 --lora_rank 8 \
 --output_dir output/qwen_lora_3b \
 --per_device_train_batch_size 4 \
 --gradient_accumulation_steps 4 \
 --learning_rate 2e-4 \
 --num_train_epochs 3.0 \
 --max_seq_length 512 \
 --quantization_bit 4 \
 --fp16

llamafactory-cli export \
 --model_name_or_path ./models/qwen2.5-3b-instruct \
 --adapter_name_or_path output/qwen_lora_3b \
 --export_dir merged_models/qwen2.5-3b-instruct-lora-merged \
 --export_quantization_bit 4 \
 --export_device cuda

llamafactory-cli chat \
 --model_name_or_path merged_models/qwen2.5-3b-instruct-lora-merged

llamafactory-cli api \
 --model_name_or_path merged_models/qwen2.5-3b-instruct-lora-merged \
 --port 8080

curl -X POST "http://127.0.0.1:8080" \
-H "Content-Type: application/json" \
-d '{ "messages": [{"role": "user", "content": "请介绍一下你自己"}] }'

{
 "response": "我是经过指令微调的 Qwen 模型，能够更好地理解和回答中文问题……"
}

本地部署 LLaMA-Factory 全指南

本地部署 LLaMA-Factory 全指南

硬件与环境检查：你的设备准备好了吗？

更多推荐文章

相关免费在线工具

开始部署：从零搭建运行环境

克隆项目源码

创建 Conda 虚拟环境

安装核心依赖

验证 GPU 可用性

启动 WebUI：开启可视化操作时代

获取预训练模型：选择适合你的起点

方法一：使用 Git LFS 下载（推荐）

方法二：通过 ModelScope SDK 下载

配置并启动 QLoRA 微调任务

设置模型参数

选择训练数据集

配置超参数：平衡性能与资源消耗

启动训练

实时监控：掌控每一步进展

模型合并与导出：打造独立可用的新模型

使用 WebUI 合并

命令行方式（备用）

推理与部署：让你的模型真正'说话'

本地交互式推理

启动 API 服务

总结

更多推荐文章

相关免费在线工具

本地部署 LLaMA-Factory 全指南

本地部署 LLaMA-Factory 全指南

硬件与环境检查：你的设备准备好了吗？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

开始部署：从零搭建运行环境

克隆项目源码

创建 Conda 虚拟环境

安装核心依赖

验证 GPU 可用性

启动 WebUI：开启可视化操作时代

获取预训练模型：选择适合你的起点

方法一：使用 Git LFS 下载（推荐）

方法二：通过 ModelScope SDK 下载

配置并启动 QLoRA 微调任务

设置模型参数

选择训练数据集

配置超参数：平衡性能与资源消耗

启动训练

实时监控：掌控每一步进展

模型合并与导出：打造独立可用的新模型

使用 WebUI 合并

命令行方式（备用）

推理与部署：让你的模型真正'说话'

本地交互式推理

启动 API 服务

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具