本地部署LLaMA-Factory全指南 | 极客日志

Python

本地部署LLaMA-Factory全指南

本地部署LLaMA-Factory全指南在大模型技术飞速发展的今天，如何让普通人也能轻松定制属于自己的AI助手？这曾是一个遥不可及的梦想。但随着 LLaMA-Factory 这类开源项目的出现，微调一个大语言模型不再只是顶级实验室的专利。它把复杂的训练流程封装成可点击的操作，甚至不需要写一行代码，就能完成从数据准备到模型部署的全过程。如果你有一块消费级显卡，比如 RTX 3060 或更高，那么…

MqEngine发布于 2026/4/6更新于 2026/5/2152K 浏览

本地部署LLaMA-Factory全指南

在大模型技术飞速发展的今天，如何让普通人也能轻松定制属于自己的AI助手？这曾是一个遥不可及的梦想。但随着 LLaMA-Factory 这类开源项目的出现，微调一个大语言模型不再只是顶级实验室的专利。它把复杂的训练流程封装成可点击的操作，甚至不需要写一行代码，就能完成从数据准备到模型部署的全过程。

如果你有一块消费级显卡，比如 RTX 3060 或更高，那么你已经具备了动手实践的基础条件。本文将带你一步步搭建环境、加载模型、配置训练参数，并最终生成一个能理解中文指令的个性化 Qwen 模型——整个过程就像使用图形化软件一样自然流畅。

硬件与环境检查：你的设备准备好了吗？

再强大的框架也离不开硬件支撑。虽然 LLaMA-Factory 支持 CPU 推理，但真正想跑通一次像样的微调任务，GPU 是必不可少的。

打开终端，先执行这条命令：

nvidia-smi

如果能看到类似下面的信息，说明你的 NVIDIA 显卡驱动和 CUDA 环境基本正常：

+-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.86.05 Driver Version: 535.86.05 CUDA Version: 12.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 NVIDIA RTX 4090 Off | 00000000:01:00.0 Off | N/A | | 30% 45C P8 25W / 450W | 1024MiB / 24576MiB | 5% Default | +-------------------------------+----------------------+----------------------+

重点关注三点：
- CUDA 版本 ≥ 11.8：这是 PyTorch 训练的底线要求； - ：推荐用于 7B 模型的 QLoRA 微调；若只跑 3B 模型，12GB 显存勉强够用； - ：如果有多个 GPU，可以并行加速训练。

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

mkdir llama-factory-project && cd llama-factory-project

git clone https://gitee.com/hiyouga/LLaMA-Factory.git

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

conda create -n llama_factory python=3.10 -y conda activate llama_factory

cd LLaMA-Factory pip install --upgrade pip pip install -e ".[torch,metrics]"

llamafactory-cli version

import torch print("CUDA Available:", torch.cuda.is_available()) print("GPU Count:", torch.cuda.device_count()) print("Current Device:", torch.cuda.current_device()) print("Device Name:", torch.cuda.get_device_name(0)) print("PyTorch Version:", torch.__version__)

CUDA Available: True GPU Count: 1 Current Device: 0 Device Name: NVIDIA GeForce RTX 4090 PyTorch Version: 2.3.0+cu121

llamafactory-cli webui

平台	地址	特点
🤗 Hugging Face	https://huggingface.co/models	国际主流平台，模型丰富，但需科学上网
🔧 魔搭社区（ModelScope）	https://modelscope.cn/models	国内高速访问，适合中文用户

git lfs install git clone https://www.modelscope.cn/qwen/Qwen2.5-3B-Instruct.git models/qwen2.5-3b-instruct

pip install modelscope

from modelscope.hub.snapshot_download import snapshot_download model_dir = snapshot_download('qwen/Qwen2.5-3B-Instruct', cache_dir='./models') print(f"Model saved to {model_dir}")

LLaMA-Factory/ ├── models/ │ └── qwen2.5-3b-instruct/ │ ├── config.json │ ├── model.safetensors │ ├── tokenizer.model │ └── ...

字段	值
模型名称	qwen/Qwen2.5-3B-Instruct
模型路径	./models/qwen2.5-3b-instruct
适配器名称	lora_rank_8
微调方法	LoRA
量化等级	bitsandbytes-int4

参数	值	说明
学习率	2e-4	AdamW 默认初始值
批大小	16	Global batch size
梯度累积步数	4	提升有效批大小
训练轮数	3	防止过拟合
LoRA 秩 (r)	8	控制新增参数规模
LoRA Alpha	16	一般设为 2×r
Dropout	0.1	正则化防止过拟合
最大序列长度	512	平衡上下文长度与显存占用

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \ --model_name_or_path ./models/qwen2.5-3b-instruct \ --do_train \ --dataset alpaca_zh \ --finetuning_type lora \ --lora_rank 8 \ --output_dir output/qwen_lora_3b \ --per_device_train_batch_size 4 \ --gradient_accumulation_steps 4 \ --learning_rate 2e-4 \ --num_train_epochs 3.0 \ --max_seq_length 512 \ --quantization_bit 4 \ --fp16

llamafactory-cli export \ --model_name_or_path ./models/qwen2.5-3b-instruct \ --adapter_name_or_path output/qwen_lora_3b \ --export_dir merged_models/qwen2.5-3b-instruct-lora-merged \ --export_quantization_bit 4 \ --export_device cuda

llamafactory-cli chat \ --model_name_or_path merged_models/qwen2.5-3b-instruct-lora-merged

llamafactory-cli api \ --model_name_or_path merged_models/qwen2.5-3b-instruct-lora-merged \ --port 8080

curl -X POST "http://127.0.0.1:8080" \ -H "Content-Type: application/json" \ -d '{ "messages": [{"role": "user", "content": "请介绍一下你自己"}] }'

{ "response": "我是经过指令微调的Qwen模型，能够更好地理解和回答中文问题……" }

本地部署LLaMA-Factory全指南

本地部署LLaMA-Factory全指南

硬件与环境检查：你的设备准备好了吗？

更多推荐文章

相关免费在线工具

开始部署：从零搭建运行环境

克隆项目源码

创建 Conda 虚拟环境

安装核心依赖

验证 GPU 可用性

启动 WebUI：开启可视化操作时代

获取预训练模型：选择适合你的起点

方法一：使用 Git LFS 下载（推荐）

方法二：通过 ModelScope SDK 下载

配置并启动 QLoRA 微调任务

设置模型参数

选择训练数据集

配置超参数：平衡性能与资源消耗

启动训练

实时监控：掌控每一步进展

模型合并与导出：打造独立可用的新模型

使用 WebUI 合并

命令行方式（备用）

推理与部署：让你的模型真正'说话'

本地交互式推理

启动 API 服务

写在最后

更多推荐文章

相关免费在线工具

本地部署LLaMA-Factory全指南

本地部署LLaMA-Factory全指南

硬件与环境检查：你的设备准备好了吗？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

开始部署：从零搭建运行环境

克隆项目源码

创建 Conda 虚拟环境

安装核心依赖

验证 GPU 可用性

启动 WebUI：开启可视化操作时代

获取预训练模型：选择适合你的起点

方法一：使用 Git LFS 下载（推荐）

方法二：通过 ModelScope SDK 下载

配置并启动 QLoRA 微调任务

设置模型参数

选择训练数据集

配置超参数：平衡性能与资源消耗

启动训练

实时监控：掌控每一步进展

模型合并与导出：打造独立可用的新模型

使用 WebUI 合并

命令行方式（备用）

推理与部署：让你的模型真正'说话'

本地交互式推理

启动 API 服务

写在最后

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具