本地部署 LLaMA-Factory 实现大模型微调与推理 | 极客日志

PythonAI算法

本地部署 LLaMA-Factory 实现大模型微调与推理

介绍如何使用 LLaMA-Factory 在本地环境进行大模型的微调与推理。通过配置 GPU 环境、安装依赖、启动 WebUI 界面，用户可以无需编写代码即可完成从模型加载、数据准备到训练监控的全流程。支持 QLoRA 等高效微调方法，适用于 Qwen、Llama 等主流架构。最终可导出融合模型并启动 API 服务，实现私有化 AI 能力部署。适合希望降低大模型定制门槛的开发者。

魔法巫师发布于 2026/4/5更新于 2026/5/2127 浏览

本地部署 LLaMA-Factory 实现大模型微调与推理

在智能应用日益个性化的今天，通用大模型虽然强大，但在特定领域——比如医疗咨询、法律问答或企业客服中——往往'说得漂亮却不够专业'。要让 AI 真正理解行业语境、输出精准内容，关键在于领域适配的微调。然而，从环境配置到训练部署，传统流程动辄几十行命令、层层依赖冲突，对开发者极不友好。

有没有一种方式，能让开发者不用写代码、不必深究底层细节，就能完成从模型加载、数据准备到训练和推理的全流程？答案是：有。LLaMA-Factory 正是为此而生。

它被称为'大模型微调的一站式工厂'，不仅支持包括 Qwen、Llama、Baichuan、ChatGLM 等数十种主流架构，还统一了全参数微调、LoRA、QLoRA 等多种高效训练方法，并通过一个直观的 WebUI 界面，把复杂的操作变成点选配置。哪怕你是第一次接触模型微调，也能在一个下午内跑通整个流程。

下面我们就以 Qwen2.5-3B-Instruct 模型为例，带你从零开始，在本地完成一次完整的微调实验，并最终启动 API 服务，让你的专属模型对外提供能力。

环境准备：硬件与软件双管齐下

显卡不是越贵越好，但显存一定要够

大模型训练最吃资源的是显存。如果你打算做全参数微调，那至少得上 A100 或 RTX 4090 这类 24GB 显存的卡；但如果是做 QLoRA 微调或者只是推理，一张 RTX 3090（24GB）甚至 RTX 3060（12GB） 都能胜任中小模型。

我们推荐的最低配置如下：

GPU 显存 ≥ 8GB（QLoRA/推理可用）
内存 ≥ 32GB
存储空间 ≥ 100GB（模型文件动辄几个 GB）

先确认你的 GPU 是否已被系统识别：

nvidia-smi

如果能看到类似 GeForce RTX 3090 和显存使用情况，说明驱动已就绪。否则请前往 NVIDIA 官网安装对应驱动。

⚠️ 注意：CUDA 驱动版本需与 PyTorch 兼容。建议安装 CUDA Toolkit 11.8 或 12.1，避免版本错配导致 torch.cuda.is_available() 返回 False。

Python 环境隔离：用 Conda 避免'依赖地狱'

LLaMA-Factory 基于 Python 构建，核心依赖包括：

Python ≥ 3.9（推荐 3.10）
PyTorch + CUDA 支持
Hugging Face 生态库（Transformers, Datasets, Accelerate）
Peft（用于 LoRA/QLoRA）
Bitsandbytes（4-bit 量化支持）
Gradio（WebUI）

为了避免与其他项目冲突，强烈建议使用 Conda 创建独立环境：

conda create -n llama_factory python=3.10 conda activate llama_factory

激活后终端前缀会显示 (llama_factory)，表示已进入专属环境。

安装 LLaMA-Factory：一条命令搭建完整流水线

克隆源码并安装依赖

LLaMA-Factory 开源在 GitHub 上，国内用户可选择 Gitee 镜像加速下载：

# 主源（需科学上网） git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git # 国内镜像 git clone https://gitee.com/qzl9999/LLaMA-Factory.git cd LLaMA-Factory

接着安装所有必要组件：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install -e ".[torch,metrics]"

llamafactory-cli version

import torch print("CUDA Available:", torch.cuda.is_available()) print("Device Name:", torch.cuda.get_device_name(0)) print("PyTorch Version:", torch.__version__)

CUDA Available: True Device Name: NVIDIA GeForce RTX 3090 PyTorch Version: 2.1.0+cu118

llamafactory-cli webui

Running on local URL: http://127.0.0.1:7860

模型名称	参数量	QLoRA 显存需求	特点
Qwen2.5-3B-Instruct	3B	~6GB	中文强，体积小，入门首选
Baichuan2-7B-Base	7B	~10GB	中文任务表现稳定
Llama-3-8B-Instruct	8B	~12GB	英文通用性强
Phi-3-mini-4k-instruct	3.8B	~6GB	微软出品，推理效率高

git lfs install git clone https://huggingface.co/Qwen/Qwen2.5-3B-Instruct

{"instruction": "解释什么是糖尿病", "input": "", "output": "糖尿病是一种慢性代谢疾病……"}

参数	推荐值	说明
Number of Epochs	3	多轮容易过拟合，3 足够
Learning Rate	2e-4	QLoRA 经验值，太大易震荡
Batch Size per Device	1	单卡批量大小
Gradient Accumulation Steps	8	累积 8 步相当于 batch=8
Max Sequence Length	512	影响显存占用，可调至 1024 若显存允许
Save Total Limit	3	只保留最新 3 个检查点，节省空间

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \ --model_name_or_path ./Qwen2.5-3B-Instruct \ --dataset alpaca_zh \ --finetuning_type qlora \ --lora_rank 64 \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 8 \ --learning_rate 2e-4 \ --num_train_epochs 3.0 \ --max_seq_length 512 \ --output_dir ./output/qwen2.5-3b-alpaca-zh

llamafactory-cli export \ --model_name_or_path ./Qwen2.5-3B-Instruct \ --adapter_name_or_path ./output/qwen2.5-3b-alpaca-zh \ --export_dir ./merged_model \ --export_quantization_bit 4 \ --export_device cuda

from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("./merged_model") tokenizer = AutoTokenizer.from_pretrained("./merged_model")

llamafactory-cli api \ --model_name_or_path ./merged_model \ --template qwen \ --port 8080

curl -X POST "http://127.0.0.1:8080/generate" \ -H "Content-Type: application/json" \ -d '{ "messages": [{"role": "user", "content": "你好，请介绍一下你自己"}] }'

问题	解决方案
`CUDA out of memory`	降低 batch size，启用梯度检查点（Gradient Checkpointing）
`Module not found`	确保在正确的 conda 环境中运行
`WebUI 打不开`	检查端口是否被占用，尝试更换端口 `--server-port 7861`
`模型加载失败`	检查路径是否正确，文件权限是否可读

本地部署 LLaMA-Factory 实现大模型微调与推理

本地部署 LLaMA-Factory 实现大模型微调与推理

环境准备：硬件与软件双管齐下

显卡不是越贵越好，但显存一定要够

Python 环境隔离：用 Conda 避免'依赖地狱'

安装 LLaMA-Factory：一条命令搭建完整流水线

克隆源码并安装依赖

更多推荐文章

相关免费在线工具

测试 GPU 是否可用

启动 WebUI：可视化操作让微调不再神秘

加载模型：选择适合你硬件的起点

配置训练任务：无需代码，点选即走

基础设置

微调策略选择

数据集准备：内置 vs 自定义

快速上手：用内置数据集验证流程

进阶玩法：上传自己的领域数据

训练超参数设置：平衡性能与资源

开始训练：实时监控进度与资源消耗

推理测试：看看你的模型学会了什么

导出融合模型：为部署做准备

启动 API 服务：让你的模型对外提供能力

总结：完成全流程闭环

常见问题排查指南

更多推荐文章

相关免费在线工具

本地部署 LLaMA-Factory 实现大模型微调与推理

本地部署 LLaMA-Factory 实现大模型微调与推理

环境准备：硬件与软件双管齐下

显卡不是越贵越好，但显存一定要够

Python 环境隔离：用 Conda 避免'依赖地狱'

安装 LLaMA-Factory：一条命令搭建完整流水线

克隆源码并安装依赖

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

测试 GPU 是否可用

启动 WebUI：可视化操作让微调不再神秘

加载模型：选择适合你硬件的起点

配置训练任务：无需代码，点选即走

基础设置

微调策略选择

数据集准备：内置 vs 自定义

快速上手：用内置数据集验证流程

进阶玩法：上传自己的领域数据

训练超参数设置：平衡性能与资源

开始训练：实时监控进度与资源消耗

推理测试：看看你的模型学会了什么

导出融合模型：为部署做准备

启动 API 服务：让你的模型对外提供能力

总结：完成全流程闭环

常见问题排查指南

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具