本地部署 LLaMA-Factory 实现大模型微调与推理
在智能应用日益个性化的今天,通用大模型虽然强大,但在特定领域——比如医疗咨询、法律问答或企业客服中——往往'说得漂亮却不够专业'。要让 AI 真正理解行业语境、输出精准内容,关键在于领域适配的微调。然而,从环境配置到训练部署,传统流程动辄几十行命令、层层依赖冲突,对开发者极不友好。
有没有一种方式,能让开发者不用写代码、不必深究底层细节,就能完成从模型加载、数据准备到训练和推理的全流程?答案是:有。LLaMA-Factory 正是为此而生。
它被称为'大模型微调的一站式工厂',不仅支持包括 Qwen、Llama、Baichuan、ChatGLM 等数十种主流架构,还统一了全参数微调、LoRA、QLoRA 等多种高效训练方法,并通过一个直观的 WebUI 界面,把复杂的操作变成点选配置。哪怕你是第一次接触模型微调,也能在一个下午内跑通整个流程。
下面我们就以 Qwen2.5-3B-Instruct 模型为例,带你从零开始,在本地完成一次完整的微调实验,并最终启动 API 服务,让你的专属模型对外提供能力。
环境准备:硬件与软件双管齐下
显卡不是越贵越好,但显存一定要够
大模型训练最吃资源的是显存。如果你打算做全参数微调,那至少得上 A100 或 RTX 4090 这类 24GB 显存的卡;但如果是做 QLoRA 微调或者只是推理,一张 RTX 3090(24GB)甚至 RTX 3060(12GB) 都能胜任中小模型。
我们推荐的最低配置如下:
- GPU 显存 ≥ 8GB(QLoRA/推理可用)
- 内存 ≥ 32GB
- 存储空间 ≥ 100GB(模型文件动辄几个 GB)
先确认你的 GPU 是否已被系统识别:
nvidia-smi
如果能看到类似 GeForce RTX 3090 和显存使用情况,说明驱动已就绪。否则请前往 NVIDIA 官网 安装对应驱动。
⚠️ 注意:CUDA 驱动版本需与 PyTorch 兼容。建议安装 CUDA Toolkit 11.8 或 12.1,避免版本错配导致
torch.cuda.is_available()返回False。
Python 环境隔离:用 Conda 避免'依赖地狱'
LLaMA-Factory 基于 Python 构建,核心依赖包括:
- Python ≥ 3.9(推荐 3.10)
- PyTorch + CUDA 支持
- Hugging Face 生态库(Transformers, Datasets, Accelerate)
- Peft(用于 LoRA/QLoRA)
- Bitsandbytes(4-bit 量化支持)
- Gradio(WebUI)
为了避免与其他项目冲突,强烈建议使用 Conda 创建独立环境:
conda create -n llama_factory python=3.10 conda activate llama_factory
激活后终端前缀会显示 (llama_factory),表示已进入专属环境。
安装 LLaMA-Factory:一条命令搭建完整流水线
克隆源码并安装依赖
LLaMA-Factory 开源在 GitHub 上,国内用户可选择 Gitee 镜像加速下载:
# 主源(需科学上网) git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git # 国内镜像 git clone https://gitee.com/qzl9999/LLaMA-Factory.git cd LLaMA-Factory
接着安装所有必要组件:

