简介
LLaMA Factory 是主流的大模型微调工具,功能全面且易用性强,适合快速上手垂直领域模型适配。本文梳理实操流程,涵盖环境准备、硬件选型、安装部署及启动测试。
一、为什么选 LLaMA Factory?
大模型微调本质是在预训练模型基础上,用特定数据(如企业私有知识库、行业指令数据)调整参数,让模型适配具体任务。LLaMA Factory 成为主流工具的核心优势有 3 点:
- 功能全覆盖:支持增量预训练、指令监督微调(SFT)、奖励模型训练(RM)、强化学习(PPO/DPO/SimPO)等全链路技术,还兼容 16 位全参微调、冻结微调、LoRA/QLoRA 微调等多种模式;
- 模型兼容性强:适配 Meta Llama 系列、阿里千问、谷歌 Gemini、清华 ChatGLM、百川、微软 Phi 等 20+ 主流开源模型,无需手动适配;
- 易用性拉满:提供 Web UI 界面和命令行两种方式,支持多阶段训练、一键评测、API 部署。
同类工具还有阿里 Swift、微软 DeepSpeed Chat 等,可根据场景选择,但 LLaMA Factory 综合性价比最高。
二、硬件 + 软件最新配置
微调的环境准备核心是'硬件够用、软件兼容',消费级显卡也能搞定 7B/13B 模型微调,具体配置如下:
(一)硬件配置:按模型规模精准选型
硬件门槛主要看显卡显存,内存和存储为辅助,以下是实测验证的最低配置:
| 微调模式 | 模型规模 | 最低显存要求 | 推荐显卡 | 内存要求 | 存储要求 |
|---|---|---|---|---|---|
| 4 位 QLoRA 微调 | 7B | 8GB | RTX 4060/3060(12GB 优先) | ≥16GB | ≥100GB NVMe SSD |
| 8 位 QLoRA 微调 | 7B/13B | 12GB/20GB | RTX 4070 Ti SUPER/4080 | ≥32GB | ≥200GB NVMe SSD |
| 16 位 LoRA 微调 | 7B/13B | 20GB/40GB | RTX 4090 SUPER(24GB) | ≥64GB | ≥200GB NVMe SSD |
| 16 位全参微调 | 7B/13B | 60GB/120GB | A100(80GB)/H100 | ≥128GB | ≥500GB NVMe SSD |
关键补充:
- 显卡优先选 NVIDIA,2025 年推荐消费级显卡 RTX 4090 SUPER,企业级首选 A100/H100;
- 存储必须用 NVMe SSD,模型加载和数据读取速度是 SATA SSD 的 5-8 倍;
- 无独立显卡的同学可使用云算力平台,13B 模型 QLoRA 微调单次成本较低。
(二)软件环境:版本兼容是关键
软件需安装'显卡驱动→Python 环境→核心库→LLaMA Factory',全程建议用虚拟环境隔离:
1. 显卡驱动与 CUDA 安装
- 驱动版本:需支持 CUDA 12.0+,Windows 通过 GeForce Experience 更新,Linux 通常已预装;
- 验证方法:命令行输入
nvidia-smi,显示驱动版本≥550.00、CUDA Version≥12.0 即可; - 避坑点:无需手动安装 CUDA Toolkit,后续通过 PyTorch 自动适配。
2. Python 与虚拟环境
- Python 版本:推荐 3.11(稳定兼容所有库),最低 3.10;


