大模型微调是应用落地的关键一步。通用模型往往不够贴合特定领域,而微调能让它快速适配私有数据。在可用的工具里,北航开源的 LLaMA Factory 是我这几年觉得门槛最低、功能最全的,从 LoRA 到全参、从单机到 API 部署它都包了。这里记录一下我平时搭建环境的流程,希望能帮你少踩坑。
为什么是 LLaMA Factory
其实同类工具不少,阿里 Swift 偏工程化部署,DeepSpeed Chat 适合超大规模,但 LLaMA Factory 对新手最友好,支持的模型也多,Llama、千问、ChatGLM 等常用系列都能直接跑。它提供 Web UI 和命令行两套操作,不想写配置就点点界面,需要批处理时也能用脚本。社区活跃,遇到问题一搜就有答案。
硬件怎么选
微调主要看显存。现在的消费级显卡已经能搞定 7B/13B 了。下面是我实测过的配置,仅供参考:
| 微调模式 | 模型规模 | 最低显存 | 推荐显卡 | 内存 | 存储 |
|---|---|---|---|---|---|
| 4 位 QLoRA | 7B | 8GB | RTX 4060/3060(12GB 优先) | ≥16GB | ≥100GB NVMe SSD |
| 8 位 QLoRA | 7B/13B | 12GB/20GB | RTX 4070 Ti SUPER/4080 | ≥32GB | ≥200GB NVMe SSD |
| 16 位 LoRA | 7B/13B | 20GB/40GB | RTX 4090 SUPER(24GB) | ≥64GB | ≥200GB NVMe SSD |
| 16 位全参 | 7B/13B | 60GB/120GB | A100(80GB)/H100 | ≥128GB | ≥500GB NVMe SSD |
几点经验:
- 优先 NVIDIA 卡,A 卡要折腾 ROCm,兼容性差一截。2025 年个人用的话 RTX 4090 SUPER 是性价比很高的选择。
- 存储务必上 NVMe SSD,加载模型、读数据比 SATA 盘快好几倍,不然训练时卡 I/O 很头疼。
- 没显卡可以租云算力,13B 模型 QLoRA 微调一次的成本其实不高。
软件环境
软件部分要保持版本兼容。我习惯用 MiniConda 建虚拟环境,隔离干净。
显卡驱动与 CUDA
- 驱动需要支持 CUDA 12.0+,Windows 去 GeForce Experience 更新,Linux 大部分发行版已自带。
- 检查:
nvidia-smi,看到驱动版本 ≥550.00,CUDA Version ≥12.0 就行。 - 注意别手动装 CUDA Toolkit,让 PyTorch 安装时自己适配,否则很容易版本打架。
Python 虚拟环境
Python 3.11 目前最稳定,3.10 也行。
conda create -n llama_factory python=3.11
conda activate llama_factory


