前言
在需要针对特定业务场景优化大语言模型时,LLaMA-Factory 配合 LoRA 方案是一个高效的选择。该组合具备开箱即用、显存友好且效果可靠的特点,非常适合资源受限环境下的微调任务。
本文记录从环境配置到模型部署的完整流程,涵盖基础镜像选择、依赖安装、训练配置及 vLLM 推理部署,并汇总了实际踩坑经验。
一、方案概览
| 组件 | 选择 | 说明 |
|---|---|---|
| 微调框架 | LLaMA-Factory 0.9.4 | 开源大模型训练框架 |
| 基础模型 | GPT-OSS-20B | 200 亿参数 MoE 大模型 |
| 微调方式 | LoRA | 低秩适配,降低显存占用 |
| 推理引擎 | vLLM | 高性能推理加速 |
| GPU 资源 | H20 等云 GPU | 高性价比计算资源 |
二、环境配置
云实例的镜像配置直接影响兼容性,建议采用以下基准:
| 参数 | 选择 | 说明 |
|---|---|---|
| 基础镜像 | PyTorch | |
| Ubuntu | 22.04 | |
| Python | 3.11+ | LLaMA-Factory 最低要求 |
| CUDA | 12.x | 版本不宜过低 |
| PyTorch | 2.8.0 |
⚠️ 注意:GPT-OSS 模型默认尝试使用 Flash Attention 3,目前仅支持 Hopper 架构 GPU(如 H100/H800)。若使用其他架构,需手动禁用相关特性。
三、项目初始化
1. 克隆代码库
# 进入工作目录
mkdir -p /root/autodl-tmp
cd /root/autodl-tmp
# 下载 LLaMA-Factory 0.9.4 版本
wget https://github.com/hiyouga/LLaMA-Factory/archive/refs/tags/v0.9.4.zip
unzip v0.9.4.zip
mv LlamaFactory-0.9.4 LLaMA-Factory
2. 安装依赖
cd /root/autodl-tmp/LLaMA-Factory
# 安装基础依赖
pip install -e '.[torch,metrics]' -i https://pypi.tuna.tsinghua.edu.cn/simple
# 处理可能的缺失库
pip install evaluate scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple
python -c


