在 AutoDL 上用 LLaMA-Factory 微调 GPT-OSS-20B | 极客日志

PythonAI

在 AutoDL 上用 LLaMA-Factory 微调 GPT-OSS-20B

记录了在 AutoDL 云 GPU 上使用 LLaMA-Factory 微调 GPT-OSS-20B 的完整流程：先搭好 PyTorch/Ubuntu/Python/CUDA 环境并安装依赖、下载基础模型和 SwanLab，再用 identity_fixed 与 alpaca_en_demo 进行 LoRA 训练，随后可选择合并权重或直接在 vLLM 中挂载 LoRA 部署推理。文中还补了两个常见坑：GPT-OSS 模板的 token 不匹配，以及 Python 3.11 版本要求。

剑仙发布于 2026/6/300 浏览

在 AutoDL 上用 LLaMA-Factory 微调 GPT-OSS-20B

前言

这篇记录的是我在云 GPU 上用 LLaMA-Factory 微调 GPT-OSS-20B 的完整过程，包含环境配置、训练、LoRA 权重合并，以及最后用 vLLM 起服务的步骤。

我最后选的是 LLaMA-Factory + LoRA。不是因为它最'优雅'，而是它足够省事，踩坑也相对可控：

框架本身比较成熟，训练流程不用自己拼
LoRA 对显存友好，云 GPU 上更现实
在采购对话这类场景里，微调后的效果已经够用

方案概览

组件	选择	说明
微调框架	LLaMA-Factory 0.9.4	开源大模型训练框架
基础模型	GPT-OSS-20B	200 亿参数 MoE 模型
微调方式	LoRA	低秩适配，显存占用更低
推理引擎	vLLM	高性能推理服务
实验监控	SwanLab	训练过程可视化
GPU 资源	AutoDL H20	云 GPU 实例
远程传文件	文件传输工具	本地与远程服务器之间的加密上传、下载、管理文件

环境配置

租云 GPU 的时候，镜像别随便选。这个地方要是错了，后面一堆兼容性问题，排起来很磨人。

推荐配置：

参数	选择	说明
基础镜像	PyTorch
Ubuntu	22.04
Python	3.12	必须 3.11+，LLaMA-Factory 要求
CUDA	12.8	版本不能太低
PyTorch	2.8.0

⚠️ 重要提醒：GPT-OSS 模型默认会尝试使用 Flash Attention 3，但这个特性目前只支持 Hopper 架构 GPU，比如 H100/H800。

项目初始化

克隆 LLaMA-Factory

# 进入工作目录
cd /root/autodl-tmp
# 如果目录不存在，先创建
mkdir -p /root/autodl-tmp
# 下载 LLaMA-Factory 0.9.4 版本

wget https://github.com/hiyouga/LLaMA-Factory/archive/refs/tags/v0.9.4.zip
unzip v0.9.4.zip
 LlamaFactory-0.9.4 LLaMA-Factory

更多推荐文章

查看全部

cd /root/autodl-tmp/LLaMA-Factory
# 安装基础依赖
pip install -e '.[torch,metrics]' -i https://pypi.tuna.tsinghua.edu.cn/simple
# 如果遇到 evaluate 库缺失，手动安装
pip install evaluate scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple
# 验证安装
python -c "import llamafactory, torch; print('LLaMA-Factory 版本:', llamafactory.__version__)"

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple
# 下载模型（约 20GB）
modelscope download --model openai-mirror/gpt-oss-20b \
--local_dir /root/autodl-tmp/models/gpt-oss-20b

pip install swanlab

[{"instruction":"你好","input":"","output":"您好，我是智能小助手，一个由 AI 开发的 AI 助手。"},{"instruction":"你是谁？","input":"","output":"您好，我是智能小助手，由 AI 发明。我可以为您提供多种多样的服务。"}]

# 模型配置
model_name_or_path: /root/autodl-tmp/models/gpt-oss-20b
lora_rank: 8
lora_alpha: 16
lora_dropout: 0.05
# 训练任务配置
stage: sft
do_train: true
finetuning_type: lora
lora_target: all
# 数据集配置
dataset: identity_fixed,alpaca_en_demo
template: gpt_oss # 很多文章写的是 gpt，实测错误，应该是 gpt_oss，参考模板文件 `LlamaFactory-0.9.4/src/llamafactory/data/template.py` (template 参数，也可以参考官方文档)
cutoff_len: 2048
max_samples: 1000
# 训练参数
per_device_train_batch_size: 1
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
# 验证配置
val_size: 0.1
eval_strategy: steps
eval_steps: 100
load_best_model_at_end: true
# 精度配置
bf16: true
gradient_checkpointing: true
# 日志配置
report_to: swanlab
run_name: gpt-oss-20b-lora

总样本 = 1090（数据集总量）
训练集 = 1090 × 0.9 = 981 个
有效 batch = 1 × 8 = 8
每轮步数 = 981 ÷ 8 ≈ 123 步
总步数 = 123 × 3 轮 = 369 步

cd /root/autodl-tmp/LLaMA-Factory
# 开始训练（推荐使用 tee 同时输出到终端和文件）
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml \
2>&1|tee logs/training_$(date +%Y%m%d_%H%M%S).log

方式	优点	缺点
合并后推理	配置简单，推理速度快	需要额外合并步骤
LoRA 直接加载	无需合并步骤	配置稍复杂

cd /root/autodl-tmp/LLaMA-Factory
llamafactory-cli export\
--model_name_or_path /root/autodl-tmp/models/gpt-oss-20b \
--adapter_name_or_path saves/gpt-20b/lora/sft \
--export_dir models/gpt20b_lora_sft \
--export_size 2\
--export_legacy_format false

pip install vllm fastapi uvicorn pydantic -i https://pypi.tuna.tsinghua.edu.cn/simple

export FLASH_ATTN_FORCE_FA2=1
export DISABLE_FLASH_ATTN_3=1
vllm serve /root/autodl-tmp/models/gpt-oss-20b \
--enable-lora \
--lora-modules gpt-lora=/root/autodl-tmp/LLaMA-Factory/saves/gpt-20b/lora/sft \
--tokenizer /root/autodl-tmp/models/gpt-oss-20b \
--tensor-parallel-size=1\
--trust-remote-code \
--enable-prefix-caching \
--gpu-memory-utilization 0.9\
--host 0.0.0.0 \
--port 80\
--api-key your-secret-api-key

curl -X POST "http://你的 IP:80/v1/chat/completions"\
-H "Authorization: Bearer your-secret-api-key"\
-H "Content-Type: application/json"\
-d '{ "model": "gpt-lora", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 200 }'

vllm serve /root/autodl-tmp/LLaMA-Factory/models/gpt20b_lora_sft \
--host 0.0.0.0 \
--port 80\
--trust-remote-code \
--gpu-memory-utilization 0.9\
--max-model-len 4096\
--served-model-name gpt-procurement \
--api-key your-secret-api-key

curl -X POST "http://你的 IP:80/v1/chat/completions"\
-H "Authorization: Bearer your-secret-api-key"\
-H "Content-Type: application/json"\
-d '{ "model": "gpt-procurement", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 200 }'

对比项	方案一（LoRA 直接加载）	方案二（合并后使用）
是否需要合并	❌ 不需要	✅ 需要
配置复杂度	稍复杂	简单
推理速度	稍慢	快
显存占用	略高	略低
灵活切换 LoRA	✅ 支持	❌ 不支持
推荐场景	开发测试	生产部署

{"error":{"message":"Unexpected token 200002 while expecting start token 200006","type":"BadRequestError"}}

# 修改前
format_assistant=StringFormatter(slots=["{{content}}<|end|>"]),
# 修改后
format_assistant=StringFormatter(slots=["{{content}}"]),

Package 'llamafactory' requires a different Python: 3.10.16 not in '>=3.11.0'

conda create -n py311 python=3.11
conda activate py311

在 AutoDL 上用 LLaMA-Factory 微调 GPT-OSS-20B

前言

方案概览

环境配置

项目初始化

克隆 LLaMA-Factory

更多推荐文章

安装依赖

下载基础模型

安装 SwanLab

训练配置

数据集准备

配置文件

训练步数计算

开始训练

权重合并（可选）

为什么要合并

合并命令

vLLM 推理部署

安装 vLLM

方案一：直接加载 LoRA（不合并权重）

方案二：使用合并后的模型

两种方案对比

常见问题

问题 1：Token 不匹配错误

问题 2：Python 版本不匹配

收尾

参考资料

更多推荐文章

相关免费在线工具

在 AutoDL 上用 LLaMA-Factory 微调 GPT-OSS-20B

前言

方案概览

环境配置

项目初始化

克隆 LLaMA-Factory

微信扫一扫，关注极客日志

更多推荐文章

安装依赖

下载基础模型

安装 SwanLab

训练配置

数据集准备

配置文件

训练步数计算

开始训练

权重合并（可选）

为什么要合并

合并命令

vLLM 推理部署

安装 vLLM

方案一：直接加载 LoRA（不合并权重）

方案二：使用合并后的模型

两种方案对比

常见问题

问题 1：Token 不匹配错误

问题 2：Python 版本不匹配

收尾

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具