在 AutoDL 上用 LLaMA-Factory 微调 GPT-OSS-20B：训练、合并与 vLLM 部署全记录 | 极客日志

PythonAI算法

在 AutoDL 上用 LLaMA-Factory 微调 GPT-OSS-20B：训练、合并与 vLLM 部署全记录

在采购项目中用 LLaMA-Factory 0.9.4 和 LoRA 微调 GPT-OSS-20B，部署于 AutoDL H20。整个过程包含环境配置、模型下载、数据集准备、训练监控、权重合并与 vLLM 推理。训练约 369 步，显存友好，SwanLab 可实时查看曲线。推理时推荐直接加载 LoRA，省去合并步骤，并须强制 Flash Attention 2 以适配 H20。遇到 token 不匹配和 Python 版本问题也给出了修复方式。

CloudNative发布于 2026/6/160 浏览

在 AutoDL 上用 LLaMA-Factory 微调 GPT-OSS-20B：训练、合并与 vLLM 部署全记录

最近在做一个智能采购的项目，需要微调大语言模型，让它能更好地理解业务场景。试了几套方案，最后选了 LLaMA-Factory 加 LoRA 的组合，在 AutoDL 的 H20 上跑。LLaMA-Factory 的开箱即用体验确实不错，LoRA 对显存的要求也低得多，而采购对话场景下效果完全够用。

下面把从环境配置到模型部署的整个过程整理一下，供后续参考。

整体方案

环节	选型	备注
微调框架	LLaMA-Factory 0.9.4	支持多种微调方式，文档齐全
基础模型	GPT-OSS-20B	200B 参数的 MoE 模型
微调方式	LoRA	低秩适配，显存友好
推理引擎	vLLM	高性能推理，支持 LoRA 动态加载
实验监控	SwanLab	可视化训练曲线，使用简单
GPU 资源	AutoDL H20	按量租用，性价比高
远程传文件	WinSCP	Windows 下免费的图形化 SFTP 工具

环境配置

在 AutoDL 上租用实例时，镜像的选择比较关键。我的配置是这样：

基础镜像：PyTorch
Ubuntu 22.04
Python 3.12（LLaMA-Factory 要求 3.11 以上）
CUDA 12.8
PyTorch 2.8.0

注意，GPT-OSS 模型默认会尝试启用 Flash Attention 3，但该特性目前仅支持 Hopper 架构的 GPU（H100/H800 等）。H20 是 Ada 架构，需要强制降级到 Flash Attention 2，后面会提到怎么处理。

项目初始化

1. 克隆 LLaMA-Factory

cd /root/autodl-tmp
# 如果目录不存在，先创建
mkdir -p /root/autodl-tmp
# 下载 0.9.4 版本并解压
wget https://github.com/hiyouga/LLaMA-Factory/archive/refs/tags/v0.9.4.zip
unzip v0.9.4.zip
mv LlamaFactory-0.9.4 LLaMA-Factory

2. 安装依赖

cd /root/autodl-tmp/LLaMA-Factory
pip install -e '.[torch,metrics]' -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install evaluate scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple
python -c "import llamafactory, torch; print('LLaMA-Factory 版本:', llamafactory.__version__)"

3. 下载基础模型

模型文件有 40G 左右，下载要花点时间，可以趁不需要 GPU 的时候提前下。

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple
modelscope download --model openai-mirror/gpt-oss-20b \
 --local_dir /root/autodl-tmp/models/gpt-oss-20b

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install swanlab

[{"instruction":"你好","input":"","output":"您好，我是智能小助手，一个由刘大漂亮开发的 AI 助手。"},{"instruction":"你是谁？","input":"","output":"您好，我是智能小助手，由刘大漂亮发明。我可以为您提供多种多样的服务。"}]

model_name_or_path: /root/autodl-tmp/models/gpt-oss-20b
lora_rank: 8
lora_alpha: 16
lora_dropout: 0.05

stage: sft
do_train: true
finetuning_type: lora
lora_target: all

dataset: identity_fixed,alpaca_en_demo
template: gpt_oss
cutoff_len: 2048
max_samples: 1000

per_device_train_batch_size: 1
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1

val_size: 0.1
eval_strategy: steps
eval_steps: 100
load_best_model_at_end: true

bf16: true
gradient_checkpointing: true

report_to: swanlab
run_name: gpt-oss-20b-lora

cd /root/autodl-tmp/LLaMA-Factory
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml \
2>&1|tee logs/training_$(date +%Y%m%d_%H%M%S).log

cd /root/autodl-tmp/LLaMA-Factory
llamafactory-cli export \
 --model_name_or_path /root/autodl-tmp/models/gpt-oss-20b \
 --adapter_name_or_path saves/gpt-20b/lora/sft \
 --export_dir models/gpt20b_lora_sft \
 --export_size 2 \
 --export_legacy_format false

pip install vllm fastapi uvicorn pydantic -i https://pypi.tuna.tsinghua.edu.cn/simple

export FLASH_ATTN_FORCE_FA2=1
export DISABLE_FLASH_ATTN_3=1
vllm serve /root/autodl-tmp/models/gpt-oss-20b \
 --enable-lora \
 --lora-modules gpt-lora=/root/autodl-tmp/LLaMA-Factory/saves/gpt-20b/lora/sft \
 --tokenizer /root/autodl-tmp/models/gpt-oss-20b \
 --tensor-parallel-size=1 \
 --trust-remote-code \
 --enable-prefix-caching \
 --gpu-memory-utilization 0.9 \
 --host 0.0.0.0 \
 --port 80 \
 --api-key your-secret-api-key

curl -X POST "http://你的 IP:80/v1/chat/completions" \
-H "Authorization: Bearer your-secret-api-key" \
-H "Content-Type: application/json" \
-d '{ "model": "gpt-lora", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 200 }'

vllm serve /root/autodl-tmp/LLaMA-Factory/models/gpt20b_lora_sft \
 --host 0.0.0.0 \
 --port 80 \
 --trust-remote-code \
 --gpu-memory-utilization 0.9 \
 --max-model-len 4096 \
 --served-model-name gpt-procurement \
 --api-key your-secret-api-key

对比项	LoRA 直接加载	合并后使用
是否需要合并	否	是
配置复杂度	稍高	简单
推理速度	略慢	略快
灵活切换 LoRA	支持	不支持
适合场景	开发测试 / 多 LoRA 切换	生产环境

{"error":{"message":"Unexpected token 200002 while expecting start token 200006","type":"BadRequestError"}}

conda create -n py311 python=3.11
conda activate py311

在 AutoDL 上用 LLaMA-Factory 微调 GPT-OSS-20B：训练、合并与 vLLM 部署全记录

整体方案

环境配置

项目初始化

1. 克隆 LLaMA-Factory

2. 安装依赖

3. 下载基础模型

更多推荐文章

相关免费在线工具

4. 安装 SwanLab

训练配置

数据集

配置文件

启动训练

权重合并（可选）

vLLM 推理部署

安装 vLLM

踩坑记录

Token 不匹配

Python 版本

整体耗时

更多推荐文章

相关免费在线工具

在 AutoDL 上用 LLaMA-Factory 微调 GPT-OSS-20B：训练、合并与 vLLM 部署全记录

整体方案

环境配置

项目初始化

1. 克隆 LLaMA-Factory

2. 安装依赖

3. 下载基础模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 安装 SwanLab

训练配置

数据集

配置文件

启动训练

权重合并（可选）

vLLM 推理部署

安装 vLLM

踩坑记录

Token 不匹配

Python 版本

整体耗时

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具