LLaMA-Factory 微调 GPT-OSS-20B 模型教程（AutoDL+LoRA） | 极客日志

PythonAI算法

LLaMA-Factory 微调 GPT-OSS-20B 模型教程（AutoDL+LoRA）

基于 AutoDL 云 GPU 环境，使用 LLaMA-Factory 框架配合 LoRA 技术对 GPT-OSS-20B 大语言模型进行微调。内容涵盖 PyTorch 环境配置、数据集准备、训练参数设置、权重合并及 vLLM 推理部署全流程。同时提供常见 Token 不匹配与 Python 版本错误解决方案，适用于采购场景等垂直领域模型定制需求。

w795471发布于 2026/4/11更新于 2026/7/627 浏览

LLaMA-Factory 微调 GPT-OSS-20B 模型教程（AutoDL+LoRA）

方案概览

组件	选择	说明
微调框架	LLaMA-Factory 0.9.4	开源的大模型训练框架
基础模型	GPT-OSS-20B	200 亿参数的 MoE 大模型
微调方式	LoRA	低秩适配，显存友好
推理引擎	vLLM	高性能推理加速
实验监控	SwanLab	可视化训练过程
GPU 资源	AutoDL H20	性价比较高的云 GPU
远程传文件	WinSCP	Windows 上免费开源的图形化安全文件传输工具

环境配置

在 AutoDL 租用实例时，镜像配置非常关键。

推荐配置：

参数	选择	说明
基础镜像	PyTorch
Ubuntu	22.04
Python	3.12	必须 3.11+，LLaMA-Factory 要求
CUDA	12.8	版本不能太低
PyTorch	2.8.0

⚠️ 重要提醒：GPT-OSS 模型默认会尝试使用 Flash Attention 3，但该特性目前仅支持 Hopper 架构 GPU（如 H100/H800 等）。

项目初始化

克隆 LLaMA-Factory

# 进入工作目录
cd /root/autodl-tmp
# 如果目录不存在，先创建
mkdir -p /root/autodl-tmp
# 下载 LLaMA-Factory 0.9.4 版本
wget https://github.com/hiyouga/LLaMA-Factory/archive/refs/tags/v0.9.4.zip
unzip v0.9.4.zip
mv LlamaFactory-0.9.4 LLaMA-Factory

安装依赖

cd /root/autodl-tmp/LLaMA-Factory
# 安装基础依赖
pip install -e  -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install evaluate scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

python -c

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple
# 下载模型（约 20GB）
modelscope download --model openai-mirror/gpt-oss-20b \
--local_dir /root/autodl-tmp/models/gpt-oss-20b

pip install swanlab

[{"instruction":"你好","input":"","output":"您好，我是智能小助手，一个由 AI 开发的 AI 助手。"},{"instruction":"你是谁？","input":"","output":"您好，我是智能小助手，由 AI 发明。我可以为您提供多种多样的服务。"}]

# 模型配置
model_name_or_path: /root/autodl-tmp/models/gpt-oss-20b
lora_rank: 8
lora_alpha: 16
lora_dropout: 0.05
# 训练任务配置
stage: sft
do_train: true
finetuning_type: lora
lora_target: all
# 数据集配置
dataset: identity_fixed,alpaca_en_demo
template: gpt_oss
cutoff_len: 2048
max_samples: 1000
# 训练参数
per_device_train_batch_size: 1
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
# 验证配置
val_size: 0.1
eval_strategy: steps
eval_steps: 100
load_best_model_at_end: true
# 精度配置
bf16: true
gradient_checkpointing: true
# 日志配置
report_to: swanlab
run_name: gpt-oss-20b-lora

cd /root/autodl-tmp/LLaMA-Factory
# 开始训练（推荐使用 tee 同时输出到终端和文件）
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml \
2>&1|tee logs/training_$(date +%Y%m%d_%H%M%S).log

方式	优点	缺点
合并后推理	配置简单，推理速度快	需要额外合并步骤
LoRA 直接加载	无需合并步骤	配置稍复杂

cd /root/autodl-tmp/LLaMA-Factory
llamafactory-cli export\
--model_name_or_path /root/autodl-tmp/models/gpt-oss-20b \
--adapter_name_or_path saves/gpt-20b/lora/sft \
--export_dir models/gpt20b_lora_sft \
--export_size 2\
--export_legacy_format false

pip install vllm fastapi uvicorn pydantic -i https://pypi.tuna.tsinghua.edu.cn/simple

export FLASH_ATTN_FORCE_FA2=1
export DISABLE_FLASH_ATTN_3=1
vllm serve /root/autodl-tmp/models/gpt-oss-20b \
--enable-lora \
--lora-modules gpt-lora=/root/autodl-tmp/LLaMA-Factory/saves/gpt-20b/lora/sft \
--tokenizer /root/autodl-tmp/models/gpt-oss-20b \
--tensor-parallel-size=1\
--trust-remote-code \
--enable-prefix-caching \
--gpu-memory-utilization 0.9\
--host 0.0.0.0 \
--port 80\
--api-key your-secret-api-key

curl -X POST "http://你的 IP:80/v1/chat/completions"\
-H "Authorization: Bearer your-secret-api-key"\
-H "Content-Type: application/json"\
-d '{ "model": "gpt-lora", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 200 }'

vllm serve /root/autodl-tmp/LLaMA-Factory/models/gpt20b_lora_sft \
--host 0.0.0.0 \
--port 80\
--trust-remote-code \
--gpu-memory-utilization 0.9\
--max-model-len 4096\
--served-model-name gpt-procurement \
--api-key your-secret-api-key

curl -X POST "http://你的 IP:80/v1/chat/completions"\
-H "Authorization: Bearer your-secret-api-key"\
-H "Content-Type: application/json"\
-d '{ "model": "gpt-procurement", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 200 }'

对比项	方案一（LoRA 直接加载）	方案二（合并后使用）
是否需要合并	❌ 不需要	✅ 需要
配置复杂度	稍复杂	简单
推理速度	稍慢	快
显存占用	略高	略低
灵活切换 LoRA	✅ 支持	❌ 不支持
推荐场景	开发测试	生产部署

{"error":{"message":"Unexpected token 200002 while expecting start token 200006","type":"BadRequestError"}}

# 修改前
format_assistant=StringFormatter(slots=["{{content}}<|end|>"])
# 修改后
format_assistant=StringFormatter(slots=["{{content}}"])

Package 'llamafactory' requires a different Python: 3.10.16 not in '>=3.11.0'

conda create -n py311 python=3.11
conda activate py311

LLaMA-Factory 微调 GPT-OSS-20B 模型教程（AutoDL+LoRA）

方案概览

环境配置

项目初始化

克隆 LLaMA-Factory

安装依赖

更多推荐文章

相关免费在线工具

下载基础模型

安装 SwanLab

训练配置

数据集准备

配置文件

训练步数计算

开始训练

权重合并（可选）

为什么要合并？

合并命令

vLLM 推理部署

安装 vLLM

方案一：直接加载 LoRA（不合并权重）⭐推荐

方案二：使用合并后的模型

两种方案对比

常见问题汇总

问题 1：Token 不匹配错误

问题 2：Python 版本不匹配

总结

参考资料

更多推荐文章

相关免费在线工具

LLaMA-Factory 微调 GPT-OSS-20B 模型教程（AutoDL+LoRA）

方案概览

环境配置

项目初始化

克隆 LLaMA-Factory

安装依赖

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

下载基础模型

安装 SwanLab

训练配置

数据集准备

配置文件

训练步数计算

开始训练

权重合并（可选）

为什么要合并？

合并命令

vLLM 推理部署

安装 vLLM

方案一：直接加载 LoRA（不合并权重）⭐推荐

方案二：使用合并后的模型

两种方案对比

常见问题汇总

问题 1：Token 不匹配错误

问题 2：Python 版本不匹配

总结

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具