基于 LLaMA-Factory 与 LoRA 微调 GPT-OSS-20B 模型实战 | 极客日志

PythonAI算法

基于 LLaMA-Factory 与 LoRA 微调 GPT-OSS-20B 模型实战

基于 LLaMA-Factory 框架与 LoRA 技术，在云 GPU 环境下完成 GPT-OSS-20B 模型的微调全流程。涵盖环境配置、数据集准备、训练监控、权重合并及 vLLM 推理部署。针对 Flash Attention 兼容性、Token 匹配等常见问题提供解决方案，适合需要低成本微调大语言模型的开发人员参考。

苹果系统发布于 2026/4/10更新于 2026/7/633 浏览

基于 LLaMA-Factory 与 LoRA 微调 GPT-OSS-20B 模型实战

前言

近期在处理大语言模型微调任务时，对比了多种方案后，最终选择了 LLaMA-Factory + LoRA 的组合。这一组合具备开箱即用、显存友好以及效果稳定等优势，非常适合在资源受限的云 GPU 环境下进行业务场景适配。

本文将完整记录从环境配置到模型部署的全过程，重点分享实际操作中的关键步骤与踩坑经验。

一、方案概览

整体技术选型如下：

组件	选择	说明
微调框架	LLaMA-Factory 0.9.4	开源的大模型训练框架
基础模型	GPT-OSS-20B	200 亿参数的 MoE 大模型
微调方式	LoRA	低秩适配，显存占用低
推理引擎	vLLM	高性能推理加速
实验监控	SwanLab	可视化训练过程
GPU 资源	AutoDL H20	云 GPU 实例
文件传输	WinSCP	本地与服务器间文件管理

二、环境配置

在云 GPU 实例上，镜像配置直接影响兼容性。

推荐配置：

参数	选择	说明
基础镜像	PyTorch
Ubuntu	22.04
Python	3.12	需 3.11+，LLaMA-Factory 要求
CUDA	12.8	版本不宜过低
PyTorch	2.8.0

⚠️ 注意：GPT-OSS 模型默认尝试使用 Flash Attention 3，该特性目前仅支持 Hopper 架构 GPU（如 H100/H800）。若使用其他架构，可能需要调整配置。

三、项目初始化

3.1 克隆 LLaMA-Factory

# 进入工作目录
cd /root/autodl-tmp
mkdir -p /root/autodl-tmp

# 下载 LLaMA-Factory 0.9.4 版本
wget https://github.com/hiyouga/LLaMA-Factory/archive/refs/tags/v0.9.4.zip
unzip v0.9.4.zip
mv LlamaFactory-0.9.4 LLaMA-Factory

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

cd /root/autodl-tmp/LLaMA-Factory

# 安装基础依赖
pip install -e '.[torch,metrics]' -i https://pypi.tuna.tsinghua.edu.cn/simple

# 如遇 evaluate 库缺失，手动安装
pip install evaluate scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

# 验证安装
python -c "import llamafactory, torch; print('LLaMA-Factory 版本:', llamafactory.__version__)"

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

# 下载模型（约 20GB）
modelscope download --model openai-mirror/gpt-oss-20b \
--local_dir /root/autodl-tmp/models/gpt-oss-20b

pip install swanlab

[
  {"instruction":"你好","input":"","output":"您好，我是智能小助手，一个由 AI 开发的助手。"},
  {"instruction":"你是谁？","input":"","output":"您好，我是智能小助手。我可以为您提供多种多样的服务。"}
]

# 模型配置
model_name_or_path: /root/autodl-tmp/models/gpt-oss-20b
lora_rank: 8
lora_alpha: 16
lora_dropout: 0.05

# 训练任务配置
stage: sft
do_train: true
finetuning_type: lora
lora_target: all

# 数据集配置
dataset: identity_fixed,alpaca_en_demo
template: gpt_oss
# 注意：很多文章写的是 gpt，实测错误，应为 gpt_oss
cutoff_len: 2048
max_samples: 1000

# 训练参数
per_device_train_batch_size: 1
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1

# 验证配置
val_size: 0.1
eval_strategy: steps
eval_steps: 100
load_best_model_at_end: true

# 精度配置
bf16: true
gradient_checkpointing: true

# 日志配置
report_to: swanlab
run_name: gpt-oss-20b-lora

总样本 = 1090（数据集总量）
训练集 = 1090 × 0.9 = 981 个
有效 batch = 1 × 8 = 8
每轮步数 = 981 ÷ 8 ≈ 123 步
总步数 = 123 × 3 轮 = 369 步

cd /root/autodl-tmp/LLaMA-Factory

# 开始训练（推荐使用 tee 同时输出到终端和文件）
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml \
2>&1 | tee logs/training_$(date +%Y%m%d_%H%M%S).log

方式	优点	缺点
合并后推理	配置简单，推理速度快	需要额外合并步骤
LoRA 直接加载	无需合并步骤	配置稍复杂

cd /root/autodl-tmp/LLaMA-Factory
llamafactory-cli export \
--model_name_or_path /root/autodl-tmp/models/gpt-oss-20b \
--adapter_name_or_path saves/gpt-20b/lora/sft \
--export_dir models/gpt20b_lora_sft \
--export_size 2 \
--export_legacy_format false

pip install vllm fastapi uvicorn pydantic -i https://pypi.tuna.tsinghua.edu.cn/simple

export FLASH_ATTN_FORCE_FA2=1
export DISABLE_FLASH_ATTN_3=1

vllm serve /root/autodl-tmp/models/gpt-oss-20b \
--enable-lora \
--lora-modules gpt-lora=/root/autodl-tmp/LLaMA-Factory/saves/gpt-20b/lora/sft \
--tokenizer /root/autodl-tmp/models/gpt-oss-20b \
--tensor-parallel-size=1 \
--trust-remote-code \
--enable-prefix-caching \
--gpu-memory-utilization 0.9 \
--host 0.0.0.0 \
--port 80 \
--api-key your-secret-api-key

curl -X POST "http://你的 IP:80/v1/chat/completions" \
-H "Authorization: Bearer your-secret-api-key" \
-H "Content-Type: application/json" \
-d '{ "model": "gpt-lora", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 200 }'

vllm serve /root/autodl-tmp/LLaMA-Factory/models/gpt20b_lora_sft \
--host 0.0.0.0 \
--port 80 \
--trust-remote-code \
--gpu-memory-utilization 0.9 \
--max-model-len 4096 \
--served-model-name gpt-procurement \
--api-key your-secret-api-key

curl -X POST "http://你的 IP:80/v1/chat/completions" \
-H "Authorization: Bearer your-secret-api-key" \
-H "Content-Type: application/json" \
-d '{ "model": "gpt-procurement", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 200 }'

对比项	方案一（LoRA 直接加载）	方案二（合并后使用）
是否需要合并	❌ 不需要	✅ 需要
配置复杂度	稍复杂	简单
推理速度	稍慢	快
显存占用	略高	略低
灵活切换 LoRA	✅ 支持	❌ 不支持
推荐场景	开发测试	生产部署

{"error":{"message":"Unexpected token 200002 while expecting start token 200006","type":"BadRequestError"}}

# 修改前
format_assistant=StringFormatter(slots=["{{content}}<|end|>"])

# 修改后
format_assistant=StringFormatter(slots=["{{content}}"])

Package 'llamafactory' requires a different Python: 3.10.16 not in '>=3.11.0'

conda create -n py311 python=3.11
conda activate py311

基于 LLaMA-Factory 与 LoRA 微调 GPT-OSS-20B 模型实战

前言

一、方案概览

二、环境配置

三、项目初始化

3.1 克隆 LLaMA-Factory

更多推荐文章

相关免费在线工具

3.2 安装依赖

3.3 下载基础模型

3.4 安装 SwanLab

四、训练配置

4.1 数据集准备

4.2 配置文件

4.3 训练步数计算

4.4 开始训练

五、权重合并（可选）

为什么要合并？

合并命令

六、vLLM 推理部署

6.1 安装 vLLM

6.2 方案一：直接加载 LoRA（推荐）

6.3 方案二：使用合并后的模型

6.4 两种方案对比

七、常见问题汇总

问题 1：Token 不匹配错误

问题 2：Python 版本不匹配

八、总结

更多推荐文章

相关免费在线工具

基于 LLaMA-Factory 与 LoRA 微调 GPT-OSS-20B 模型实战

前言

一、方案概览

二、环境配置

三、项目初始化

3.1 克隆 LLaMA-Factory

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 安装依赖

3.3 下载基础模型

3.4 安装 SwanLab

四、训练配置

4.1 数据集准备

4.2 配置文件

4.3 训练步数计算

4.4 开始训练

五、权重合并（可选）

为什么要合并？

合并命令

六、vLLM 推理部署

6.1 安装 vLLM

6.2 方案一：直接加载 LoRA（推荐）

6.3 方案二：使用合并后的模型

6.4 两种方案对比

七、常见问题汇总

问题 1：Token 不匹配错误

问题 2：Python 版本不匹配

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具