基于 LLaMA-Factory 和 LoRA 在 AutoDL 上微调 GPT-OSS-20B 模型 | 极客日志

PythonAI算法

基于 LLaMA-Factory 和 LoRA 在 AutoDL 上微调 GPT-OSS-20B 模型

综述由AI生成在 AutoDL 云 GPU 环境下，使用 LLaMA-Factory 框架配合 LoRA 技术微调 GPT-OSS-20B 大语言模型的完整流程。涵盖环境配置（PyTorch/CUDA）、数据集准备、训练参数设置、权重合并及 vLLM 推理部署。同时提供了常见错误（如 Token 不匹配、Python 版本）的解决方案，并对比了直接加载 LoRA 与合并权重两种推理方案的优劣。

CloudNative发布于 2026/4/6更新于 2026/5/2327 浏览

基于 LLaMA-Factory 和 LoRA 在 AutoDL 上微调 GPT-OSS-20B 模型

前言

最近在做一个智能采购相关的项目，需要对大语言模型进行微调，让它能够更好地理解采购场景的业务需求。在对比了多种方案后，最终选择了LLaMA-Factory + LoRA的组合，原因主要有三点：

开箱即用：LLaMA-Factory 提供了非常完善的训练框架，支持多种微调方式
显存友好：LoRA 相比全参数微调，显存占用大幅降低
效果不错：在采购对话场景下，LoRA 微调已经能够满足业务需求

本文将完整记录从环境配置到模型部署的全过程。

一、方案概览

组件	选择	说明
微调框架	LLaMA-Factory 0.9.4	开源的大模型训练框架
基础模型	GPT-OSS-20B	200 亿参数的 MoE 大模型
微调方式	LoRA	低秩适配，显存友好
推理引擎	vLLM	高性能推理加速
实验监控	SwanLab	可视化训练过程
GPU 资源	AutoDL H20	性价比较高的云 GPU
远程传文件	WinSCP	Windows 上免费开源的图形化安全文件传输工具

二、环境配置

在 AutoDL 租用实例时，镜像配置非常关键。

推荐配置：

参数	选择	说明
基础镜像	PyTorch
Ubuntu	22.04
Python	3.12	必须 3.11+，LLaMA-Factory 要求
CUDA	12.8	版本不能太低
PyTorch	2.8.0

⚠️ 重要提醒：GPT-OSS 模型默认会尝试使用 Flash Attention 3，但该特性目前仅支持 Hopper 架构 GPU（如 H100/H800 等）。

三、项目初始化

3.1 克隆 LLaMA-Factory

# 进入工作目录
cd /root/autodl-tmp
# 如果目录不存在，先创建
mkdir -p /root/autodl-tmp

wget https://github.com/hiyouga/LLaMA-Factory/archive/refs/tags/v0.9.4.zip
unzip v0.9.4.zip
 LlamaFactory-0.9.4 LLaMA-Factory

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

cd /root/autodl-tmp/LLaMA-Factory
pip install -e '.[torch,metrics]' -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install evaluate scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple
python -c "import llamafactory, torch; print('LLaMA-Factory 版本:', llamafactory.__version__)"

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple
modelscope download --model openai-mirror/gpt-oss-20b \
 --local_dir /root/autodl-tmp/models/gpt-oss-20b

pip install swanlab

[{"instruction":"你好","input":"","output":"您好，我是智能小助手，一个由刘大漂亮开发的 AI 助手。"},{"instruction":"你是谁？","input":"","output":"您好，我是智能小助手，由刘大漂亮发明。我可以为您提供多种多样的服务。"}]

# 模型配置
model_name_or_path: /root/autodl-tmp/models/gpt-oss-20b
lora_rank: 8
lora_alpha: 16
lora_dropout: 0.05
# 训练任务配置
stage: sft
do_train: true
finetuning_type: lora
lora_target: all
# 数据集配置
dataset: identity_fixed,alpaca_en_demo
template: gpt_oss
cutoff_len: 2048
max_samples: 1000
# 训练参数
per_device_train_batch_size: 1
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
# 验证配置
val_size: 0.1
eval_strategy: steps
eval_steps: 100
load_best_model_at_end: true
# 精度配置
bf16: true
gradient_checkpointing: true
# 日志配置
report_to: swanlab
run_name: gpt-oss-20b-lora

cd /root/autodl-tmp/LLaMA-Factory
llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml \
2>&1|tee logs/training_$(date +%Y%m%d_%H%M%S).log

方式	优点	缺点
合并后推理	配置简单，推理速度快	需要额外合并步骤
LoRA 直接加载	无需合并步骤	配置稍复杂

cd /root/autodl-tmp/LLaMA-Factory
llamafactory-cli export \
 --model_name_or_path /root/autodl-tmp/models/gpt-oss-20b \
 --adapter_name_or_path saves/gpt-20b/lora/sft \
 --export_dir models/gpt20b_lora_sft \
 --export_size 2 \
 --export_legacy_format false

pip install vllm fastapi uvicorn pydantic -i https://pypi.tuna.tsinghua.edu.cn/simple

export FLASH_ATTN_FORCE_FA2=1
export DISABLE_FLASH_ATTN_3=1
vllm serve /root/autodl-tmp/models/gpt-oss-20b \
 --enable-lora \
 --lora-modules gpt-lora=/root/autodl-tmp/LLaMA-Factory/saves/gpt-20b/lora/sft \
 --tokenizer /root/autodl-tmp/models/gpt-oss-20b \
 --tensor-parallel-size=1 \
 --trust-remote-code \
 --enable-prefix-caching \
 --gpu-memory-utilization 0.9 \
 --host 0.0.0.0 \
 --port 80 \
 --api-key your-secret-api-key

curl -X POST "http://你的 IP:80/v1/chat/completions" \
-H "Authorization: Bearer your-secret-api-key" \
-H "Content-Type: application/json" \
-d '{ "model": "gpt-lora", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 200 }'

vllm serve /root/autodl-tmp/LLaMA-Factory/models/gpt20b_lora_sft \
 --host 0.0.0.0 \
 --port 80 \
 --trust-remote-code \
 --gpu-memory-utilization 0.9 \
 --max-model-len 4096 \
 --served-model-name gpt-procurement \
 --api-key your-secret-api-key

curl -X POST "http://你的 IP:80/v1/chat/completions" \
-H "Authorization: Bearer your-secret-api-key" \
-H "Content-Type: application/json" \
-d '{ "model": "gpt-procurement", "messages": [ {"role": "user", "content": "你好，请介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 200 }'

对比项	方案一（LoRA 直接加载）	方案二（合并后使用）
是否需要合并	❌ 不需要	✅ 需要
配置复杂度	稍复杂	简单
推理速度	稍慢	快
显存占用	略高	略低
灵活切换 LoRA	✅ 支持	❌ 不支持
推荐场景	开发测试	生产部署

{"error":{"message":"Unexpected token 200002 while expecting start token 200006","type":"BadRequestError"}}

# 修改前
format_assistant=StringFormatter(slots=["{{content}}<|end|>"]),
# 修改后
format_assistant=StringFormatter(slots=["{{content}}"]),

Package 'llamafactory' requires a different Python: 3.10.16 not in '>=3.11.0'

conda create -n py311 python=3.11
conda activate py311

基于 LLaMA-Factory 和 LoRA 在 AutoDL 上微调 GPT-OSS-20B 模型

前言

一、方案概览

二、环境配置

三、项目初始化

3.1 克隆 LLaMA-Factory

更多推荐文章

相关免费在线工具

3.2 安装依赖

3.3 下载基础模型

3.4 安装 SwanLab

四、训练配置

4.1 数据集准备

4.2 配置文件

4.3 训练步数计算

4.4 开始训练

五、权重合并（可选）

5.1 为什么要合并？

5.2 合并命令

六、vLLM 推理部署

6.1 安装 vLLM

6.2 方案一：直接加载 LoRA（不合并权重）⭐推荐

6.3 方案二：使用合并后的模型

6.4 两种方案对比

七、常见问题汇总

问题 1：Token 不匹配错误

问题 2：Python 版本不匹配

八、总结

九、参考资料

更多推荐文章

相关免费在线工具

基于 LLaMA-Factory 和 LoRA 在 AutoDL 上微调 GPT-OSS-20B 模型

前言

一、方案概览

二、环境配置

三、项目初始化

3.1 克隆 LLaMA-Factory

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 安装依赖

3.3 下载基础模型

3.4 安装 SwanLab

四、训练配置

4.1 数据集准备

4.2 配置文件

4.3 训练步数计算

4.4 开始训练

五、权重合并（可选）

5.1 为什么要合并？

5.2 合并命令

六、vLLM 推理部署

6.1 安装 vLLM

6.2 方案一：直接加载 LoRA（不合并权重）⭐推荐

6.3 方案二：使用合并后的模型

6.4 两种方案对比

七、常见问题汇总

问题 1：Token 不匹配错误

问题 2：Python 版本不匹配

八、总结

九、参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具