在 AutoDL 上利用 LLaMA-Factory 微调 GPT-OSS-20B 模型（LoRA）

基于 AutoDL 的 GPT-OSS-20B 模型 LoRA 微调实战

本教程详细讲解如何在 AutoDL 云 GPU 上使用 LLaMA-Factory 框架微调 GPT-OSS-20B 大语言模型，包含完整的环境配置、训练流程、权重合并以及 vLLM 推理部署全流程。

方案概览

组件	选择	说明
微调框架	LLaMA-Factory 0.9.4	开源的大模型训练框架
基础模型	GPT-OSS-20B	200 亿参数的 MoE 大模型
微调方式	LoRA	低秩适配，显存友好
推理引擎	vLLM	高性能推理加速
实验监控	SwanLab	可视化训练过程
GPU 资源	AutoDL H20	性价比较高的云 GPU
远程传文件	WinSCP	Windows 上免费开源的图形化安全文件传输工具

环境配置

在 AutoDL 租用实例时，镜像配置非常关键，选错了会导致各种兼容性问题。

推荐配置：

参数	选择	说明
基础镜像	PyTorch
Ubuntu	22.04
Python	3.12	必须 3.11+，LLaMA-Factory 要求
CUDA	12.8	版本不能太低
PyTorch	2.8.0

⚠️ 注意：GPT-OSS 模型默认会尝试使用 Flash Attention 3，但该特性目前仅支持 Hopper 架构 GPU（如 H100/H800 等）。

项目初始化

克隆 LLaMA-Factory

# 进入工作目录
cd /root/autodl-tmp
# 如果目录不存在，先创建
mkdir -p /root/autodl-tmp
# 下载 LLaMA-Factory 0.9.4 版本
wget https://github.com/hiyouga/LLaMA-Factory/archive/refs/tags/v0.9.4.zip
unzip v0.9.4.zip
mv LlamaFactory-0.9.4 LLaMA-Factory

方式	优点	缺点
合并后推理	配置简单，推理速度快	需要额外合并步骤
LoRA 直接加载	无需合并步骤	配置稍复杂

对比项	方案一（LoRA 直接加载）	方案二（合并后使用）
是否需要合并	❌ 不需要	✅ 需要
配置复杂度	稍复杂	简单
推理速度	稍慢	快
显存占用	略高	略低
灵活切换 LoRA	✅ 支持	❌ 不支持
推荐场景	开发测试	生产部署

在 AutoDL 上利用 LLaMA-Factory 微调 GPT-OSS-20B 模型（LoRA）

基于 AutoDL 的 GPT-OSS-20B 模型 LoRA 微调实战

方案概览

环境配置

项目初始化

克隆 LLaMA-Factory

更多推荐文章

相关免费在线工具

安装依赖

下载基础模型

安装 SwanLab

训练配置

数据集准备

配置文件

训练步数计算

开始训练

权重合并（可选）

为什么要合并？

合并命令

vLLM 推理部署

安装 vLLM

方案一：直接加载 LoRA（不合并权重）⭐推荐

方案二：使用合并后的模型

两种方案对比

常见问题汇总

问题 1：Token 不匹配错误

问题 2：Python 版本不匹配

总结

参考资料

更多推荐文章

相关免费在线工具

在 AutoDL 上利用 LLaMA-Factory 微调 GPT-OSS-20B 模型（LoRA）

基于 AutoDL 的 GPT-OSS-20B 模型 LoRA 微调实战

方案概览

环境配置

项目初始化

克隆 LLaMA-Factory

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

安装依赖

下载基础模型

安装 SwanLab

训练配置

数据集准备

配置文件

训练步数计算

开始训练

权重合并（可选）

为什么要合并？

合并命令

vLLM 推理部署

安装 vLLM

方案一：直接加载 LoRA（不合并权重）⭐推荐

方案二：使用合并后的模型

两种方案对比

常见问题汇总

问题 1：Token 不匹配错误

问题 2：Python 版本不匹配

总结

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具