手把手教你在AutoDL上用LLaMA-Factory微调GPT-OSS-20B模型(LoRA版)

手把手教你在AutoDL上用LLaMA-Factory微调GPT-OSS-20B模型(LoRA版)
本教程详细讲解如何在AutoDL云GPU上使用LLaMA-Factory框架微调GPT-OSS-20B大语言模型,包含完整的环境配置、训练流程、权重合并以及vLLM推理部署全流程。文章最后还分享了笔者踩过的坑和解决方案,建议收藏备用!

前言

最近在做一个智能采购相关的项目,需要对大语言模型进行微调,让它能够更好地理解采购场景的业务需求。在对比了多种方案后,最终选择了LLaMA-Factory + LoRA的组合,原因主要有三点:

  1. 开箱即用:LLaMA-Factory提供了非常完善的训练框架,支持多种微调方式
  2. 显存友好:LoRA相比全参数微调,显存占用大幅降低
  3. 效果不错:在采购对话场景下,LoRA微调已经能够满足业务需求

本文将完整记录从环境配置到模型部署的全过程,希望能够帮助到有同样需求的小伙伴。

一、方案概览

在开始之前,先来看一下整体的技術方案:

组件选择说明
微调框架LLaMA-Factory 0.9.4开源的大模型训练框架
基础模型GPT-OSS-20B200亿参数的MoE大模型
微调方式LoRA低秩适配,显存友好
推理引擎vLLM高性能推理加速
实验监控SwanLab可视化训练过程
GPU资源AutoDL H20性价比较高的云GPU
远程传文件WinSCPWindows上免费开源的图形化安全文件传输工具,用于本地与远程服务器之间加密上传、下载、管理文件

二、环境配置

在AutoDL租用实例时,镜像配置非常关键,选错了会导致各种兼容性问题。

推荐配置

参数选择说明
基础镜像PyTorch
Ubuntu22.04
Python3.12必须3.11+,LLaMA-Factory要求
CUDA12.8版本不能太低
PyTorch2.8.0
⚠️ 重要提醒:GPT-OSS模型默认会尝试使用Flash Attention 3,但该特性目前仅支持Hopper架构GPU(如H100/H800等)。

三、项目初始化

3.1 克隆LLaMA-Factory

# 进入工作目录cd /root/autodl-tmp # 如果目录不存在,先创建mkdir -p /root/autodl-tmp # 下载LLaMA-Factory 0.9.4版本# 方法一:从GitHub下载wget https://github.com/hiyouga/LLaMA-Factory/archive/refs/tags/v0.9.4.zip unzip v0.9.4.zip mv LlamaFactory-0.9.4 LLaMA-Factory # 方法二:直接从本地拖拽上传# 将下载的zip文件解压后拖拽到 /root/autodl-tmp 目录

3.2 安装依赖

cd /root/autodl-tmp/LLaMA-Factory # 安装基础依赖 pip install -e '.[torch,metrics]' -i https://pypi.tuna.tsinghua.edu.cn/simple # 如果遇到 evaluate 库缺失,手动安装 pip install evaluate scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple # 验证安装 python -c "import llamafactory, torch; print('LLaMA-Factory版本:', llamafactory.__version__)"

3.3 下载基础模型

使用ModelScope下载GPT-OSS-20B模型:

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple # 下载模型(约20GB) modelscope download --model openai-mirror/gpt-oss-20b \ --local_dir /root/autodl-tmp/models/gpt-oss-20b 
💡 提示:模型下载需要较长时间,建议在不需要使用GPU时就开始下载,这样可以节省GPU计费时间。

3.4 安装SwanLab

pip install swanlab 

安装完成后,需要在训练配置中进行设置(详见下一节)。

四、训练配置

4.1 数据集准备

本方案使用两个数据集:

  1. identity_fixed:根据identity自定义模型身份信息(填充了其中的name参数和author参数)
  2. alpaca_en_demo:通用的指令微调数据集

identity_fixed数据集示例

[{"instruction":"你好","input":"","output":"您好,我是智能小助手,一个由刘大漂亮开发的AI助手。"},{"instruction":"你是谁?","input":"","output":"您好,我是智能小助手,由刘大漂亮发明。我可以为您提供多种多样的服务。"}]

4.2 配置文件

编辑 examples/train_lora/gpt_lora_sft.yaml

# 模型配置model_name_or_path: /root/autodl-tmp/models/gpt-oss-20b lora_rank:8lora_alpha:16lora_dropout:0.05# 训练任务配置stage: sft do_train:truefinetuning_type: lora lora_target: all # 数据集配置dataset: identity_fixed,alpaca_en_demo template: gpt_oss #很多文章写的是gpt,实测错误,应该是gpt_oss,参考模板文件`LlamaFactory-0.9.4\src\llamafactory\data\template.py`(template参数,也可以参考:https://github.com/hiyouga/LlamaFactory?tab=readme-ov-file#supported-models)cutoff_len:2048max_samples:1000# 训练参数per_device_train_batch_size:1gradient_accumulation_steps:8learning_rate:1.0e-4num_train_epochs:3.0lr_scheduler_type: cosine warmup_ratio:0.1# 验证配置val_size:0.1eval_strategy: steps eval_steps:100load_best_model_at_end:true# 精度配置bf16:truegradient_checkpointing:true# 日志配置report_to: swanlab run_name: gpt-oss-20b-lora 

4.3 训练步数计算

理解训练步数的计算有助于预估训练时间:

总样本 = 1090(数据集总量) 训练集 = 1090 × 0.9 = 981个 有效batch = 1 × 8 = 8 每轮步数 = 981 ÷ 8 ≈ 123步 总步数 = 123 × 3轮 = 369步 

4.4 开始训练

cd /root/autodl-tmp/LLaMA-Factory # 开始训练(推荐使用tee同时输出到终端和文件) llamafactory-cli train examples/train_lora/gpt_lora_sft.yaml \2>&1|tee logs/training_$(date +%Y%m%d_%H%M%S).log 

训练过程中可以通过SwanLab查看实时的训练曲线:

  1. 访问 https://swanlab.cn
  2. 登录后进入对应项目

即可查看loss曲线、learning_rate等指标

在这里插入图片描述

在模型训练过程中,会提示上传密钥,这时在swanlab-设置,中的密钥(https://swanlab.cn/space/~/settings),根据终端提示粘贴到终端即可

在这里插入图片描述

五、权重合并(可选)

权重合并是将LoRA适配器与基础模型合并为一个完整的模型文件。这是可选步骤,不合并也可以直接进行推理。

5.1 为什么要合并?

方式优点缺点
合并后推理配置简单,推理速度快需要额外合并步骤
LoRA直接加载无需合并步骤配置稍复杂

5.2 合并命令

cd /root/autodl-tmp/LLaMA-Factory llamafactory-cli export\ --model_name_or_path /root/autodl-tmp/models/gpt-oss-20b \ --adapter_name_or_path saves/gpt-20b/lora/sft \ --export_dir models/gpt20b_lora_sft \ --export_size 2\ --export_legacy_format false

参数说明:

  • --model_name_or_path:基础模型路径
  • --adapter_name_or_path:LoRA权重保存路径
  • --export_dir:合并后模型的保存路径

六、vLLM推理部署

vLLM是高性能的推理引擎,支持两种部署方式:

6.1 安装vLLM

pip install vllm fastapi uvicorn pydantic -i https://pypi.tuna.tsinghua.edu.cn/simple 

6.2 方案一:直接加载LoRA(不合并权重)⭐推荐

这种方式不需要合并权重,直接动态加载LoRA适配器:

exportFLASH_ATTN_FORCE_FA2=1exportDISABLE_FLASH_ATTN_3=1 vllm serve /root/autodl-tmp/models/gpt-oss-20b \ --enable-lora \ --lora-modules gpt-lora=/root/autodl-tmp/LLaMA-Factory/saves/gpt-20b/lora/sft \ --tokenizer /root/autodl-tmp/models/gpt-oss-20b \ --tensor-parallel-size=1\ --trust-remote-code \ --enable-prefix-caching \ --gpu-memory-utilization 0.9\ --host 0.0.0.0 \ --port 80\ --api-key your-secret-api-key 

API调用

curl -X POST "http://你的IP:80/v1/chat/completions"\ -H "Authorization: Bearer your-secret-api-key"\ -H "Content-Type: application/json"\ -d '{ "model": "gpt-lora", "messages": [ {"role": "user", "content": "你好,请介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 200 }'

6.3 方案二:使用合并后的模型

如果已经完成了权重合并,可以使用合并后的模型:

 vllm serve /root/autodl-tmp/LLaMA-Factory/models/gpt20b_lora_sft \ --host 0.0.0.0 \ --port 80\ --trust-remote-code \ --gpu-memory-utilization 0.9\ --max-model-len 4096\ --served-model-name gpt-procurement \ --api-key your-secret-api-key 
在这里插入图片描述


终端出现这个,就代表部署成功了,接下来就可以推理了。

API调用

curl -X POST "http://你的IP:80/v1/chat/completions"\ -H "Authorization: Bearer your-secret-api-key"\ -H "Content-Type: application/json"\ -d '{ "model": "gpt-procurement", "messages": [ {"role": "user", "content": "你好,请介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 200 }'
在这里插入图片描述


成功调用!

6.4 两种方案对比

对比项方案一(LoRA直接加载)方案二(合并后使用)
是否需要合并❌ 不需要✅ 需要
配置复杂度稍复杂简单
推理速度稍慢
显存占用略高略低
灵活切换LoRA✅ 支持❌ 不支持
推荐场景开发测试生产部署

七、常见问题汇总

问题1:Token不匹配错误

这个是很隐藏的问题,也是花费我同事很久时间找到的,感谢他!

错误信息

{"error":{"message":"Unexpected token 200002 while expecting start token 200006","type":"BadRequestError"}}

原因:GPT-OSS模型的模板文件中使用了<|end|>作为结束token,但与实际tokenizer不匹配。

解决方案

修改 LlamaFactory-0.9.4/src/llamafactory/data/template.py 中的gpt_oss模板:

# 修改前 format_assistant=StringFormatter(slots=["{{content}}<|end|>"]),# 修改后 format_assistant=StringFormatter(slots=["{{content}}"]),

修改后需要重新训练模型。

问题2:Python版本不匹配

错误信息

Package 'llamafactory' requires a different Python: 3.10.16 not in '>=3.11.0' 

解决方案:创建Python 3.11+的环境

conda create -n py311 python=3.11 conda activate py311 

八、总结

本文详细记录了使用LLaMA-Factory在AutoDL上微调GPT-OSS-20B模型的完整流程,包括:

✅ 环境配置与依赖安装
✅ 数据集准备与配置
✅ 模型训练与监控
✅ LoRA权重合并
✅ vLLM推理部署
✅ 常见问题解决方案

整个流程走下来,大约需要:

  • 环境配置:30分钟
  • 模型下载:1-2小时(视网络情况)
  • 模型训练:约1小时(369步)
  • 权重合并:10分钟

希望这篇教程能够帮助到你!如果对你有帮助,欢迎点赞、收藏、转发~

九、参考资料


📝 更新日志2026-02-13:初始版本发布

如果有问题,欢迎在评论区留言讨论!

Read more

Stable Diffusion艺术风格宝典:833种风格一键获取

Stable Diffusion艺术风格宝典:833种风格一键获取 【免费下载链接】StableDiffusion-CheatSheetA list of StableDiffusion styles and some notes for offline use. Pure HTML, CSS and a bit of JS. 项目地址: https://gitcode.com/gh_mirrors/st/StableDiffusion-CheatSheet 还在为Stable Diffusion生成的艺术风格不够理想而烦恼吗?想要快速找到心仪的AI艺术创作工具和风格参考吗?今天为您推荐一款专业的Stable Diffusion风格参考宝典,让您的创作效率提升数倍! 什么是Stable Diffusion风格参考工具? 这是一个专为Stable Diffusion用户打造的离线资源库,包含了833种经过手工测试的艺术风格。无论您是AI艺术新手还是专业创作者,都能在这里找到灵感源泉。 三大核心优势 1. 海量风格资源 项目收录了从古典到现代、从写实到奇幻的多样化艺术风格

By Ne0inhk

SmolVLA高算力适配:TensorRT加速可行性分析与ONNX导出实操

SmolVLA高算力适配:TensorRT加速可行性分析与ONNX导出实操 1. 项目背景与核心价值 SmolVLA作为一款专为经济实惠机器人技术设计的紧凑型视觉-语言-动作模型,在资源受限环境下展现出了令人印象深刻的性能。这个约5亿参数的模型能够同时处理视觉输入、语言指令和动作输出,为机器人控制提供了端到端的解决方案。 在实际部署中,我们经常面临一个关键挑战:如何在保持模型精度的同时,进一步提升推理速度以满足实时控制需求?这就是TensorRT加速技术发挥作用的地方。通过将SmolVLA模型转换为TensorRT引擎,我们有望获得显著的性能提升,特别是在NVIDIA GPU硬件上。 本文将带你深入了解SmolVLA模型的TensorRT加速可行性,并提供详细的ONNX导出实操指南,帮助你在自己的机器人项目中实现更高效的推理性能。 2. TensorRT加速技术解析 2.1 TensorRT的核心优势 TensorRT是NVIDIA推出的高性能深度学习推理优化器和运行时库,它通过多种技术手段提升模型推理效率: * 图层融合:将多个连续的操作层合并为单个内核,减少内

By Ne0inhk
Spec-Kit+Copilot打造AI规格驱动开发

Spec-Kit+Copilot打造AI规格驱动开发

作者:算力魔方创始人/英特尔创新大使 刘力 一,什么是Spec-Kit? 在传统的软件开发中,通常先有需求→ 写规格 → 再写代码;规格多数是“指导性文档”,而真正的业务逻辑和边界由程序员“翻译”出来。Spec-Driven Development(规格驱动开发)的理念是,将规格(spec)从“仅供参考”提升为可执行、可驱动的核心工件,直接引导后续设计、计划、任务拆解、实现等流程。spec-kit 是 GitHub 提供的一个工具集 / CLI / 模板库,用来在项目中落地这种流程! Github: https://github.com/github/spec-kit 二,搭建运行环境 本节将指导您从零开发搭建Spec-Kit的运行环境。 第一步:在Ubuntu24.04上安装uv: curl -LsSf

By Ne0inhk
国内AI生图/AI设计工具评测,6款“平民版Midjourney“如何选?

国内AI生图/AI设计工具评测,6款“平民版Midjourney“如何选?

在人工智能生成内容(AIGC)浪潮席卷全球的今天,AI绘画技术正以前所未有的速度发展,深刻地改变着设计、创意和内容生产的范式。提及AI绘画,Midjourney以其惊艳的艺术效果成为标杆,但其高昂的订阅费、纯英文环境及网络门槛,让许多国内用户望而却步。 幸运的是,国内AI技术蓬勃发展,催生了一批功能强大、体验优秀且更符合国人使用习惯的AI图片生成工具。它们不仅技术紧追前沿,更在应用场景、成本和易用性上展现出独特优势。本文将为你盘点6款备受瞩目的国产AI图片生成工具,为广大开发者、设计师和内容创作者提供一份详实的参考指南。 1. 稿定AI:智能设计平台的创新实践 技术架构与平台定位 稿定AI已发展为一个独立的AI设计平台和创意社区,基于华为云Token服务构建。其核心创新在于AI设计Agent系统,能够自动化完成灵感采集、信息检索和设计构思等全流程工作。 核心功能特色 * 智能对话式设计:用户可通过自然语言与AI设计Agent交互,如输入"设计一个科技感十足的产品发布会海报",Agent会自动解析需求并生成多个设计方案 * 无限画布工作流:采用创新的无限画布设计,支持多元素

By Ne0inhk