LLM项目实战：使用Llama-factory进行DPO训练

优质文章学习记录

10 Apr 2026 — 5 min read

前言

LLM训练三板斧，预训练，微调，RHLF。DPO属于是最后环节RHLF中的一个方法，关于RLHF主流方法有PPO,DPO,GROP。关于这三种介绍RLHF方法，我之前分享过对着三种方法的一些思考，有兴趣的同学可以看看。

因为DPO对硬件的需求最小，显存占用最低，所以我们先采用DPO进行训练。

硬件信息：

4070 12g*2 、64g内存、操作系统:Ubuntu24.04、模型：QWEN-3vl-2B（因为我这个模型是上个多模态任务sft过的，所以选择vl模型，没有图片输入需求的同学可以下载纯语言模型）

本篇教程仅关于DPO训练，请提前配置好环境和下载好LLamafactory（关于llamafactory环境配置其实也是一大头疼的点，注意如果想要使用分布式训练，llamafactory仅支持到deeospeed10.0-16.0，截止到2025年11月20日llamafactory还没有完成对deepspeed最新版本的适配

碎碎念：很多初学大模型的同学还是使用Windows系统进行训练，本人之前也是。但是由于Windows总是出现各种奇怪的报错和显存不稳定等情况，尤其是在多卡训练中，这种情况会更加明显。后来也尝试过wsl2其他替代方案，最后还是发现linux系统有着win无法替代的优势。所以还是建议如果真想长期学习LLM的同学，直接一步到位到linux系统，少走弯路：）

llamafactory以下简称LF

STEP1 从hugging face下载我们需要的数据库

这里采用的是hugging face中的一个医疗DPO数据集

from datasets import load_dataset # 加载数据集 ds = load_dataset("HANI-LAB/Med-REFL-DPO",'reasoning_enhancement')

print(ds['train'][:1])

这里看到数据是可以正常加载的

STEP2 对数据进行预处理

由于我们需要使用llamafactory的框架进行dpo训练，所以需要把源arrow格式的文件转为lf能识别的json格式。下面这是官方文档中的规范格式，我们编写一个python程序完成格式的对齐

[ { "instruction": "人类指令（必填）", "input": "人类输入（选填）", "chosen": "优质回答（必填）", "rejected": "劣质回答（必填）" } ]

import json from datasets import load_dataset import os def convert_arrow_to_json(dataset_path, output_json_path): """ 将 Arrow 格式的数据集转换为指定的 JSON 格式 Args: dataset_path: Arrow 数据集的路径或 Hugging Face 数据集标识 output_json_path: 输出 JSON 文件的路径 """ # 加载数据集 # 如果是本地文件，可以使用 'load_from_disk' if os.path.exists(dataset_path): # 加载本地的 Arrow 数据集 dataset = load_dataset('arrow', data_files=dataset_path) else: dataset = load_dataset(dataset_path, name='reasoning_enhancement') # 获取训练集（根据你的描述，数据在 train split 中） train_dataset = dataset['train'] # 转换为所需的 JSON 格式 output_data = [] for item in train_dataset: # 确保所有必填字段都存在 if 'instruction' in item and 'chosen' in item and 'rejected' in item: json_item = { "instruction": item['instruction'], "input": item.get('input', ''), # input 是选填的，默认空字符串 "chosen": item['chosen'], "rejected": item['rejected'] } output_data.append(json_item) # 保存为 JSON 文件 with open(output_json_path, 'w', encoding='utf-8') as f: json.dump(output_data, f, ensure_ascii=False, indent=2) print(f"转换完成！共处理了 {len(output_data)} 条数据") print(f"JSON 文件已保存到: {output_json_path}") def main(): # 本地 Arrow 文件路径 arrow_file_path = "path/to/your/Reasoning Enhancement.arrow" # 输出 JSON 文件路径 output_json_path = "med_refl_dpo.json" # 执行转换 convert_arrow_to_json(arrow_file_path, output_json_path) if __name__ == "__main__": main()

完成数据集的标准化后，我们将获得的json文件复制到lf的data目录下。

之后我们需要修改 LLaMaFactory data目录下的dataset_info.json，增加自定义数据集：（官网也给出了添加数据集的标准格式）

"数据集名称": { "file_name": "data.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } }

"MED_DPO": { "file_name": "/home/zadyd/桌面/xza/LLaMA-Factory/data/med_dpo.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } },

STEP3 启动LF,选择合适的参数

在lm文件夹下启动终端，输入llamafactory-cli webui启动我们的可视化ui

如果是windows系统，则打开终端cd到lf目录

在网页端设置我们需要的参数，一般像我这样设置就可以

因为我是多卡训练，所以选择了 deepspeed，单卡训练的同学不需要勾选这个选项，本次训练需要 24g 左右的显存，这个显存大小有点尴尬，可以通过开启量化或者减少序列长度节约显存

大概需要 12 个小时，这一步很容易遇到环境不兼容的问题，需要耐心调整，不要心急

STEP4 合并模型

训练完成之后在 export 模块，选择训练好的文件位置，和原始文件进行合并

本地部署也能高性能：gpt-oss-20b-WEBUI实测数据

本地部署也能高性能：gpt-oss-20b-WEBUI实测数据在大模型落地越来越强调“可控、可审、可嵌入”的今天，一个能真正跑在本地、不依赖云端API、开箱即用又响应迅速的推理环境，正成为开发者和中小团队的核心刚需。gpt-oss-20b-WEBUI 镜像正是这一需求下的务实答案——它不是概念演示，而是一套经过真实硬件验证、面向工程交付优化的vLLM加速网页推理方案。本文不讲抽象架构，不堆参数对比，只呈现你在双卡4090D上点开浏览器那一刻的真实体验：启动耗时多少？首token延迟多长？连续对话是否卡顿？10轮问答后显存是否溢出？所有数据均来自实机复现，全程未调优、未剪枝、未启用任何非默认配置。 1. 部署实录：从镜像拉取到网页可用，全程187秒很多人误以为“本地部署=复杂编译+反复报错”，但 gpt-oss-20b-WEBUI 的设计哲学是：让推理回归使用本身。它基于 vLLM（v0.6.3）深度定制，预置 OpenAI 兼容 API + WebUI

【Web API】RESTful API接口规范

文章目录 * 一、 RESTful API接口规范 * 二、构造RESTful API * 2.1 客户端发送请求 * 2.1.1 确定资源 * 2.1.2. 选择动作 * 2.1.3. 添加查询条件(可选) * 2.1.4. 版本控制 * 2.1.5. 保持无状态 * 2.2 服务端给出响应 * 2.2.1. 统一响应格式 * 2.2.2. 返回合适的HTTP状态码 * 三、RESTful 六大约束 * 四、RESTful API 开发与测试 * 五、

《Web 自动化测试入门：从概念到百度搜索实战全拆解》

一、自动化的核心概念 1. 定义：通过自动方式替代人工操作完成任务，生活中常见案例（自动洒水机、自动洗手液、超市闸机）体现了 “减少人力消耗、提升效率 / 质量” 的特点。 2. 软件自动化测试的核心目的： * 用于回归测试：软件迭代新版本时，验证新增功能是否影响历史功能的正常运行。 3. 常见面试题解析： * 自动化测试不能完全取代人工测试：需人工编写脚本，且功能变更后需维护更新，可靠性未必优于人工。 * 自动化测试不能 “大幅度降低工作量”：仅能 “一定程度” 减少重复工作，需注意表述的严谨性。二、自动化测试的分类自动化是统称，包含多种类型，核心分类及说明如下：分类说明接口自动化针对软件接口的测试，目的是验证接口的功能、性能、稳定性等。UI 自动化针对软件界面的测试，包含： 1. 移动端自动化：通过模拟器在电脑上编写脚本，测试手机应用；稳定性较差（受设备、

01-前端AI应用：浏览器中的机器学习模型

前端AI应用：浏览器中的机器学习模型大家好，我是十六咲子。随着AI技术的快速发展，机器学习模型不再局限于服务器端运行。现在，我们可以直接在浏览器中运行机器学习模型，为前端应用带来智能功能。从图像识别到自然语言处理，从推荐系统到实时预测，浏览器中的AI正在改变我们与Web应用的交互方式。浏览器中运行AI模型的优势 1. 隐私保护 * 数据不需要发送到服务器，在本地处理 * 敏感信息（如个人照片、语音）不会离开用户设备 * 符合GDPR等隐私法规要求 2. 实时响应 * 模型在本地运行，无需网络请求 * 减少延迟，提供即时反馈 * 适合需要实时处理的场景（如视频分析、游戏AI） 3. 离线功能 * 即使在无网络环境下也能正常工作 * 减少服务器负载和带宽消耗 * 提高应用的可靠性和用户体验 4. 降低成本 * 减少服务器计算资源和存储成本 * 无需为API调用付费 * 适合大规模部署的应用主流前端AI框架 1. TensorFlow.js * Google开发的JavaScript机器学习库 * 支持导入预训练的Tenso

前言