LLM项目实战：使用Llama-factory进行DPO训练

优质文章学习记录

07 Apr 2026 — 5 min read

前言

LLM训练三板斧，预训练，微调，RHLF。DPO属于是最后环节RHLF中的一个方法，关于RLHF主流方法有PPO,DPO,GROP。关于这三种介绍RLHF方法，我之前分享过对着三种方法的一些思考，有兴趣的同学可以看看。

因为DPO对硬件的需求最小，显存占用最低，所以我们先采用DPO进行训练。

硬件信息：

4070 12g*2 、64g内存、操作系统:Ubuntu24.04、模型：QWEN-3vl-2B（因为我这个模型是上个多模态任务sft过的，所以选择vl模型，没有图片输入需求的同学可以下载纯语言模型）

本篇教程仅关于DPO训练，请提前配置好环境和下载好LLamafactory（关于llamafactory环境配置其实也是一大头疼的点，注意如果想要使用分布式训练，llamafactory仅支持到deeospeed10.0-16.0，截止到2025年11月20日llamafactory还没有完成对deepspeed最新版本的适配

碎碎念：很多初学大模型的同学还是使用Windows系统进行训练，本人之前也是。但是由于Windows总是出现各种奇怪的报错和显存不稳定等情况，尤其是在多卡训练中，这种情况会更加明显。后来也尝试过wsl2其他替代方案，最后还是发现linux系统有着win无法替代的优势。所以还是建议如果真想长期学习LLM的同学，直接一步到位到linux系统，少走弯路：）

llamafactory以下简称LF

STEP1 从hugging face下载我们需要的数据库

这里采用的是hugging face中的一个医疗DPO数据集

from datasets import load_dataset # 加载数据集 ds = load_dataset("HANI-LAB/Med-REFL-DPO",'reasoning_enhancement')

print(ds['train'][:1])

这里看到数据是可以正常加载的

STEP2 对数据进行预处理

由于我们需要使用llamafactory的框架进行dpo训练，所以需要把源arrow格式的文件转为lf能识别的json格式。下面这是官方文档中的规范格式，我们编写一个python程序完成格式的对齐

[ { "instruction": "人类指令（必填）", "input": "人类输入（选填）", "chosen": "优质回答（必填）", "rejected": "劣质回答（必填）" } ]

import json from datasets import load_dataset import os def convert_arrow_to_json(dataset_path, output_json_path): """ 将 Arrow 格式的数据集转换为指定的 JSON 格式 Args: dataset_path: Arrow 数据集的路径或 Hugging Face 数据集标识 output_json_path: 输出 JSON 文件的路径 """ # 加载数据集 # 如果是本地文件，可以使用 'load_from_disk' if os.path.exists(dataset_path): # 加载本地的 Arrow 数据集 dataset = load_dataset('arrow', data_files=dataset_path) else: dataset = load_dataset(dataset_path, name='reasoning_enhancement') # 获取训练集（根据你的描述，数据在 train split 中） train_dataset = dataset['train'] # 转换为所需的 JSON 格式 output_data = [] for item in train_dataset: # 确保所有必填字段都存在 if 'instruction' in item and 'chosen' in item and 'rejected' in item: json_item = { "instruction": item['instruction'], "input": item.get('input', ''), # input 是选填的，默认空字符串 "chosen": item['chosen'], "rejected": item['rejected'] } output_data.append(json_item) # 保存为 JSON 文件 with open(output_json_path, 'w', encoding='utf-8') as f: json.dump(output_data, f, ensure_ascii=False, indent=2) print(f"转换完成！共处理了 {len(output_data)} 条数据") print(f"JSON 文件已保存到: {output_json_path}") def main(): # 本地 Arrow 文件路径 arrow_file_path = "path/to/your/Reasoning Enhancement.arrow" # 输出 JSON 文件路径 output_json_path = "med_refl_dpo.json" # 执行转换 convert_arrow_to_json(arrow_file_path, output_json_path) if __name__ == "__main__": main()

完成数据集的标准化后，我们将获得的json文件复制到lf的data目录下。

之后我们需要修改 LLaMaFactory data目录下的dataset_info.json，增加自定义数据集：（官网也给出了添加数据集的标准格式）

"数据集名称": { "file_name": "data.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } }

"MED_DPO": { "file_name": "/home/zadyd/桌面/xza/LLaMA-Factory/data/med_dpo.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } },

STEP3 启动LF,选择合适的参数

在lm文件夹下启动终端，输入llamafactory-cli webui启动我们的可视化ui

如果是windows系统，则打开终端cd到lf目录

在网页端设置我们需要的参数，一般像我这样设置就可以

因为我是多卡训练，所以选择了 deepspeed，单卡训练的同学不需要勾选这个选项，本次训练需要 24g 左右的显存，这个显存大小有点尴尬，可以通过开启量化或者减少序列长度节约显存

大概需要 12 个小时，这一步很容易遇到环境不兼容的问题，需要耐心调整，不要心急

STEP4 合并模型

训练完成之后在 export 模块，选择训练好的文件位置，和原始文件进行合并

深度盘点：GitHub 上十大必装 Claude Skill，让你的 AI 助手效率提升 4 倍

深度盘点：GitHub 上十大必装 Claude Skill，让你的 AI 助手效率提升 4 倍 Claude Code 已经很强大，但如果搭配这些精心设计的 Skills，它将变身超级生产力工具。本文为你深度解析 GitHub 上最受欢迎的 10 大 Claude Skills，帮助你找到最适合的配置方案。引言：为什么 Claude Skills 如此重要？在 2025-2026 年，Claude Code 生态经历了爆发式增长。Skills 系统的出现，让 Claude 从一个"对话助手"升级为"专业工具"。通过安装不同的 Skills，你可以：

OpenClaw 都在排队养，你还在云端白嫖？手把手教你用 Python 搭建本地 AI 智能体（小白也能养自己的小龙虾）

🦞 长文警告！ 📜 文章目录（点击跳转，这波操作稳如老狗） 1. 前言：别再当云端 AI 的韭菜了，把“小龙虾”养在自己家 2. 第一步：给电脑装个“胃”——下载安装 Python（含官网地址） 3. 第二步：请个本地“大脑”——Ollama + Qwen 模型（白嫖党狂喜） 4. 第三步：搭个“龙虾笼子”——安装 OpenClaw（附项目地址） 5. 第四步：用 Python 写个“传话筒”，让你的小龙虾听你指挥 6. 第五步：第一次对话——你的本地贾维斯上线 7. 总结：白嫖虽好，但别让龙虾把你的电脑“钳”

人工智能：大语言模型（LLM）原理与应用实战

人工智能：大语言模型（LLM）原理与应用实战 1.1 本章学习目标与重点 💡 学习目标：掌握大语言模型的核心原理、训练流程与微调方法，学会基于开源大语言模型完成定制化对话与文本生成任务。 💡 学习重点：理解大语言模型的Transformer decoder-only架构，掌握指令微调与RLHF技术，能够使用LoRA高效微调开源LLM。 1.2 大语言模型的核心概念与发展历程 1.2.1 什么是大语言模型 💡 大语言模型（Large Language Model, LLM）是参数量达到十亿级甚至万亿级的Transformer-based模型。它通过在海量文本数据上进行预训练，学习语言的语法、语义、常识和推理能力。 LLM的核心能力包括文本生成、理解、翻译、摘要、问答等。它可以处理复杂的自然语言任务，无需针对每个任务单独设计模型结构。 LLM与传统NLP模型的核心区别： * 参数量级：传统模型参数量通常在千万级，LLM参数量可达十亿到万亿级。 * 训练数据：传统模型依赖标注数据，LLM使用海量无标注文本进行预训练。 * 能力边界：传统模型只能处理单一任务，LL

Qwen2.5镜像部署推荐：Gradio界面定制化实战教程

Qwen2.5镜像部署推荐：Gradio界面定制化实战教程本文由by113小贝基于通义千问2.5-7B-Instruct大型语言模型二次开发构建 1. 快速上手：从零部署Qwen2.5-7B模型如果你正在寻找一个知识丰富、编程和数学能力强大的AI助手，Qwen2.5-7B-Instruct绝对值得尝试。这个模型在Qwen2的基础上有了显著提升，不仅增加了海量知识，还能处理超过8K tokens的长文本，甚至能理解表格等结构化数据。 1.1 环境准备与一键启动部署过程简单到令人惊讶。假设你已经有了合适的GPU环境（推荐NVIDIA RTX 4090 D，24GB显存），只需要几个命令就能让模型跑起来： # 进入模型目录 cd /Qwen2.5-7B-Instruct # 一键启动服务 python app.py 启动成功后，访问地址通常是这样的格式：https://gpu-pod[你的实例ID]-7860.web.gpu.ZEEKLOG.net/ 1.2 系统要求检查

前言