LLM项目实战：使用Llama-factory进行DPO训练

优质文章学习记录

08 Apr 2026 — 5 min read

前言

LLM训练三板斧，预训练，微调，RHLF。DPO属于是最后环节RHLF中的一个方法，关于RLHF主流方法有PPO,DPO,GROP。关于这三种介绍RLHF方法，我之前分享过对着三种方法的一些思考，有兴趣的同学可以看看。

因为DPO对硬件的需求最小，显存占用最低，所以我们先采用DPO进行训练。

硬件信息：

4070 12g*2 、64g内存、操作系统:Ubuntu24.04、模型：QWEN-3vl-2B（因为我这个模型是上个多模态任务sft过的，所以选择vl模型，没有图片输入需求的同学可以下载纯语言模型）

本篇教程仅关于DPO训练，请提前配置好环境和下载好LLamafactory（关于llamafactory环境配置其实也是一大头疼的点，注意如果想要使用分布式训练，llamafactory仅支持到deeospeed10.0-16.0，截止到2025年11月20日llamafactory还没有完成对deepspeed最新版本的适配

碎碎念：很多初学大模型的同学还是使用Windows系统进行训练，本人之前也是。但是由于Windows总是出现各种奇怪的报错和显存不稳定等情况，尤其是在多卡训练中，这种情况会更加明显。后来也尝试过wsl2其他替代方案，最后还是发现linux系统有着win无法替代的优势。所以还是建议如果真想长期学习LLM的同学，直接一步到位到linux系统，少走弯路：）

llamafactory以下简称LF

STEP1 从hugging face下载我们需要的数据库

这里采用的是hugging face中的一个医疗DPO数据集

from datasets import load_dataset # 加载数据集 ds = load_dataset("HANI-LAB/Med-REFL-DPO",'reasoning_enhancement')

print(ds['train'][:1])

这里看到数据是可以正常加载的

STEP2 对数据进行预处理

由于我们需要使用llamafactory的框架进行dpo训练，所以需要把源arrow格式的文件转为lf能识别的json格式。下面这是官方文档中的规范格式，我们编写一个python程序完成格式的对齐

[ { "instruction": "人类指令（必填）", "input": "人类输入（选填）", "chosen": "优质回答（必填）", "rejected": "劣质回答（必填）" } ]

import json from datasets import load_dataset import os def convert_arrow_to_json(dataset_path, output_json_path): """ 将 Arrow 格式的数据集转换为指定的 JSON 格式 Args: dataset_path: Arrow 数据集的路径或 Hugging Face 数据集标识 output_json_path: 输出 JSON 文件的路径 """ # 加载数据集 # 如果是本地文件，可以使用 'load_from_disk' if os.path.exists(dataset_path): # 加载本地的 Arrow 数据集 dataset = load_dataset('arrow', data_files=dataset_path) else: dataset = load_dataset(dataset_path, name='reasoning_enhancement') # 获取训练集（根据你的描述，数据在 train split 中） train_dataset = dataset['train'] # 转换为所需的 JSON 格式 output_data = [] for item in train_dataset: # 确保所有必填字段都存在 if 'instruction' in item and 'chosen' in item and 'rejected' in item: json_item = { "instruction": item['instruction'], "input": item.get('input', ''), # input 是选填的，默认空字符串 "chosen": item['chosen'], "rejected": item['rejected'] } output_data.append(json_item) # 保存为 JSON 文件 with open(output_json_path, 'w', encoding='utf-8') as f: json.dump(output_data, f, ensure_ascii=False, indent=2) print(f"转换完成！共处理了 {len(output_data)} 条数据") print(f"JSON 文件已保存到: {output_json_path}") def main(): # 本地 Arrow 文件路径 arrow_file_path = "path/to/your/Reasoning Enhancement.arrow" # 输出 JSON 文件路径 output_json_path = "med_refl_dpo.json" # 执行转换 convert_arrow_to_json(arrow_file_path, output_json_path) if __name__ == "__main__": main()

完成数据集的标准化后，我们将获得的json文件复制到lf的data目录下。

之后我们需要修改 LLaMaFactory data目录下的dataset_info.json，增加自定义数据集：（官网也给出了添加数据集的标准格式）

"数据集名称": { "file_name": "data.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } }

"MED_DPO": { "file_name": "/home/zadyd/桌面/xza/LLaMA-Factory/data/med_dpo.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } },

STEP3 启动LF,选择合适的参数

在lm文件夹下启动终端，输入llamafactory-cli webui启动我们的可视化ui

如果是windows系统，则打开终端cd到lf目录

在网页端设置我们需要的参数，一般像我这样设置就可以

因为我是多卡训练，所以选择了 deepspeed，单卡训练的同学不需要勾选这个选项，本次训练需要 24g 左右的显存，这个显存大小有点尴尬，可以通过开启量化或者减少序列长度节约显存

大概需要 12 个小时，这一步很容易遇到环境不兼容的问题，需要耐心调整，不要心急

STEP4 合并模型

训练完成之后在 export 模块，选择训练好的文件位置，和原始文件进行合并

LoRA训练助手：5分钟学会生成Stable Diffusion完美标签

LoRA训练助手：5分钟学会生成Stable Diffusion完美标签你有没有试过这样训练LoRA模型？对着一张精心挑选的图片，反复琢磨怎么写tag—— “是写‘anime girl’还是‘Japanese anime style girl’？” “背景该不该加‘studio background’？加了会不会干扰主体？” “质量词放前面还是后面？masterpiece和best quality哪个权重更高？” 结果花半小时写的tag，训练出来效果平平，甚至出现特征漂移…… 更糟的是，换一批图，又要重头来一遍。别再手动拼凑标签了。今天这个工具，能让你输入一句中文描述，3秒生成专业级英文训练标签—— 格式规范、权重合理、维度完整，直接复制就能进SD/FLUX训练流程。不是提示词优化，不是风格建议，而是专为LoRA/Dreambooth数据准备阶段打造的精准标签生成器。它不猜你的意图，它理解你的画面；它不堆砌关键词，它组织语义层级；它不输出杂乱短语，它交付可直接喂给训练器的标准化字符串。准备好告别标签焦虑了吗？我们直接开干 → 1. 为什么你需要一个“

【LLM】大模型vibe coding（cursor、copilot、comate）

note 2025年，Karpathy分享了自己的Vibe Coding指南1.0： * 把所有相关内容塞进上下文里（在大型项目中可能需要很久。如果项目够小，就直接把所有文件都塞进去。 * 描述我们接下来要实现的那个具体的、增量式的小改动。不要直接要代码，而是要几种高层次的思路，并分析它们的优缺点。几乎总是会有多种做法，而大语言模型的判断并不总是可靠。然后（可选）再具体化。 * 选择一种思路，请它写出第一版代码。 * 进入复查/学习阶段：手动在浏览器里打开我不熟悉或没调用过的API文档，向模型提问解释、澄清、修改，必要时回退并尝试另一种思路。 * 测试。 * Git commit。 * 询问可以接下来实现什么。然后重复这个循环。文章目录 * note * 一、相关vibe coding工具 * 1、cursor * 2、copilot * 3、comate * 二、vibe coding综述 * 1、code agent

llama.cpp Server 引入路由模式：多模型热切换与进程隔离机制详解

llama.cpp server在 2025年12月11日发布的版本中正式引入了 router mode（路由模式），如果你习惯了 Ollama 那种处理多模型的方式，那这次 llama.cpp 的更新基本就是对标这个功能去的，而且它在架构上更进了一步。路由模式的核心机制简单来说，router mode 就是一个内嵌在 llama.cpp 里的模型管理器。以前跑 server，启动时需要指定一个模型，服务就跟这个模型绑定了。要想换模型？要么停服务、改参数、重启，要么直接启动多个服务，而现在的路由模式可以动态加载多个模型、模型用完后还可以即时卸载，并且在不同模型间毫秒级切换，最主要的是全过程无需重启服务，这样我们选择一个端口就可以了。这里有个技术细节要注意：它的实现是多进程的（Each model runs in its own process）。也就是说模型之间实现了进程级隔离，某个模型如果跑崩了，不会把整个服务带崩，其他模型还能正常响应。

灵感画廊：5分钟快速部署Stable Diffusion XL艺术创作终端

灵感画廊：5分钟快速部署Stable Diffusion XL艺术创作终端 "见微知著，凝光成影。将梦境的碎片，凝结为永恒的视觉诗篇。" 你是否曾经梦想拥有一个专属的艺术创作空间？一个可以让你随心所欲地将脑海中的画面转化为精美图像的地方？今天介绍的"灵感画廊"正是这样一个神奇的工具——基于Stable Diffusion XL 1.0打造的沉浸式艺术创作终端，让你在5分钟内就能搭建起属于自己的数字画室。 1. 环境准备与快速部署 1.1 系统要求检查在开始之前，请确保你的系统满足以下基本要求： * 操作系统：Ubuntu 18.04+ 或 CentOS 7+（推荐Ubuntu 20.04） * GPU：NVIDIA显卡，显存8GB以上（RTX 3070/4060Ti或更高） * 驱动：NVIDIA驱动版本470.82.01或更高

前言