LLM项目实战：使用Llama-factory进行DPO训练

优质文章学习记录

09 Apr 2026 — 5 min read

前言

LLM训练三板斧，预训练，微调，RHLF。DPO属于是最后环节RHLF中的一个方法，关于RLHF主流方法有PPO,DPO,GROP。关于这三种介绍RLHF方法，我之前分享过对着三种方法的一些思考，有兴趣的同学可以看看。

因为DPO对硬件的需求最小，显存占用最低，所以我们先采用DPO进行训练。

硬件信息：

4070 12g*2 、64g内存、操作系统:Ubuntu24.04、模型：QWEN-3vl-2B（因为我这个模型是上个多模态任务sft过的，所以选择vl模型，没有图片输入需求的同学可以下载纯语言模型）

本篇教程仅关于DPO训练，请提前配置好环境和下载好LLamafactory（关于llamafactory环境配置其实也是一大头疼的点，注意如果想要使用分布式训练，llamafactory仅支持到deeospeed10.0-16.0，截止到2025年11月20日llamafactory还没有完成对deepspeed最新版本的适配

碎碎念：很多初学大模型的同学还是使用Windows系统进行训练，本人之前也是。但是由于Windows总是出现各种奇怪的报错和显存不稳定等情况，尤其是在多卡训练中，这种情况会更加明显。后来也尝试过wsl2其他替代方案，最后还是发现linux系统有着win无法替代的优势。所以还是建议如果真想长期学习LLM的同学，直接一步到位到linux系统，少走弯路：）

llamafactory以下简称LF

STEP1 从hugging face下载我们需要的数据库

这里采用的是hugging face中的一个医疗DPO数据集

from datasets import load_dataset # 加载数据集 ds = load_dataset("HANI-LAB/Med-REFL-DPO",'reasoning_enhancement')

print(ds['train'][:1])

这里看到数据是可以正常加载的

STEP2 对数据进行预处理

由于我们需要使用llamafactory的框架进行dpo训练，所以需要把源arrow格式的文件转为lf能识别的json格式。下面这是官方文档中的规范格式，我们编写一个python程序完成格式的对齐

[ { "instruction": "人类指令（必填）", "input": "人类输入（选填）", "chosen": "优质回答（必填）", "rejected": "劣质回答（必填）" } ]

import json from datasets import load_dataset import os def convert_arrow_to_json(dataset_path, output_json_path): """ 将 Arrow 格式的数据集转换为指定的 JSON 格式 Args: dataset_path: Arrow 数据集的路径或 Hugging Face 数据集标识 output_json_path: 输出 JSON 文件的路径 """ # 加载数据集 # 如果是本地文件，可以使用 'load_from_disk' if os.path.exists(dataset_path): # 加载本地的 Arrow 数据集 dataset = load_dataset('arrow', data_files=dataset_path) else: dataset = load_dataset(dataset_path, name='reasoning_enhancement') # 获取训练集（根据你的描述，数据在 train split 中） train_dataset = dataset['train'] # 转换为所需的 JSON 格式 output_data = [] for item in train_dataset: # 确保所有必填字段都存在 if 'instruction' in item and 'chosen' in item and 'rejected' in item: json_item = { "instruction": item['instruction'], "input": item.get('input', ''), # input 是选填的，默认空字符串 "chosen": item['chosen'], "rejected": item['rejected'] } output_data.append(json_item) # 保存为 JSON 文件 with open(output_json_path, 'w', encoding='utf-8') as f: json.dump(output_data, f, ensure_ascii=False, indent=2) print(f"转换完成！共处理了 {len(output_data)} 条数据") print(f"JSON 文件已保存到: {output_json_path}") def main(): # 本地 Arrow 文件路径 arrow_file_path = "path/to/your/Reasoning Enhancement.arrow" # 输出 JSON 文件路径 output_json_path = "med_refl_dpo.json" # 执行转换 convert_arrow_to_json(arrow_file_path, output_json_path) if __name__ == "__main__": main()

完成数据集的标准化后，我们将获得的json文件复制到lf的data目录下。

之后我们需要修改 LLaMaFactory data目录下的dataset_info.json，增加自定义数据集：（官网也给出了添加数据集的标准格式）

"数据集名称": { "file_name": "data.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } }

"MED_DPO": { "file_name": "/home/zadyd/桌面/xza/LLaMA-Factory/data/med_dpo.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } },

STEP3 启动LF,选择合适的参数

在lm文件夹下启动终端，输入llamafactory-cli webui启动我们的可视化ui

如果是windows系统，则打开终端cd到lf目录

在网页端设置我们需要的参数，一般像我这样设置就可以

因为我是多卡训练，所以选择了 deepspeed，单卡训练的同学不需要勾选这个选项，本次训练需要 24g 左右的显存，这个显存大小有点尴尬，可以通过开启量化或者减少序列长度节约显存

大概需要 12 个小时，这一步很容易遇到环境不兼容的问题，需要耐心调整，不要心急

STEP4 合并模型

训练完成之后在 export 模块，选择训练好的文件位置，和原始文件进行合并

OpenClaw Skills 安装与实战：打造你的 AI 技能工具箱

OpenClaw Skills 安装与实战：打造你的 AI 技能工具箱本文介绍如何使用 ClawHub 安装和管理 OpenClaw 技能包，并通过实战案例演示多个技能的协同使用。前言 OpenClaw 是一个强大的 AI 助手框架，而 Skills（技能包）则是扩展其能力的核心方式。通过安装不同的技能包，你可以让 AI 助手具备搜索、总结、开发指导、自我学习等能力。本文将带你完成： * ClawHub CLI 的安装与使用 * 多个实用技能包的安装 * Self-Improving 记忆系统的初始化 * 一个综合实战案例演示一、ClawHub：技能包管理器 1.1 什么是 ClawHub ClawHub 是 OpenClaw 的官方技能包市场，提供了丰富的技能包供用户安装使用。安装 ClawHub

人工智能：大模型高效推理与部署技术实战

人工智能：大模型高效推理与部署技术实战 1.1 本章学习目标与重点 💡 学习目标：掌握大语言模型推理与部署的核心技术，理解模型量化、推理加速、服务化部署的原理，能够完成开源大模型的高性能生产级部署。 💡 学习重点：精通INT4/INT8量化技术的应用，掌握vLLM等高性能推理框架的使用方法，学会搭建高并发的大模型API服务。 1.2 大模型推理部署的核心挑战 1.2.1 大模型推理的痛点分析 💡 预训练大模型通常具备数十亿甚至上百亿的参数量，直接进行推理会面临显存占用高、推理速度慢、并发能力弱三大核心问题。 * 显存占用高：以LLaMA-2-7B模型为例，FP16精度下显存占用约14GB，单张消费级显卡难以承载；而70B模型FP16精度显存占用更是超过140GB，普通硬件完全无法运行。 * 推理速度慢：自回归生成的特性导致模型需要逐token计算，单条长文本生成可能需要数十秒，无法满足实时应用需求。 * 并发能力弱：传统推理方式下，单卡同时处理的请求数极少，高并发场景下会出现严重的排队和延迟问题。这些问题直接制约了大模型从实验室走向实际生产环境，因此高效

Midjourney：还在死磕 C4D？“AI 场景合成流” 3分钟量产电商神图

对于电商设计师来说，“场景搭建与渲染” 是最大的产能瓶颈。要想做一张高质量的 3D 电商海报，传统流程是：C4D 建模 -> 材质节点 -> 打光 -> Octane 渲染（单图 3-5 小时）。现在要你一晚上出 20 张？除非你会影分身。面对这种“要 C4D 质感、却没渲染时间”的夺命需求，利用 Midjourney（最强光影造景师）配合 Photoshop 2025 的 “对象选择” 与 “生成式填充”，我们可以走一个“AI 场景合成流”的捷径：MJ 负责搭建虚拟摄影棚，PS 负责把产品“

VSCode + Copilot 保姆级 AI 编程实战教程，免费用 Claude，夯爆了！

从安装到实战，手把手教你用 VSCode + GitHub Copilot 进行 AI 编程你好，我是程序员鱼皮。 AI 编程工具现在是真的百花齐放，Cursor、Claude Code、OpenCode、…… 每隔一段时间就冒出来一个新选手。之前我一直沉迷于 Cursor 和 Claude Code，直到最近做新项目时认真体验了一把 GitHub Copilot，才发现这玩意儿真夯啊！先简单介绍一下主角。VSCode 是微软出品的全球最流行的代码编辑器，装机量破亿；GitHub Copilot 则是 GitHub 官方出品的 AI 编程助手插件，直接安装在 VSCode 中使用。个人体验下来，相比其他 AI 编程工具有 4 大优势： 1. 支持最新 AI 大模型，

前言