基于 LlamaFactory 的 LLM DPO 训练实战

基于 LlamaFactory 框架进行 LLM DPO 训练的完整流程。内容涵盖硬件环境准备、从 Hugging Face 下载数据集、将 Arrow 格式转换为 LLaMA-Factory 所需的 JSON 格式、配置 dataset_info.json、通过 WebUI 启动训练以及最终模型合并。重点说明了 DPO 相对于其他 RLHF 方法的硬件优势及 DeepSpeed 版本注意事项。

FrontendX发布于 2026/4/5更新于 2026/7/1853 浏览

简介

LLM 训练通常包含预训练、微调和 RLHF。DPO 是 RLHF 中的一种方法，相比 PPO 等主流方法，DPO 对硬件资源需求更低。

硬件与环境

示例硬件：4070 12g*2、64g 内存、Ubuntu 24.04。模型选择 QWEN-3vl-2B（若无需多模态可下载纯语言模型）。

注意：若使用分布式训练，需确认 LLaMA-Factory 对 DeepSpeed 版本的兼容性。

步骤 1：下载数据集

从 Hugging Face 获取医疗 DPO 数据集。

from datasets import load_dataset
ds = load_dataset("HANI-LAB/Med-REFL-DPO", 'reasoning_enhancement')
print(ds['train'][:1])

步骤 2：数据预处理

将 Arrow 格式转换为 LLaMA-Factory 识别的 JSON 格式。

import json
from datasets import load_dataset
import os

def convert_arrow_to_json(dataset_path, output_json_path):
    # 加载数据集
    if os.path.exists(dataset_path):
        dataset = load_dataset('arrow', data_files=dataset_path)
    else:
        dataset = load_dataset(dataset_path, name='reasoning_enhancement')

    train_dataset = dataset['train']
    output_data = []
    for item in train_dataset:
        if 'instruction' in item and 'chosen' in item and 'rejected' in item:
            json_item = {
                "instruction": item['instruction'],
                "input": item.get(, ),
                : item[],
                : item[]
            }
            output_data.append(json_item)

     (output_json_path, , encoding=)  f:
        json.dump(output_data, f, ensure_ascii=, indent=)
    ()

 __name__ == :
    arrow_file_path = 
    output_json_path = 
    convert_arrow_to_json(arrow_file_path, output_json_path)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

{
  "MED_DPO": {
    "file_name": "med_dpo.json",
    "ranking": true,
    "columns": {
      "prompt": "instruction",
      "query": "input",
      "chosen": "chosen",
      "rejected": "rejected"
    }
  }
}

基于 LlamaFactory 的 LLM DPO 训练实战

简介

硬件与环境

步骤 1：下载数据集

步骤 2：数据预处理

更多推荐文章

相关免费在线工具

步骤 3：启动训练

步骤 4：合并模型

更多推荐文章

相关免费在线工具

基于 LlamaFactory 的 LLM DPO 训练实战

简介

硬件与环境

步骤 1：下载数据集

步骤 2：数据预处理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

步骤 3：启动训练

步骤 4：合并模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具