LLM 微调实战：使用 Llama-Factory 进行 DPO 训练

前言

LLM 训练通常包括预训练、微调和 RLHF 环节。DPO（Direct Preference Optimization）属于 RLHF 中的一种主流方法，相比 PPO 等方法，DPO 对硬件资源需求更低，显存占用更少，适合在有限资源下进行偏好对齐训练。

硬件与环境要求

建议使用 Linux 系统（如 Ubuntu）进行训练，以获得更好的稳定性和性能。示例配置如下：

GPU: 4070 12G * 2
内存：64G
操作系统：Linux
模型：QWEN-3vl-2B（可根据需求选择纯语言模型或多模态模型）

请提前配置好 LLaMA-Factory 环境。注意 DeepSpeed 版本兼容性，分布式训练时请确认 LLaMA-Factory 支持的 DeepSpeed 版本范围。

STEP 1 下载数据集

本教程以 Hugging Face 上的医疗 DPO 数据集为例。

from datasets import load_dataset

ds = load_dataset("HANI-LAB/Med-REFL-DPO", 'reasoning_enhancement')
print(ds['train'][:1])

验证数据加载是否正常。

STEP 2 数据预处理

LLaMA-Factory 需要特定的 JSON 格式。需将源 Arrow 格式文件转换为标准格式：

[
  {
    "instruction": "人类指令",
    "input": "人类输入",
    "chosen": "优质回答",
    "rejected": "劣质回答"
  }
]

编写 Python 脚本完成格式转换：

import json
from datasets import load_dataset
import os

def convert_arrow_to_json(dataset_path, output_json_path):
     os.path.exists(dataset_path):
        dataset = load_dataset(, data_files=dataset_path)
    :
        dataset = load_dataset(dataset_path, name=)
    
    train_dataset = dataset[]
    output_data = []
    
     item  train_dataset:
           item    item    item:
            json_item = {
                : item[],
                : item.get(, ),
                : item[],
                : item[]
            }
            output_data.append(json_item)
    
     (output_json_path, , encoding=)  f:
        json.dump(output_data, f, ensure_ascii=, indent=)
    ()

 __name__ == :
    arrow_file_path = 
    output_json_path = 
    convert_arrow_to_json(arrow_file_path, output_json_path)

LLM 微调实战：使用 Llama-Factory 进行 DPO 训练

前言

硬件与环境要求

STEP 1 下载数据集

STEP 2 数据预处理

更多推荐文章

相关免费在线工具

STEP 3 启动训练

STEP 4 合并模型

更多推荐文章

相关免费在线工具

LLM 微调实战：使用 Llama-Factory 进行 DPO 训练

前言

硬件与环境要求

STEP 1 下载数据集

STEP 2 数据预处理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

STEP 3 启动训练

STEP 4 合并模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具