LLM项目实战:使用Llama-factory进行DPO训练

前言

LLM训练三板斧,预训练,微调,RHLF。DPO属于是最后环节RHLF中的一个方法,关于RLHF主流方法有PPO,DPO,GROP。关于这三种介绍RLHF方法,我之前分享过对着三种方法的一些思考,有兴趣的同学可以看看。

因为DPO对硬件的需求最小,显存占用最低,所以我们先采用DPO进行训练。

硬件信息:

4070 12g*2 、64g内存、操作系统:Ubuntu24.04、模型:QWEN-3vl-2B(因为我这个模型是上个多模态任务sft过的,所以选择vl模型,没有图片输入需求的同学可以下载纯语言模型)

本篇教程仅关于DPO训练,请提前配置好环境和下载好LLamafactory(关于llamafactory环境配置其实也是一大头疼的点,注意如果想要使用分布式训练,llamafactory仅支持到deeospeed10.0-16.0,截止到2025年11月20日llamafactory还没有完成对deepspeed最新版本的适配

碎碎念:很多初学大模型的同学还是使用Windows系统进行训练,本人之前也是。但是由于Windows总是出现各种奇怪的报错和显存不稳定等情况,尤其是在多卡训练中,这种情况会更加明显。后来也尝试过wsl2其他替代方案,最后还是发现linux系统有着win无法替代的优势。所以还是建议如果真想长期学习LLM的同学,直接一步到位到linux系统,少走弯路 :)

llamafactory以下简称LF

STEP1 从hugging face下载我们需要的数据库

这里采用的是hugging face中的一个医疗DPO数据集

from datasets import load_dataset # 加载数据集 ds = load_dataset("HANI-LAB/Med-REFL-DPO",'reasoning_enhancement') 
print(ds['train'][:1])

这里看到数据是可以正常加载的

STEP2 对数据进行预处理

由于我们需要使用llamafactory的框架进行dpo训练,所以需要把源arrow格式的文件转为lf能识别的json格式。下面这是官方文档中的规范格式,我们编写一个python程序完成格式的对齐

[ { "instruction": "人类指令(必填)", "input": "人类输入(选填)", "chosen": "优质回答(必填)", "rejected": "劣质回答(必填)" } ]
import json from datasets import load_dataset import os def convert_arrow_to_json(dataset_path, output_json_path): """ 将 Arrow 格式的数据集转换为指定的 JSON 格式 Args: dataset_path: Arrow 数据集的路径或 Hugging Face 数据集标识 output_json_path: 输出 JSON 文件的路径 """ # 加载数据集 # 如果是本地文件,可以使用 'load_from_disk' if os.path.exists(dataset_path): # 加载本地的 Arrow 数据集 dataset = load_dataset('arrow', data_files=dataset_path) else: dataset = load_dataset(dataset_path, name='reasoning_enhancement') # 获取训练集(根据你的描述,数据在 train split 中) train_dataset = dataset['train'] # 转换为所需的 JSON 格式 output_data = [] for item in train_dataset: # 确保所有必填字段都存在 if 'instruction' in item and 'chosen' in item and 'rejected' in item: json_item = { "instruction": item['instruction'], "input": item.get('input', ''), # input 是选填的,默认空字符串 "chosen": item['chosen'], "rejected": item['rejected'] } output_data.append(json_item) # 保存为 JSON 文件 with open(output_json_path, 'w', encoding='utf-8') as f: json.dump(output_data, f, ensure_ascii=False, indent=2) print(f"转换完成!共处理了 {len(output_data)} 条数据") print(f"JSON 文件已保存到: {output_json_path}") def main(): # 本地 Arrow 文件路径 arrow_file_path = "path/to/your/Reasoning Enhancement.arrow" # 输出 JSON 文件路径 output_json_path = "med_refl_dpo.json" # 执行转换 convert_arrow_to_json(arrow_file_path, output_json_path) if __name__ == "__main__": main() 

完成数据集的标准化后,我们将获得的json文件复制到lf的data目录下。

之后我们需要修改 LLaMaFactory data目录下的dataset_info.json,增加自定义数据集:(官网也给出了添加数据集的标准格式)

"数据集名称": { "file_name": "data.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } }
"MED_DPO": { "file_name": "/home/zadyd/桌面/xza/LLaMA-Factory/data/med_dpo.json", "ranking": true, "columns": { "prompt": "instruction", "query": "input", "chosen": "chosen", "rejected": "rejected" } },

STEP3 启动LF,选择合适的参数

在lm文件夹下启动终端,输入llamafactory-cli webui启动我们的可视化ui

如果是windows系统,则打开终端cd到lf目录

在网页端设置我们需要的参数,一般像我这样设置就可以

因为我是多卡训练,所以选择了 deepspeed,单卡训练的同学不需要勾选这个选项,本次训练需要 24g 左右的显存,这个显存大小有点尴尬,可以通过开启量化或者减少序列长度节约显存

大概需要 12 个小时,这一步很容易遇到环境不兼容的问题,需要耐心调整,不要心急

STEP4 合并模型

训练完成之后在 export 模块,选择训练好的文件位置,和原始文件进行合并

Read more

Stable Diffusion模型下载终极解决方案:一键自动化部署指南

Stable Diffusion模型下载终极解决方案:一键自动化部署指南 【免费下载链接】stable-diffusion-webui-dockerEasy Docker setup for Stable Diffusion with user-friendly UI 项目地址: https://gitcode.com/gh_mirrors/st/stable-diffusion-webui-docker 还在为下载Stable Diffusion模型而苦恼吗?手动寻找资源、验证文件完整性、管理存储路径,这些繁琐步骤已成为AI绘画入门的主要障碍。stable-diffusion-webui-docker项目提供的自动下载工具彻底改变了这一现状,让模型管理变得简单高效。 痛点剖析:传统下载的三大难题 资源分散问题:Stable Diffusion生态包含数十种必备模型,从基础生成模型到各类增强插件,总容量超过20GB。这些资源分布在多个平台,手动下载需要反复切换网站,耗时耗力。 文件校验复杂性:大型模型文件在传输过程中容易损坏,传统方式需要手动计算SHA256哈希值进行比对,

MBA必看!9个降AIGC工具推荐,高效避坑指南

MBA必看!9个降AIGC工具推荐,高效避坑指南

MBA必看!9个降AIGC工具推荐,高效避坑指南 AI降重工具:MBA论文的高效护航者 在当前学术环境中,随着AIGC技术的广泛应用,论文中出现AI痕迹的风险日益增加。对于MBA学生而言,如何在保证论文质量的同时,有效降低AIGC率和查重率,成为一项重要课题。AI降重工具的出现,正是为了解决这一难题。这些工具不仅能够精准识别并去除AI生成内容的痕迹,还能在不改变原意的前提下进行语义优化,确保论文流畅自然。 相比传统的手动修改方式,AI降重工具具备更高的效率与专业性。它们通过智能算法分析文本结构,提供多种降重策略,如同义词替换、句式重构等,帮助用户快速完成论文优化。同时,这些工具还能结合查重系统,实时检测论文的重复率,提供针对性的修改建议。无论是初稿的快速处理,还是定稿前的精细调整,都能满足不同阶段的需求。 工具名称主要功能适用场景千笔强力去除AI痕迹、保语义降重AI率过高急需降重云笔AI多模式降重初稿快速处理锐智 AI综合查重与降重定稿前自查文途AI操作简单片段修改降重鸟同义词替换小幅度修改笔杆在线写作辅助辅助润色维普官方查重最终检测万方数据库查重数据对比Turnitin

高级java每日一道面试题-2025年7月15日-基础篇[LangChain4j]-如何集成国产大模型(如通义千问、文心一言、智谱 AI)?

高级java每日一道面试题-2025年7月15日-基础篇[LangChain4j]-如何集成国产大模型(如通义千问、文心一言、智谱 AI)?

你想了解在LangChain4j中如何集成主流的国产大模型(通义千问、文心一言、智谱AI),并希望得到面向高级面试的详细解答。这是LangChain4j落地国内场景的核心考点,既考察对框架扩展能力的理解,也考察对国产模型生态的熟悉度。 一、核心原理:国产模型集成的通用逻辑 LangChain4j对国产大模型的集成,核心遵循「统一接口 + 专属适配器」的设计: 1. 所有模型均实现LangChain4j的ChatLanguageModel/EmbeddingModel核心接口,保证调用方式一致; 2. 每个国产模型有专属的集成依赖(如langchain4j-dashscope对应通义千问); 3. 配置上需适配国产模型的专属参数(如阿里云AccessKey、百度API Key/Secret Key)。 二、完整集成实现(通义千问 + 文心一言 + 智谱AI) 以下是可直接运行的生产级代码,覆盖三大主流国产模型的集成,包含基础调用、参数配置、异常处理等核心要点。 1. 前置依赖(Maven) 首先引入各模型的专属集成依赖(按需选择): <dependencies><!

VibeVoice与Whisper组合:构建完整语音双工交互系统

VibeVoice与Whisper组合:构建完整语音双工交互系统 1. 为什么需要真正的语音双工系统? 你有没有试过和智能助手对话时,得等它说完才能开口?或者刚说到一半,它就急着插话打断?这不是体验问题,而是技术断层——大多数语音系统把“听”和“说”当成两件孤立的事。 真正的语音双工(Full-Duplex)不是简单地把TTS和ASR拼在一起。它要求系统能同时听、实时理解、即时响应,并且说话时不卡顿、不抢话、不漏听。就像两个人自然交谈那样:你开口时我听着,你一停我就接上,中间没有沉默空档,也没有机械等待。 VibeVoice + Whisper 的组合,第一次让这个目标在单机部署环境下变得触手可及。它不依赖云端API,不牺牲隐私,也不需要定制硬件——一台带RTX 4090的服务器就能跑起来,而且从输入文字到语音输出只要300毫秒,从麦克风收音到文字返回不到800毫秒。 这篇文章不讲理论推导,不堆参数对比,只带你一步步搭出一个真正能“对话”的本地语音系统:能边听边想、边说边听、流式响应、中文界面、开箱即用。