
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】
大模型微调实操 文章目录 大模型微调实操 一、llama-factory安装 1.前置准备 2.硬件环境校验 3.软件环境准备 拉取llama-factory的代码 创建虚拟环境 量化环境 硬件配置 4.启动LLaMA-Factory 二、基础大模型准备 代码下载模型 三、微调数据集 预训练数据集 指令和微调数据集 偏好数据集 数据格式 1.预训练场景: 2.sft监督微调 3.偏好对齐场景: a…














