Qwen3 模型 LoRA 微调实战(使用 LLaMA-Factory)
一、安装 LLaMA-Factory&开发环境
开源项目地址:https://github.com/hiyouga/LLaMA-Factory 文档:https://llamafactory.readthedocs.io/zh-cn/latest/
# 创建新开发环境
conda create -n llama_factory_Qwen3 python=3.11 -y
conda activate llama_factory_Qwen3
# 下载项目 & 安装
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
在 git 失败时,清理 DNS 缓存,然后继续:
ipconfig /flushdns
二、数据集
dataset_info.json 包含了所有经过预处理的本地数据集,以及在线数据集。如果您希望使用自定义数据集,请务必在 dataset_info.json 文件中添加对数据集及其内容的定义。目前项目支持 Alpaca 格式和 ShareGPT 格式的数据集。
1. Alpaca
指令监督微调 (Instruct Tuning) 通过让模型学习详细的指令以及对应的回答来优化模型在特定指令下的表现。instruction 列对应的内容为人类指令,input 列对应的内容为人类输入,output 列对应的内容为模型回答。下面是一个例子:
{"instruction":"计算这些物品的总费用。","input":"输入:汽车 - $3000,衣服 - $100,书 - $20。","output":"汽车、衣服和书的总费用为 $3000 + $100 + $20 = $3120。"}
在进行指令监督微调时,instruction 列对应的内容会与 input 列对应的内容拼接后作为最终的人类输入,即人类输入为 instruction\ninput。而 output 列对应的内容为模型回答。如果指定 system 列对应的内容将被作为系统提示词。history 列是由多个字符串二元组构成的列表,分别代表历史消息中每轮对话的指令和回答。
指令监督微调数据集的最终格式要求如下:
[{"instruction":"人类指令(必填)","input"


