AI 大模型微调:Qwen3 模型 LoRA 微调(基于 LLaMA-Factory)
一、安装 LLaMA-Factory 及开发环境
开源项目地址:https://github.com/hiyouga/LLaMA-Factory
文档:https://llamafactory.readthedocs.io/zh-cn/latest/
# 创建新开发环境
conda create -n llama_factory_Qwen3 python=3.11 -y
conda activate llama_factory_Qwen3
# 下载项目并安装
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
若 git 克隆失败,可清理 DNS 缓存后重试:
ipconfig /flushdns
二、数据集准备
dataset_info.json 包含了所有经过预处理的本地数据集以及在线数据集。如果您希望使用自定义数据集,请务必在该文件中添加对数据集及其内容的定义。目前项目支持 Alpaca 格式和 ShareGPT 格式的数据集。
1. Alpaca 格式
指令监督微调 (Instruct Tuning) 通过让模型学习详细的指令以及对应的回答来优化模型在特定指令下的表现。instruction 列对应人类指令,input 列对应人类输入,output 列对应模型回答。
示例:
{"instruction":"计算这些物品的总费用。","input":"输入:汽车 - $3000,衣服 - $100,书 - $20。","output":"汽车、衣服和书的总费用为 $3000 + $100 + $20 = $3120。"}
在进行指令监督微调时,instruction 与 input 拼接后作为最终的人类输入,即 instruction\ninput。output 为模型回答。若指定 system 列,将作为系统提示词。history 列是由多个字符串二元组构成的列表,代表历史消息。
格式要求:
[{


