Qwen2.5 PyTorch 模型微调入门实战
1 引言
Qwen2.5 是通义千问系列中最新推出的大型语言模型成果。该系列涵盖了从 0.5B 到 72B 参数不等的基础语言模型及指令调优模型。相比前代 Qwen2,Qwen2.5 在多个维度实现了显著升级:
- 知识量与专业能力:显著增加了训练数据规模,特别是在编程与数学领域的能力得到极大提升,这得益于引入了专业领域的专家模型。
- 指令遵循与长文本:在遵循复杂指令、生成长文本(支持超过 8K token)以及理解结构化数据(如表格)方面表现更强。对系统提示的多样性更具韧性,增强了角色扮演和条件设定的稳定性。
- 上下文窗口:原生支持长达 128K token 的上下文处理,并能生成最多 8K token 的输出。
- 多语言能力:支持超过 29 种语言,包括中文、英语、法语、西班牙语、德语、日语、韩语等,具备优秀的跨语言处理能力。
2 环境准备
本教程基于华为 Ascend NPU 环境进行演示,主要涉及 CANN Toolkit、openMind Library 以及 LLaMA-Factory 工具链的安装与配置。
2.1 安装 Ascend CANN Toolkit 和 Kernels
首先需安装昇腾计算架构软件栈。请根据实际设备型号选择对应的版本 URL。
# 下载并安装 CANN Toolkit
wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/Milan-ASL/Milan-ASL%20V100R001C17SPC701/Ascend-cann-toolkit_8.0.RC1.alpha001_linux-$(uname -i).run
bash Ascend-cann-toolkit_8.0.RC1.alpha001_linux-$(uname -i).run --install
# 下载并安装 CANN Kernels (针对 910b 芯片)
wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/Milan-ASL/Milan-ASL%20V100R001C17SPC701/Ascend-cann-kernels-910b_8.0.RC1.alpha001_linux.run
bash Ascend-cann-kernels-910b_8.0.RC1.alpha001_linux.run --install
# 设置环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh
2.2 安装 openMind Library 及依赖
openMind 提供了针对昇腾架构优化的深度学习库支持。
# 安装 openMind Hub Client
pip install openmind_hub
# 安装 openMind Library (包含 PyTorch 框架及其依赖)
pip install openmind[pt]
# 安装 LLaMA-Factory 用于微调
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch-npu,metrics]"
3 模型下载
Qwen2.5-7B 模型系列由社区开发者托管于魔乐社区。以下以 Qwen2.5-7B-Instruct 为例进行下载。
确保已安装 Git LFS 以支持大文件下载:
git lfs install
git clone https://modelers.cn/AI-Research/Qwen2.5-7B-Instruct.git


