华为昇腾 910B 使用 LLaMA-Factory 微调 Qwen3.5-32B 模型指南 | 极客日志

PythonAI算法

华为昇腾 910B 使用 LLaMA-Factory 微调 Qwen3.5-32B 模型指南

在华为昇腾 910B 服务器上，使用 LLaMA-Factory 框架对 Qwen3.5-32B 大语言模型进行 LoRA 微调的完整流程。内容涵盖环境配置、依赖安装、数据集准备、多卡训练启动及效果验证。通过提供详细的 Bash 脚本和 YAML 配置文件，帮助用户实现高效的大模型本地化微调与推理部署。

CloudNative发布于 2026/4/5更新于 2026/5/2842 浏览

华为昇腾 910B 使用 LLaMA-Factory 微调 Qwen3.5-32B 模型指南

华为昇腾 910B（Ascend 910B）上使用 LLaMA-Factory 对 Qwen3.5-32B 模型进行 LoRA 微调的全流程操作指南

本教程基于 Ubuntu 20.04 + CANN 8.0 + MindSpore/PyTorch NPU + LLaMA-Factory v0.9.3+ 环境，适用于 8 卡昇腾 910B 服务器。包含环境配置、依赖安装、数据准备、训练启动、验证与推理等完整步骤。

前提条件

项目	要求
硬件	华为 Atlas 800/900 服务器，8×Ascend 910B（64GB HBM）
OS	Ubuntu 20.04 LTS
驱动	CANN 8.0.RC1 或更高（已预装）
Python	3.10.x（推荐 3.10.16）
存储	≥ 2TB SSD（模型 + 数据集 + 缓存）

第一步：创建并激活虚拟环境

bash

安装 Miniconda（若未安装）

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3 source ~/.bashrc

创建虚拟环境

conda create -n llama-factory python=3.10.16 -y conda activate llama-factory

第二步：安装 PyTorch NPU + CANN 兼容库

⚠️ 不要用 pip install torch！必须用华为官方 PyTorch NPU 包

bash

添加清华镜像加速（可选）

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装昇腾专用 PyTorch（CANN 8.0 对应 torch-npu 2.4.0）

pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 \ --extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装 torch_npu（关键！）

pip install torch_npu==2.4.0.post1 -f https://pypi.tuna.tsinghua.edu.cn/simple

验证 NPU 可见性

python -c "import torch; print(torch.npu.is_available()); print(torch.npu.device_count())"

应输出：True 和 8（或你的卡数）

第三步：安装 LLaMA-Factory（昇腾适配版）

bash

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

问题	解决方案
torch not compiled with npu support	重新安装 torch_npu==2.4.0.post1
显存不足 OOM	减小 per_device_train_batch_size=1，增大 gradient_accumulation_steps
tokenizer 报错	确保 template: qwen（Qwen 必须指定）
多卡通信失败	检查 ASCEND_RT_VISIBLE_DEVICES 是否包含所有卡号
模型下载慢	使用 modelscope + 国内网络

qwen35-32b-ascend-finetune/
├── setup_env.sh             # 1. 环境初始化
├── download_model.sh         # 2. 下载 Qwen3.5-32B（魔搭）
├── prepare_data.py           # 3. 生成示例数据集
├── train_qwen35_32b_lora.yaml # 4. 训练配置文件
├── run_train.sh              # 5. 启动多卡训练
├── test_chat.sh              # 6. 加载模型对话测试
├── merge_model.sh            # 7. 合并 LoRA 权重（可选）
└── README.md                 # 使用说明

赋予执行权限：
```
chmod +x *.sh
```

依次运行：

./setup_env.sh          # 配置环境（需手动激活 conda）
conda activate llama-factory
./download_model.sh     # 下载模型（约 60GB）
python prepare_data.py  # 生成示例数据
./run_train.sh          # 启动 8 卡训练
./test_chat.sh          # 测试微调效果

# 1. 赋权
chmod +x *.sh

# 2. 逐个执行（按 README 顺序）
./setup_env.sh
conda activate llama-factory
./download_model.sh
python prepare_data.py
./run_train.sh
./test_chat.sh

华为昇腾 910B 使用 LLaMA-Factory 微调 Qwen3.5-32B 模型指南

前提条件

第一步：创建并激活虚拟环境

安装 Miniconda（若未安装）

创建虚拟环境

第二步：安装 PyTorch NPU + CANN 兼容库

添加清华镜像加速（可选）

安装昇腾专用 PyTorch（CANN 8.0 对应 torch-npu 2.4.0）

安装 torch_npu（关键！）

验证 NPU 可见性

应输出：True 和 8（或你的卡数）

第三步：安装 LLaMA-Factory（昇腾适配版）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

克隆 LLaMA-Factory

安装依赖（关键：使用 torch-npu 分支）

升级 Pillow（避免 CANN 兼容问题）

验证安装

第四步：下载 Qwen3.5-32B 模型

安装 modelscope

下载模型到本地（约 60GB）

第五步：准备微调数据集（Alpaca 格式）

编辑 dataset_info.json

第六步：配置多卡训练参数（YAML 文件）

模型设置

训练设置

LoRA 参数

数据集

批处理

输出

硬件

第七步：启动多卡微调训练

设置可见 NPU（8 卡全用）

启动训练（使用 torchrun 多进程）

第八步：验证微调效果（Chat 测试）

第九步：合并模型（可选）

常见问题解决

总结

参考脚本结构

文件 1：setup_env.sh

setup_env.sh - 初始化昇腾 910B 环境

文件 2：download_model.sh

download_model.sh - 从魔搭下载 Qwen3.5-32B

文件 3：prepare_data.py

prepare_data.py - 生成示例微调数据集

注册数据集到 dataset_info.json

文件 4：train_qwen35_32b_lora.yaml

文件 5：run_train.sh

run_train.sh - 启动 8 卡微调训练

文件 6：test_chat.sh

test_chat.sh - 加载微调后模型进行对话测试

文件 7：merge_model.sh

merge_model.sh - 合并 LoRA 权重到基础模型

文件 8：README.md

Qwen3.5-32B 昇腾 910B 微调脚本包

🚀 快速开始

⚙️ 自定义

💾 输出目录

使用流程

提示

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具