LLaMA-Factory 微调 Qwen-0.6B 至高通 NPU 部署指南 | 极客日志

PythonAI算法

LLaMA-Factory 微调 Qwen-0.6B 至高通 NPU 部署指南

综述由AI生成介绍将 LLaMA-Factory 微调后的 Qwen-0.6B 模型从高通 NPU 端侧部署的全流程。主要步骤包括：通过 LLaMA-Factory 导出模型权重，使用 Optimum 将 Safetensors 转换为支持 KV Cache 的 ONNX 格式，利用高通 QNN SDK 进行量化编译生成 .so 和 .bin 文件，最后在 Android 项目中通过 JNI 调用 QNN API 完成推理集成。重点解决了算子优化、静态形状设置及 Context Binary 生成等关键问题。

萤火微光发布于 2026/4/5更新于 2026/5/2232 浏览

一、导出微调模型

首先，在 LLaMA-Factory 界面中选择好微调后的检查点（Checkpoint），填写导出路径，点击'开始导出'。

导出成功后，你会在目录下看到如下文件：

model.safetensors（模型权重）
config.json（模型配置）
tokenizer.json 等（分词器相关）

要将微调后的 Qwen-0.6B 模型移植到高通 NPU，第一步就是格式转换。safetensors 是目前 Hugging Face 推崇的安全权重格式，而 ONNX 则是进入高通工具链（QNN/SNPE）的通用门票。以下是详细的操作步骤：

二、格式转换：从 Safetensors 到 ONNX

1. 转换为 PyTorch 权重

由于部分旧版转换工具不支持 safetensors，建议先将其转回标准的 pytorch_model.bin。

import torch
from safetensors.torch import load_file

# 1. 路径设置
safetensors_path = "./qwen0_6b/model.safetensors"
pytorch_bin_path = "./qwen0_6b/pytorch_model.bin"

# 2. 加载并保存
weights = load_file(safetensors_path)
torch.save(weights, pytorch_bin_path)

print(f"转换成功：{pytorch_bin_path}")

注意：转换后，请确保你的 config.json 中的 architectures 字段正确（对于 Qwen0.6B 通常是 Qwen2ForCausalLM）。

2. 使用 Optimum 导出 ONNX

导出 LLM 涉及复杂的 KV Cache 处理，强烈建议使用 Hugging Face 的 Optimum 库。

安装工具：

pip install "optimum[exporters]" onnx onnxruntime

执行导出： 针对 NPU 部署，必须开启 with past 模式以保证推理速度。

optimum-cli export onnx \
 --model ./qwen0_6b \
 --task text-generation-with-past \
 --trust-remote-code \
 ./qwen_onnx_out/

输出结果：你会得到 decoder_model.onnx 和 decoder_with_past_model.onnx。

注意：--task text-generation-with-past：这非常关键！这会生成两个模型，一个处理初始 Prompt，另一个利用 KV Cache 负责后续 Token 生成。

三、高通 NPU 关键优化（必看！）

高通 Hexagon NPU 对算子有特定要求，进入工具链前需完成以下优化：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

--opset 17

pip install onnxsim
onnxsim ./qwen_onnx_out/decoder_model.onnx ./qwen_onnx_out/decoder_model_sim.onnx

import onnx
import onnxruntime as ort

model = onnx.load("./qwen_onnx_out/decoder_model.onnx")
onnx.checker.check_model(model)
print("ONNX 模型校验通过！")

export QNN_SDK_ROOT=/path/to/qnn_sdk
export ANDROID_NDK_ROOT=/path/to/android_ndk
source $QNN_SDK_ROOT/bin/envsetup.sh

qnn-onnx-converter -i decoder_model.onnx -o qwen_qnn.cpp --input_list_file calibration_data.txt

qnn-model-lib-generator \
 -c qwen_model.cpp \
 -b qwen_model.bin \
 -o ./model_libs \
 -t aarch64-android

qnn-context-binary-generator \
 --model ./model_libs/aarch64-android/libqwen_model.so \
 --backend libQnnHtp.so \
 --output_dir ./context_out \
 --binary_file qwen_htp_context

./qnn-net-run --container qwen_htp_context.bin --backend libQnnHtp.so --input_list input_data.txt

// 1. 初始化 QNN 实例
Qnn_BackendHandle_t backendHandle;
QnnBackend_initialize(..., &backendHandle);

// 2. 加载之前生成的 Context Binary
Qnn_ContextHandle_t contextHandle;
// 通过读取 qwen_htp_context.bin 的 buffer 传入
QnnContext_createFromBinary(backendHandle, deviceHandle, ..., binaryBuffer, binarySize, &contextHandle, ...);

// 3. 准备 Tensor 数据并执行推理
QnnGraph_execute(graphHandle, inputTensors, numInputs, outputTensors, numOutputs, ...);

LLaMA-Factory 微调 Qwen-0.6B 至高通 NPU 部署指南

一、导出微调模型

二、格式转换：从 Safetensors 到 ONNX

1. 转换为 PyTorch 权重

2. 使用 Optimum 导出 ONNX

三、高通 NPU 关键优化（必看！）

更多推荐文章

相关免费在线工具

四、验证 ONNX 模型

五、高通工具链（QNN）模型编译

1. 环境准备

2. 生成模型动态库 (.so)

3. 生成上下文二进制文件 (.bin) —— 性能核心

六、手机端集成与验证

🛠 避坑总结

更多推荐文章

相关免费在线工具

LLaMA-Factory 微调 Qwen-0.6B 至高通 NPU 部署指南

一、导出微调模型

二、格式转换：从 Safetensors 到 ONNX

1. 转换为 PyTorch 权重

2. 使用 Optimum 导出 ONNX

三、高通 NPU 关键优化（必看！）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、验证 ONNX 模型

五、高通工具链（QNN）模型编译

1. 环境准备

2. 生成模型动态库 (.so)

3. 生成上下文二进制文件 (.bin) —— 性能核心

六、手机端集成与验证

🛠 避坑总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具