LLaMA-Factory 微调至高通 NPU 部署：Qwen-0.6B 全链路移植指南 | 极客日志

PythonAI算法

LLaMA-Factory 微调至高通 NPU 部署：Qwen-0.6B 全链路移植指南

介绍将 LLaMA-Factory 微调后的 Qwen-0.6B 模型部署至高通骁龙 NPU 的全流程。主要步骤包括：导出 Safetensors 格式权重并转换为 PyTorch；使用 Optimum 库导出带 KV Cache 的 ONNX 模型；针对 NPU 进行 Opset 版本和静态形状优化；利用 QNN SDK 编译生成.so 动态库及.bin 上下文二进制文件；最后在 Android 端通过 JNI 集成推理引擎。该方案实现了低功耗、高速度的本地化大模型推理。

菩提发布于 2026/4/6更新于 2026/7/2856 浏览

在大模型端侧化部署的趋势下，如何将微调后的 LLM 跑在手机 NPU 上是很多开发者的痛点。本文将手把手教你如何将使用 LLaMA-Factory 微调后的 Qwen-0.6B 模型，一步步移植到高通（Qualcomm）骁龙平台的 NPU 上，实现低功耗、高速度的本地化推理。

一、导出微调模型

首先，在 LLaMA-Factory 界面中选择好微调后的检查点（Checkpoint），填写导出路径，点击'开始导出'。

导出成功后，你会在目录下看到如下文件：

model.safetensors（模型权重）
config.json（模型配置）
tokenizer.json 等（分词器相关）

要将微调后的 Qwen-0.6B 模型移植到高通 NPU，第一步就是格式转换。safetensors 是目前 Hugging Face 推崇的安全权重格式，而 ONNX 则是进入高通工具链（QNN/SNPE）的通用门票。以下是详细的操作步骤：

二、格式转换：从 Safetensors 到 ONNX

1. 转换为 PyTorch 权重

由于部分旧版转换工具不支持 safetensors，建议先将其转回标准的 pytorch_model.bin。

import torch
from safetensors.torch import load_file

# 1. 路径设置
safetensors_path = "./qwen0_6b/model.safetensors"
pytorch_bin_path = "./qwen0_6b/pytorch_model.bin"

# 2. 加载并保存
weights = load_file(safetensors_path)
torch.save(weights, pytorch_bin_path)

print(f"转换成功：{pytorch_bin_path}")

注意：转换后，请确保你的 config.json 中的 architectures 字段正确（对于 Qwen0.6B 通常是 Qwen2ForCausalLM）。

2. 使用 Optimum 导出 ONNX

导出 LLM 涉及复杂的 KV Cache 处理，强烈建议使用 Hugging Face 的 Optimum 库。

安装工具：

pip install optimum[exporters] onnx onnxruntime

执行导出： 针对 NPU 部署，必须开启 with past 模式以保证推理速度。

optimum-cli export onnx \
 --model ./qwen0_6b \
 --task text-generation-with-past \
 --trust-remote-code \
 ./qwen_onnx_out/

输出结果：你会得到 decoder_model.onnx 和 decoder_with_past_model.onnx。

注意： --task text-generation-with-past：这非常关键！这会生成两个模型，一个处理初始 Prompt，另一个利用 KV Cache 负责后续 Token 生成。

三、高通 NPU 关键优化（必看！）

高通 Hexagon NPU 对算子有特定要求，进入工具链前需完成以下优化：

Opset 版本： 建议使用 Opset 17 或更高版本。如果 optimum 默认导出较低，可以指定：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

--opset 17

import onnx
import onnxruntime as ort

model = onnx.load("./qwen_onnx_out/decoder_model.onnx")
onnx.checker.check_model(model)
print("ONNX 模型校验通过！")

export QNN_SDK_ROOT=/path/to/qnn_sdk
export ANDROID_NDK_ROOT=/path/to/android_ndk
source $QNN_SDK_ROOT/bin/envsetup.sh

qnn-onnx-converter -i decoder_model.onnx -o qwen_qnn.cpp --input_list_file calibration_data.txt

qnn-model-lib-generator \
 -c qwen_model.cpp \
 -b qwen_model.bin \
 -o ./model_libs \
 -t aarch64-android # 指定目标平台为 Android ARM64

qnn-context-binary-generator \
 --model ./model_libs/aarch64-android/libqwen_model.so \
 --backend libQnnHtp.so \
 --output_dir ./context_out \
 --binary_file qwen_htp_context

./qnn-net-run --container qwen_htp_context.bin --backend libQnnHtp.so --input_list input_data.txt

// 1. 初始化 QNN 实例
Qnn_BackendHandle_t backendHandle;
QnnBackend_initialize(..., &backendHandle);

// 2. 加载之前生成的 Context Binary
Qnn_ContextHandle_t contextHandle;
// 通过读取 qwen_htp_context.bin 的 buffer 传入
QnnContext_createFromBinary(backendHandle, deviceHandle, ..., binaryBuffer, binarySize, &contextHandle, ...);

// 3. 准备 Tensor 数据并执行推理
QnnGraph_execute(graphHandle, inputTensors, numInputs, outputTensors, numOutputs, ...);

LLaMA-Factory 微调至高通 NPU 部署：Qwen-0.6B 全链路移植指南

一、导出微调模型

二、格式转换：从 Safetensors 到 ONNX

1. 转换为 PyTorch 权重

2. 使用 Optimum 导出 ONNX

三、高通 NPU 关键优化（必看！）

更多推荐文章

相关免费在线工具

四、验证 ONNX 模型

五、高通工具链（QNN）模型编译

1. 环境准备

2. 生成模型动态库 (.so)

3. 生成上下文二进制文件 (.bin) —— 性能核心

六、手机端集成与验证

🛠 避坑总结

更多推荐文章

相关免费在线工具

LLaMA-Factory 微调至高通 NPU 部署：Qwen-0.6B 全链路移植指南

一、导出微调模型

二、格式转换：从 Safetensors 到 ONNX

1. 转换为 PyTorch 权重

2. 使用 Optimum 导出 ONNX

三、高通 NPU 关键优化（必看！）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、验证 ONNX 模型

五、高通工具链（QNN）模型编译

1. 环境准备

2. 生成模型动态库 (.so)

3. 生成上下文二进制文件 (.bin) —— 性能核心

六、手机端集成与验证

🛠 避坑总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具