Vitis 使用教程：从零实现 AI 模型 FPGA 部署 | 极客日志

PythonAI算法

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

基于 Vitis AI 工具链将 PyTorch 模型部署至 FPGA（如 KV260）的完整流程。针对边缘计算场景下 GPU 功耗高、云端延迟大的问题，利用 FPGA 的高能效比优势进行加速。主要步骤包括环境搭建、PyTorch 转 ONNX、INT8 量化校准、编译生成 xmodel 及板端推理验证。文中详细说明了 Vitis AI Compiler 的使用、DPU 架构原理以及常见报错解决方案。实测 ResNet-50 INT8 量化后在 KV260 上可达 1200 FPS，满足实时视频处理需求。

灵魂伴侣发布于 2026/4/6更新于 2026/7/2857 浏览

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

在边缘 AI 推理场景中，常面临 GPU 功耗过高或云端延迟过大的问题。FPGA 结合 Vitis 平台提供了一种高效的解决方案。本文介绍如何使用 Vitis AI 工具链将 PyTorch 模型部署到 FPGA 上，从模型训练到板级验证的全过程实战记录。

技术选型

FPGA + Vitis AI 是边缘智能场景下的常用组合。传统 FPGA 开发门槛较高，但 Xilinx（现 AMD）推出的 Vitis 统一平台允许使用 C/C++ 甚至 Python 描述算法，通过高层次综合（HLS）自动生成硬件电路。配套的 Vitis AI 工具链专为深度学习推理优化，支持从 TensorFlow/PyTorch 导出的模型一键量化、编译并部署到 Zynq SoC 或 Alveo 加速卡上。

在 Kria KV260 上实测 ResNet-50，INT8 量化后推理速度超过 1200 FPS，功耗仅 5W 左右。

部署流程

整个流程分为五个阶段：环境搭建、模型导出、量化校准、编译生成、板端运行。

1. 环境搭建

版本兼容性是关键。

主机系统：Ubuntu 20.04
Vitis 版本：2023.1
Vitis AI：3.0
目标平台：Kria KV260 SOM

安装顺序：

先装 Vivado/Vitis，勾选'Vitis Embedded Development'。
再配置 Vitis AI Docker 镜像。

docker pull xilinx/vitis-ai:latest
docker run -it --gpus all --rm --name vitis-ai \
  -v /path/to/your/model:/workspace \
  xilinx/vitis-ai:latest

⚠️ 提示：一定要确认 XRT（Xilinx Runtime）、DPU 固件和 Vitis 版本匹配！否则后面 .xclbin 加载会失败。

2. 模型导出

假设已有一个训练好的分类模型（比如 MobileNetV2），将其转换为中间格式 ONNX。

import torch
import torchvision

# 加载预训练模型
model = torchvision.models.mobilenet_v2(pretrained=True)
model.eval()

# 构造 dummy input
dummy_input = torch.randn(1, 3, 224, 224)

# 导出 ONNX
torch.onnx.export(
    model, dummy_input, "mobilenet_v2.onnx",
    input_names=["input"], output_names=["output"],
    opset_version=13, do_constant_folding=True
)

关键点：

opset_version=13 是为了兼容 Vitis AI 对动态 shape 的支持。
确保所有操作都是静态图可追踪的（避免 Python 控制流）。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

vai_q_onnx quantize \
  --model mobilenet_v2.onnx \
  --calibration_dataset ./calib_images \
  --quant_mode calibrate \
  --deploy_model_dir quantized/

vai_c_onnx \
  --arch /opt/vitis_ai/compiler/arch/DPUCZDX8G/KV260.json \
  --model quantized/mobilenet_v2_int.onnx \
  --output_dir compiled/

[VAI_C][INFO] Kernel topology "mobilenetv2_0" created!
[VAI_C][INFO] Output instructions to: compiled/dpu_mobilenetv2_0_instr.bin
[VAI_C][INFO] Generate xmodel: compiled/mobilenet_v2.xmodel

scp compiled/*.xmodel root@kv260:/root/models/
scp system.xclbin root@kv260:/root/

# infer.py
from vai.dpu import runner
import numpy as np
import cv2

# 加载模型
r = runner.Runner("compiled/mobilenet_v2.xmodel")
input_tensor = r.get_input_tensors()[0]
output_tensor = r.get_output_tensors()[0]

# 输入预处理
img = cv2.imread("test.jpg")
resized = cv2.resize(img, (224, 224))
normalized = (resized.astype(np.float32) - 128.0) / 128.0  # [-1, 1]
input_data = np.expand_dims(normalized, axis=0).astype(np.int8)

# 执行推理
results = r(input_data)
logits = results[0]

# 输出预测类别
pred_class = np.argmax(logits)
print(f"Predicted class: {pred_class}, score: {logits[pred_class]:.3f}")

$ python3 infer.py
Predicted class: 282, score: 8.765

模块	功能
指令控制器	解析来自 CPU 的任务指令
权重缓存（SRAM）	存储当前层卷积核，减少 DDR 访问
特征图缓存	缓冲输入输出特征图
MAC 阵列	并行执行 CONV/DWCONV/POOL 等操作

import xir
graph = xir.Graph.deserialize("model.xmodel")
subgraphs = graph.get_root_subgraph().toposort_child_subgraph()

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

技术选型

部署流程

1. 环境搭建

2. 模型导出

更多推荐文章

相关免费在线工具

3. 模型量化

4. 编译生成

5. 板端运行

DPU 架构解析

常见问题与解决

问题 1：模型编译报错 'Unsupported OP: ScatterND'

问题 2：推理结果全为 0 或 NaN

问题 3：性能远低于预期

总结

更多推荐文章

相关免费在线工具

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

技术选型

部署流程

1. 环境搭建

2. 模型导出

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3. 模型量化

4. 编译生成

5. 板端运行

DPU 架构解析

常见问题与解决

问题 1：模型编译报错 'Unsupported OP: ScatterND'

问题 2：推理结果全为 0 或 NaN

问题 3：性能远低于预期

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具