Vitis 使用教程：从零实现 AI 模型 FPGA 部署 | 极客日志

PythonAI算法

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

使用 Vitis AI 工具链将 PyTorch 模型部署到 FPGA（如 Kria KV260）的完整流程。涵盖环境搭建、模型导出为 ONNX、INT8 量化校准、编译生成 Xmodel/Xclbin 文件以及板端推理验证。同时解析了 DPU 架构原理及常见报错解决方案，旨在帮助开发者在边缘设备实现低延迟、低功耗的 AI 推理。

筑梦师发布于 2026/4/6更新于 2026/7/2859 浏览

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

为什么是 FPGA？为什么是 Vitis？

FPGA + Vitis AI 是边缘智能场景下的黄金组合。

传统印象里，FPGA 开发等于 Verilog、时序约束、逻辑综合……门槛高得吓人。但 Xilinx（现 AMD）推出的 Vitis 统一平台彻底改变了这一点。它允许我们用 C/C++ 甚至 Python 来描述算法，再通过高层次综合（HLS）自动生成硬件电路。

更关键的是，配套的 Vitis AI 工具链专为深度学习推理优化，支持从 TensorFlow/PyTorch 导出的模型一键量化、编译并部署到 Zynq SoC 或 Alveo 加速卡上。

不会写 Verilog？没关系。
没搞过 FPGA？也能上手。
只要你会训练模型，就能把它变成硬件加速引擎。

在 Kria KV260 上实测 ResNet-50，INT8 量化后推理速度超过 1200 FPS，功耗仅 5W 左右。

部署流程概览

整个流程可以拆成五个阶段：环境搭建 → 模型导出 → 量化校准 → 编译生成 → 板端运行。

第一步：搭好地基——安装 Vitis 与 Vitis AI

别急着跑代码，版本兼容性是第一道坎。

我用的是：

主机系统：Ubuntu 20.04
Vitis 版本：2023.1
Vitis AI：3.0
目标平台：Kria KV260 SOM

安装顺序不能乱：

先装 Vivado/Vitis，勾选'Vitis Embedded Development'
再配置 Vitis AI Docker 镜像（官方最省心）

docker pull xilinx/vitis-ai:latest
docker run -it --gpus all --rm --name vitis-ai \
  -v /path/to/your/model:/workspace \
  xilinx/vitis-ai:latest

提示：一定要确认 XRT（Xilinx Runtime）、DPU 固件和 Vitis 版本匹配！否则后面 .xclbin 加载会失败。

第二步：把 PyTorch 模型变成 ONNX

假设你已经有一个训练好的分类模型（比如 MobileNetV2），接下来要把它'翻译'成中间格式。

import torch
import torchvision

# 加载预训练模型
model = torchvision.models.mobilenet_v2(pretrained=True)
model.eval()

# 构造 dummy input
dummy_input = torch.randn(1, 3, 224, 224)

# 导出 ONNX
torch.onnx.export(
    model, dummy_input, "mobilenet_v2.onnx",
    input_names=["input"], output_names=["output"],
    opset_version=13, do_constant_folding=True
)

关键点：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

vai_q_onnx quantize \
  --model mobilenet_v2.onnx \
  --calibration_dataset ./calib_images \
  --quant_mode calibrate \
  --deploy_model_dir quantized/

vai_c_onnx \
  --arch /opt/vitis_ai/compiler/arch/DPUCZDX8G/KV260.json \
  --model quantized/mobilenet_v2_int.onnx \
  --output_dir compiled/

[VAI_C][INFO] Kernel topology "mobilenetv2_0" created!
[VAI_C][INFO] Output instructions to: compiled/dpu_mobilenetv2_0_instr.bin
[VAI_C][INFO] Generate xmodel: compiled/mobilenet_v2.xmodel

scp compiled/*.xmodel root@kv260:/root/models/
scp system.xclbin root@kv260:/root/

# infer.py
from vai.dpu import runner
import numpy as np
import cv2

# 加载模型
r = runner.Runner("compiled/mobilenet_v2.xmodel")
input_tensor = r.get_input_tensors()[0]
output_tensor = r.get_output_tensors()[0]

# 输入预处理
img = cv2.imread("test.jpg")
resized = cv2.resize(img, (224, 224))
normalized = (resized.astype(np.float32) - 128.0) / 128.0  # [-1, 1]
input_data = np.expand_dims(normalized, axis=0).astype(np.int8)

# 执行推理
results = r(input_data)
logits = results[0]

# 输出预测类别
pred_class = np.argmax(logits)
print(f"Predicted class: {pred_class}, score: {logits[pred_class]:.3f}")

$ python3 infer.py
Predicted class: 282, score: 8.765

模块	功能
指令控制器	解析来自 CPU 的任务指令
权重缓存（SRAM）	存储当前层卷积核，减少 DDR 访问
特征图缓存	缓冲输入输出特征图
MAC 阵列	并行执行 CONV/DWCONV/POOL 等操作

import xir
graph = xir.Graph.deserialize("model.xmodel")
subgraphs = graph.get_root_subgraph().toposort_child_subgraph()

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

为什么是 FPGA？为什么是 Vitis？

部署流程概览

第一步：搭好地基——安装 Vitis 与 Vitis AI

第二步：把 PyTorch 模型变成 ONNX

更多推荐文章

相关免费在线工具

第三步：模型量化——精度与性能的平衡术

第四步：编译成 DPU 指令——真正的'软硬协同'

第五步：板上验证——让模型真正'动起来'

DPU 到底强在哪？深入它的'心脏'

常见问题与解决方案

问题 1：模型编译报错 'Unsupported OP: ScatterND'

问题 2：推理结果全为 0 或 NaN

问题 3：性能远低于预期

适用场景与建议

总结与展望

更多推荐文章

相关免费在线工具

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

Vitis 使用教程：从零实现 AI 模型 FPGA 部署

为什么是 FPGA？为什么是 Vitis？

部署流程概览

第一步：搭好地基——安装 Vitis 与 Vitis AI

第二步：把 PyTorch 模型变成 ONNX

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第三步：模型量化——精度与性能的平衡术

第四步：编译成 DPU 指令——真正的'软硬协同'

第五步：板上验证——让模型真正'动起来'

DPU 到底强在哪？深入它的'心脏'

常见问题与解决方案

问题 1：模型编译报错 'Unsupported OP: ScatterND'

问题 2：推理结果全为 0 或 NaN

问题 3：性能远低于预期

适用场景与建议

总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具