C++ 视觉开发：ONNX Runtime（ORT）使用指南 | 极客日志

C++AI算法

C++ 视觉开发：ONNX Runtime（ORT）使用指南

ONNX Runtime (ORT) 是微软开源的高性能推理引擎，支持跨框架模型转换与多硬件加速。介绍其在 C++ 视觉开发中的核心架构、组件使用及 ROS2 集成流程。涵盖环境搭建、模型导出、会话配置、内存优化及常见问题处理，重点讲解 CUDA/TensorRT 加速策略与实时性保障方案。

星辰大海发布于 2026/3/27更新于 2026/6/234 浏览

一、ORT 核心定位

ORT 是微软开源的跨平台、高性能、轻量级深度学习推理引擎，核心目标是让训练好的深度学习模型（无论来自 PyTorch/TensorFlow/TensorFlow Lite）通过 ONNX（开放神经网络交换格式）统一转换后，在任意硬件（CPU/GPU/嵌入式/NPU）上高效推理。

对视觉开发而言，ORT 的核心价值是：

跨框架统一：无需为 PyTorch 的 YOLO、TensorFlow 的 SegFormer 分别适配推理引擎，转 ONNX 后统一用 ORT 推理；
性能极致：内置算子融合、内存优化、精度自适应，视觉推理延迟比原生框架低 30%~50%；
硬件适配：完美支持机器人常用硬件（x86 CPU、NVIDIA GPU、Jetson 嵌入式、昇腾 NPU）；
轻量级：可编译为精简版本（体积<10MB），适配机器人端侧算力受限场景。

2. ORT 核心优势（视觉/机器人场景）

优势	视觉/机器人场景价值
跨平台	一套代码适配机器人上位机（x86）、边缘端（Jetson Nano/Xavier）、工业控制器（ARM）
多硬件加速	支持 CUDA/TensorRT/OpenVINO/NPU，视觉推理优先用 GPU/TensorRT 加速，延迟降低 50%+
精度灵活	支持 FP32/FP16/INT8 推理，INT8 可降低显存占用 50%，适配嵌入式设备（如 Jetson Nano 4GB 显存）
内存高效	内置内存池、张量复用，避免视觉推理中频繁内存分配导致的泄漏/卡顿
低侵入性	C++ API 简洁，易集成到 ROS2 节点中，与视觉采集（OpenCV）、机器人控制逻辑无缝衔接

二、ORT 核心架构与核心组件

ORT 的架构分层设计保证了灵活性和高性能，核心分为 4 层，对应 C++ 开发中接触的核心组件：

1. ORT 架构分层（从下到上）

硬件层：机器人/视觉场景的目标硬件（x86 CPU、NVIDIA GPU、Jetson ARM+GPU）；
执行提供层（EP）：硬件加速的核心，如 CUDA EP（GPU 推理）、TensorRT EP（极致 GPU 加速）、CPU EP（无 GPU 兜底）；
核心层：ORT 的核心逻辑，包含环境管理、模型优化、会话管理、内存分配；
API 层：C++ 开发者直接使用的接口（Ort::Env、Ort::Session 等）。

2. ORT 核心 C++ 组件（视觉场景高频使用）

ORT 的 C++ API 全部封装在 Ort 命名空间下，以下是视觉开发的核心组件：

1. Ort::Env：全局运行环境

作用：初始化 ORT 的全局资源（日志系统、线程池、硬件上下文），是所有推理操作的基础；
视觉场景用法：一个 ROS2 视觉节点只需创建一个 Env，多个模型复用，避免资源浪费；
关键参数：
- ORT_LOGGING_LEVEL：日志级别（ERROR/WARNING/INFO/VERBOSE），视觉节点建议设 WARNING/ERROR；
- 环境名称：用于区分不同模型的环境（如多模型节点可命名为'Detection_Env''Segmentation_Env'）。

代码示例：


;


env.([](OrtLoggingLevel level,  * log_id,  * msg) {
     (level == ORT_LOGGING_LEVEL_ERROR) {
        (rclcpp::(), , msg);
    }
});

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

Ort::SessionOptions session_options;

// 1. 线程配置（CPU 推理核心）
session_options.SetIntraOpNumThreads(4); // 算子内并行线程（Conv2d 内部）
session_options.SetInterOpNumThreads(2); // 算子间并行线程（Conv2d→ReLU）

// 2. 硬件加速（GPU 推理核心）
OrtCUDAProviderOptions cuda_options;
cuda_options.device_id = 0; // 机器人单 GPU，设为 0
cuda_options.arena_extend_strategy = 1; // 动态扩展 GPU 内存（避免显存不足）
session_options.AppendExecutionProvider_CUDA(cuda_options);

// 3. TensorRT 加速（极致 GPU 性能，视觉场景推荐）
OrtTensorRTProviderOptions trt_options;
trt_options.device_id = 0;
trt_options.trt_max_workspace_size = 1 << 30; // 1GB 工作空间（推理缓存）
session_options.AppendExecutionProvider_TensorRT(trt_options);

// 4. 图优化（启用所有优化，提升推理速度）
session_options.SetGraphOptimizationLevel(GraphOptimizationLevel::ORT_ENABLE_ALL);

// 5. 精度优化（FP16，视觉场景几乎无精度损失）
session_options.SetEnableCpuMemArena(false);
session_options.SetEnableMemPattern(true); // 内存复用

// 从 ROS2 参数读取模型路径（视觉节点参数化配置）
std::string model_path = this->get_parameter("model_path").as_string();

// 加载模型（生命周期节点 on_configure 阶段）
auto model_session = std::make_shared<Ort::Session>(env, model_path.c_str(), session_options);

// 验证模型（视觉场景：检查输入输出节点）
auto input_names = model_session->GetInputNames();
auto output_names = model_session->GetOutputNames();
if (input_names.empty() || output_names.empty()) {
    RCLCPP_ERROR(get_logger(), "视觉模型输入/输出节点为空");
    return CallbackReturn::FAILURE;
}

// 创建 CPU 内存分配器（视觉预处理用）
Ort::AllocatorWithDefaultOptions allocator;

// 分配图像张量内存（640×640×3，float 类型）
size_t input_size = 640 * 640 * 3;
float* input_data = allocator.Allocate<float>(input_size);

// 推理完成后释放
allocator.Free(input_data);

// 视觉预处理：cv::Mat（BGR8）转 ORT 张量（FP32，NCHW）
cv::Mat frame = cv::imread("test.jpg");
cv::resize(frame, frame, cv::Size(640, 640));

// 归一化：0~255 → 0~1，HWC→CHW
float* input_data = new float[640 * 640 * 3];
for (int c = 0; c < 3; c++) {
    for (int h = 0; h < 640; h++) {
        for (int w = 0; w < 640; w++) {
            input_data[c * 640 * 640 + h * 640 + w] = frame.at<cv::Vec3b>(h, w)[c] / 255.0f;
        }
    }
}

// 创建 ORT 张量（NCHW：1,3,640,640）
auto memory_info = Ort::MemoryInfo::CreateCpu(OrtArenaAllocator, OrtMemTypeDefault);
Ort::Value input_tensor = Ort::Value::CreateTensor<float>(
    memory_info, input_data, 640 * 640 * 3, {1, 3, 640, 640});

Ort::RunOptions run_options;
run_options.SetRunLogVerbosityLevel(0); // 关闭推理日志
run_options.SetTimeout(100); // 推理超时 100ms（视觉实时性要求）

// 执行推理
const char* input_names[] = {"images"};
const char* output_names[] = {"output0"};
auto output_tensors = model_session->Run(
    run_options, input_names, &input_tensor, 1, output_names, 1);

# 编译 ORT（适配 JetPack 5.1）
git clone --recursive https://github.com/microsoft/onnxruntime
cd onnxruntime && ./build.sh --use_cuda --cuda_home=/usr/local/cuda --cudnn_home=/usr/local/cudnn --build_shared_lib --build_release

# 安装 CUDA 11.8 + cuDNN 8.9
# 下载 ORT GPU 版：https://github.com/microsoft/onnxruntime/releases
star -xvf onnxruntime-linux-x64-gpu-1.17.0.tgz

# CMakeLists.txt 中链接 ORT
find_library(ORT_LIB onnxruntime HINTS /path/to/onnxruntime/lib)
include_directories(/path/to/onnxruntime/include)
target_link_libraries(vision_node ${ORT_LIB} ${OpenCV_LIBS} rclcpp rclcpp_lifecycle)

# PyTorch YOLOv8 导出 ONNX（视觉模型导出注意事项）
from ultralytics import YOLO
model = YOLO("yolov8n.pt")
# 关键参数：dynamic=False（嵌入式固定尺寸），simplify=True（简化模型）
model.export(format="onnx", imgsz=640, dynamic=False, simplify=True)

#include "rclcpp/rclcpp.hpp"
#include "rclcpp_lifecycle/lifecycle_node.hpp"
#include "sensor_msgs/msg/image.hpp"
#include <opencv2/opencv.hpp>
#include <onnxruntime_cxx_api.h>

using namespace rclcpp_lifecycle;
using CallbackReturn = LifecycleNode::CallbackReturn;

class Yolov8Node : public LifecycleNode {
public:
    Yolov8Node() : LifecycleNode("yolov8_node") {
        this->declare_parameter("model_path", "/home/robot/models/yolov8n.onnx");
        this->declare_parameter("camera_id", 0);
        // 初始化 ORT 环境（全局唯一）
        env_ = std::make_shared<Ort::Env>(ORT_LOGGING_LEVEL_WARNING, "Yolov8_Env");
    }

    // 1. 配置阶段：加载模型（不启动推理）
    CallbackReturn on_configure(const State &previous_state) {
        // 读取参数
        std::string model_path = this->get_parameter("model_path").as_string();
        int camera_id = this->get_parameter("camera_id").as_int();

        // 初始化相机（视觉采集）
        cap_.open(camera_id);
        if (!cap_.isOpened()) {
            RCLCPP_ERROR(get_logger(), "相机打开失败：ID=%d", camera_id);
            return CallbackReturn::FAILURE;
        }

        // 配置 ORT 会话
        Ort::SessionOptions session_options;
        // CPU 线程配置
        session_options.SetIntraOpNumThreads(4);
        session_options.SetInterOpNumThreads(2);
        // GPU 加速（CUDA）
        OrtCUDAProviderOptions cuda_options;
        cuda_options.device_id = 0;
        session_options.AppendExecutionProvider_CUDA(cuda_options);
        // 图优化
        session_options.SetGraphOptimizationLevel(ORT_ENABLE_ALL);

        // 加载模型
        try {
            session_ = std::make_shared<Ort::Session>(*env_, model_path.c_str(), session_options);
            // 获取输入输出节点名
            input_names_ = session_->GetInputNames();
            output_names_ = session_->GetOutputNames();
        } catch (const Ort::Exception &e) {
            RCLCPP_ERROR(get_logger(), "模型加载失败：%s（错误码：%d）", e.what(), e.GetOrtErrorCode());
            return CallbackReturn::FAILURE;
        }

        // 初始化发布器
        img_pub_ = create_lifecycle_publisher<sensor_msgs::msg::Image>("yolov8/image", 10);
        det_pub_ = create_lifecycle_publisher<sensor_msgs::msg::Image>("yolov8/detections", 10);
        RCLCPP_INFO(get_logger(), "配置完成：模型 + 相机初始化成功");
        return CallbackReturn::SUCCESS;
    }

    // 2. 激活阶段：启动推理线程
    CallbackReturn on_activate(const State &previous_state) {
        img_pub_->on_activate();
        det_pub_->on_activate();
        is_running_ = true;
        infer_thread_ = std::thread(&Yolov8Node::infer_loop, this);
        return CallbackReturn::SUCCESS;
    }

    // 3. 去激活阶段：停止推理线程
    CallbackReturn on_deactivate(const State &previous_state) {
        is_running_ = false;
        if (infer_thread_.joinable()) {
            infer_thread_.join();
        }
        img_pub_->on_deactivate();
        det_pub_->on_deactivate();
        return CallbackReturn::SUCCESS;
    }

    // 4. 清理阶段：释放资源
    CallbackReturn on_cleanup(const State &previous_state) {
        cap_.release();
        session_.reset();
        input_names_.clear();
        output_names_.clear();
        RCLCPP_INFO(get_logger(), "资源清理完成");
        return CallbackReturn::SUCCESS;
    }

private:
    // ORT 核心组件
    std::shared_ptr<Ort::Env> env_;
    std::shared_ptr<Ort::Session> session_;
    std::vector<const char*> input_names_;
    std::vector<const char*> output_names_;

    // 视觉采集与发布
    cv::VideoCapture cap_;
    LifecyclePublisher<sensor_msgs::msg::Image>::SharedPtr img_pub_;
    LifecyclePublisher<sensor_msgs::msg::Image>::SharedPtr det_pub_;

    // 推理控制
    std::thread infer_thread_;
    std::atomic<bool> is_running_{false};

    // 推理循环（视觉核心）
    void infer_loop() {
        cv::Mat frame;
        while (is_running_ && rclcpp::ok()) {
            // 1. 采集图像
            cap_ >> frame;
            if (frame.empty()) {
                RCLCPP_WARN(get_logger(), "图像采集为空");
                continue;
            }

            // 2. 图像预处理（cv::Mat→ORT 张量）
            cv::Mat resized_frame;
            cv::resize(frame, resized_frame, cv::Size(640, 640));
            float* input_data = preprocess(resized_frame);
            auto input_tensor = Ort::Value::CreateTensor<float>(
                Ort::MemoryInfo::CreateCpu(OrtArenaAllocator, OrtMemTypeDefault),
                input_data, 640 * 640 * 3, {1, 3, 640, 640});

            // 3. 执行推理
            auto output_tensors = session_->Run(
                Ort::RunOptions{nullptr}, input_names_.data(), &input_tensor, 1,
                output_names_.data(), 1);

            // 4. 解析结果（检测框→绘制到图像）
            cv::Mat det_frame = postprocess(frame, output_tensors[0].GetTensorMutableData<float>());

            // 5. 发布图像（move 语义，避免拷贝）
            auto img_msg = std::make_unique<sensor_msgs::msg::Image>();
            fill_image_msg(img_msg.get(), det_frame);
            img_pub_->publish(std::move(*img_msg));

            // 释放内存
            delete[] input_data;
        }
    }

    // 图像预处理：BGR→RGB，归一化，HWC→CHW
    float* preprocess(const cv::Mat& frame) {
        float* data = new float[640 * 640 * 3];
        for (int c = 0; c < 3; c++) {
            for (int h = 0; h < 640; h++) {
                for (int w = 0; w < 640; w++) {
                    data[c * 640 * 640 + h * 640 + w] = frame.at<cv::Vec3b>(h, w)[2 - c] / 255.0f;
                }
            }
        }
        return data;
    }

    // 结果后处理：解析检测框并绘制
    cv::Mat postprocess(cv::Mat& frame, float* output_data) {
        // YOLOv8 输出解析逻辑（省略，核心：8400 个检测框，筛选置信度>0.5 的框）
        // ... 解析 x1,y1,x2,y2,conf,cls ...
        // 绘制检测框
        cv::rectangle(frame, cv::Rect(100, 100, 200, 200), cv::Scalar(0, 255, 0), 2);
        return frame;
    }

    // cv::Mat 转 sensor_msgs::msg::Image
    void fill_image_msg(sensor_msgs::msg::Image* msg, const cv::Mat& frame) {
        msg->width = frame.cols;
        msg->height = frame.rows;
        msg->encoding = "bgr8";
        msg->step = frame.step;
        msg->data.resize(frame.step * frame.rows);
        memcpy(msg->data.data(), frame.data, frame.step * frame.rows);
    }
};

int main(int argc, char* argv[]) {
    rclcpp::init(argc, argv);
    auto node = std::make_shared<Yolov8Node>();
    rclcpp::spin(node->get_node_base_interface());
    rclcpp::shutdown();
    return 0;
}

加速方式	适用场景	性能提升	配置代码
CUDA EP	有 NVIDIA GPU 的机器人	30%~50%	`session_options.AppendExecutionProvider_CUDA(cuda_options);`
TensorRT EP	高性能 GPU（如 RTX 3090）	50%~80%	`session_options.AppendExecutionProvider_TensorRT(trt_options);`
OpenVINO EP	Intel CPU/集成显卡	20%~30%	`session_options.AppendExecutionProvider_OpenVINO(ov_options);`
ACL EP	昇腾 NPU（工业机器人）	40%~60%	`session_options.AppendExecutionProvider_ACL(acl_options);`

Ort::QuantizationParams q_params;
q_params.weight_type = ONNX_NAMESPACE::TensorProto_DataType_UINT8;
q_params.activation_type = ONNX_NAMESPACE::TensorProto_DataType_UINT8;

session_options.SetGraphOptimizationLevel(ORT_ENABLE_ALL);
session_options.SetEnableCpuMemArena(false); // TensorRT EP 自动支持 FP16
trt_options.trt_fp16_enable = 1;

C++ 视觉开发：ONNX Runtime（ORT）使用指南

一、ORT 核心定位

2. ORT 核心优势（视觉/机器人场景）

二、ORT 核心架构与核心组件

1. ORT 架构分层（从下到上）

2. ORT 核心 C++ 组件（视觉场景高频使用）

1. Ort::Env：全局运行环境

更多推荐文章

相关免费在线工具

2. Ort::SessionOptions：会话配置

3. Ort::Session：模型会话核心

4. Ort::Allocator：内存分配器

5. Ort::Value：张量数据容器

6. Ort::RunOptions：推理运行配置

三、ORT C++ 开发全流程（以视觉/ROS2 开发为例）

1. 环境搭建（视觉/机器人场景）

（1）安装 ORT（区分 CPU/GPU 版）

（2）CMake 配置（ROS2 包集成）

2. 模型准备（视觉场景关键）

（1）ONNX 模型导出（以 YOLOv8 为例）

（2）视觉模型导出避坑

3. 推理全流程（ROS2 生命周期节点）

四、ORT 性能优化

1. 硬件加速优化（优先级最高）

2. 精度优化（嵌入式）

3. 线程优化（CPU 推理核心）

4. 内存优化（避免泄漏/卡顿）

五、ORT 与 ROS2（视觉/机器人）

六、ORT 常见问题与避坑

1. 模型加载失败

2. 推理精度异常

3. 推理卡顿/丢帧

4. 嵌入式内存不足

更多推荐文章

相关免费在线工具

C++ 视觉开发：ONNX Runtime（ORT）使用指南

一、ORT 核心定位

2. ORT 核心优势（视觉/机器人场景）

二、ORT 核心架构与核心组件

1. ORT 架构分层（从下到上）

2. ORT 核心 C++ 组件（视觉场景高频使用）

1. Ort::Env：全局运行环境

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. Ort::SessionOptions：会话配置

3. Ort::Session：模型会话核心

4. Ort::Allocator：内存分配器

5. Ort::Value：张量数据容器

6. Ort::RunOptions：推理运行配置

三、ORT C++ 开发全流程（以视觉/ROS2 开发为例）

1. 环境搭建（视觉/机器人场景）

（1）安装 ORT（区分 CPU/GPU 版）

（2）CMake 配置（ROS2 包集成）

2. 模型准备（视觉场景关键）

（1）ONNX 模型导出（以 YOLOv8 为例）

（2）视觉模型导出避坑

3. 推理全流程（ROS2 生命周期节点）

四、ORT 性能优化

1. 硬件加速优化（优先级最高）

2. 精度优化（嵌入式）

3. 线程优化（CPU 推理核心）

4. 内存优化（避免泄漏/卡顿）

五、ORT 与 ROS2（视觉/机器人）

六、ORT 常见问题与避坑

1. 模型加载失败

2. 推理精度异常

3. 推理卡顿/丢帧

4. 嵌入式内存不足

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具