YOLO 模型 TensorRT C++ 推理实战指南 | 极客日志

C++AI算法

YOLO 模型 TensorRT C++ 推理实战指南

介绍如何在 Linux 环境下使用 NVIDIA TensorRT 和 C++ 部署 YOLO 目标检测模型。内容涵盖基于官方 Docker 镜像搭建开发环境、OpenCV 安装策略、核心推理类封装（含日志、预处理、异步推理）、CMake 构建配置及性能优化方案。通过 FP16/INT8 量化与异步流处理，实现低延迟高吞吐的边缘端推理服务。

Elasticer发布于 2026/3/28更新于 2026/6/130 浏览

YOLO 模型 TensorRT-C++推理实战指南

在智能监控、自动驾驶和工业质检等实时性要求极高的场景中，传统的 Python 端深度学习推理方案正逐渐暴露出性能瓶颈。尤其是在边缘设备或高并发服务环境下，即便是轻量级的 YOLO 系列模型，也常常面临延迟超标、吞吐不足的问题。如何将训练好的 AI 模型真正'落地'为高效稳定的服务系统？NVIDIA TensorRT 提供了专为 GPU 设计的高性能推理优化引擎，能够通过层融合、内存复用等技术显著压缩计算图，并结合 FP16 甚至 INT8 量化，在几乎不损失精度的前提下实现数倍加速。结合 C++ 使用时，更能充分发挥底层硬件潜力，构建出低延迟、高吞吐的生产级部署方案。

本文将以 YOLO 目标检测模型为例，完整还原一个从开发环境搭建到 C++ 推理实现的工程化路径。整个流程基于 Linux + Docker 容器展开，力求贴近真实项目中的实践方式。

快速启动：基于官方镜像构建开发环境

要快速进入状态，最稳妥的方式是直接使用 NVIDIA 提供的官方 TensorRT 镜像。它已经预装了 CUDA、cuDNN、TensorRT SDK 以及基础依赖库，避免了手动配置时常见的版本冲突问题。

推荐使用的镜像是：

docker pull nvcr.io/nvidia/tensorrt:23.10-py3

该版本包含：

TensorRT 8.6.x
CUDA 12.2
支持 A100 / RTX 3090 / 4090 等主流 GPU

启动容器的标准命令如下：

sudo docker run -it \
 --name trt_yolo \
 --gpus all \
 --shm-size=16g \
 -v $(pwd):/workspace \
 --workdir=/workspace \
 --network=host \
 nvcr.io/nvidia/tensorrt:23.10-py3 \
 /bin/bash

其中几个关键参数值得特别注意：

--gpus all：确保容器可以访问宿主机的所有 GPU 资源；
--shm-size=16g：增大共享内存，防止多线程数据传输阻塞（尤其在批量处理图像时）；
-v $(pwd):/workspace：挂载当前目录，便于本地编辑代码；
--network=host：共享主机网络栈，方便后续调试可视化服务或远程调用。

进入容器后，建议第一时间验证核心组件是否正常：

nvidia-smi # 查看 GPU 状态
dpkg -l | grep tensorrt # 检查 TensorRT 安装情况
cmake --version # 推荐 >= 3.18
g++ --version # 推荐 >= 7.5

只要这几项输出正常，就可以放心继续后续操作。

OpenCV 安装策略：根据需求灵活选择

虽然官方镜像自带 OpenCV，但通常是 headless 版本——即没有 GUI 支持，无法使用 cv::imshow() 或读取视频流。对于需要图像显示或摄像头接入的应用，必须重新安装完整版。

新手推荐：APT 一键安装

最简单的方法是通过 APT 包管理器直接安装：

apt update && apt install -y \
 libopencv-dev \
 libgtk-3-dev \
 libavcodec-dev \
 libavformat-dev \
 libswscale-dev \
 libtiff-dev \
 libjpeg-dev \
 libpng-dev

优点非常明显：无需编译，几分钟即可完成。缺点是版本可能较旧，且不支持 CUDA 加速。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

git clone https://github.com/opencv/opencv.git
cd opencv && mkdir build && cd build
cmake .. \
 -DCMAKE_BUILD_TYPE=Release \
 -DCMAKE_INSTALL_PREFIX=/usr/local \
 -DOPENCV_GENERATE_PKGCONFIG=ON \
 -DWITH_CUDA=ON \
 -DENABLE_FAST_MATH=1 \
 -DCUDA_FAST_MATH=1
make -j$(nproc)
make install

export PKG_CONFIG_PATH="/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH"

class Logger : public nvinfer1::ILogger {
public:
    void log(Severity severity, const char* msg) noexcept override {
        if (severity <= Severity::kWARNING) {
            std::cout << "[TRT] " << msg << std::endl;
        }
    }
};
Logger gLogger;

class Yolo {
public:
    Yolo(const std::string& engine_file);
    ~Yolo();
    float letterbox(const cv::Mat& in_img, cv::Mat& out_img, const cv::Size& target_size = cv::Size(640, 640), int stride = 32);
    float* blobFromImage(cv::Mat& img);
    void draw_objects(cv::Mat& img, const std::vector<Bbox>& result);
    void infer(const cv::Mat& input_image, std::vector<Bbox>& result);
private:
    nvinfer1::ICudaEngine* engine = nullptr;
    nvinfer1::IExecutionContext* context = nullptr;
    cudaStream_t stream = nullptr;
    void* buffers[5]; // 输入输出缓冲区指针
    int in_h, in_w; // 模型输入高度和宽度
    size_t input_size, output_num, output_boxes, output_scores, output_classes;
};

Yolo::Yolo(const std::string& engine_path) {
    std::ifstream file(engine_path, std::ios::binary | std::ios::ate);
    if (!file.is_open()) {
        std::cerr << "Cannot open engine file: " << engine_path << std::endl;
        exit(-1);
    }
    size_t size = file.tellg();
    std::vector<char> buffer(size);
    file.seekg(0, std::ios::beg);
    file.read(buffer.data(), size);
    file.close();
    auto runtime = nvinfer1::createInferRuntime(gLogger);
    initLibNvInferPlugins(&gLogger, ""); // 注册插件（如 NMS）
    engine = runtime->deserializeCudaEngine(buffer.data(), size);
    if (!engine) {
        std::cerr << "Deserialize engine failed!" << std::endl;
        exit(-1);
    }
    context = engine->createExecutionContext();
    cudaStreamCreate(&stream); // 获取输入维度
    auto input_dim = engine->getBindingDimensions(0);
    in_h = input_dim.d[2];
    in_w = input_dim.d[3];
    input_size = 1 * 3 * in_h * in_w;
    output_num = engine->getBindingDimensions(1).d[1];
    output_boxes = engine->getBindingDimensions(2).d[1] * 4;
    output_scores = engine->getBindingDimensions(3).d[1];
    output_classes = engine->getBindingDimensions(4).d[1];
    // 分配 GPU 内存
    cudaMalloc(&buffers[0], input_size * sizeof(float));
    cudaMalloc(&buffers[1], output_num * sizeof(int));
    cudaMalloc(&buffers[2], output_boxes * sizeof(float));
    cudaMalloc(&buffers[3], output_scores * sizeof(float));
    cudaMalloc(&buffers[4], output_classes * sizeof(int));
}

float Yolo::letterbox(
    const cv::Mat& in_img,
    cv::Mat& out_img,
    const cv::Size& target_size,
    int stride)
{
    float r = std::min(
        static_cast<float>(target_size.height) / in_img.rows,
        static_cast<float>(target_size.width) / in_img.cols
    );
    int pad_w = target_size.width - in_img.cols * r;
    int pad_h = target_size.height - in_img.rows * r;
    cv::Mat resized;
    cv::resize(in_img, resized, cv::Size(), r, r, cv::INTER_LINEAR);
    int top = pad_h / 2;
    int bottom = pad_h - top;
    int left = pad_w / 2;
    int right = pad_w - left;
    cv::copyMakeBorder(resized, out_img, top, bottom, left, right, cv::BORDER_CONSTANT, cv::Scalar(114, 114, 114));
    return 1.f / r; // 返回缩放比例，用于坐标还原
}

float* Yolo::blobFromImage(cv::Mat& img) {
    float* blob = new float[input_size];
    int channels = 3;
    int img_size = img.total() * channels;
    for (int c = 0; c < channels; c++) {
        for (int i = 0; i < img.rows; i++) {
            for (int j = 0; j < img.cols; j++) {
                blob[c * img.rows * img.cols + i * img.cols + j] = ((float*)img.data)[i * img.cols * channels + j * channels + c] / 255.0f;
            }
        }
    }
    return blob;
}

void Yolo::infer(const cv::Mat& input_image, std::vector<Bbox>& result) {
    cv::Mat pr_img;
    float scale = letterbox(input_image, pr_img, cv::Size(in_w, in_h));
    cv::cvtColor(pr_img, pr_img, cv::COLOR_BGR2RGB);
    float* blob = blobFromImage(pr_img);
    // Host to Device
    cudaMemcpyAsync(buffers[0], blob, input_size * sizeof(float), cudaMemcpyHostToDevice, stream);
    // 执行推理
    context->enqueueV2(buffers, stream, nullptr);
    // Device to Host
    int* num_det = new int[output_num];
    float* det_boxes = new float[output_boxes];
    float* det_scores = new float[output_scores];
    int* det_classes = new int[output_classes];
    cudaMemcpyAsync(num_det, buffers[1], output_num * sizeof(int), cudaMemcpyDeviceToHost, stream);
    cudaMemcpyAsync(det_boxes, buffers[2], output_boxes * sizeof(float), cudaMemcpyDeviceToHost, stream);
    cudaMemcpyAsync(det_scores, buffers[3], output_scores * sizeof(float),cudaMemcpyDeviceToHost, stream);
    cudaMemcpyAsync(det_classes, buffers[4], output_classes * sizeof(int), cudaMemcpyDeviceToHost, stream);
    cudaStreamSynchronize(stream); // 等待所有操作完成
    // 后处理：还原坐标并过滤结果
    result.clear();
    for (int i = 0; i < num_det[0]; ++i) {
        float x0 = (det_boxes[i * 4 + 0]) * scale;
        float y0 = (det_boxes[i * 4 + 1]) * scale;
        float x1 = (det_boxes[i * 4 + 2]) * scale;
        float y1 = (det_boxes[i * 4 + 3]) * scale;
        Bbox box;
        box.x = x0;
        box.y = y0;
        box.w = x1 - x0;
        box.h = y1 - y0;
        box.confidence = det_scores[i];
        box.class_id = det_classes[i];
        result.push_back(box);
    }
    delete[] blob;
    delete[] num_det;
    delete[] det_boxes;
    delete[] det_scores;
    delete[] det_classes;
}

void Yolo::draw_objects(cv::Mat& img, const std::vector<Bbox>& result) {
    for (const auto& obj : result) {
        cv::rectangle(img, cv::Point(obj.x, obj.y), cv::Point(obj.x + obj.w, obj.y + obj.h), cv::Scalar(0, 255, 0), 2);
        std::string label = std::to_string(obj.class_id) + ": " + cv::format("%.2f", obj.confidence);
        cv::putText(img, label, cv::Point(obj.x, obj.y - 5), cv::FONT_HERSHEY_SIMPLEX, 0.6, cv::Scalar(0, 0, 255), 2);
    }
    cv::imwrite("result.jpg", img);
}

struct Bbox {
    float x, y, w, h;
    float confidence;
    int class_id;
};

int main(int argc, char** argv) {
    if (argc != 3) {
        std::cerr << "Usage: " << argv[0] << " <engine_file> <image_path>" << std::endl;
        return -1;
    }
    std::string engine_file = argv[1];
    std::string image_path = argv[2];
    Yolo detector(engine_file);
    cv::Mat image = cv::imread(image_path);
    if (image.empty()) {
        std::cerr << "Load image failed!" << std::endl;
        return -1;
    }
    // 预热
    std::vector<Bbox> dummy_result;
    for (int i = 0; i < 5; ++i) {
        detector.infer(image, dummy_result);
    }
    // 计时推理
    auto start = std::chrono::high_resolution_clock::now();
    std::vector<Bbox> result;
    detector.infer(image, result);
    auto end = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end - start);
    std::cout << "Inference time: " << duration.count() << " ms" << std::endl;
    std::cout << "Detected " << result.size() << " objects." << std::endl;
    detector.draw_objects(image, result);
    return 0;
}

cmake_minimum_required(VERSION 3.18)
project(yolo_trt LANGUAGES CXX C)
set(CMAKE_CXX_STANDARD 14)
set(CMAKE_BUILD_TYPE Release)
find_package(CUDA REQUIRED)
find_package(OpenCV REQUIRED)
include_directories(${OpenCV_INCLUDE_DIRS})
add_executable(trt_yolo main.cpp)
target_link_libraries(trt_yolo ${OpenCV_LIBS} nvinfer cudart )

mkdir build && cd build
cmake .. && make -j8

优化策略	加速效果	注意事项
FP16 精度推理	提升约 1.5~2 倍	几乎无精度损失，强烈推荐
INT8 量化	再提速 1.5~2 倍	需准备校准集，小物体可能受影响
多 Batch 推理	提高 GPU 利用率	适合视频流或批处理场景
异步流处理	数据传输与计算重叠	可进一步降低端到端延迟

YOLO 模型 TensorRT C++ 推理实战指南

YOLO 模型 TensorRT-C++推理实战指南

快速启动：基于官方镜像构建开发环境

OpenCV 安装策略：根据需求灵活选择

新手推荐：APT 一键安装

更多推荐文章

相关免费在线工具

进阶用户：源码编译定制化版本

核心类设计：封装 Yolo 推理全流程

日志系统：自定义 ILogger 接口

Yolo 类声明

构造函数：反序列化引擎文件

图像预处理：保持宽高比的 LetterBox

Blob 生成：HWC → CHW 转换与归一化

推理主流程：异步执行提升效率

结果绘制与输出

主函数示例：完整调用链路

CMake 构建配置

性能优化方向与实测对比

更多推荐文章

相关免费在线工具

YOLO 模型 TensorRT C++ 推理实战指南

YOLO 模型 TensorRT-C++推理实战指南

快速启动：基于官方镜像构建开发环境

OpenCV 安装策略：根据需求灵活选择

新手推荐：APT 一键安装

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

进阶用户：源码编译定制化版本

核心类设计：封装 Yolo 推理全流程

日志系统：自定义 ILogger 接口

Yolo 类声明

构造函数：反序列化引擎文件

图像预处理：保持宽高比的 LetterBox

Blob 生成：HWC → CHW 转换与归一化

推理主流程：异步执行提升效率

结果绘制与输出

主函数示例：完整调用链路

CMake 构建配置

性能优化方向与实测对比

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具