基于 C++ 部署 ONNX 模型的低延迟高吞吐优化技巧

基于 C++ 部署 ONNX 模型的低延迟高吞吐优化技巧 | 极客日志

find_package(onnxruntime REQUIRED)
target_link_libraries(your_app onnxruntime)

// 初始化运行时环境
Ort::Env env(ORT_LOGGING_LEVEL_WARNING, "test");
Ort::SessionOptions session_options;
session_options.SetIntraOpNumThreads(1);
session_options.SetGraphOptimizationLevel(GraphOptimizationLevel::ORT_ENABLE_ALL);

// 加载模型
Ort::Session session(env, u8"model.onnx", session_options);

// 获取输入/输出节点信息
auto input_name = session.GetInputNameAllocated(0, allocator);
auto output_name = session.GetOutputNameAllocated(0, allocator);

// 构造输入张量（假设为 1x3x224x224 的 float 图像）
std::vector<float> input_tensor_values(3 * 224 * 224);
Ort::MemoryInfo memory_info = Ort::MemoryInfo::CreateCpu(OrtArenaAllocator, OrtMemTypeDefault);
Ort::Value input_tensor = Ort::Value::CreateTensor(
    memory_info, 
    input_tensor_values.data(), 
    input_tensor_values.size(), 
    input_shape.data(), 
    input_shape.size()
);

// 执行推理
auto output_tensors = session.Run(
    Ort::RunOptions{nullptr}, 
    &input_name.get(), 
    &input_tensor, 
    1, 
    &output_name.get(), 
    1
);

import torch
import torchvision.models as models

model = models.resnet18(pretrained=True)
model.eval()
dummy_input = torch.randn(1, 3, 224, 224)

torch.onnx.export(
    model, 
    dummy_input, 
    "resnet18.onnx", 
    input_names=["input"], 
    output_names=["output"], 
    opset_version=11
)

格式	描述	适用场景
NCHW	通道优先，适合 GPU 计算优化	PyTorch 默认格式
NHWC	空间优先，利于内存连续访问	TensorFlow 在 CPU 上的优化格式

import torch
# 将 HWC 格式图像转换为 CHW 并归一化
img = torch.randn(224, 224, 3) # 原始图像 (H, W, C)
img = img.permute(2, 0, 1)     # 转换为 (C, H, W)
img = img.unsqueeze(0)         # 添加批次维度 → (N, C, H, W)
img = img.contiguous()         # 确保内存连续

后端	平均延迟（ms）	内存占用（MB）
CPU	120	520
GPU	28	980
DML	35	860

// 指定执行设备
// 注意：实际 ONNX Runtime 配置需在 SessionOptions 中指定 providers
// 此处仅为逻辑示意
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
inputs = inputs.to(device)

# 原始操作
y = tf.add(tf.multiply(x, w), b)
# 优化后：融合为单一 MatMul+BiasAdd 操作
y = tf.nn.bias_add(tf.matmul(x, w), b)

精度类型	延迟（ms）	相对提速
FP32	120	1.0x
INT8	35	3.4x

int batch_size = 64;          // 批次大小
int prefetch_batches = 2;     // 预取批次数量
int parallelism = 4;          // 并行处理线程数

批大小	吞吐量（条/秒）	平均延迟（ms）
16	8,500	12
64	22,000	45
256	38,000	180

#include <thread>
#include <vector>

std::vector<std::thread> threads;
for (const auto& batch : dataBatches) {
    threads.emplace_back([&batch]() { processBatch(batch); });
}
for (auto& t : threads) t.join();

模式	处理时间（秒）	CPU 利用率
单线程	86	32%
多线程	23	89%

class MemoryPool {
private:
    struct Block {
        Block* next;
    };
    Block* freeList;
    char* memory;
    size_t blockSize;
    size_t poolSize;

public:
    MemoryPool(size_t count, size_t size) : blockSize(size), poolSize(count) {
        memory = new char[count * size];
        freeList = reinterpret_cast<Block*>(memory);
        for (size_t i = 0; i < count - 1; ++i) {
            freeList[i].next = &freeList[i + 1];
        }
        freeList[count - 1].next = nullptr;
    }

    void* allocate() {
        if (!freeList) return nullptr;
        Block* head = freeList;
        freeList = freeList->next;
        return head;
    }

    void deallocate(void* ptr) {
        Block* block = static_cast<Block*>(ptr);
        block->next = freeList;
        freeList = block;
    }
};

分配方式	平均耗时 (ns)	内存碎片风险
new/delete	85	高
内存池	12	低

#include <sys/mman.h>
#include <fcntl.h>
#include <unistd.h>

int fd = open("data.bin", O_RDONLY);
struct stat sb;
stat(fd, &sb);
void* data = mmap(NULL, sb.st_size, PROT_READ, MAP_SHARED, fd, 0);
// 直接解析 data，无需额外拷贝
munmap(data, sb.st_size);
close(fd);

方案	内存拷贝次数	延迟（ms）	吞吐（MB/s）
传统读取 + 解码	3	12.4	89
零拷贝预处理	0	5.1	210

perf record -g ./your_app
perf report

指标类型	采集命令	用途
CPU Profiling	perf record -g ./app	定位计算密集型函数
Heap Profiling	valgrind --tool=massif ./app	发现内存泄漏点

平台	支持语言	冷启动均值	最大执行时间 (s)
AWS Lambda	Node.js, Python, Go	350ms	900
Cloudflare Workers (Wasm)	Rust, C/C++	8ms	50

基于 C++ 部署 ONNX 模型的低延迟高吞吐优化技巧

基于 C++ 部署 ONNX 模型的低延迟高吞吐优化技巧

环境准备与依赖集成

配置 ONNX Runtime C++ 推理环境

环境准备与依赖引入

模型加载与推理流程

常见配置选项

ONNX 模型导出与预处理

模型导出示例

输入输出张量的内存布局与数据预处理

常见的内存布局格式对比

数据预处理中的内存对齐

推理性能关键影响因素分析

不同执行后端（CPU/GPU/DML）的性能对比

典型推理延迟对比

推理代码片段示例

计算图优化与模型量化对延迟的影响

计算图优化示例

模型量化对延迟的影响

批处理大小与吞吐量之间的权衡关系

性能影响因素分析

典型配置示例

不同批大小下的吞吐对比

高吞吐低延迟的四大优化技巧

技巧一：启用多线程会话与并行批处理

并行批处理配置示例

性能对比

技巧二：使用内存池减少动态分配开销

内存池基本结构

性能对比

技巧三：优化输入预处理流水线实现零拷贝

内存映射文件替代常规读取

零拷贝带来的性能收益

技巧四：结合 Profile 工具定位性能瓶颈

理解 CPU 与内存剖析

使用 perf 进行性能分析

关键指标对比表

总结与展望

安全与可观测性的协同增强

未来基础设施形态

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具