ONNX Runtime for Java 实战：模型部署与性能优化指南

在 AI 模型部署的场景中，ONNX（Open Neural Network Exchange）已成为事实标准之一。作为微软推出的高性能推理引擎，ONNX Runtime 能够高效运行 ONNX 模型，支持多平台、多语言。本文将聚焦 ONNX Runtime for Java，从环境搭建、核心 API、实战案例到性能优化，全方位讲解如何在 Java 项目中落地 ONNX 模型推理。

一、核心优势

对于 Java 开发者而言，ONNX Runtime 的核心价值主要体现在以下几个方面：

跨平台兼容：支持 Windows、Linux、macOS，以及 x86、ARM 等架构，适配 Java SE/EE、Android 等运行环境；
高性能推理：内置 CPU/GPU/TPU 加速，支持算子融合、内存优化、批量推理等策略；
低接入成本：Java API 设计简洁，与 ONNX 模型无缝衔接，无需重构模型即可部署；
生态兼容：支持 PyTorch、TensorFlow、Scikit-learn 等框架导出的 ONNX 模型，覆盖 CV、NLP、推荐系统等场景；
轻量级部署：可通过 Maven/Gradle 快速集成，无需依赖庞大的深度学习框架。

二、环境准备

2.1 系统与依赖要求

JDK 版本：8 及以上（推荐 11/17 LTS 版本）；
操作系统：Windows 10+/Linux (Ubuntu 18.04+)/macOS 10.15+；
可选依赖：CUDA 11.x+/cuDNN 8.x（如需 GPU 加速）。

2.2 集成 SDK

ONNX Runtime for Java 提供了标准的构建工具依赖，也可手动下载 JNI 包集成。

方式 1：Maven 集成（推荐）

在 pom.xml 中添加以下依赖（请替换为最新版本，建议查阅 Maven 中央仓库确认）：

<dependencies>
    <!-- ONNX Runtime Java 核心依赖 -->
    <dependency>
        <groupId>com.microsoft.onnxruntime</groupId>
        <artifactId>onnxruntime</artifactId>
        <version>1.17.3</version>
    </dependency>
    
    <!-- 若需 GPU 加速，添加 GPU 版本依赖（需匹配 CUDA 版本） -->
    <dependency>
        <>com.microsoft.onnxruntime
        onnxruntime-gpu
        1.17.3

类名	核心作用
`OrtEnvironment`	ONNX Runtime 环境上下文，全局单例，管理资源生命周期
`OrtSession`	模型会话，加载 ONNX 模型并执行推理
`OrtSession.SessionOptions`	会话配置，设置推理设备（CPU/GPU）、优化级别等
`OrtTensor`	张量数据结构，封装输入 / 输出数据
`OrtShape`	张量形状描述，用于指定输入输出维度

import ai.onnxruntime.*; import org.opencv.core.*; import org.opencv.imgcodecs.Imgcodecs; import org.opencv.imgproc.Imgproc; import java.nio.FloatBuffer; import java.util.Collections; import java.util.Map; public class ResNetInference { // ImageNet 均值和标准差 private static final float[] MEAN = {0.485f, 0.456f, 0.406f}; private static final float[] STD = {0.229f, 0.224f, 0.225f}; private static final int INPUT_SIZE = 224; // 图像预处理：缩放、归一化、转置为 CHW 格式 private static float[] preprocessImage(String imagePath) { // 加载 OpenCV（需添加 OpenCV 依赖） System.loadLibrary(Core.NATIVE_LIBRARY_NAME); Mat image = Imgcodecs.imread(imagePath); if (image.empty()) { throw new RuntimeException("读取图片失败：" + imagePath); } // 缩放为 224x224 Mat resizedImage = new Mat(); Imgproc.resize(image, resizedImage, new Size(INPUT_SIZE, INPUT_SIZE)); // BGR 转 RGB Mat rgbImage = new Mat(); Imgproc.cvtColor(resizedImage, rgbImage, Imgproc.COLOR_BGR2RGB); // 归一化并转换为 CHW 格式（通道在前） float[] inputData = new float[3 * INPUT_SIZE * INPUT_SIZE]; int idx = 0; for (int c = 0; c < 3; c++) { for (int h = 0; h < INPUT_SIZE; h++) { for (int w = 0; w < INPUT_SIZE; w++) { double pixel = rgbImage.get(h, w)[c]; // 归一化：(pixel/255 - mean) / std float normalized = (float) ((pixel / 255.0 - MEAN[c]) / STD[c]); inputData[idx++] = normalized; } } } return inputData; } // 执行推理 public static String infer(String modelPath, String imagePath) throws OrtException { try (OrtEnvironment env = OrtEnvironment.getEnvironment()) { // 配置会话选项 OrtSession.SessionOptions sessionOptions = new OrtSession.SessionOptions(); // 设置 CPU 推理（如需 GPU，取消注释并配置 CUDA） // sessionOptions.addCUDA(0); // 使用第 0 块 GPU // 启用优化（LEVEL_1 为基础优化，LEVEL_2 包含更多算子融合） sessionOptions.setOptimizationLevel(OrtSession.SessionOptions.OptLevel.ALL_OPT); // 设置执行模式：SEQUENTIAL（单线程）/PARALLEL（多线程） sessionOptions.setExecutionMode(OrtSession.SessionOptions.ExecutionMode.SEQUENTIAL); // 加载模型创建会话 try (OrtSession session = env.createSession(modelPath, sessionOptions)) { // 预处理图像，构造输入张量 float[] inputData = preprocessImage(imagePath); // 定义输入形状：(1, 3, 224, 224) long[] inputShape = {1, 3, INPUT_SIZE, INPUT_SIZE}; // 创建 FloatBuffer（ONNX Runtime 要求使用 DirectBuffer） FloatBuffer inputBuffer = FloatBuffer.allocateDirect(inputData.length); inputBuffer.put(inputData).rewind(); // 封装输入张量 try (OrtTensor inputTensor = OrtTensor.createTensor(env, inputBuffer, inputShape)) { // 构造输入映射（key 为模型输入节点名称，可通过 Netron 查看） Map<String, OrtTensor> inputs = Collections.singletonMap("data", inputTensor); // 执行推理 long startTime = System.currentTimeMillis(); try (OrtSession.Result result = session.run(inputs)) { long inferTime = System.currentTimeMillis() - startTime; System.out.println("推理耗时：" + inferTime + "ms"); // 解析输出 // ResNet50 输出为 (1, 1000) 的张量，对应 1000 个类别概率 try (OrtTensor outputTensor = result.get(0).getTensor()) { float[] outputData = (float[]) outputTensor.getValue(); // 找到概率最大的类别索引 int maxIndex = 0; float maxProb = 0.0f; for (int i = 0; i < outputData.length; i++) { if (outputData[i] > maxProb) { maxProb = outputData[i]; maxIndex = i; } } // 映射标签（此处省略读取 synset.txt 的逻辑，可自行实现） return "分类结果：索引=" + maxIndex + "，概率=" + maxProb; } } } } } } public static void main(String[] args) { try { String modelPath = "resnet50-v1-12.onnx"; String imagePath = "cat.jpg"; String result = infer(modelPath, imagePath); System.out.println(result); } catch (OrtException e) { e.printStackTrace(); } } }

ONNX Runtime for Java 实战：模型部署与性能优化指南