ONNX Runtime for Java 跨平台 AI 推理实战指南 | 极客日志

JavaAIjava算法

ONNX Runtime for Java 跨平台 AI 推理实战指南

介绍 ONNX Runtime for Java 的核心优势、环境搭建及核心 API。通过 ResNet-50 图像分类实战案例，展示如何集成 OpenCV 进行预处理并执行推理。同时涵盖会话配置优化、数据处理优化及硬件加速（GPU/TensorRT）策略，解决模型加载、张量形状匹配等常见问题，帮助 Java 开发者高效部署 AI 模型。

协议工匠发布于 2026/3/27更新于 2026/5/2936 浏览

ONNX Runtime for Java 跨平台 AI 推理实战指南

在 AI 模型部署的场景中，ONNX（Open Neural Network Exchange）已成为模型格式的事实标准之一，而 ONNX Runtime 作为微软推出的高性能推理引擎，能够高效运行 ONNX 模型，支持多平台、多语言。本文将聚焦ONNX Runtime for Java，从环境搭建、核心 API、实战案例到性能优化，全方位讲解如何在 Java 项目中落地 ONNX 模型推理。

一、ONNX Runtime for Java 核心优势

ONNX Runtime 是一款跨平台的机器学习推理加速器，针对 Java 开发者，其核心优势体现在：

跨平台兼容：支持 Windows、Linux、macOS，以及 x86、ARM 等架构，适配 Java SE/EE、Android 等运行环境；
高性能推理：内置 CPU/GPU/TPU 加速，支持算子融合、内存优化、批量推理等优化策略；
低接入成本：Java API 设计简洁，与 ONNX 模型无缝衔接，无需重构模型即可部署；
生态兼容：支持 PyTorch、TensorFlow、Scikit-learn 等框架导出的 ONNX 模型，覆盖 CV、NLP、推荐系统等场景；
轻量级部署：可通过 Maven/Gradle 快速集成，无需依赖庞大的深度学习框架。

二、环境准备

2.1 系统与依赖要求

JDK 版本：8 及以上（推荐 11/17 LTS 版本）；
操作系统：Windows 10+/Linux (Ubuntu 18.04+)/macOS 10.15+；
可选依赖：CUDA 11.x+/cuDNN 8.x（如需 GPU 加速）。

2.2 集成 ONNX Runtime Java SDK

ONNX Runtime for Java 提供了 Maven/Gradle 依赖，也可手动下载 JNI 包集成。

方式 1：Maven 集成（推荐）

在 pom.xml 中添加以下依赖（请替换为最新版本，最新版本可在 Maven 中央仓库查询）：

<dependencies>
    <!-- ONNX Runtime Java 核心依赖 -->
    <dependency>
        <groupId>com.microsoft.onnxruntime</groupId>
        <artifactId>onnxruntime</artifactId>
        <version>1.17.3</version>
        <!-- 建议使用最新稳定版 -->
    </dependency>
    
    
        com.microsoft.onnxruntime
        onnxruntime-gpu
        1.17.3

相关免费在线工具

Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online

dependencies {
    implementation 'com.microsoft.onnxruntime:onnxruntime:1.17.3'
    // GPU 版本
    // implementation 'com.microsoft.onnxruntime:onnxruntime-gpu:1.17.3'
}

类名	核心作用
`OrtEnvironment`	ONNX Runtime 环境上下文，全局单例，管理资源生命周期
`OrtSession`	模型会话，加载 ONNX 模型并执行推理
`OrtSession.SessionOptions`	会话配置，设置推理设备（CPU/GPU）、优化级别等
`OrtTensor`	张量数据结构，封装输入 / 输出数据
`OrtShape`	张量形状描述，用于指定输入输出维度

import ai.onnxruntime.*;
import org.opencv.core.*;
import org.opencv.imgcodecs.Imgcodecs;
import org.opencv.imgproc.Imgproc;
import java.nio.FloatBuffer;
import java.util.Collections;
import java.util.Map;

public class ResNetInference {
    // ImageNet 均值和标准差
    private static final float[] MEAN = {0.485f, 0.456f, 0.406f};
    private static final float[] STD = {0.229f, 0.224f, 0.225f};
    private static final int INPUT_SIZE = 224;

    // 图像预处理：缩放、归一化、转置为 CHW 格式
    private static float[] preprocessImage(String imagePath) {
        // 加载 OpenCV（需添加 OpenCV 依赖）
        System.loadLibrary(Core.NATIVE_LIBRARY_NAME);
        // 读取图片
        Mat image = Imgcodecs.imread(imagePath);
        if (image.empty()) {
            throw new RuntimeException("读取图片失败：" + imagePath);
        }
        // 缩放为 224x224
        Mat resizedImage = new Mat();
        Imgproc.resize(image, resizedImage, new Size(INPUT_SIZE, INPUT_SIZE));
        // BGR 转 RGB
        Mat rgbImage = new Mat();
        Imgproc.cvtColor(resizedImage, rgbImage, Imgproc.COLOR_BGR2RGB);
        // 归一化并转换为 CHW 格式（通道在前）
        float[] inputData = new float[3 * INPUT_SIZE * INPUT_SIZE];
        int idx = 0;
        for (int c = 0; c < 3; c++) {
            for (int h = 0; h < INPUT_SIZE; h++) {
                for (int w = 0; w < INPUT_SIZE; w++) {
                    double pixel = rgbImage.get(h, w)[c];
                    // 归一化：(pixel/255 - mean) / std
                    float normalized = (float) ((pixel / 255.0 - MEAN[c]) / STD[c]);
                    inputData[idx++] = normalized;
                }
            }
        }
        return inputData;
    }

    // 执行推理
    public static String infer(String modelPath, String imagePath) throws OrtException {
        // 1. 创建 ONNX 环境
        try (OrtEnvironment env = OrtEnvironment.getEnvironment()) {
            // 2. 配置会话选项
            OrtSession.SessionOptions sessionOptions = new OrtSession.SessionOptions();
            // 设置 CPU 推理（如需 GPU，取消注释并配置 CUDA）
            // sessionOptions.addCUDA(0); // 使用第 0 块 GPU
            // 启用优化（LEVEL_1 为基础优化，LEVEL_2 包含更多算子融合）
            sessionOptions.setOptimizationLevel(OrtSession.SessionOptions.OptLevel.ALL_OPT);
            // 设置执行模式：SEQUENTIAL（单线程）/PARALLEL（多线程）
            sessionOptions.setExecutionMode(OrtSession.SessionOptions.ExecutionMode.SEQUENTIAL);

            // 3. 加载模型创建会话
            try (OrtSession session = env.createSession(modelPath, sessionOptions)) {
                // 4. 预处理图像，构造输入张量
                float[] inputData = preprocessImage(imagePath);
                // 定义输入形状：(1, 3, 224, 224)
                long[] inputShape = {1, 3, INPUT_SIZE, INPUT_SIZE};
                // 创建 FloatBuffer（ONNX Runtime 要求使用 DirectBuffer）
                FloatBuffer inputBuffer = FloatBuffer.allocateDirect(inputData.length);
                inputBuffer.put(inputData).rewind();
                // 封装输入张量
                try (OrtTensor inputTensor = OrtTensor.createTensor(env, inputBuffer, inputShape)) {
                    // 构造输入映射（key 为模型输入节点名称，可通过 Netron 查看）
                    Map<String, OrtTensor> inputs = Collections.singletonMap("data", inputTensor);

                    // 5. 执行推理
                    long startTime = System.currentTimeMillis();
                    try (OrtSession.Result result = session.run(inputs)) {
                        long inferTime = System.currentTimeMillis() - startTime;
                        System.out.println("推理耗时：" + inferTime + "ms");

                        // 6. 解析输出
                        // ResNet50 输出为 (1, 1000) 的张量，对应 1000 个类别概率
                        try (OrtTensor outputTensor = result.get(0).getTensor()) {
                            float[] outputData = (float[]) outputTensor.getValue();
                            // 找到概率最大的类别索引
                            int maxIndex = 0;
                            float maxProb = 0.0f;
                            for (int i = 0; i < outputData.length; i++) {
                                if (outputData[i] > maxProb) {
                                    maxProb = outputData[i];
                                    maxIndex = i;
                                }
                            }
                            // 映射标签（此处省略读取 synset.txt 的逻辑，可自行实现）
                            return "分类结果：索引=" + maxIndex + "，概率=" + maxProb;
                        }
                    }
                }
            }
        }
    }

    public static void main(String[] args) {
        try {
            String modelPath = "resnet50-v1-12.onnx";
            String imagePath = "cat.jpg";
            String result = infer(modelPath, imagePath);
            System.out.println(result);
        } catch (OrtException e) {
            e.printStackTrace();
        }
    }
}

<dependency>
    <groupId>org.openpnp</groupId>
    <artifactId>opencv</artifactId>
    <version>4.7.0-0</version>
</dependency>

sessionOptions.setGraphOptimizationLevel(OrtSession.SessionOptions.GraphOptimizationLevel.ORT_ENABLE_ALL);
sessionOptions.setPreferredOutputTensorFormat(OrtSession.SessionOptions.TensorFormat.ORT_TENSOR_FORMAT_FLOAT16);

CompletableFuture<OrtSession.Result> future = session.runAsync(inputs);
future.thenAccept(result -> {
    // 处理推理结果
    result.close();
});

sessionOptions.setIntraOpNumThreads(Runtime.getRuntime().availableProcessors());

sessionOptions.addConfigEntry("session.enable_tensorrt_engine", "1");
sessionOptions.addConfigEntry("tensorrt_fp16_enable", "1"); // 启用 FP16

ONNX Runtime for Java 跨平台 AI 推理实战指南

ONNX Runtime for Java 跨平台 AI 推理实战指南

一、ONNX Runtime for Java 核心优势

二、环境准备

2.1 系统与依赖要求

2.2 集成 ONNX Runtime Java SDK

方式 1：Maven 集成（推荐）

更多推荐文章

相关免费在线工具

方式 2：Gradle 集成

方式 3：手动下载

三、核心 API 解析

核心流程

四、实战案例：图像分类推理

4.1 准备工作

4.2 代码实现

步骤 1：工具类（图像预处理）

步骤 2：添加 OpenCV 依赖（图像预处理）

4.3 运行说明

五、性能优化策略

5.1 会话配置优化

5.2 数据处理优化

5.3 硬件加速

六、常见问题与解决方案

6.1 模型加载失败

6.2 张量形状不匹配

6.3 GPU 推理报错

6.4 性能低下

七、总结

参考资料

更多推荐文章

相关免费在线工具

ONNX Runtime for Java 跨平台 AI 推理实战指南

ONNX Runtime for Java 跨平台 AI 推理实战指南

一、ONNX Runtime for Java 核心优势

二、环境准备

2.1 系统与依赖要求

2.2 集成 ONNX Runtime Java SDK

方式 1：Maven 集成（推荐）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

方式 2：Gradle 集成

方式 3：手动下载

三、核心 API 解析

核心流程

四、实战案例：图像分类推理

4.1 准备工作

4.2 代码实现

步骤 1：工具类（图像预处理）

步骤 2：添加 OpenCV 依赖（图像预处理）

4.3 运行说明

五、性能优化策略

5.1 会话配置优化

5.2 数据处理优化

5.3 硬件加速

六、常见问题与解决方案

6.1 模型加载失败

6.2 张量形状不匹配

6.3 GPU 推理报错

6.4 性能低下

七、总结

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具