Spring AI ImageModel 集成 OpenAI DALL-E 图像生成指南 | 极客日志

JavaAIjava

Spring AI ImageModel 集成 OpenAI DALL-E 图像生成指南

Spring AI ImageModel 封装了调用 OpenAI DALL-E 图像生成模型的细节。文章介绍了前置条件如 API Key 获取与配置，依赖添加及自动配置机制。详细解析了连接属性、重试机制及图像生成参数配置，区分 DALL-E-2 与 DALL-E-3 的差异。通过代码示例演示了基础调用、URL 返回及 Base64 数据返回三种方式，对比了两种响应格式的适用场景。最后涵盖手动配置、可观测性及常见问题排错，帮助开发者快速集成 AI 图像生成功能。

虚拟内存发布于 2026/2/26更新于 2026/7/2556 浏览

Spring AI ImageModel 集成 OpenAI DALL-E 图像生成指南

本文定位：这是一篇基于 Spring AI 官方文档的二次创作。本文将按照官方文档的结构，逐节用通俗易懂的语言重新解读，并结合真实项目代码帮助你理解每一个知识点。

1. 官方文档说了什么？——全局概览

打开 Spring AI 官方文档的 OpenAI Image Generation 页面，你会发现它的结构大致如下：

OpenAI Image Generation
├── Prerequisites → 前置条件（API Key 怎么获取）
├── Auto-configuration → 自动配置（加什么依赖）
│   └── Image Generation Properties → 配置属性（有哪些参数可以调）
│       ├── Connection Properties → 连接相关
│       ├── Retry Properties → 重试机制
│       └── Configuration Properties → 图像生成参数
└── Runtime Options → 运行时选项（代码中怎么动态设置参数）

官方原文：Spring AI supports DALL-E, the Image generation model from OpenAI.

翻译：Spring AI 支持 OpenAI 的 DALL-E 图像生成模型。

一句话就点明了主题——Spring AI 帮我们封装好了调用 OpenAI DALL-E 的全部细节，开发者只需要关心"传什么参数"和"怎么拿结果"。

2. 背景知识：什么是 DALL-E 和 ImageModel

在阅读官方文档之前，先搞清楚两个基础概念。

2.1 DALL-E 是什么？

DALL-E 是 OpenAI 开发的 AI 图像生成模型。你给它一段文字描述（叫做 prompt，提示词），它就能生成一张与描述匹配的图片。

目前有两个版本：

模型	特点
DALL-E-2	较早版本，支持批量生成（最多 10 张），尺寸选择较少
DALL-E-3	最新版本（默认），图片质量更高，支持 `style` 和 `quality` 参数，但每次只能生成 1 张

2.2 ImageModel 是什么？

ImageModel 是 Spring AI 框架定义的一个 Java 接口，它把"调用 AI 生成图片"这件事抽象成了一个标准方法：

public interface ImageModel {
    ImageResponse call(ImagePrompt prompt);
}

你可以把它理解为一个"图片生成器"的通用规范：

输入：ImagePrompt（提示词 + 生成选项）
输出：ImageResponse（生成结果，包含图片数据）

不同 AI 厂商各自提供实现类：

ImageModel（接口）
├── OpenAiImageModel → OpenAI DALL-E（本文使用）
├── AzureOpenAiImageModel → Azure OpenAI
├── StabilityAiImageModel → Stability AI
├── ZhiPuAiImageModel → 智谱 AI
└── QianFanImageModel → 百度千帆

相关免费在线工具

Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online

类名	官方文档对应	通俗解释
`ImageModel`	核心接口	"图片生成器"的规范
`OpenAiImageModel`	OpenAI 实现	具体的 OpenAI'图片生成器'
`ImagePrompt`	请求对象	把"我要什么图"封装成一个请求
`ImageMessage`	消息对象	一条图片描述文本（可设权重）
`OpenAiImageOptions`	Runtime Options	控制生成参数的选项对象
`ImageResponse`	响应对象	AI 返回的生成结果
`ImageGeneration`	单张结果	一张图片的具体数据

┌──────────────────────────────────────────────────────┐
│ 你的 Spring Boot 应用                                 │
│                                                      │
│ 1. 构建 OpenAiImageOptions（设置质量、尺寸、风格等） │
│ ↓                                                    │
│ 2. 构建 ImagePrompt（提示词 + Options）              │
│ ↓                                                    │
│ 3. 调用 openAiImageModel.call(prompt)                │
│ ↓                                                    │
│ ┌──── Spring AI 框架 ────┐                          │
│ │ 组装 HTTP 请求         │                          │
│ │ 发送到 OpenAI API      │ ← 底层自动处理           │
│ │ 解析响应结果           │                          │
│ └────────────────────────┘                          │
│ ↓                                                    │
│ 4. 拿到 ImageResponse                                │
│ ↓                                                    │
│ 5. 通过 .getResult().getOutput() 获取图片 URL/Base64 │
└──────────────────────────────────────────────────────┘

# application.properties
spring.ai.openai.api-key=sk-xxxxxxxxxxxxxxxx

# application.yml
spring:
  ai:
    openai:
      api-key: ${OPENAI_API_KEY}

# Linux / macOS
export OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxx

# Windows PowerShell
$env:OPENAI_API_KEY="sk-xxxxxxxxxxxxxxxx"

# Windows CMD
set OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxx

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-starter-model-openai</artifactId>
</dependency>

dependencies {
    implementation 'org.springframework.ai:spring-ai-starter-model-openai'
}

# 启用 OpenAI 图像模型（默认就是开启的）
spring.ai.model.image=openai
# 禁用图像模型
spring.ai.model.image=none

属性	说明	默认值	什么时候需要改？
`spring.ai.openai.base-url`	API 服务器地址	`https://api.openai.com`	使用代理或第三方兼容服务时
`spring.ai.openai.api-key`	API 密钥	无	必填
`spring.ai.openai.organization-id`	组织 ID	无	属于多个组织时，指定使用哪个
`spring.ai.openai.project-id`	项目 ID	无	需要区分不同项目的用量时

属性	说明	默认值	通俗解释
`spring.ai.retry.max-attempts`	最大重试次数	10	最多尝试几次
`spring.ai.retry.backoff.initial-interval`	首次重试等待时间	2 秒	第一次失败后等多久再试
`spring.ai.retry.backoff.multiplier`	等待时间倍增因子	5	每次重试等待时间是上次的几倍
`spring.ai.retry.backoff.max-interval`	最大等待时间	3 分钟	等待时间不超过这个上限
`spring.ai.retry.on-client-errors`	4xx 错误是否重试	false	参数错误（如 400）不重试
`spring.ai.retry.exclude-on-http-codes`	排除特定 HTTP 状态码	空	指定哪些错误码不重试
`spring.ai.retry.on-http-codes`	指定重试的 HTTP 状态码	空	指定哪些错误码要重试

属性	说明	默认值	详细解释
`spring.ai.openai.image.options.model`	模型	`dall-e-3`	选择使用哪个 DALL-E 版本
`spring.ai.openai.image.options.n`	生成数量	-	一次生成几张图。DALL-E-2 支持 1~10，DALL-E-3 只支持 1
`spring.ai.openai.image.options.quality`	图片质量	-	`standard`（标准）或 `hd`（高清，更精细）。仅 DALL-E-3 支持
`spring.ai.openai.image.options.response_format`	响应格式	-	`url`（返回图片链接）或 `b64_json`（返回 Base64 编码）
`spring.ai.openai.image.options.size`	图片尺寸	-	如 `1024x1024`。不同模型支持的尺寸不同（见下文）
`spring.ai.openai.image.options.size_width`	图片宽度	-	也可以单独设置宽度
`spring.ai.openai.image.options.size_height`	图片高度	-	也可以单独设置高度
`spring.ai.openai.image.options.style`	图片风格	-	`vivid`（鲜艳夸张）或 `natural`（自然写实）。仅 DALL-E-3 支持
`spring.ai.openai.image.options.user`	用户标识	-	传给 OpenAI 用于监控和滥用检测

	DALL-E-2	DALL-E-3
支持尺寸	`256x256`、`512x512`、`1024x1024`	`1024x1024`、`1792x1024`（横版）、`1024x1792`（竖版）
支持 quality	❌ 不支持	✅ `standard` / `hd`
支持 style	❌ 不支持	✅ `vivid` / `natural`
最大生成数 N	10	1（只能生成 1 张）

spring:
  ai:
    openai:
      api-key: ${OPENAI_API_KEY}
      image:
        options:
          model: dall-e-3 # 使用 DALL-E-3 模型
          quality: hd     # 高清质量
          size: 1024x1024 # 图片尺寸
          style: vivid    # 鲜艳风格
          n: 1            # 每次生成 1 张

spring:
  ai:
    openai:
      image:
        options:
          model: dall-e-3
          quality: standard

ImageResponse response = openaiImageModel.call(new ImagePrompt("A light cream colored mini golden doodle",
    OpenAiImageOptions.builder()
        .quality("hd") // 覆盖默认的 "standard"，这次用 "hd"
        .N(1)
        .height(1024)
        .width(1024)
        .build()));

Builder 方法	对应配置属性	类型	可选值	说明
`.model()`	`options.model`	String	`dall-e-2`, `dall-e-3`	选择 DALL-E 模型版本
`.quality()`	`options.quality`	String	`standard`, `hd`	图片质量。`hd` = 更精细，仅 DALL-E-3
`.N()`	`options.n`	Integer	1~10	生成数量。DALL-E-3 只能为 1
`.height()`	`options.size_height`	Integer	256, 512, 1024	图片高度（像素）
`.width()`	`options.size_width`	Integer	256, 512, 1024	图片宽度（像素）
`.style()`	`options.style`	String	`vivid`, `natural`	图片风格，仅 DALL-E-3
`.responseFormat()`	`options.response_format`	String	`url`, `b64_json`	返回格式
`.user()`	`options.user`	String	任意	终端用户标识

// 方式一：只传提示词，使用全局默认配置
ImagePrompt prompt1 = new ImagePrompt("一只可爱的猫咪");

// 方式二：提示词 + 运行时选项（最常用）
ImagePrompt prompt2 = new ImagePrompt("一只可爱的猫咪", OpenAiImageOptions.builder()
    .quality("hd")
    .N(1)
    .height(1024)
    .width(1024)
    .build());

// 方式三：使用 ImageMessage 对象（支持设置权重）
ImageMessage message = new ImageMessage("太空站内部景观，高科技感", 1.2f);
ImagePrompt prompt3 = new ImagePrompt(message, OpenAiImageOptions.builder().build());

private final ImageModel imageModel;

@Autowired
public ImageController(ImageModel imageModel) {
    this.imageModel = imageModel;
}

@RequestParam(value = "prompt", defaultValue = "A light cream colored mini golden doodle") String prompt

ImageResponse response = this.imageModel.call(new ImagePrompt(prompt, OpenAiSdkImageOptions.builder()
    .quality("hd")
    .N(1)
    .width(1024)
    .height(1024)
    .build()));

String imageUrl = response.getResult().getOutput().getUrl();
return Map.of("url", imageUrl);

@Autowired
private OpenAiImageModel openAiImageModel;

@RequestMapping("/image")
public void image() {
    ImageResponse response = openAiImageModel.call(new ImagePrompt("A light cream colored mini golden doodle",
        OpenAiImageOptions.builder()
            .quality("hd")
            .N(1)
            .height(1024)
            .width(1024)
            .build()));
    String imageUrl = response.getResult().getOutput().getUrl();
    System.out.println(imageUrl);
}

对比项	官方示例	我们的代码
注入类型	`ImageModel`（接口）	`OpenAiImageModel`（实现类）
注入方式	构造器注入	`@Autowired` 字段注入
返回方式	返回 JSON `{"url": "..."}`	打印到控制台

@RequestMapping("/image2")
public void image2(HttpServletResponse response) throws IOException {
    ImageResponse imageResponse = openAiImageModel.call(new ImagePrompt("孩子在海边玩耍",
        OpenAiImageOptions.builder()
            .quality("standard")
            .N(1)
            .height(1024)
            .width(1024)
            .style("natural")
            .build()));
    String imageUrl = imageResponse.getResult().getOutput().getUrl();
    try {
        URL url = URI.create(imageUrl).toURL();
        InputStream in = url.openStream();
        // 输出到浏览器
        response.setHeader("Content-Type", MediaType.IMAGE_JPEG_VALUE);
        response.getOutputStream().write(in.readAllBytes());
        response.getOutputStream().flush();
    } catch (IOException e) {
        response.setStatus(HttpServletResponse.SC_INTERNAL_SERVER_ERROR);
    }
}

OpenAI 返回图片临时 URL
↓
URI.create(imageUrl).toURL() // 将字符串转为 URL 对象
↓
url.openStream() // 打开网络输入流，下载图片
↓
response.setHeader("Content-Type", "image/jpeg") // 告诉浏览器这是图片
↓
response.getOutputStream().write(in.readAllBytes()) // 写入响应
↓
浏览器直接展示图片

@RequestMapping("/image3")
public void image3(HttpServletResponse response) throws IOException {
    ImageResponse imageResponse = openAiImageModel.call(new ImagePrompt("孩子在海边玩耍",
        OpenAiImageOptions.builder()
            .quality("standard")
            .N(1)
            .height(1024)
            .width(1024)
            .responseFormat("b64_json") // 关键：指定返回 Base64
            .style("natural")
            .build()));
    // 注意：这里用的是 getB64Json() 而不是 getUrl()
    String b64Json = imageResponse.getResult().getOutput().getB64Json();
    try {
        // 把 Base64 字符串解码为字节数组
        byte[] decode = Base64.getDecoder().decode(b64Json);
        // 输出到浏览器
        response.setHeader("Content-Type", MediaType.IMAGE_JPEG_VALUE);
        response.getOutputStream().write(decode);
        response.getOutputStream().flush();
    } catch (IOException e) {
        response.setStatus(HttpServletResponse.SC_INTERNAL_SERVER_ERROR);
    }
}

对比项	image2（URL 方式）	image3（Base64 方式）
`responseFormat`	不设置（默认 `url`）	`"b64_json"`
获取数据	`.getOutput().getUrl()`	`.getOutput().getB64Json()`
后续处理	需要通过 URL 下载图片字节	直接用 `Base64.getDecoder().decode()` 解码
是否有网络延迟	有（需要二次下载）	无（数据已在响应中）

对比维度	`url` 格式（默认）	`b64_json` 格式
响应内容	图片的临时访问 URL	图片的 Base64 编码字符串
获取图片的 Java 方法	`getOutput().getUrl()`	`getOutput().getB64Json()`
响应体积	很小（只有 URL 字符串）	很大（整张图片编码后的文本）
链接有效期	约 1 小时后失效	不存在链接问题，数据在手
获取图片数据	需通过 URL 二次下载	直接 Base64 解码即可
适用场景	前端直接用 `<img src="url">` 展示	需要保存到数据库/文件/OSS
网络稳定性要求	需要两次网络请求	一次请求搞定

// 1. 构建默认选项
var imageOptions = OpenAiImageOptions.builder()
    .model("dall-e-3")
    .quality("hd")
    .build();

// 2. 手动创建 ImageModel（SDK 版本示例）
var imageModel = new OpenAiSdkImageModel(imageOptions);

// 3. 调用生成
ImageResponse response = imageModel.call(new ImagePrompt("A light cream colored mini golden doodle",
    OpenAiSdkImageOptions.builder()
        .N(1)
        .width(1024)
        .height(1024)
        .build()));

@Autowired
private OpenAiAudioSpeechModel openAiAudioSpeechModel;

@RequestMapping("/tts")
public void tts() {
    // 1. 构建语音选项（类比 OpenAiImageOptions）
    OpenAiAudioSpeechOptions speechOptions = OpenAiAudioSpeechOptions.builder()
        .model("tts-1")
        .voice(OpenAiAudioApi.SpeechRequest.Voice.NOVA)
        .responseFormat(OpenAiAudioApi.SpeechRequest.AudioResponseFormat.OPUS)
        .speed(1.0f)
        .build();

    // 2. 构建语音请求（类比 ImagePrompt）
    SpeechPrompt speechPrompt = new SpeechPrompt("小池，泉眼无声惜细流，树阴照水爱晴柔。小荷才露尖尖角，早有蜻蜓立上头", speechOptions);

    // 3. 调用模型生成语音（类比 imageModel.call()）
    SpeechResponse response = openAiAudioSpeechModel.call(speechPrompt);

    // 4. 将语音数据写入文件
    File file = new File(System.getProperty("user.dir") + "/output.opus");
    try (FileOutputStream fos = new FileOutputStream(file)) {
        fos.write(response.getResult().getOutput());
    } catch (IOException e) {
        log.error("文件写入失败，e:", e);
    }
}

步骤	图像生成（ImageModel）	语音生成（SpeechModel）
模型类	`OpenAiImageModel`	`OpenAiAudioSpeechModel`
选项类	`OpenAiImageOptions`	`OpenAiAudioSpeechOptions`
请求类	`ImagePrompt`	`SpeechPrompt`
响应类	`ImageResponse`	`SpeechResponse`
输出类型	图片 URL / Base64	音频字节数组
调用方式	`imageModel.call(prompt)`	`speechModel.call(prompt)`

官方文档章节	本文对应	核心要点
Prerequisites	第 3 章	获取并安全配置 API Key
Auto-configuration	第 4 章	加一个 Starter 依赖即可自动注入 ImageModel
Configuration Properties	第 5 章	连接、重试、图像生成三类属性，DALL-E-2 与 DALL-E-3 参数差异
Runtime Options	第 6 章	两层配置机制——全局默认 + 运行时覆盖
Sample Controller	第 7 章	官方示例逐行解读
Manual Configuration	第 10 章	非 Spring Boot 项目的手动配置方式
Observability	第 11 章	通过 Micrometer 监控模型调用

Spring AI ImageModel 集成 OpenAI DALL-E 图像生成指南

1. 官方文档说了什么？——全局概览

2. 背景知识：什么是 DALL-E 和 ImageModel

2.1 DALL-E 是什么？

2.2 ImageModel 是什么？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 核心类一览

2.4 调用流程图

3. 前置条件（Prerequisites）

3.1 获取 API Key

3.2 配置 API Key

4. 自动配置（Auto-configuration）

什么是"自动配置"？

添加依赖

启用/禁用图像模型

5. 配置属性详解（Configuration Properties）

5.1 连接属性（Connection Properties）

5.2 重试属性（Retry Properties）

5.3 图像模型属性（Image Generation Properties）

DALL-E-2 与 DALL-E-3 支持的尺寸对比

配置文件完整示例

6. 运行时选项（Runtime Options）——官方文档核心

第一层：默认配置（启动时生效）

第二层：运行时覆盖（每次请求可不同）

OpenAiImageOptions Builder 完整参数

ImagePrompt 的多种构造方式

7. 官方示例控制器解读（Sample Controller）

8. 实战进阶：三种图片生成方式（结合项目代码）

8.1 基础调用——获取图片 URL

8.2 URL 方式——下载图片返回给浏览器

8.3 Base64 方式——直接返回图片数据

9. 两种响应格式深度对比：URL vs Base64

选择建议

10. 手动配置（Manual Configuration）

11. 可观测性（Observability）

12. 扩展阅读：SpeechModel 语音生成（类比理解 Spring AI 统一设计）

类比对照表

13. 常见问题与排错指南

Q1：调用报 401 Unauthorized？

Q2：调用报 400 Bad Request？

Q3：图片 URL 过期了怎么办？

Q4：生成速度很慢？

Q5：可以生成多张图片吗？

14. 总结

15. 参考资料

Spring AI 官方文档

OpenAI 官方文档

其他

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

`OpenAiImageOptions` Builder 完整参数

`ImagePrompt` 的多种构造方式