Spring Boot 基于 Flux 的流式响应实现与实战

背景

最近用 DeepSeek 或 OpenAI 这类大模型时，发现回复内容是一点点蹦出来的。这背后其实是流式传输（Streaming Response）在起作用。相比传统接口一次性吐完所有数据，流式返回能让用户边接收边处理，体验更流畅。

流式返回的核心价值

传统 Web 开发里，接口通常要等服务器算完所有数据才返回。流式模式则不同，它把响应拆成片段逐步推送。这样做有几个实实在在的好处：

体验更好：像聊天机器人或长文本生成，用户不用盯着空白页傻等，能立刻看到首字。
省内存：服务器不用缓存整个大包，高并发下 OOM 风险更低。
支持实时：天生适合日志监控、行情推送，配合 SSE 或 WebSocket 效果更佳。

Spring Boot 服务端实现

要在 Spring Boot 里搞流式，首选 WebFlux 和 Reactor 的 Flux。

先加依赖：

<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-webflux</artifactId>
</dependency>

控制器层面，关键是设置 produces = MediaType.TEXT_EVENT_STREAM_VALUE，告诉浏览器这是 SSE 格式。

@RestController
@RequestMapping("/api/chat")
public class ChatController {
    @PostMapping(produces = MediaType.TEXT_EVENT_STREAM_VALUE)
    public Flux<String> streamChat(@RequestBody ChatRequest request) {
        return callLargeModelApi(request.message())
            .doOnNext(chunk -> log.info("发送响应片段：{}", chunk))
            .doOnError(error -> log.error("流式处理出错", error));
    }

    private Flux<String> callLargeModelApi(String prompt) {
        // 实际项目替换为真实调用逻辑
        return Flux.just("您好！", ,  + prompt)
            .delayElements(Duration.ofMillis());
    }
}

public Flux<ChatMessageResponse> processRealMessage(ChatMessageRequest request) throws ChatBaseException { // 构建历史会话上下文 List<Message> messages = new ArrayList<>(); List<ChatMessage> chatMessages = this.chatMessageService.getConversationMessage(request.getSessionId(), 1, 20); for (ChatMessage cm : chatMessages) { if (Constants.MESSAGE_ROLE_USER.equals(cm.getRole())) { messages.add(new UserMessage(cm.getContent())); } else { messages.add(new AssistantMessage(cm.getContent())); } } // 记录当前输入 ChatMessage userMsg = new ChatMessage(); userMsg.setContent(request.getContent()); userMsg.setType("text"); userMsg.setRole(Constants.MESSAGE_ROLE_USER); chatMessageService.insertMessage(request.getSessionId(), userMsg); StringBuilder sb = new StringBuilder(); return this.chatClient.prompt() .messages(messages) .user(request.getContent()) .stream() .chatResponse() .doOnNext(response -> { String content = response.getResult().getOutput().getText(); if (StringUtils.isNotBlank(content)) { sb.append(content); } }) .doOnComplete(() -> { // 流结束，持久化完整内容 String fullContent = sb.toString(); LOGGER.info("收到模型原始响应结束：" + fullContent); ChatMessage assistantMsg = new ChatMessage(); assistantMsg.setContent(fullContent); assistantMsg.setType("text"); assistantMsg.setRole(Constants.MESSAGE_ROLE_ASSISTENT); try { chatMessageService.insertMessage(request.getSessionId(), assistantMsg); } catch (ChatBaseException e) { LOGGER.error("保存消息失败", e); } }) .map(response -> { String content = response.getResult().getOutput().getText(); // 尝试获取推理内容 String thinking = ""; if (response.getResults() != null && !response.getResults().isEmpty()) { thinking = response.getResults().get(0).getOutput().getMetadata().get("reasoningContent").toString(); } if (StringUtils.isNotEmpty(content)) { return new ChatMessageResponse("content", content); } else if (StringUtils.isNotEmpty(thinking)) { return new ChatMessageResponse("thinking", thinking); } else { return new ChatMessageResponse("done", ""); } }); }

Spring Boot 基于 Flux 的流式响应实现与实战

背景

流式返回的核心价值

Spring Boot 服务端实现

更多推荐文章

相关免费在线工具

浏览器端怎么接？

对接大模型实战

更多推荐文章

相关免费在线工具

Spring Boot 基于 Flux 的流式响应实现与实战

背景

流式返回的核心价值

Spring Boot 服务端实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

浏览器端怎么接？

对接大模型实战

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具