Python

Spring AI Alibaba + Ollama 实战：基于本地 Qwen3 的 Spring Boot 大模型应用

综述由AI生成在大模型快速演进的今天，Java 开发者同样希望'开箱即用'地接入各类模型服务。Spring 官方推出的 Spring AI，已经为 Java / Spring Boot 应用提供了一套统一、优雅的 AI 抽象；而在国内模型生态中，如何更好地对接阿里云通义（Qwen）与灵积平台（DashScope），则是 Spring AI Alibaba 重点解决的问题。基于仓库中的 spring_ai_…

板砖工程师发布于 2026/4/6更新于 2026/5/2542K 浏览

Spring AI Alibaba + Ollama 实战：基于本地 Qwen3 的 Spring Boot 大模型应用

在大模型快速演进的今天，Java 开发者同样希望'开箱即用'地接入各类模型服务。Spring 官方推出的 Spring AI，已经为 Java / Spring Boot 应用提供了一套统一、优雅的 AI 抽象；而在国内模型生态中，如何更好地对接阿里云通义（Qwen）与灵积平台（DashScope），则是 Spring AI Alibaba 重点解决的问题。

本文基于仓库中的 spring_ai_alibaba-demo 子项目，从真实代码出发，带你一起拆解：如何用 Spring AI + Spring AI Alibaba 的生态，在本地通过 Ollama 跑 Qwen3 模型，并逐步扩展到 RAG、工具调用和 Graph 工作流。

GitHub 项目地址：https://github.com/zhouByte-hub/java-ai/tree/main/spring_ai_alibaba-demo
欢迎 Star、Fork 和关注！文中所有代码都可以在该子项目中找到，更适合边读边跑。

面向读者：

已有 Spring Boot 基础，希望快速接入大模型的后端开发；
计划在本地或内网环境使用 Qwen3 等模型（通过 Ollama），但又希望未来平滑切到阿里云 DashScope；
想了解 Spring AI Alibaba 在 Graph、RAG、工具调用等场景中的作用和优势。

一、项目概览：Spring AI + Spring AI Alibaba 在这个 Demo 里的分工

spring_ai_alibaba-demo 是一个多模块示例工程，核心模块包括：

根模块 spring_ai_alibaba-demo：
- 使用 Spring AI 的 spring-ai-starter-model-ollama 接入本地 Ollama 服务；
- 使用 spring-ai-starter-vector-store-pgvector 集成 PostgreSQL + PgVector 做向量检索；
- 通过 ChatModel / ChatClient 演示基础对话、RAG、工具调用和记忆；
- 通过依赖管理引入 spring-ai-alibaba-bom，为后续接入阿里云生态（包括 DashScope、Graph 等）奠定基础。
子模块 alibaba-graph：
- 使用 spring-ai-alibaba-graph-core 演示基于大模型的有状态流程（StateGraph），依然以 Ollama 的 Qwen3 作为底层模型；
子模块 alibaba-mcp-server / alibaba-mcp-client：
- 使用 Spring AI 的 MCP 能力演示模型调用外部工具 / 资源的模式。

换句话说：

当前 Demo 没有直接连阿里云 DashScope，而是选择在本地通过 Ollama 运行 Qwen3 模型；
但项目在依赖管理和结构设计上，已经完全站在 Spring AI Alibaba 生态 之上，随时可以切换到阿里云在线服务。

接下来，我们按'从简单到复杂'的顺序，依次看看各个模块是怎么搭建的。

二、依赖与环境：本地 Qwen3 + PgVector

先看根模块 spring_ai_alibaba-demo/pom.xml 中的关键部分：

<properties>171.1.0.0-M51.1.0org.springframework.bootspring-boot-starter-weborg.springframework.aispring-ai-starter-model-ollamaorg.springframework.aispring-ai-starter-vector-store-pgvectororg.postgresqlpostgresqlcom.alibaba.cloud.aispring-ai-alibaba-bom${spring-ai-alibaba.version}pomimportorg.springframework.aispring-ai-bom${spring-ai.version}pomimport

server:port:8081# 应用监听端口servlet:context-path: /alibaba-ai # 统一的服务前缀spring:ai:ollama:base-url: http://localhost:11434# 本地 Ollama 服务地址chat:options:model: qwen3:0.6b # 聊天用的 Qwen3 模型名称temperature:0.8# 采样温度，越高回答越发散embedding:options:model: qwen3-embedding:0.6b # 用于向量化的 embedding 模型vectorstore:pgvector:dimensions:1024# 向量维度，需要与 embedding 模型输出一致distance-type: cosine_distance # 相似度度量方式initialize-schema:true# 启动时自动创建 PgVector 表结构datasource:url: jdbc:postgresql://<your-host>:5432/postgres?serverTimezone=Asia/Shanghai # PostgreSQL 连接串username: postgres password:****# 建议通过环境变量或配置中心注入

@RestController@RequestMapping("/chatModel")publicclassChatModelController{// 注入由 Spring AI 自动装配的 Ollama ChatModelprivatefinalChatModel ollamaChatModel;publicChatModelController(ChatModel ollamaChatModel){this.ollamaChatModel = ollamaChatModel;}@GetMapping("/chat")publicFlux<String>chat(@RequestParam("message")String message){// message：用户输入的自然语言问题return ollamaChatModel.stream(newPrompt(message))// 以流式方式调用大模型.map(ChatResponse::getResult)// 提取每个增量响应的结果对象.mapNotNull(result -> result.getOutput().getText());// 只保留最终输出的文本内容}}

@RestController@RequestMapping("/chatClient")publicclassChatClientController{// 基于 ChatModel 封装的高级客户端，后续可以挂接 Adviser、工具等能力privatefinalChatClient ollamaChatClient;publicChatClientController(ChatClient ollamaChatClient){this.ollamaChatClient = ollamaChatClient;}@GetMapping("/chat")publicFlux<String>stream(@RequestParam("message")String message){// 使用最简单的 Prompt，直接将用户输入交给大模型，并以流式方式返回结果return ollamaChatClient .prompt(newPrompt(message))// 构造 Prompt 对象.stream()// 流式调用.content();// 提取文本内容}@GetMapping("/prompt")publicFlux<String>prompt(){PromptTemplate template =PromptTemplate.builder().template("请用简短中文回答：{question}")// 模板中定义占位符 {question}.variables(Map.of())// 这里可以预先声明变量，也可以在 create 时传入.build();// 使用实际问题填充模板变量Prompt prompt = template.create(Map.of("question","Spring AI Alibaba 有什么特点？"));return ollamaChatClient.prompt(prompt).stream().content();}}

@ComponentpublicclassSimpleMemoriesimplementsChatMemory{privatestaticfinalMap<String,List<Message>> MEMORIES_CACHE =newHashMap<>();@Overridepublicvoidadd(String conversationId,List<Message> messages){// conversationId：会话标识；messages：本轮新增的消息列表List<Message> memories = MEMORIES_CACHE.getOrDefault(conversationId,newArrayList<>());if(messages !=null&&!messages.isEmpty()){ memories.addAll(messages);} MEMORIES_CACHE.put(conversationId, memories);}@OverridepublicList<Message>get(String conversationId){// 根据会话 ID 取出该会话的历史消息return MEMORIES_CACHE.getOrDefault(conversationId,newArrayList<>());}@Overridepublicvoidclear(String conversationId){// 清空某个会话的记忆List<Message> messages = MEMORIES_CACHE.get(conversationId);if(messages !=null){ messages.clear();}}}

@ComponentpublicclassMemoriesAdviserimplementsBaseAdvisor{privatestaticfinalMap<String,List<Message>> MEMORIES =newHashMap<>();// 用于在 ChatClient 的上下文中标识当前会话 ID 的 keyprivatestaticfinalString CHAT_MEMORIES_SESSION_ID ="chat_memories_session_id";@OverridepublicChatClientRequestbefore(ChatClientRequest request,AdvisorChain chain){// 从上下文中读取会话 ID，并取出其历史消息String sessionId = request.context().get(CHAT_MEMORIES_SESSION_ID).toString();List<Message> messages = MEMORIES.getOrDefault(sessionId,newArrayList<>());// 当前请求的消息放到历史消息后面，一起交给大模型 messages.addAll(request.prompt().getInstructions());Prompt prompt = request.prompt().mutate().messages(messages).build();return request.mutate().prompt(prompt).build();}@OverridepublicChatClientResponseafter(ChatClientResponse response,AdvisorChain chain){// 把本次大模型回复写回到对应会话的记忆中AssistantMessage output = response.chatResponse().getResult().getOutput();String sessionId = response.context().get(CHAT_MEMORIES_SESSION_ID).toString();List<Message> messages = MEMORIES.getOrDefault(sessionId,newArrayList<>()); messages.add(output); MEMORIES.put(sessionId, messages);return response;}}

@RestController@RequestMapping("/rag")publicclassRagChatClientController{privatefinalChatClient ragChatClient;privatefinalPgVectorStore pgVectorStore;publicRagChatClientController(ChatClient ragChatClient,PgVectorStore pgVectorStore){this.ragChatClient = ragChatClient;this.pgVectorStore = pgVectorStore;}@GetMapping("/embedding")publicvoidembeddingContent(@RequestParam("message")String message){// message：待向量化的原始文本内容TokenTextSplitter splitter =TokenTextSplitter.builder().withChunkSize(50)// 每个分片的最大 token 数.withKeepSeparator(true)// 是否保留分隔符（如换行符）.withMaxNumChunks(1024)// 单次允许生成的最大分片数.withMinChunkLengthToEmbed(20)// 小于该长度的分片不入库，避免噪声.withMinChunkSizeChars(10)// 切分时的最小字符数，避免切得过碎.build();List<Document> docs = splitter.split(Document.builder().text(message).build());// 将文本切分为多个 Document pgVectorStore.add(docs);// 写入 PgVector 向量库}}

@ConfigurationpublicclassVectorChatClientConfig{@Bean("ragChatClient")publicChatClientragChatClient(ChatModel chatModel,VectorStore vectorStore){VectorStoreDocumentRetriever retriever =VectorStoreDocumentRetriever.builder().vectorStore(vectorStore)// 具体使用的向量库实现，这里是 PgVector.topK(3)// 每次检索返回相似度最高的前 3 条文档.similarityThreshold(0.5)// 相似度阈值，小于该值的文档会被过滤掉.build();RetrievalAugmentationAdvisor advisor =RetrievalAugmentationAdvisor.builder().documentRetriever(retriever)// 指定文档检索器.order(0)// Adviser 执行顺序，越小越先执行.build();returnChatClient.builder(chatModel).defaultAdvisors(advisor)// 默认启用 RAG 能力.build();}}

@ComponentpublicclassZoomTool{@Tool(description ="通过时区 ID 获取当前时间")publicStringgetTimeByZone(@ToolParam(description ="时区 ID，比如 Asia/Shanghai")String zone){// zone：时区 ID，示例：Asia/Shanghai、Europe/BerlinZoneId zoneId =ZoneId.of(zone);ZonedDateTime now =ZonedDateTime.now(zoneId);returnDateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss").format(now);// 返回格式化后的时间字符串}}

@ConfigurationpublicclassToolChatClientConfig{@Bean("toolChatClient")publicChatClienttoolChatClient(ChatModel ollamaChatModel,ZoomTool zoomTool){// ollamaChatModel：底层使用的 Qwen3 模型；zoomTool：提供获取时间的业务工具returnChatClient.builder(ollamaChatModel).defaultSystem(this.systemPrompt())// 设置默认的系统提示词，统一咖啡馆背景.defaultTools(zoomTool)// 将 ZoomTool 注册为可调用的工具.build();}privateStringsystemPrompt(){Map<String,Object> vars =newHashMap<>(); vars.put("AMERICAN","1-3");// 美式咖啡制作时间（分钟） vars.put("LATTE","2");// 拿铁咖啡制作时间（分钟） vars.put("TIME_ZONE","Asia/Shanghai");// 默认时区 IDSystemPromptTemplate tpl =SystemPromptTemplate.builder().template("欢迎光临 ZhouByte咖啡馆，... 默认时区：{TIME_ZONE}")// 系统提示词模板.variables(vars)// 绑定上面的变量.build();return tpl.render();// 渲染出包含具体变量值的系统提示词}}

@RestController@RequestMapping("/tool")publicclassToolChatController{privatefinalChatClient toolChatClient;publicToolChatController(ChatClient toolChatClient){this.toolChatClient = toolChatClient;}@GetMapping("/chat")publicFlux<String>chat(@RequestParam("message")String message){return toolChatClient .prompt()// 创建一次新的对话请求.user(message)// 添加一条用户消息.stream()// 流式调用大模型.content();// 只提取文本内容返回}}

@ConfigurationpublicclassGraphConfig{@Bean("quickStartGraph")publicCompiledGraphquickStartGraph()throwsGraphStateException{// "quickStartGraph"：图名称；后面的 Map 用于定义状态 key 的合并策略StateGraph graph =newStateGraph("quickStartGraph",()->Map.of("input",newReplaceStrategy(),// 多次写入时，后写入的值覆盖之前的值"output",newReplaceStrategy())); graph.addNode("node1",AsyncNodeAction.node_async(state ->{// node1：设置初始 input 和 outputreturnMap.of("input","graphConfig_addNode","output","graphConfig_output");})); graph.addNode("node2",AsyncNodeAction.node_async(state ->{// node2：模拟业务处理，将 input 改为 ZhouBytereturnMap.of("input","ZhouByte","output","EMPTY");}));// 定义执行顺序：START -> node1 -> node2 -> END graph.addEdge(StateGraph.START,"node1").addEdge("node1","node2").addEdge("node2",StateGraph.END);return graph.compile();}}

@RestController@RequestMapping("/v1")publicclassGraphController{@ResourceprivateCompiledGraph quickStartGraph;@GetMapping("/graph")publicFlux<String>startGraph(){// 这里传入空的初始状态 Map，按定义好的 StateGraph 顺序执行return quickStartGraph.stream(Map.of()).map(NodeOutput::toString);// 将每个节点的输出对象转换为字符串返回}}

@ConfigurationpublicclassConditionalGraphConfig{@Bean("scoreDecisionGraph")publicCompiledGraphscoreDecisionGraph()throwsGraphStateException{StateGraph graph =newStateGraph("scoreDecisionGraph",()->Map.of("score",newReplaceStrategy(),// 保存当前评分"result",newReplaceStrategy()// 保存决策结果));// 读取或设置评分（示例中从 state 中读取，实际可由外部请求传入） graph.addNode("checkScore",AsyncNodeAction.node_async(state ->{Integer score =(Integer) state.value("score").orElse(75);// 默认 75 分returnMap.of("score", score);}));// 三个业务分支节点：通过 / 复核 / 拒绝 graph.addNode("pass",AsyncNodeAction.node_async(state ->Map.of("result","PASS"))); graph.addNode("review",AsyncNodeAction.node_async(state ->Map.of("result","REVIEW"))); graph.addNode("reject",AsyncNodeAction.node_async(state ->Map.of("result","REJECT")));// 起点先进入评分检查节点 graph.addEdge(StateGraph.START,"checkScore");// 多条件边：根据 score 返回不同的'标签'，再由 mappings 决定下一跳节点 graph.addConditionalEdges("checkScore",AsyncEdgeAction.edge_async(state ->{int score =(Integer) state.value("score").orElse(0);if(score >=80){return"PASS";}if(score >=60){return"REVIEW";}return"REJECT";}),Map.of("PASS","pass","REVIEW","review","REJECT","reject"));// 三个结果节点最终都指向 END graph.addEdge("pass",StateGraph.END); graph.addEdge("review",StateGraph.END); graph.addEdge("reject",StateGraph.END);return graph.compile();}}

<dependency><groupId>com.alibaba.cloud.ai</groupId><artifactId>spring-ai-alibaba-starter-dashscope</artifactId><version>1.1.0.0-M5</version></dependency>

spring:ai:dashscope:api-key: ${DASHSCOPE_API_KEY}# 从环境变量或配置中心读取 DashScope 的 API Keyendpoint: https://dashscope.aliyuncs.com chat:options:model: qwen-plus # 使用的通义千问在线模型temperature:0.8# 采样温度max-tokens:2048# 单次回答的最大 token 数

Spring AI Alibaba + Ollama 实战：基于本地 Qwen3 的 Spring Boot 大模型应用

一、项目概览：Spring AI + Spring AI Alibaba 在这个 Demo 里的分工

二、依赖与环境：本地 Qwen3 + PgVector

Spring AI Alibaba + Ollama 实战：基于本地 Qwen3 的 Spring Boot 大模型应用

一、项目概览：Spring AI + Spring AI Alibaba 在这个 Demo 里的分工

二、依赖与环境：本地 Qwen3 + PgVector

更多推荐文章

相关免费在线工具

环境配置：Ollama + Qwen3 + PgVector

三、基础对话：从 ChatModel 到 ChatClient

3.1 使用 ChatModel 流式返回

3.2 使用 ChatClient 提升可用性

四、对话记忆：内存版与可扩展版

4.1 简单内存记忆：SimpleMemories

4.2 Adviser 方式：MemoriesAdviser

五、RAG：Qwen3 + PgVector 的检索增强

5.1 向量入库：TokenTextSplitter + PgVectorStore

5.2 RAG 对话：RetrievalAugmentationAdvisor

六、工具调用：用 @Tool 让模型调用你的 Java 方法

6.1 定义工具：ZoomTool

6.2 将工具挂到 ChatClient 上

七、Alibaba Graph 子项目：有状态工作流编排

7.1 定义 Graph：StateGraph + CompiledGraph

7.2 调用 Graph：WebFlux + 流式输出

7.3 quickStartGraph 执行流程图

7.4 多条件分支 Graph 示例（addConditionalEdges）

八、如何从本地 Ollama 平滑切到阿里云 DashScope

九、实践建议与最佳实践

十、总结与展望

更多推荐文章

相关免费在线工具

Spring AI Alibaba + Ollama 实战：基于本地 Qwen3 的 Spring Boot 大模型应用

一、项目概览：Spring AI + Spring AI Alibaba 在这个 Demo 里的分工

二、依赖与环境：本地 Qwen3 + PgVector

Spring AI Alibaba + Ollama 实战：基于本地 Qwen3 的 Spring Boot 大模型应用

一、项目概览：Spring AI + Spring AI Alibaba 在这个 Demo 里的分工

二、依赖与环境：本地 Qwen3 + PgVector

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

环境配置：Ollama + Qwen3 + PgVector

三、基础对话：从 ChatModel 到 ChatClient

3.1 使用 ChatModel 流式返回

3.2 使用 ChatClient 提升可用性

四、对话记忆：内存版与可扩展版

4.1 简单内存记忆：SimpleMemories

4.2 Adviser 方式：MemoriesAdviser

五、RAG：Qwen3 + PgVector 的检索增强

5.1 向量入库：TokenTextSplitter + PgVectorStore

5.2 RAG 对话：RetrievalAugmentationAdvisor

六、工具调用：用 @Tool 让模型调用你的 Java 方法

6.1 定义工具：ZoomTool

6.2 将工具挂到 ChatClient 上

七、Alibaba Graph 子项目：有状态工作流编排

7.1 定义 Graph：StateGraph + CompiledGraph

7.2 调用 Graph：WebFlux + 流式输出

7.3 quickStartGraph 执行流程图

7.4 多条件分支 Graph 示例（addConditionalEdges）

八、如何从本地 Ollama 平滑切到阿里云 DashScope

九、实践建议与最佳实践

十、总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具