JavaAIjava算法

Java 手写 AI Agent：ZenoAgent 核心设计与实现

Java 开发者通过 ZenoAgent 项目深入理解 AI Agent 内部机制。文章涵盖 DDD 分层架构、ReAct 循环手写实现、分布式 Human-in-the-loop 方案、流式思考引擎适配及 RAG 知识库优化。重点解决模型输出格式解析、并发执行延迟、人工确认信号同步等工程问题，提供高鲁棒性的 Agent 系统构建参考。

月亮邮递员发布于 2026/3/21更新于 2026/6/217 浏览

Java 手写 AI Agent：ZenoAgent 核心设计与实现

💡 学习初衷

市面上已经有了像 LangChain 和 AutoGen 这样非常优秀的成熟框架，它们功能强大且生态丰富。但作为一名对 AI 技术充满热情的 Java 开发者，我总觉得光是调用 API 或使用现成的 SDK，很难真正触达 Agent 技术的核心。

我发起 ZenoAgent 这个项目的初衷非常简单：我想通过亲手造一遍轮子，来弄清楚 Agent 到底是怎么跑起来的。

在这个过程中，我主要关注以下几个学习点：

原理探索：不依赖复杂的封装，亲手实现 ReAct 循环，理解 LLM 是如何规划和执行任务的。
全栈打通：尝试从后端推理到前端可视化，完整走一遍 AI 应用的开发流程。
工程实践：看看在 Java 生态下，如何处理流式响应、并发控制等实际问题。

ZenoAgent 是我学习过程中的一份'大作业'，虽然它还很稚嫩，但这趟探索之旅让我收获颇丰。

🏗️ 核心架构概览

ZenoAgent 采用经典的 DDD（领域驱动设计） 分层架构，确保了代码的高内聚低耦合。

后端：Java 17, Spring Boot 3, LangChain4j (LLM 交互核心), Redisson (分布式协调)
数据存储：PostgreSQL + pgvector (向量数据库), Redis (缓存与消息队列)
前端：Vue 3, TypeScript, Tailwind CSS, SSE (Server-Sent Events)

Data & External
Backend (Spring Boot)
Infrastructure
Core Engine
HTTP/SSE
Call
Retrieve
Load Context
User
API Layer (Controller)
Application Service
ReAct Engine
Agent State Machine
Thinking Engine
Action Executor
Observation Engine
MCP Tool Client
RAG Enhancer
Memory System
Redis
Short-term Memory
Dist. Lock
Mysql
long-term Memory
PostgreSQL
pgvector
LLM Provider
(OpenAI/DeepSeek)
External Tools

🔥 硬核亮点解析

1. 上下文构造与思维链控制 (Context Construction & CoT)

Agent 聪明的关键在于如何构建 Prompt。ZenoAgent 的 ThinkingEngine 采用了 Hybrid Context Assembly（混合上下文组装） 的策略。

🧩 混合上下文组装原理 (Hybrid Strategy)

我们不再简单地将所有信息拼接到一个巨大的 User Prompt 中，而是充分利用 LLM 的 Native Messages 结构，将上下文拆解为三个部分：

System Message: 定义角色、工具使用规范和输出格式（JSON Schema）。

// ThinkingEngine.java 核心重构
List<ChatMessage> messages = new ArrayList<>();
// 1. System Prompt (规则与约束)
messages.add(new SystemMessage(sysPrompt));
// 2. Native History (利用 KV Cache)
messages.addAll(context.getMessages());
// 3. Current Context (动态任务背景)
String currentStepPrompt = """
## 当前目标 %s
## 可用工具 %s
## 最近执行结果 %s
""".formatted(goal, tools, actionHistory);
messages.add(new UserMessage(currentStepPrompt));

阶段	状态	动作
Stream Delta	Yes	Detect
State: THINKING	Yes	Extract JSON
Frontend UI	-	Start
State: PARSING_JSON	-	Action Executor

try {
    final Actions = parseThinkingResult(fullText);
} catch (LLMParseException e) {
    // 将错误信息回传给模型，进行'反思修正'
    String retryHint = "上次输出解析失败：" + e.getMessage() + "，请严格修正格式。";
    // 进入下一轮循环
    retry...
}

// PromptGuidedThinkingEngine.java
if (depth > 0 && start >= 0) {
    log.warn("检测到 JSON 截断，尝试自动补全...");
    // 自动补齐剩余的 '}'
}

// 强制模型以 JSON Object 模式输出
ResponseFormat.builder().type(ResponseFormatType.JSON).build();

private static final String JSON_OUTPUT_FORMAT_PROMPT = """
## 输出格式强制约束（必须 100% 遵守，任何违规都会导致输出无效）
1. 输出内容必须是**纯合法 JSON 对象**，无任何非 JSON 文本（如<thinking>标签、注释、说明文字等）；
2. JSON 对象包含 2 个必填顶级字段：
   - thinking：字符串类型，填写你的逻辑推演过程（需清晰说明'为什么选择该动作类型''参数如何确定'等）；
   - actions：数组类型，仅包含 1 个动作指令对象（单轮仅输出 1 个动作）；
3. actions 数组中的每个动作对象必须包含以下基础字段：
   - actionType：字符串类型，仅允许取值【TOOL_CALL/RAG_RETRIEVE/LLM_GENERATE/DIRECT_RESPONSE】，严禁使用其他值；
   - actionName：字符串类型，填写动作名称（如 search_weather/retrieve_knowledge/generate_content/reply_user）；
   - reasoning：字符串类型，填写选择该动作的简短理由（区别于 thinking 的详细推演）；
4. 不同 actionType 需额外包含对应必填参数字段（缺失会判定为无效）：
.....
""";

// ActionExecutor.java 核心逻辑
public List<ActionResult> executeParallel(List<AgentAction> actions) {
    List<CompletableFuture<ActionResult>> futures = actions.stream()
        .map(action -> CompletableFuture.supplyAsync(() -> execute(action), executor))
        .toList();
    // 并行等待所有结果
    return futures.stream().map(CompletableFuture::join).toList();
}

// PromptGuidedThinkingEngine.java
3. 需要向用户输出内容时使用 DIRECT_RESPONSE，并通过 isComplete 字段控制流程：
   - isComplete=true：**终止本轮**。用于：1. 任务彻底完成；2.**需要提问并等待用户回复**。此时意味着 Agent 暂停工作移交控制权给用户；
   - isComplete=false：**过程通知**。用于：任务仍在进行中，仅向用户发送进度提示，**不等待用户回复**，流程自动继续。

Backend (Pod B)      Redis           Backend (Pod A)         Frontend          User
Agent runs thinking loop...
Thread BLOCKED on Redis Queue
Received by different Pod!
Thread Resumes
Decide to call 'delete_file'
Create BlockingQueue (key=exec_123)
SSE: confirmation_request (id=exec_123)
Click "Approve"
POST /confirm (id=exec_123, action=APPROVE)
Queue.push("APPROVED")
Unblock: "APPROVED"
Execute Tool
SSE: tool_result

// ToolConfirmationManager.java
public ToolExecutionDecision waitForDecision(String executionId) {
    RBlockingQueue<ToolExecutionDecision> queue = redissonClient.getBlockingQueue(KEY_PREFIX + executionId);
    // 阻塞等待用户决策，支持超时自动拒绝
    return queue.poll(60, TimeUnit.SECONDS);
}

// 伪代码：从流式 JSON 中提取 thinking 字段
if (token.contains("\"thinking\"")) {
    isThinking = true;
}
if (isThinking && !token.contains("\"actions\"")) {
    sseEmitter.send(token); // 实时推送思考过程
}

// LangChain4j Delta.java
@JsonProperty
private final String reasoningContent;
// 字段名不匹配！

{"choices":[{"delta":{"role":"assistant","reasoning":"好的，用户想要..."// Ollama 使用 reasoning}}]}

// ThinkingEngine.java
if (thinkingEndIdx == -1 && !isComplete) {
    // 检查末尾是否是 </thinking> 的一部分
    int bufferLen = calculatePartialTagMatchLength(currentContent);
    if (bufferLen > 0) {
        // 扣留这部分内容，暂不发送
        logicalEnd -= bufferLen;
    }
}

Ingestion Pipeline
Tika Parser
Recursive Splitter
MetaData Injection
Embedding Model
pgvector
User Upload
Document Service
Raw Text
Text Segments
Segments + Meta
Vectors
PostgreSQL

// RAGEnhancer.java 核心逻辑
embeddingStore.search(EmbeddingSearchRequest.builder()
    .queryEmbedding(queryVector)
    .filter(metadataKey("knowledgeId").isEqualTo(currentKnowledgeId)) // 关键：租户隔离
    .maxResults(5)
    .minScore(0.75) // 过滤低质量结果
    .build());

Java 手写 AI Agent：ZenoAgent 核心设计与实现

Java 手写 AI Agent：ZenoAgent 核心设计与实现

💡 学习初衷

🏗️ 核心架构概览

🔥 硬核亮点解析

1. 上下文构造与思维链控制 (Context Construction & CoT)

🧩 混合上下文组装原理 (Hybrid Strategy)

Java 手写 AI Agent：ZenoAgent 核心设计与实现

Java 手写 AI Agent：ZenoAgent 核心设计与实现

💡 学习初衷

🏗️ 核心架构概览

🔥 硬核亮点解析

1. 上下文构造与思维链控制 (Context Construction & CoT)

🧩 混合上下文组装原理 (Hybrid Strategy)

更多推荐文章

相关免费在线工具

🧠 如何控制大模型'先想后做'？

🛡️ 防御式编程：四重保障解决'大模型不听话'

2. ReAct 模式设计与工程实现

2.1 Action 的抽象设计

2.2 为什么设计 DIRECT_RESPONSE？（性能优化的关键）

2.3 并发执行机制 (Parallel Execution)

2.4 实战踩坑：isComplete 的语义陷阱

3. 分布式环境下的 'Human-in-the-loop'

分布式确认时序图

4. 流式思考：从 Prompt 模拟到原生 API 适配

方案一：Prompt 引导的模拟思考 (通用方案)

方案二：原生 Reasoning 字段适配 (未来趋势)

🚧 实战踩坑：流式标签泄露与 Lookahead Buffer

进阶优化：事件驱动的国际化 (i18n)

5. RAG 知识库：从摄入到召回的全链路优化

📂 文档摄入流程 (Document Ingestion)

🔍 动态召回策略 (Dynamic Retrieval)

6. 自愈式错误处理 (Self-Correction)

7. 动态工具发现与热加载

📸 系统预览

🚀 总结与展望

更多推荐文章

相关免费在线工具

Java 手写 AI Agent：ZenoAgent 核心设计与实现

Java 手写 AI Agent：ZenoAgent 核心设计与实现

💡 学习初衷

🏗️ 核心架构概览

🔥 硬核亮点解析

1. 上下文构造与思维链控制 (Context Construction & CoT)

🧩 混合上下文组装原理 (Hybrid Strategy)

Java 手写 AI Agent：ZenoAgent 核心设计与实现

Java 手写 AI Agent：ZenoAgent 核心设计与实现

💡 学习初衷

🏗️ 核心架构概览

🔥 硬核亮点解析

1. 上下文构造与思维链控制 (Context Construction & CoT)

🧩 混合上下文组装原理 (Hybrid Strategy)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

🧠 如何控制大模型'先想后做'？

🛡️ 防御式编程：四重保障解决'大模型不听话'

2. ReAct 模式设计与工程实现

2.1 Action 的抽象设计

2.2 为什么设计 DIRECT_RESPONSE？（性能优化的关键）

2.3 并发执行机制 (Parallel Execution)

2.4 实战踩坑：isComplete 的语义陷阱

3. 分布式环境下的 'Human-in-the-loop'

分布式确认时序图

4. 流式思考：从 Prompt 模拟到原生 API 适配

方案一：Prompt 引导的模拟思考 (通用方案)

方案二：原生 Reasoning 字段适配 (未来趋势)

🚧 实战踩坑：流式标签泄露与 Lookahead Buffer

进阶优化：事件驱动的国际化 (i18n)

5. RAG 知识库：从摄入到召回的全链路优化

📂 文档摄入流程 (Document Ingestion)

🔍 动态召回策略 (Dynamic Retrieval)

6. 自愈式错误处理 (Self-Correction)

7. 动态工具发现与热加载

📸 系统预览

🚀 总结与展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具