JavaAIjava算法

纯 Java 手写多功能 AI Agent：从零实现类 Manus 智能体架构

纯 Java 实现多功能 AI Agent，基于 ReAct 模式构建核心循环。项目不依赖 Spring 框架，通过 BaseAgent 与 ToolCallAgent 分层设计，实现推理与行动交替执行。集成文件读写、Docker 沙箱代码执行、浏览器自动化及网页搜索工具。采用 LLM 驱动的相关性过滤管理上下文记忆，支持多模态消息交互。完整展示从消息封装、工具注册到安全执行的底层逻辑，为理解 Agent 架构提供清晰参考。

无尘发布于 2026/3/23更新于 2026/4/253 浏览

引言

2024 年以来，AI Agent（智能体）成为大模型应用领域最炙手可热的方向。从 OpenAI 的 GPT-4 with Tools，到 Anthropic 的 Claude Computer Use，再到国内 Manus、AutoGLM 等产品，"让大模型不只是聊天，而是真正地做事"已经成为行业共识。

然而，大多数开发者对 AI Agent 的理解还停留在概念层面：知道它能调用工具、能自主决策，但对其内部运作机制缺乏深入了解。市面上的 Agent 框架（如 LangChain、Spring AI）虽然降低了开发门槛，但也隐藏了大量实现细节。

本文将通过一个完全不依赖 Spring 框架的纯 Java 项目——ai-manus，带你从零理解 AI Agent 的核心架构。这个项目实现了一个功能完整的多工具智能体，具备文件读写、Docker 沙箱代码执行、网页搜索、浏览器自动化等能力，并采用了 ReAct（Reasoning + Acting）推理模式和 LLM 驱动的上下文记忆管理。通过逐层拆解其代码实现，你将真正理解一个 AI Agent 是如何"思考"和"行动"的。

一、项目全景：架构与技术选型

1.1 项目结构

ai-manus/
├── pom.xml
└── src/main/java/com/artisan/
    ├── ManusApplication.java # 启动入口
    ├── agent/
    │   ├── BaseAgent.java # Agent 基类（循环控制）
    │   ├── ToolCallAgent.java # 工具调用 Agent（ReAct 核心）
    │   └── ManusAgent.java # 具体 Agent 实现（注册工具）
    ├── model/
    │   ├── ModelConfig.java # 模型配置
    │   ├── OpenAIClient.java # LLM API 客户端
    │   ├── Message.java # 消息模型（支持多模态）
    │   ├── Memory.java # 记忆管理
    │   ├── RelevanceFilter.java # 相关性过滤接口
    │   ├── LLMRelevanceFilter.java # 基于 LLM 的相关性过滤
    │   ├── ModelResponse.java # 模型响应
    │   ├── Role.java # 角色枚举
    │   ├── ToolCall.java # 工具调用模型
    │   ├── ToolDefinition.java # 工具定义模型
    │   └── Function.java # 函数调用模型
    └── tools/
        ├── Tool.java # 工具接口
        ├── BaseTool.java # 工具基类
        ├── ToolCollection.java # 工具注册中心
        ├── ToolResult.java # 工具执行结果
        └── impl/
            ├── FileWriterTool.java # 文件写入
            ├── FileReaderTool.java # 文件读取
            ├── SandboxTool.java # Docker 沙箱执行
            ├── DockerSandbox.java # Docker 容器管理
            ├── TavilySearchTool.java # 网页搜索
            └── BrowserTool.java

依赖	版本	用途
OkHttp3	4.12.0	HTTP 客户端，调用 LLM API
Jackson	2.16.1	JSON 序列化/反序列化
Lombok	1.18.30	减少样板代码
docker-java	3.3.6	Docker 容器管理
langchain4j-tavily	0.36.2	Tavily 网页搜索
Playwright	1.55.0	浏览器自动化

public abstract class BaseAgent {
    protected final Memory memory;
    private final int maxStep;
    protected String systemPrompt;

    public String run(String prompt) {
        // 1. 初始化：将系统提示词和用户输入加入记忆
        memory.addMessage(Message.systemMessage(systemPrompt));
        memory.addMessage(Message.userMessage(prompt));
        
        int currentStep = 0;
        StringBuilder allStepResult = new StringBuilder();

        // 2. 核心循环：最多执行 maxStep 步
        while (currentStep < maxStep) {
            StepResult stepResult = step(prompt); // 子类实现
            allStepResult.append(stepResult.output).append("\n");
            if (!stepResult.isShouldContinue()) {
                break; // Agent 认为任务完成，退出循环
            }
            currentStep++;
        }
        return allStepResult.toString();
    }

    // 由子类实现的单步执行逻辑
    protected abstract StepResult step(String currentQuery);
}

@Override
protected StepResult step(String currentQuery) {
    // 1. 从记忆中获取上下文消息（带相关性过滤）
    List<Message> contextMessages = memory.getMessages(currentQuery);
    // 2. 获取与当前查询相关的工具定义（带相关性过滤）
    List<ToolDefinition> toolDefinitions = toolCollection.getRelevantToolDefinitions(currentQuery);
    // 3. 调用大模型，传入上下文消息和可用工具
    ModelResponse modelResponse = openAIClient.chat(contextMessages, toolDefinitions);

    // 4. 大模型决定调用工具
    if (modelResponse.hasToolCalls()) {
        Message assistantMessage = Message.assistantMessage(modelResponse.getContent());
        assistantMessage.setToolCalls(convertToToolCalls(modelResponse.getToolCalls()));
        memory.addMessage(assistantMessage);
        // 执行工具并返回结果
        return handleToolCalls(modelResponse.getToolCalls());
    }

    // 5. 大模型不调用工具，直接返回文本
    if (modelResponse.getContent() != null && !modelResponse.getContent().isBlank()) {
        memory.addMessage(Message.assistantMessage(modelResponse.getContent()));
    }

    // 6. 判断是否结束
    if (modelResponse.getFinishReason().equals("stop")) {
        return StepResult.builder()
                .shouldContinue(false)
                .output("大模型认为任务已经执行结束")
                .build();
    }
    return StepResult.builder()
            .shouldContinue(true)
            .output(modelResponse.getContent())
            .build();
}

private StepResult handleToolCalls(List<Object> toolCalls) {
    StringBuilder allResults = new StringBuilder();
    for (Object toolCallObj : toolCalls) {
        try {
            JsonNode toolCallNode = objectMapper.valueToTree(toolCallObj);
            String toolCallId = toolCallNode.get("id").asText();
            String toolName = toolCallNode.get("function").get("name").asText();
            String argumentsJson = toolCallNode.get("function").get("arguments").asText();

            // 解析参数并执行工具
            Map<String, Object> arguments = objectMapper.readValue(argumentsJson, Map.class);
            ToolResult result = toolCollection.executeTool(toolName, arguments);

            // 将工具结果封装为 toolMessage 存入记忆
            String resultContent = result.hasError() ? "Error: " + result.getError() : result.getOutput().toString();
            Message toolMessage = Message.toolMessage(resultContent, toolName, toolCallId, result.getBase64Image());
            memory.addMessage(toolMessage);
        } catch (Exception e) {
            // 错误也要存入记忆，让大模型知道发生了什么
            Message errorMessage = Message.toolMessage(
                    "工具执行失败：" + e.getMessage(),
                    "unknown",
                    UUID.randomUUID().toString());
            memory.addMessage(errorMessage);
        }
    }
    return StepResult.builder().shouldContinue(true).output(allResults.toString()).build();
}

public class ManusAgent extends ToolCallAgent {
    private static final String SYSTEM_PROMPT = """
        # 角色定义
        你是 Manus，一个多功能的 AI 代理，能够使用可用的工具处理各种任务。
        # 规则
        - 工作目录：{workspace}
        - Sandbox 里面不使用工作目录
        - 利用 Sandbox 执行代码时，直接把代码内容传给 Sandbox，而不是把代码脚本文件传给 Sandbox
        - 一次只能执行一个工具
        """;

    public ManusAgent(OpenAIClient openAIClient) {
        super(openAIClient, null, null);
        // 注册 5 个工具
        ToolCollection toolCollection = new ToolCollection();
        toolCollection.addTool(new FileWriterTool());
        toolCollection.addTool(new FileReaderTool());
        toolCollection.addTool(new SandboxTool());
        toolCollection.addTool(new TavilySearchTool());
        toolCollection.addTool(new BrowserTool());
        this.toolCollection = toolCollection;

        // 创建工作区目录并注入到系统提示词
        Path workspaceRoot = getProjectRoot().resolve("workspace");
        Files.createDirectories(workspaceRoot);
        this.systemPrompt = SYSTEM_PROMPT.replace("{workspace}", workspaceRoot.toString());
    }
}

public enum Role {
    SYSTEM("system"),     // 系统提示词
    USER("user"),         // 用户输入
    ASSISTANT("assistant"), // 大模型回复（含 tool_calls）
    TOOL("tool")          // 工具执行结果
}

public class Message {
    private Role role;
    private String content;
    private List<ToolCall> toolCalls; // assistant 消息携带的工具调用
    private String name;              // tool 消息的工具名
    private String toolCallId;        // tool 消息关联的调用 ID
    private String base64Image;       // 多模态图片数据
}

if (message.getBase64Image() != null) {
    // 构造多模态 content 数组
    List<Map<String, Object>> content = new ArrayList<>();
    content.add(Map.of("type", "text", "text", message.getContent()));
    content.add(Map.of("type", "image_url", "image_url", 
            Map.of("url", "data:image/jpeg;base64," + message.getBase64Image())));
    apiMessage.put("content", content);
} else {
    apiMessage.put("content", message.getContent());
}

public class OpenAIClient {
    private final OkHttpClient httpClient;

    public OpenAIClient(ModelConfig modelConfig) {
        this.httpClient = new OkHttpClient.Builder()
                .connectTimeout(Duration.ofSeconds(30))
                .readTimeout(Duration.ofMinutes(5)) // 长超时，等待大模型推理
                .writeTimeout(Duration.ofMinutes(5))
                .build();
    }

    public ModelResponse chat(List<Message> messages, List<ToolDefinition> tools) {
        Map<String, Object> requestBody = new HashMap<>();
        requestBody.put("model", modelConfig.getModel());
        requestBody.put("messages", convertMessagesToApiFormat(messages));
        // 仅在有工具时传入 tools 参数
        if (tools != null && !tools.isEmpty()) {
            requestBody.put("tools", convertToolsToApiFormat(tools));
        }
        // ... 发送请求并解析响应
    }
}

private List<Map<String, Object>> convertToolsToApiFormat(List<ToolDefinition> tools) {
    return tools.stream().map(tool -> Map.of(
            "type", "function",
            "function", Map.of(
                    "name", tool.getName(),
                    "description", tool.getDescription(),
                    "parameters", tool.getParameters() // JSON Schema 格式
            )
    )).toList();
}

public interface RelevanceFilter {
    List<Message> filter(List<Message> messages, String currentQuery, int maxMessages);
    double calculateRelevance(Message message, String currentQuery);
}

public List<Message> getMessages(String currentQuery) {
    if (relevanceFilter != null) {
        return relevanceFilter.filter(messages, currentQuery, 5); // 最多保留 5 条
    }
    return messages;
}

public List<Message> filter(List<Message> messages, String currentQuery, int maxMessages) {
    // 系统消息始终保留
    List<Message> systemMessages = messages.stream()
            .filter(msg -> msg.getRole() == Role.SYSTEM)
            .toList();

    // 为每条非系统消息计算相关性得分
    List<MessageScore> scoredMessages = nonSystemMessages.stream()
            .map(msg -> new MessageScore(msg, calculateRelevance(msg, currentQuery)))
            .sorted((a, b) -> Double.compare(b.score, a.score))
            .toList();

    // 保留系统消息 + 得分最高的 N 条消息
    List<Message> result = new ArrayList<>(systemMessages);
    int remainingSlots = maxMessages - systemMessages.size();
    result.addAll(scoredMessages.stream()
            .limit(remainingSlots)
            .map(ms -> ms.message)
            .toList());
    return result;
}

private String buildRelevancePrompt(String messageContent, String query) {
    return String.format(
            "请评估以下消息内容与查询的相关性，返回 0.0 到 1.0 之间的数字评分：\n\n" +
            "查询：%s\n\n消息内容：%s\n\n" +
            "评估标准：\n" +
            "1.0 - 高度相关：消息直接回答查询或包含查询的核心信息\n" +
            "0.7-0.9 - 相关：消息与查询主题相关，包含有用信息\n" +
            "0.4-0.6 - 部分相关：消息与查询有一定关联\n" +
            "0.1-0.3 - 微弱相关：消息与查询只有很少关联\n" +
            "0.0 - 不相关：消息与查询完全无关\n\n" +
            "请只返回数字评分，不要包含其他文字说明：",
            query, messageContent);
}

private double parseRelevanceScore(String content) {
    // 优先尝试解析数字
    String numberStr = trimmed.replaceAll("[^0-9.]..*", "");
    if (!numberStr.isEmpty()) {
        return Double.parseDouble(numberStr);
    }
    // 回退：从文本关键词推断
    if (lowerContent.contains("高度相关")) return 0.9;
    if (lowerContent.contains("相关")) return 0.7;
    if (lowerContent.contains("部分")) return 0.5;
    if (lowerContent.contains("微弱")) return 0.2;
    if (lowerContent.contains("不相关")) return 0.0;
    return 0.0;
}

public List<ToolDefinition> getRelevantToolDefinitions(String query) {
    List<ToolScore> scoredTools = allTools.stream()
            .map(tool -> {
                String toolText = tool.getName() + " " + tool.getDescription();
                Message message = Message.assistantMessage(toolText);
                double relevance = relevanceFilter.calculateRelevance(message, query);
                return new ToolScore(tool, relevance);
            })
            .filter(ts -> ts.score >= 0.3) // 相关性阈值
            .sorted((a, b) -> Double.compare(b.score, a.score))
            .toList();

    // 安全兜底：如果没有工具超过阈值，返回全部
    if (relevantTools.isEmpty()) {
        return allTools;
    }
    return relevantTools;
}

public interface Tool {
    String getName();
    String getDescription();
    Map<String, Object> getParametersSchema(); // JSON Schema
    ToolResult execute(Map<String, Object> parameters);
    default ToolDefinition toDefinition() {
        return new ToolDefinition(getName(), getDescription(), getParametersSchema());
    }
}

public abstract class BaseTool implements Tool {
    // 参数 Schema 构建器
    protected Map<String, Object> stringParam(String description) { ... }
    protected Map<String, Object> boolParam(String description) { ... }
    protected Map<String, Object> intParam(String description) { ... }
    protected Map<String, Object> enumParam(String description, List<String> values) { ... }

    // 参数安全提取
    protected String getString(Map<String, Object> parameters, String key) { ... }
    protected Boolean getBoolean(Map<String, Object> parameters, String key) { ... }
    protected Integer getInteger(Map<String, Object> parameters, String key) { ... }

    // Schema 组装
    protected Map<String, Object> buildSchema(Map<String, Map<String, Object>> properties, List<String> required) { ... }
}

public class ToolResult {
    private final Object output;
    private final String error;
    private final String base64Image; // 支持截图等多模态输出

    public static ToolResult success(Object output) { ... }
    public static ToolResult success(Object output, String base64Image) { ... }
    public static ToolResult error(String error) { ... }
}

public static class SandboxSettings {
    public static String image = "python:3.12-slim";
    public static String workDir = "/workspace";
    public static String memoryLimit = "512m"; // 内存限制 512MB
    public static double cpuLimit = 1.0; // CPU 限制 1 核
    public static int timeout = 300; // 超时 5 分钟
    public static boolean networkEnabled = false; // 禁用网络访问
}

private String buildCodeExecutionCommand(String code, String language) {
    switch (language.toLowerCase()) {
        case "python": return buildHeredocCommand(code, "python3");
        case "bash": return code; // Bash 直接执行
        case "node": return buildHeredocCommand(code, "node");
        case "java": // Java 需要先写文件、编译、再执行
            String javaHeredoc = buildHeredocToFile(code, "/tmp/Main.java");
            return javaHeredoc + " && cd /tmp && javac Main.java && java Main";
        default: throw new IllegalArgumentException("Unsupported language: " + language);
    }
}

private String buildHeredocCommand(String code, String interpreter) {
    String delimiter = "OPENMANUS_CODE_EOF_" + System.currentTimeMillis();
    return String.format("%s << '%s'\n%s\n%s", interpreter, delimiter, code, delimiter);
}

操作	说明
`navigate`	导航到 URL，等待网络空闲
`click`	通过 CSS 选择器点击元素
`type`	在输入框中输入文本
`screenshot`	全页面截图，返回 Base64 编码
`get_content`	提取页面标题、URL 和文本内容
`scroll`	上下左右滚动页面
`wait`	等待元素出现或页面加载

public ToolResult execute(Map<String, Object> parameters) {
    // 首次使用时才创建浏览器实例
    if (browser == null) {
        initializeBrowser();
    }
    // ...
}

private void initializeBrowser() {
    Playwright playwright = Playwright.create();
    browser = playwright.chromium().launch(new BrowserType.LaunchOptions().setHeadless(false)); // 非无头模式
    context = browser.newContext(new Browser.NewContextOptions()
            .setViewportSize(1920, 1080)
            .setUserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) ..."));
    currentPage = context.newPage();
}

private ToolResult handleScreenshot(Map<String, Object> parameters) {
    byte[] screenshot = currentPage.screenshot(new Page.ScreenshotOptions().setFullPage(true).setType(ScreenshotType.PNG));
    String base64Screenshot = Base64.getEncoder().encodeToString(screenshot);
    return ToolResult.success("截图成功", base64Screenshot); // 携带 Base64 图片
}

public ToolResult execute(Map<String, Object> parameters) {
    String query = getString(parameters, "query");
    WebSearchResults results = searchEngine.search(query);
    List<Map<String, Object>> searchResults = results.results().stream()
            .map(result -> Map.of(
                    "title", result.title(),
                    "url", result.url(),
                    "snippet", result.snippet()
            )).toList();
    return ToolResult.success(response);
}

String prompt = """
    1. 创建一个名为'test_page.html'的 HTML 文件并添加内容
    2. 使用 file://协议在浏览器中打开本地文件
    3. 给打开的页面截图
    4. 告诉截图中的内容
    """;
manusAgent.run(prompt);

┌─────────────────────────────────────────────────────────┐
│ Step0: 初始化                                            │
│ Memory:[SystemMessage, UserMessage]                     │
└──────────────────────────┬──────────────────────────────┘
                           ▼
┌─────────────────────────────────────────────────────────┐
│ Step1: LLM 推理 → 决定调用 write_file 工具                 │
│ Action: write_file(path="workspace/test_page.html",      │
│           content="<html>...</html>")                   │
│ Memory:+[AssistantMsg(tool_calls), ToolMsg(成功)]       │
└──────────────────────────┬──────────────────────────────┘
                           ▼
┌─────────────────────────────────────────────────────────┐
│ Step2: LLM 推理 → 决定调用 browser.navigate               │
│ Action: browser(action="navigate",                       │
│           url="file:///path/to/workspace/test_page.html")│
│ Memory:+[AssistantMsg(tool_calls), ToolMsg(导航成功)]   │
└──────────────────────────┬──────────────────────────────┘
                           ▼
┌─────────────────────────────────────────────────────────┐
│ Step3: LLM 推理 → 决定调用 browser.screenshot             │
│ Action: browser(action="screenshot")                    │
│ Memory:+[AssistantMsg(tool_calls),                      │
│          ToolMsg(截图成功 + base64Image)]               │
└──────────────────────────┬──────────────────────────────┘
                           ▼
┌─────────────────────────────────────────────────────────┐
│ Step4: LLM 推理 → 分析截图内容，返回文本描述              │
│ Response:"截图中显示了一个 HTML 页面，内容包括..."       │
│ finish_reason:"stop" → 任务完成，退出循环               │
└─────────────────────────────────────────────────────────┘

设计模式	应用位置	作用
模板方法	`BaseAgent.run()` + `step()`	固定执行骨架，子类实现单步逻辑
策略模式	`RelevanceFilter`接口	可插拔的上下文过滤策略
工厂方法	`Message.userMessage()`等	统一消息创建
注册表模式	`ToolCollection`	集中管理工具的注册和查找
懒加载	`BrowserTool`/`DockerSandbox`	按需初始化重量级资源
适配器模式	`OpenAIClient`	将内部模型适配为 OpenAI API 格式

纯 Java 手写多功能 AI Agent：从零实现类 Manus 智能体架构

引言

一、项目全景：架构与技术选型

1.1 项目结构

纯 Java 手写多功能 AI Agent：从零实现类 Manus 智能体架构

引言

一、项目全景：架构与技术选型

1.1 项目结构

更多推荐文章

相关免费在线工具

1.2 技术选型

二、Agent 核心循环：ReAct 模式的实现

2.1 BaseAgent：循环骨架

2.2 ToolCallAgent：ReAct 的核心引擎

2.3 ManusAgent：具体 Agent 的组装

三、消息系统：多模态对话的基石

3.1 四种角色的消息设计

3.2 LLM API 的封装

四、记忆管理：LLM 驱动的上下文过滤

4.1 相关性过滤接口

4.2 LLM 相关性过滤器

4.3 工具的动态过滤

五、工具系统：可插拔的能力扩展

5.1 工具接口与基类

5.2 Docker 沙箱：安全的代码执行

5.3 浏览器自动化：Playwright 驱动

5.4 网页搜索：Tavily 集成

六、完整执行流程：一个真实的例子

七、设计模式总结

八、进一步思考

结语

更多推荐文章

相关免费在线工具

纯 Java 手写多功能 AI Agent：从零实现类 Manus 智能体架构

引言

一、项目全景：架构与技术选型

1.1 项目结构

纯 Java 手写多功能 AI Agent：从零实现类 Manus 智能体架构

引言

一、项目全景：架构与技术选型

1.1 项目结构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2 技术选型

二、Agent 核心循环：ReAct 模式的实现

2.1 BaseAgent：循环骨架

2.2 ToolCallAgent：ReAct 的核心引擎

2.3 ManusAgent：具体 Agent 的组装

三、消息系统：多模态对话的基石

3.1 四种角色的消息设计

3.2 LLM API 的封装

四、记忆管理：LLM 驱动的上下文过滤

4.1 相关性过滤接口

4.2 LLM 相关性过滤器

4.3 工具的动态过滤

五、工具系统：可插拔的能力扩展

5.1 工具接口与基类

5.2 Docker 沙箱：安全的代码执行

5.3 浏览器自动化：Playwright 驱动

5.4 网页搜索：Tavily 集成

六、完整执行流程：一个真实的例子

七、设计模式总结

八、进一步思考

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具