Agent 架构设计：三层上下文裁剪模式详解 | 极客日志

PythonSaaSAI算法

Agent 架构设计：三层上下文裁剪模式详解

综述由AI生成分享了在项目管理系统的 AI 模块开发中，针对 Agent 架构上下文管理的演进过程。从最初的 ReAct 模式到 Plan-Execute，再到 Router 分发，最终提出三层上下文裁剪模式。通过 Context Assembler 将完整页面上下文拆分为路由、执行、模型三个视图，分别控制信息流动。该方案解决了 Token 浪费、安全风险及职责耦合问题，确立了最小权限原则，确保每个环节只获取必要信息，提升了系统的可控性与成本效益。

Elasticer发布于 2026/3/27更新于 2026/5/3024 浏览

我最近在做一个项目管理系统的 AI 模块——不是独立的聊天窗口，而是嵌入到业务页面里的智能助手。用户在项目详情页、任务列表、首页工作台等不同页面，都可以直接跟 AI 交互：拆解任务、生成周报、分析延期风险。

听起来不复杂，但做到后面发现，Agent 架构中最容易被忽视、却最容易出问题的环节，不是模型选型，不是 prompt 调优，而是上下文的流动方式——哪些信息该给谁看，哪些信息不该给谁看。

这篇文章会先介绍一些 Agent 的基础概念，从最初的 ReAct 模式，到 Plan-Execute，再到 Router 分发，最终演化出"三层上下文裁剪"模式的思考。

一、先聊几个基础概念

如果你已经熟悉 Agent、ReAct、LangGraph 这些概念，可以直接跳到第二节。

什么是 Agent

在 AI 语境下，Agent 不是简单的"聊天机器人"。聊天机器人只做一件事：接收文本，返回文本。而 Agent 可以自主决策并执行动作。

一个典型的 Agent 工作流程是：

用户输入 → 理解意图 → 决定做什么 → 调用工具执行 → 观察结果 → 决定下一步 → ... → 返回最终回答

中间的"决定做什么"和"调用工具"是关键区别。Agent 可以查数据库、调 API、创建任务、发送通知——它不只是生成文字，而是真的在做事。

这也意味着 Agent 比聊天机器人危险得多：聊天机器人出错只是说错话（文本风险），Agent 出错是做错事（操作风险）——它可能删掉你的任务、修改错误的数据。

什么是 Tool（工具）

Tool 是 Agent 能调用的具体能力。你可以理解为 Agent 的"手脚"：

query_tasks：查询任务列表
create_task：创建新任务
update_task：修改任务状态
delete_task：删除任务

Agent 本身是大脑（LLM），Tool 是它能操作外部世界的接口。Agent 根据用户意图，决定调用哪个 Tool、传什么参数。

什么是 LangGraph

LangGraph 是 LangChain 团队开发的一个框架，用于构建基于图（Graph）的 Agent 系统。它的核心思想是把 Agent 的工作流建模为一个状态机：

节点（Node）：每个节点是一个处理步骤，比如"路由判断"、'工具执行'、'生成回答'
边（Edge）：节点之间的连接关系，可以是固定的，也可以是条件分支
状态（State）：在节点之间流转的共享数据

相比直接用 LLM 做链式调用，LangGraph 的优势在于：支持循环（Agent 可以反复思考）、支持中断和恢复（需要人工审批时可以暂停）、状态可持久化（断线重连不丢失进度）。

什么是上下文（Context）

Agent 做决策时需要知道"当前状况"。在我的场景里，上下文就是用户当前的页面状态：

用户在哪个页面（首页/项目详情/任务列表）
选中了什么对象（某个任务/某个项目）
当前的筛选条件（状态：进行中，优先级：P1）
请求从哪个入口发起的（侧边栏/快捷按钮/AI 工作台）

这些信息决定了 Agent 应该怎么理解用户的意图、怎么执行操作。问题在于：不同的处理环节需要的信息量是完全不同的。

二、架构演进：从 ReAct 到三层裁剪

第一站：ReAct 模式——'让 LLM 自己想'

我最初的方案是业内最经典的 ReAct（Reasoning + Acting）模式。

ReAct 是什么

ReAct 的核心循环是：

思考 (Thought) → 行动 (Action) → 观察 (Observation) → 思考 → 行动 → ... → 最终回答

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

Planner（规划）→ 生成步骤列表 → Executor（执行）→ 逐步执行 → 结果不对？→ Replanner（重新规划）

用户输入 → Router（意图分类） ├─ 简单 CRUD → 直接执行（不经过 Planner） ├─ 数据查询 → SQL 查询 + 结果解释 ├─ 任务拆解 → Planner → Executor → Replanner └─ 周报生成 → 固定 Pipeline（取数→聚合→润色）

前端传入：完整的页面上下文 │ Context Assembler（后端，执行一次） │ ┌───────┼───────────────┐ ▼ ▼ ▼ 路由上下文 执行上下文 模型上下文摘要 (RouterCtx) (ExecCtx) (ModelSummary) │ │ │ ▼ ▼ ▼ Router Tool/Executor LLM System Prompt

字段	路由层	执行层	模型层	判断理由
page（当前页面）	给	不给	给 (文字)	路由需要页面信息；Tool 不关心在哪个页面；模型需要知道场景
origin（请求来源）	给	不给	不给	只有路由需要来源信息做 fast-path 映射
selectedEntity（选中对象）	给	给	给 (文字)	三层都需要：路由判断目标、Tool 操作目标、模型描述目标
routeParams（路由参数）	给	给	给 (文字)	同上，是定位信息
activeTab（当前 Tab）	给	不给	给 (文字)	影响路由意图判断，不影响 Tool 执行
viewMode（视图模式）	不给	不给	给 (文字)	只对描述场景有用（'甘特视图'）
filters（筛选条件）	给精简版	给完整版	给摘要	三层需求粒度不同
visibleEntityIds	不给	有条件给	不给	最危险的膨胀源，严格控制
searchKeyword	不给	给	不给	纯执行参数
pagination（分页）	不给	给	不给	纯执行参数

模式	核心思路	解决了什么问题	暴露了什么新问题
ReAct	LLM 自主循环：思考→行动→观察	最灵活，能应对开放式问题	不可预测、成本不可控、安全风险高
Plan-Execute	先规划完整计划，再逐步执行	可预测性提升，可以预审计划	简单操作也走重型链路，过度规划
Router 分发	先分类意图，不同类型走不同路径	简单走快路、复杂走慢路	所有节点共享全量上下文，信息越权
Router + 三层裁剪	分类意图 + 按消费者裁剪上下文	信息隔离、成本控制、安全增强	当前方案（持续验证中）

退化模式	为什么会发生	后果
'为了赶进度，直接把完整上下文丢给规划节点'	赶工期时最常见的"先跑通再优化"	规划节点是 LLM 节点，全量上下文 = Token 浪费 + 注入面扩大
'路由层里读取了列表数据来辅助意图判断'	看似合理的"优化"——'列表为空时推荐创建'	路由层开始承担业务逻辑，职责边界被打破
'Tool 根据请求来源返回不同格式的结果'	需求驱动——'侧边栏要简洁版，工作台要详细版'	UI 入口和执行逻辑耦合，新增入口就要改 Tool
'LLM prompt 里直接拼入了原始 JSON 筛选条件'	图省事——'反正模型能理解 JSON'	Token 浪费，且暴露了不必要的数据结构

Agent 架构设计：三层上下文裁剪模式详解

一、先聊几个基础概念

什么是 Agent

什么是 Tool（工具）

什么是 LangGraph

什么是上下文（Context）

二、架构演进：从 ReAct 到三层裁剪

第一站：ReAct 模式——'让 LLM 自己想'

ReAct 是什么

更多推荐文章

相关免费在线工具

我为什么先选了它

遇到的问题

思考

第二站：Plan-Execute 模式——'先规划再执行'

Plan-Execute 是什么

比 ReAct 好在哪

新的问题

思考

第三站：Router 分发模式——'先分流再处理'

Router 是什么

我的两层路由设计

到这里为止，还有什么问题？

第四站：三层上下文裁剪——'从源头控制信息流动'

触发我重新思考的三件事

设计思路

三、三层裁剪的设计细节

字段如何分配

`origin`（请求来源）

`visibleEntityIds`（当前列表可见条目）

`filters`（筛选条件）

分配总结

模型层为什么必须是自然语言摘要

四、状态不可变性：如何保证裁剪后不被污染

五、对比总结：四种模式的演进逻辑

六、防止架构退化

七、思考

更多推荐文章

相关免费在线工具

Agent 架构设计：三层上下文裁剪模式详解

一、先聊几个基础概念

什么是 Agent

什么是 Tool（工具）

什么是 LangGraph

什么是上下文（Context）

二、架构演进：从 ReAct 到三层裁剪

第一站：ReAct 模式——'让 LLM 自己想'

ReAct 是什么

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

我为什么先选了它

遇到的问题

思考

第二站：Plan-Execute 模式——'先规划再执行'

Plan-Execute 是什么

比 ReAct 好在哪

新的问题

思考

第三站：Router 分发模式——'先分流再处理'

Router 是什么

我的两层路由设计

到这里为止，还有什么问题？

第四站：三层上下文裁剪——'从源头控制信息流动'

触发我重新思考的三件事

设计思路

三、三层裁剪的设计细节

字段如何分配

origin（请求来源）

visibleEntityIds（当前列表可见条目）

filters（筛选条件）

分配总结

模型层为什么必须是自然语言摘要

四、状态不可变性：如何保证裁剪后不被污染

五、对比总结：四种模式的演进逻辑

六、防止架构退化

七、思考

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

`origin`（请求来源）

`visibleEntityIds`（当前列表可见条目）

`filters`（筛选条件）