Agent / RAG / MCP / Skill 通用工程解法与技术选型 | 极客日志

编程语言AI大前端java

Agent / RAG / MCP / Skill 通用工程解法与技术选型

综述由AI生成解析了 AI 领域的核心概念 Agent、RAG、MCP 和 Skill，指出它们本质是补充大模型在知识、实时性和执行能力上的短板。文章通过记忆管理、检索增强生成、工具调用及标准化协议等工程实践，提供了通用的技术选型方法和落地检查清单，帮助开发者避免被术语误导，构建可控、可观测的 AI 系统。

RefactorPro发布于 2026/4/5更新于 2026/5/2228 浏览

Agent / RAG / MCP / Skill 通用工程解法与技术选型

刷到'Skill、MCP、RAG、Agent'这些词时，第一反应大概率是：我是不是又落后了？

换个研发负责人的视角看：绝大多数新名词，都在做同一件事——把'模型只会生成字'的能力，包装成'能完成任务的系统'。名字可以很潮，但工程本质永远逃不出：

数据（Context）
检索（Search）
工具（Tool）
编排（Workflow）
约束（Schema）

下面用一套'通杀新概念'的方法，把这些词拆到你能复用、能落地。

摘要（先看结论）

RAG、Agent、MCP、Skill 本质都在补 LLM 的短板：缺知识、缺实时、缺手脚。
选型只问三件事：补什么短板？确定性来自哪里？风险与成本在哪里？
不要把名词当'黑科技'。把它们当成可拆分、可替换的系统零件，你就不会被词牵着走。

0）一句话定义（方便记忆）

术语	一句话	你真正要做的工程事
RAG	先检索，再把命中的材料喂给模型	做好召回/排序/切片/去重/防注入与评估闭环
Agent	带工具的循环控制器：计划→调用→观察→再计划	设计循环、停止条件、失败回退与可观测性
Function Calling（工具调用）与结构化输出	LLM 世界的'接口契约'	用 schema 把输入输出钉死，避免解析失败与字段乱填
MCP	工具生态对接的标准化插头	把'接工具'变成可复用连接层，同时补齐权限与审计
Skill	可复用的提示词/流程片段（有时带工具）	做版本化、评估、依赖声明与适用范围说明

0.1）放到开发环境中：这些词分别对应什么？

如果你平时主要用代码助手来读代码、改代码、跑命令，可以把上面这些概念直接'落到日常动作'里理解：

概念	在开发工具中你看到的样子	最小可复现案例（示意）
Context / Memory	你发给模型的 messages + 你补充的规则/状态/资料	把「问题 + 相关文件片段 + 当前改动目标」拼到一次请求里
RAG	先找材料，再回答	先在仓库里搜（代码/文档），把命中的片段喂给模型再生成结论
Function Calling（工具调用）	模型不直接'写答案'，而是先触发一次可执行动作	先让模型去搜代码/读文件/跑测试（工具），再基于结果输出最终答案
Agent	多轮循环：计划→执行→观察→再计划	修一个线上 bug：先定位→改动→跑测试→失败再定位→直到通过
MCP	把外部系统'接进来'给模型用	拉飞书文档/设计稿/组件库文档作为上下文或工具输出
Skill	一套可复用的'工作流提示词 + 约束 + 自检清单'	做一个'仓库问答带引用'的 Skill，让新人按固定格式提问与验收

1）先把地基钉死：大模型到底会什么、不会什么？

大语言模型（LLM/LM）的核心能力可以粗暴理解为：在给定上下文里生成下一段最可能的文本。这很强，但也天然有三大短板：

不知道你公司的私有信息（除非你把信息塞进上下文）

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online

messages(last N) + state(snapshot) + tool_results(recent) + summary(if needed) -> assemble_context(token_budget)

user_query -> retrieve_memories(user_scope, topK) -> dedupe + sanitize -> inject_into_context

system(规则/角色) + tools(schemas) + user(question) + retrieved_docs(RAG) + retrieved_memories(long-term) + session_state(short-term) -> LLM

{"task":"Fix CI-only Android unit test failure","context":{"build":"gradlew testDebugUnitTest","ci_os":"Linux runner","local_os":"macOS","jdk":"17","timezone":"CI=UTC, local=Asia/Shanghai"},"hypotheses":["时区/Locale 不一致导致日期格式化/解析差异","Robolectric/Android SDK 版本差异导致行为不同","协程/线程调度导致偶发竞态（本地复现概率低）","测试依赖文件路径/编码（Windows 路径、大小写、换行符）在 CI 不同"],"confirmed_facts":["失败用例：com.example.app.LoginViewModelTest#whenTokenExpired_shouldLogout","只在 CI 的 Linux runner 失败，本地 macOS 通过","失败栈里出现了 Date/Time 或 Locale 相关的关键调用"],"next_action":"定位失败用例中对时间/Locale/线程调度的依赖点，并固定可控输入（Clock/Locale/Dispatcher）"}

query -> retrieve(topK) -> rerank -> chunk + dedupe + sanitize -> assemble_context(token_budget) -> model_answer(with_citations)

{"answer":"登录态通常丢在两类问题：token 持久化没写成功/被覆盖，或网络层刷新失败但上层没做降级处理。先从 token 的写入点、读取点、以及 401/refresh 流程三处排查。","citations":[{"path":"app/src/main/java/com/example/auth/TokenStore.kt (示意)","lines":"1-120"},{"path":"app/src/main/java/com/example/network/AuthInterceptor.kt (示意)","lines":"1-160"},{"path":"app/src/main/java/com/example/network/RefreshTokenUseCase.kt (示意)","lines":"1-200"}]}

Goal -> Plan -> Act (tool call) -> Observe (tool result) -> Update memory/context -> Stop? else loop

Goal: Fix NPE crash in FooViewModel 1) Plan: - 定位 NPE 触发路径 - 找到谁在传 null/谁没做校验 - 修复 + 补回归用例 2) Act (tool call): - 搜索崩溃堆栈里的符号/函数名 3) Observe (tool result): - 命中 3 处调用点，其中 1 处来自异步回调 4) Update memory/context: - 记录已确认事实：null 来自网络字段缺失 - 更新下一步动作：给解析层加默认值/给 ViewModel 加 guard 5) Act: - 修改代码并补测试 - 运行测试 6) Stop condition: - 单测通过 + 关键路径有回归覆盖 + 变更范围可解释 - 否则回到第 1) 继续循环

{"name":"search_docs","description":"Search internal docs and return relevant snippets","parameters":{"type":"object","properties":{"query":{"type":"string"},"top_k":{"type":"integer","minimum":1,"maximum":20}},"required":["query"]}}

你把 tools(=schemas) 交给模型 -> 模型产出：call search_docs({query: "...", top_k: 5}) -> 你的程序校验参数是否符合 schema -> 你的程序真实执行搜索 -> 把搜索结果回传给模型继续生成最终答案

typeSearchDocsArgs={ query:string; top_k?:number};functionvalidateSearchDocsArgs(args:any):asserts args is SearchDocsArgs {if(!args ||typeof args.query !=="string"|| args.query.length ===0){thrownewError("invalid args: query is required");}if(args.top_k !==undefined&&(typeof args.top_k !=="number"|| args.top_k <1|| args.top_k >20)){thrownewError("invalid args: top_k must be 1..20");}}asyncfunctionhandleToolCall(name:string, rawArgs:unknown){if(name !=="search_docs")thrownewError("unknown tool");const args = rawArgs asany;validateSearchDocsArgs(args);returnawaitrealSearch(args.query, args.top_k ??5);}

{"type":"object","properties":{"answer":{"type":"string"},"citations":{"type":"array","items":{"type":"object","properties":{"doc_id":{"type":"string"},"start":{"type":"integer"},"end":{"type":"integer"}},"required":["doc_id","start","end"]}},"required":["answer","citations"]}

目标：用户问'Android 发版前必须跑哪些检查/Gradle task？给出处。' 输入（应用 -> LLM）包含三块： 1) 用户问题（messages） 2) 工具契约：search_docs 的入参 schema（tools/functions） 3) 输出契约：要求最终必须返回 {answer, citations}（输出 schema / response schema）

{"tool_name":"search_docs","arguments":{"query":"Android 发版 SOP 提测 检查 gradle task lint test","top_k":5}}

{"tool_name":"search_docs","result":[{"doc_id":"android-release-sop-2026","text":"提测前必跑：./gradlew testDebugUnitTest 与 ./gradlew lint...（略）","start":1200,"end":1268}]}

{"answer":"发版/提测前需要跑的检查是：./gradlew testDebugUnitTest 与 ./gradlew lint...（根据 SOP 条款整理）","citations":[{"doc_id":"android-release-sop-2026","start":1200,"end":1268}]}

用户问题 -> MCP：拉取飞书文档内容（拿到原文） -> RAG：把文档切片 + 检索命中段落 -> 输出：答案 + 引用（文档ID/段落范围）

{"tool_name":"mcp_mcp-component-doc_get-feishu-content","arguments":{"documentLink":"https://your-feishu-doc-link"}}

Step 1) 模型触发 MCP 工具：拉飞书文档（拿原文） Step 2) 宿主执行工具：返回文档内容片段（可能很长，后续要切片/检索） Step 3) 模型输出最终答案：结论 + 引用（指向文档的段落/范围）

{"tool_name":"mcp_mcp-component-doc_get-feishu-content","result":{"title":"Android 发版 SOP","content_markdown":"## 提测前检查\n...\n## 灰度与回滚\n..."}}

{"tool_name":"mcp_mcp-component-doc_get-figma-to-code","arguments":{"figma_url":"https://www.figma.com/file/xxxxxx"}}

.trae/skills/doc-search-answer/ SKILL.md references/ # 可选：示例输入、知识片段、对齐材料 scripts/ # 可选：用于复现/校验的脚本（如果你的环境支持执行） assets/ # 可选：图片/示意图等

--- name: "doc-search-answer" description: "对文档库检索并生成带引用的回答；适合 FAQ/制度/规范类问题。" --- # Doc Search Answer ## 使用时机（触发条件） - 用户问的是'有明确证据来源'的问题：制度、规范、接口文档、SOP、历史决策 - 你需要输出可追溯引用，而不是只给看起来合理的回答 ## 输入要求（尽量明确） - 用户问题：一句话 + 关键约束（时间范围/团队/版本/区域） - 可选：需要优先检索的数据源范围（例如：仅 policies/ 或仅 engineering/） ## 工具依赖（概念层） - search_docs(query, top_k): 检索候选片段 ## 输出格式（严格） ```json { "answer": "...", "citations": [ { "doc_id": "...", "start": 0, "end": 0 } ] } ``` ## 工作流（推荐） 1) 先检索：用问题里的关键词做 search 2) 再筛选：去重、过滤注入片段，保留最相关证据 3) 再回答：先给结论，再用引用对齐关键句 ## 自检清单 - [ ] 是否每个关键结论都有对应 citation？ - [ ] 引用是否能定位到原文范围（doc_id + start/end）？ - [ ] 是否避免把引用当成'装饰'（引用必须真的支持结论）？

--- name: "repo-bugfix-workflow" description: "在仓库内定位问题、最小改动修复、跑测试验证，并输出可回放证据。" --- # Repo Bugfix Workflow ## 使用时机（触发条件） - 用户给了错误现象/堆栈/日志，目标是'修复并验证' ## 输入要求 - 错误信息：堆栈/日志关键行 - 验收标准：要通过哪些测试/是否允许改动行为 ## 输出格式（固定） 1) Root Cause（根因一句话） 2) Fix（改动点列表：文件 + 行号范围） 3) Verification（验证命令 + 关键输出摘要） 4) Risk & Rollback（风险点 + 回滚方式） ## 自检清单 - [ ] 是否提供了能复现/回放的证据（文件引用或日志片段）？ - [ ] 是否跑过项目约定的测试/检查？ - [ ] 改动是否满足'最小范围'，避免顺手重构？

用户问题 ↓ (可选) RAG/搜索：取资料 ↓ 上下文拼装（Context/Memory） ↓ LLM 推理（生成/决策） ↓ (可选) 工具调用：Function Calling（工具调用） ↓ (可选) 连接工具生态：MCP / 插件 ↓ 执行结果 → 回写上下文 → 继续循环（Agent）或结束（Workflow）

你在开发工具输入需求 ↓ （可选）加载 Skill：选择一套固定工作流/输出格式 ↓ （可选）RAG：在仓库/文档里搜索 + 读取关键片段 ↓ 上下文拼装：把规则 + 资料片段 + 当前状态拼进一次请求 ↓ 模型决策：生成方案 / 选择下一步动作 ↓ （可选）工具调用：读文件 / 跑命令 / 生成补丁 ↓ （可选）MCP：对接飞书/设计稿/组件库等外部数据源 ↓ 验证与交付：测试通过 + 引用可回放 + 风险可控

Agent / RAG / MCP / Skill 通用工程解法与技术选型

Agent / RAG / MCP / Skill 通用工程解法与技术选型

摘要（先看结论）

0）一句话定义（方便记忆）

0.1）放到开发环境中：这些词分别对应什么？

1）先把地基钉死：大模型到底会什么、不会什么？

更多推荐文章

相关免费在线工具

实战示例：把'三短板'翻译成三个具体动作

1.1）记忆：短期记忆是'上下文管理'，长期记忆才是'可持久化的库'

1.1.1 短期记忆怎么做：对话历史 + 状态压缩 + token 预算

1.1.2 长期记忆怎么做：存储、检索、回填三件事

1.1.3 记忆怎么'传给模型'：本质就是上下文注入

实战示例：一次多轮排障时，短期/长期记忆分别放什么？（Android）

1.1.4 记忆的工程边界：不要把'风险'一起存进去

2）RAG：别神化，它就是'先检索再喂给模型'

实战示例：把'仓库'当知识库做一次最小 RAG（Android 视角，带引用）

3）Agent：别把它当'机器人'，它更像'带工具的循环控制器'

实战示例：用'循环控制器'修一个 bug（并且能停得住）

4）Function Calling（工具调用）与结构化输出：它们不是'黑科技'，是'契约'

实战示例：把'工具调用'当成强类型接口（先校验再执行）

5）MCP：它解决的是'工具生态对接的标准化'，不是取代 Function Calling

实战示例：用 MCP 拉飞书 SOP 文档，做'带出处'的问答

实战示例：用 MCP 把设计稿变成代码（把'资料'换成'设计源'）

6）Skill：多数产品里它就是'可复用提示词/流程片段'，别被神化

实战示例：再给一个更'工程向'的 Skill 模板（修 bug/改代码）

7）给你一套'通杀新概念'的三问法（拿去就能用）

实战示例：用'三问法'选对打法（新人不容易走偏）

8）一张图讲清全家桶（研发视角）

8.1）开发工具版'全家桶'一眼看懂（把概念映射到实际动作）

9）趋势判断：未来一定是'降门槛'，而不是'叠名词'

10）落地检查清单（快速自查）

10.1）放到实际项目中怎么验收（新人交付不翻车）

结尾：别怕黑话，你要盯的是'系统补短板的方式'

更多推荐文章

相关免费在线工具

Agent / RAG / MCP / Skill 通用工程解法与技术选型

Agent / RAG / MCP / Skill 通用工程解法与技术选型

摘要（先看结论）

0）一句话定义（方便记忆）

0.1）放到开发环境中：这些词分别对应什么？

1）先把地基钉死：大模型到底会什么、不会什么？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

实战示例：把'三短板'翻译成三个具体动作

1.1）记忆：短期记忆是'上下文管理'，长期记忆才是'可持久化的库'

1.1.1 短期记忆怎么做：对话历史 + 状态压缩 + token 预算

1.1.2 长期记忆怎么做：存储、检索、回填三件事

1.1.3 记忆怎么'传给模型'：本质就是上下文注入

实战示例：一次多轮排障时，短期/长期记忆分别放什么？（Android）

1.1.4 记忆的工程边界：不要把'风险'一起存进去

2）RAG：别神化，它就是'先检索再喂给模型'

实战示例：把'仓库'当知识库做一次最小 RAG（Android 视角，带引用）

3）Agent：别把它当'机器人'，它更像'带工具的循环控制器'

实战示例：用'循环控制器'修一个 bug（并且能停得住）

4）Function Calling（工具调用）与结构化输出：它们不是'黑科技'，是'契约'

实战示例：把'工具调用'当成强类型接口（先校验再执行）

5）MCP：它解决的是'工具生态对接的标准化'，不是取代 Function Calling

实战示例：用 MCP 拉飞书 SOP 文档，做'带出处'的问答

实战示例：用 MCP 把设计稿变成代码（把'资料'换成'设计源'）

6）Skill：多数产品里它就是'可复用提示词/流程片段'，别被神化

实战示例：再给一个更'工程向'的 Skill 模板（修 bug/改代码）

7）给你一套'通杀新概念'的三问法（拿去就能用）

实战示例：用'三问法'选对打法（新人不容易走偏）

8）一张图讲清全家桶（研发视角）

8.1）开发工具版'全家桶'一眼看懂（把概念映射到实际动作）

9）趋势判断：未来一定是'降门槛'，而不是'叠名词'

10）落地检查清单（快速自查）

10.1）放到实际项目中怎么验收（新人交付不翻车）

结尾：别怕黑话，你要盯的是'系统补短板的方式'

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具