OpenClaw 架构解析：从 Skills、MCP、RAG、Memory 到 AI Agent

一、推理（Inference Service）服务是什么

在讨论任何高级概念前，我们必须回归物理本质。

像 GPT-4、DeepSeek-V3 这样的大语言模型（LLM），在磁盘上本质上只是一个巨大的参数文件（.safetensors 或 .bin）。它们本身是静态的，不会思考，也不会响应。

要让它们'活'过来，需要一个推理服务引擎（如 vLLM, TGI, Ollama）。

加载：引擎将参数文件加载到 GPU 显存中。
接口：对外暴露 HTTP/gRPC 接口（通常是 /v1/chat/completions）。
计算：接收 Token 序列，进行矩阵运算，输出下一个 Token 的概率分布。

结论：大模型 = 静态参数文件 + 推理引擎进程。对外暴露 HTTP 接口，接收用户请求，做推理，返回结果，这就是推理服务。给它套个 Web 前端，就是聊天机器人；给它加上复杂的控制逻辑，就是 AI Agent。

文章配图

二、状态管理：Memory（记忆机制）

1.痛点

HTTP 协议是无状态的（Stateless）。为了高并发，推理服务通常部署多个实例（Replicas）。

请求 A -> 实例 1
请求 B -> 实例 2

如果大模型本身不保存状态，如何让它记得你上一句说了什么呢？这就靠大模型的记忆。

2.技术实现

所谓的'记忆'，本质上是上下文工程（Context Engineering）。系统会在每次请求时，动态拼接历史对话，构造完整的 Prompt 发送给模型。

短期记忆（Short-term Memory）：滑动窗口机制。保留最近 NN 轮对话的完整文本。
- 技术点：使用 Redis 或内存队列存储最近会话。
长期记忆（Long-term Memory）：摘要压缩机制。将久远对话通过 LLM 提炼成关键信息（Summary），或存入向量库。即：
索引阶段：将外部文档切片（Chunking），通过 Embedding 模型转化为向量（Vector），存入向量数据库（如 Milvus, Chroma, pgvector）。
检索阶段：用户提问时，将问题也转化为向量，在数据库中计算余弦相似度，召回最相关的 KK 个片段。

生成阶段：将召回的片段作为'参考材料'注入 Prompt。架构图如下：

文章配图

OpenClaw 架构解析：从 Skills、MCP、RAG、Memory 到 AI Agent

一、推理（Inference Service）服务是什么

二、状态管理：Memory（记忆机制）

1.痛点

2.技术实现

更多推荐文章

相关免费在线工具

三、知识增强：RAG（检索增强生成）

1.痛点

2.技术实现

四、手脚延伸：MCP（Model Context Protocol）

1.痛点

2.技术实现

五、大脑皮层：Skills（技能编排）

1.痛点

2.技术实现

六、终极形态：AI Agent 与 OpenClaw

1.什么是 AI Agent？

2.OpenClaw (CloudBot) 的本质

七、进阶思考：多 Agent 协作（Multi-Agent）

结语

更多推荐文章

相关免费在线工具

OpenClaw 架构解析：从 Skills、MCP、RAG、Memory 到 AI Agent

一、推理（Inference Service）服务是什么

二、状态管理：Memory（记忆机制）

1.痛点

2.技术实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、知识增强：RAG（检索增强生成）

1.痛点

2.技术实现

四、手脚延伸：MCP（Model Context Protocol）

1.痛点

2.技术实现

五、大脑皮层：Skills（技能编排）

1.痛点

2.技术实现

六、终极形态：AI Agent 与 OpenClaw

1.什么是 AI Agent？

2.OpenClaw (CloudBot) 的本质

七、进阶思考：多 Agent 协作（Multi-Agent）

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具