【学习笔记】一文解析OpenClaw(clawdbot)是什么?从Skills、MCP、RAG、Memory到AI Agent

【学习笔记】一文解析OpenClaw(clawdbot)是什么?从Skills、MCP、RAG、Memory到AI Agent

摘要:本文旨在拆解 OpenClaw 的核心构成及其背后的关键技术栈,并剖析推理服务的物理本质,阐述 Memory(记忆机制) 如何解决大模型的状态丢失问题,解析 RAG(检索增强生成) 如何突破知识时效性限制,详解 MCP(模型上下文协议) 如何赋予大模型操作工具的能力,并说明 Skills(技能编排) 如何将原子化操作转化为复杂工作流。最终,本文将这些组件串联,揭示 OpenClaw 作为 AI Agent 的完整架构逻辑,帮助开发者理清概念迷雾,掌握构建自主智能体的核心方法论。
关键词:OpenClaw, AI Agent, MCP, RAG, Memory, Skills, 大模型架构


一、推理(Inference Service)服务是什么

在讨论任何高级概念前,我们必须回归物理本质。

像 GPT-4、DeepSeek-V3 这样的大语言模型(LLM),在磁盘上本质上只是一个巨大的参数文件(.safetensors 或 .bin)。它们本身是静态的,不会思考,也不会响应。

要让它们“活”过来,需要一个推理服务引擎(如 vLLM, TGI, Ollama)。

  • 加载:引擎将参数文件加载到 GPU 显存中。
  • 接口:对外暴露 HTTP/gRPC 接口(通常是 /v1/chat/completions)。
  • 计算:接收 Token 序列,进行矩阵运算,输出下一个 Token 的概率分布。

结论:大模型 = 静态参数文件 + 推理引擎进程。对外暴露HTTP接口,接收用户请求,做推理,返回结果,这就是推理服务。给它套个 Web 前端,就是聊天机器人;给它加上复杂的控制逻辑,就是 AI Agent。

二、状态管理:Memory(记忆机制)

1.痛点

HTTP 协议是无状态的(Stateless)。为了高并发,推理服务通常部署多个实例(Replicas)。

  • 请求 A -> 实例 1
  • 请求 B -> 实例 2

如果大模型本身不保存状态,如何让它记得你上一句说了什么呢?这就靠大模型的记忆。

2.技术实现

所谓的“记忆”,本质上是上下文工程(Context Engineering)。系统会在每次请求时,动态拼接历史对话,构造完整的 Prompt 发送给模型。

  • 短期记忆(Short-term Memory):滑动窗口机制。保留最近 NN 轮对话的完整文本。
    • 技术点:使用 Redis 或内存队列存储最近会话。
  • 长期记忆(Long-term Memory):摘要压缩机制。将久远对话通过 LLM 提炼成关键信息(Summary),或存入向量库。即:
  • 索引阶段:将外部文档切片(Chunking),通过 Embedding 模型转化为向量(Vector),存入向量数据库(如 Milvus, Chroma, pgvector)。
  • 检索阶段:用户提问时,将问题也转化为向量,在数据库中计算余弦相似度,召回最相关的 KK 个片段。

生成阶段:将召回的片段作为“参考材料”注入 Prompt。架构图如下:


三、知识增强:RAG(检索增强生成)

1.痛点

大模型的训练用的数据集是截止于某个时间点(Knowledge Cutoff)的历史数据,且无法访问私有数据(如公司内部文档、最新新闻)。直接问它“昨天股价多少”或“公司报销流程”,它会胡编乱造(幻觉)。

2.技术实现

RAG (Retrieval-Augmented Generation) 的核心流程是:检索 -> 增强 -> 生成

为什么不用传统 SQL?

当字面完全不同,但语义高度相关(特定梗或隐喻)时,只有向量数据库能捕捉这种语义距离。

四、手脚延伸:MCP(Model Context Protocol)

1.痛点

大模型虽然有了记忆和知识,但还是个“缸中之脑”,只能动口不能动手。它想发邮件、查 GitHub、操作本地文件,该怎么办?

2.技术实现

MCP (Model Context Protocol) 是 Anthropic 提出的一种标准化协议,旨在统一大模型与外部数据/工具的连接方式。它解决了“方言”不通的问题。

  • MCP Host:集成大模型的应用(如 Cursor, OpenClaw)。负责发起请求。
  • MCP Client:运行在 Host 端,负责传输协议。
  • MCP Server:运行在远端或本地,封装具体的工具逻辑(如调用 GitHub API, 读取文件系统)。

工作流程:

  1. 声明:Server 启动时,向 Host 注册可用工具列表(Tools Schema)。
  2. 决策:LLM 根据用户意图,决定调用哪个工具,并生成符合 JSON Schema 的参数。
  3. 执行:Host 通过 MCP 协议将 JSON 发给 Server,Server 执行真实操作(如 git commit)。
  4. 反馈:Server 将执行结果(成功/失败/输出)返回给 LLM,LLM 据此生成自然语言回复。

OpenClaw 中的 MCP 应用:
OpenClaw 作为一个本地 Agent,通过 MCP 协议调用本地的 Python 脚本、Shell 命令或浏览器自动化接口。这使得它能真正“操作”你的电脑。架构图如下:


五、大脑皮层:Skills(技能编排)

1.痛点

MCP 提供了原子化的工具(扳手、锤子),但大模型并不天生知道修车的流程。面对复杂任务(如“排查线上故障”),模型可能乱用工具,或者顺序错误。

2.技术实现

Skills 是结构化的操作手册工作流模板。它将“工具调用”升级为“任务编排”。

  • 定义:Skills 通常由 YAML 或 DSL 定义,包含触发条件、执行步骤、异常处理逻辑。
  • 作用:约束 LLM 的行为边界,提供 Few-Shot(少样本)引导。

区别总结

  • MCP = 给了大学生一套工具箱。
  • Skills = 给了大学生一本《维修操作SOP》。
  • OpenClaw = 一个读了 SOP、拿着工具箱、还能记住你上次修车记录的资深技工。架构图如下:

六、终极形态:AI Agent 与 OpenClaw

1.什么是 AI Agent?

当我们将上述组件整合:

Agent=LLM(大脑)+Memory(记忆)+RAG(知识库)+MCP(工具手)+Skills(经验流程)Agent=LLM(大脑)+Memory(记忆)+RAG(知识库)+MCP(工具手)+Skills(经验流程)

这就构成了 AI Agent。它不再是被动问答,而是具备感知、规划、行动、反思能力的自主系统。

2.OpenClaw (CloudBot) 的本质

OpenClaw 是一个面向本地桌面环境的通用 AI Agent

  • 核心能力:通过 MCP 协议深度接管操作系统权限(文件读写、应用启动、网页操作)。
  • 对比 Manus
    • Manus:为了安全,将执行环境隔离在云端虚拟机(Sandbox),适合企业级敏感操作,但延迟高、成本高。
    • OpenClaw:主打“野路子”美学,直接运行在用户本地。权限极大,风险自负,但响应极快,能操作本地所有软件。架构图如下:

安全提示
OpenClaw 的强大源于其极高的权限。它本质上是一个自动化脚本的解释器。如果 Prompt 注入攻击成功,它可能删除你的文件或发送钓鱼邮件。信任,但验证(Trust but Verify)是使用此类本地 Agent 的第一原则

七、进阶思考:多 Agent 协作(Multi-Agent)

单个 Agent 已经很强,但未来的趋势是多 Agent 协作(Multi-Agent Systems)

想象一个软件开发团队:

  1. Product Agent:负责分析需求,拆解任务(使用 Skills 定义产品流程)。
  2. Coder Agent:负责编写代码(调用 GitHub MCP)。
  3. Reviewer Agent:负责 Code Review 和安全扫描(调用静态分析工具)。
  4. Deploy Agent:负责 CI/CD 流水线。

它们之间通过共享 Memory 或消息队列通信,互相监督、互相修正。这就是下一代 AI 架构的核心战场。

结语

从静态的模型文件,到拥有记忆、知识和手脚的 OpenClaw,技术并没有发生魔法般的突变,而是工程化组装的艺术。

  • Memory 解决了状态丢失。
  • RAG 解决了知识滞后。
  • MCP 解决了动作执行。
  • Skills 解决了逻辑混乱。

Read more

Java在AI时代的崛起:从传统机器学习到AIGC的全栈解决方案

Java在AI时代的崛起:从传统机器学习到AIGC的全栈解决方案

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[[email protected]] 📱个人微信:15279484656 🌐个人导航网站:www.forff.top 💡座右铭:总有人要赢。为什么不能是我呢? * 专栏导航: 码农阿豪系列专栏导航 面试专栏:收集了java相关高频面试题,面试实战总结🍻🎉🖥️ Spring5系列专栏:整理了Spring5重要知识点与实战演练,有案例可直接使用🚀🔧💻 Redis专栏:Redis从零到一学习分享,经验总结,案例实战💐📝💡 全栈系列专栏:海纳百川有容乃大,可能你想要的东西里面都有🤸🌱🚀 目录 * Java在AI时代的崛起:从传统机器学习到AIGC的全栈解决方案 * 一、Java AI生态概览:多样化的技术选择 * 1.1 深度学习框架:接轨主流AI技术 * Deep Java Library

GitHub Copilot安装使用

GitHub Copilot安装使用

GitHub Copilot 怎么安装使用 一、 安装前准备 1. 拥有一个 GitHub 账号:如果没有,请先在 GitHub 官网 注册。 2. 订阅 GitHub Copilot: * 访问订阅页面:登录 GitHub 后,访问 GitHub Copilot 官网。 * 选择订阅计划: * 个人版:适合独立开发者,提供 30 天免费试用,之后每月 $10 或每年 $100。 * 商业版 (Copilot for Business):适用于企业或团队,每位用户每月 $19。 * 教育优惠:学生、教师和热门开源项目维护者可免费使用,需通过身份验证。 * 完成支付:根据所选计划完成支付流程(个人版需绑定信用卡或

从零开始:手把手教你用复旦微FMQL45T900搭建ARM+FPGA开发环境

从零开始:手把手教你用复旦微FMQL45T900搭建ARM+FPGA开发环境 最近几年,国产芯片的势头越来越猛,尤其是在一些对供应链安全有要求的领域。我手头正好有一块复旦微电子的FMQL45T900开发板,这块板子对标的是Xilinx的ZYNQ 7045,集成了四核Cortex-A7的ARM处理器和一片逻辑规模不小的FPGA。对于习惯了Xilinx Vivado和Petalinux生态的工程师来说,初次接触国产平台,从工具链到开发流程,确实会遇到不少“水土不服”的地方。这篇文章,我就结合自己从开箱到跑通第一个“Hello World”的完整过程,把踩过的坑和总结的经验,毫无保留地分享给各位。无论你是想评估国产替代方案的资深工程师,还是刚接触异构SoC的初学者,这篇详尽的指南都能帮你快速搭建起一个可用的开发环境,把这块性能不错的国产芯片真正用起来。 1. 开箱与硬件初识:理解你的开发平台 拿到FMQL45T900开发板(市面上常称为FM4550开发板),第一件事不是急着上电,而是花点时间搞清楚它的硬件配置和资源分布。这能帮你后续在软件配置时,心里有张清晰的“地图”。 这块板子的

具身智能演示深解---从盲行到跑酷:深度视觉如何赋予足式机器人极限运动能力

具身智能演示深解---从盲行到跑酷:深度视觉如何赋予足式机器人极限运动能力

1. 引言:为什么需要深度视觉 在过去数年间,基于强化学习的足式机器人运动控制取得了长足进展。早期的工作——以ETH的legged_gym框架和IsaacGym并行训练环境为代表——已经证明,仅依靠本体感知(关节编码器、IMU等)就能训练出在连续复杂地形上鲁棒行走的策略。这类方法通常被称为"Blind Locomotion",即机器人不借助任何外部视觉传感器,完全依赖对自身状态的感知来适应地形变化。DreamWaQ(KAIST, ICRA 2023)等工作进一步证明,通过非对称Actor-Critic框架配合隐式地形估计,四足机器人甚至可以在户外多样地形上实现长距离鲁棒行走。 然而,Blind Locomotion存在一个根本性的局限:机器人无法预知前方地形的具体形态。当面对跳箱、深沟、高台阶等需要提前规划动量和轨迹的极限地形时,纯本体感知的策略往往力不从心。跑酷(Parkour)场景要求机器人在接近障碍物之前就判断出障碍物的高度、宽度和距离,并据此调整步态、积累动量、选择起跳时机。这些决策必须依赖对前方环境的主动感知——深度视觉由此成为从"能走"到"能跑酷&