WebMCP 是什么
基本定义
WebMCP(Web Model Context Protocol)是 Google 与 Microsoft 在 W3C 框架下联合推动的浏览器原生 Web API。Chrome 146 已推出早期预览版本,核心目标是让网页主动将自身能力封装为结构化工具,供 AI Agent 直接调用,解决当前 Agent 操作网页的稳定性与效率问题。
核心思想
把交互从 UI 层搬到语义层。不再依赖按钮点击、坐标定位或 DOM 解析,而是让网页直接暴露'提交请假''搜索航班''加入购物车'等业务动作,形成结构化工具契约,Agent 按契约调用而非'猜 UI'。
关键特性
- 双轨 API 设计:声明式 API(HTML 表单属性)+ 命令式 API(JavaScript 注册),兼顾易用性与灵活性
- 浏览器内运行:纯客户端实现,网页本身就是'工具服务器',天然继承用户登录态与权限上下文
- 结构化上下文:支持网页提供 JSON 格式的业务状态(如购物车、表单草稿),大幅降低模型理解成本
- 工具契约化:每个工具包含名称、描述、输入输出 Schema、执行逻辑,变更可控
解决的核心痛点
当前 Agent 操作网页的两大路线均存在缺陷:
| 交互路线 | 核心问题 | WebMCP 解决方案 |
|---|---|---|
| 视觉路线(截图识别) | 慢、贵(约 2000 token/次)、易出错 | 语义化工具调用,Token 消耗减少约 89% |
| DOM/选择器路线 | 脆弱(改版即失效)、复杂场景难处理 | 工具契约不变则不受 UI 变更影响 |
WebMCP 让 Agent 从'呈现层倒推业务动作'转变为'直接调用业务动作',稳定性与效率显著提升。
与 Anthropic MCP 的区别
WebMCP 与 Anthropic MCP(Model Context Protocol)虽同名,但架构完全不同,聚焦领域互补,成熟应用可同时部署。
| 对比维度 | Anthropic MCP | WebMCP |
|---|---|---|
| 协议基础 | JSON-RPC 2.0 | 非 JSON-RPC,纯 Web 原生 API |
| 架构模式 | Client-Server(需后端服务器) | 纯客户端(网页即'服务器') |
| 运行位置 | 后端独立服务 | 浏览器前端环境 |
| 认证机制 | OAuth 2.1 | 浏览器原有认证(Cookie、Session) |
| 可用性 | 服务器常驻运行 | 用户导航到页面时才可用 |
| 聚焦场景 | 后端服务集成、跨系统数据访问 | 前端浏览器交互、网页功能调用 |
| 核心优势 | 统一后端集成标准 | 天然复用浏览器上下文、低接入成本 |
关键结论:Anthropic MCP 解决'AI 如何连接后端服务',WebMCP 解决'AI 如何操作前端网页',二者相辅相成,非竞争关系。

