
在 AI 智能体(Agent)高速发展的今天,让 Agent'理解并操作网页'一直是技术难点。过去,我们依赖于脆弱的 DOM 抓取(Scraping)或昂贵的视觉模型(Vision Models)。现在,由 Google 和 Microsoft 联合推动的 WebMCP 协议正式浮出水面,它旨在彻底改变这一切,将每一个网页变成 Agent 可直接调用的'结构化工具箱'。
一、什么是 WebMCP?
WebMCP (Web Model Context Protocol) 是一项正在 W3C 孵化的浏览器 API 标准。 核心理念:不要让 AI 像盲人摸象一样去解析复杂的 HTML,而是让网站主动通过浏览器 API 暴露自己的功能(Tools)。
WebMCP vs. MCP:它们有何不同?
虽然名字相近,但分工明确:
- MCP (Model Context Protocol): 由 Anthropic 推出,主要用于后端,连接 AI 模型与数据库、本地文件或服务器端工具。
- WebMCP: 侧重于前端,是浏览器原生的 API,连接 Agent 与网页内的 JavaScript 逻辑。
两者互为补充,共同构成了 AI 工具集成的全栈协议。
二、核心架构:三位一体
WebMCP 的运行依赖于三个关键角色的协作:
- 网页 (Web Page): 开发者通过新 API 注册工具(如'搜索机票'、'添加到购物车')。
- 浏览器 (Browser): 作为信任层(Mediator),负责管理权限、显示用户确认弹窗并转发请求。
- AI Agent: 发现网页上的可用工具,并发送结构化的 JSON 参数进行调用。
三、开发者如何接入?
WebMCP 提供


