WebMCP 深度解析:开启 AI Agent 的“浏览器原生”交互时代

在 AI 智能体(Agent)高速发展的今天,让 Agent “理解并操作网页”一直是技术难点。过去,我们依赖于脆弱的 DOM 抓取(Scraping) 或昂贵的 视觉模型(Vision Models)。
现在,由 Google 和 Microsoft 联合推动的 WebMCP 协议正式浮出水面,它旨在彻底改变这一切,将每一个网页变成 Agent 可直接调用的“结构化工具箱”。
一、 什么是 WebMCP?
WebMCP (Web Model Context Protocol) 是一项正在 W3C 孵化的浏览器 API 标准。
核心理念: 不要让 AI 像盲人摸象一样去解析复杂的 HTML,而是让网站主动通过浏览器 API 暴露自己的功能(Tools)。
WebMCP vs. MCP:它们有何不同?
虽然名字相近,但分工明确:
MCP (Model Context Protocol): 由 Anthropic 推出,主要用于 后端,连接 AI 模型与数据库、本地文件或服务器端工具。
WebMCP: 侧重于 前端,是浏览器原生的 API,连接 Agent 与网页内的 JavaScript 逻辑。
两者互为补充,共同构成了 AI 工具集成的全栈协议。
二、 核心架构:三位一体
WebMCP 的运行依赖于三个关键角色的协作:
网页 (Web Page): 开发者通过新 API 注册工具(如“搜索机票”、“添加到购物车”)。
浏览器 (Browser): 作为 信任层(Mediator),负责管理权限、显示用户确认弹窗并转发请求。
AI Agent: 发现网页上的可用工具,并发送结构化的 JSON 参数进行调用。
图示建议: 想象一个流程图,Agent 向浏览器询问“有什么工具?”,网页返回“搜索工具列表”,最后 Agent 直接调用网页内部函数。
三、 开发者如何接入?
WebMCP 提供