Page-Agent:用自然语言接管前端 DOM
当传统的自动化脚本还在艰难地寻找 DOM 节点时,Page-Agent 已经在你的网页里主动问用户:'这份 30 个字段的报销单,我已经帮你填好了,还需要核对一下再提交吗?'
一、核心定义与架构
Page-Agent 不是一个传统的自动化测试工具,而是一个完全运行在浏览器环境下的、能直接将自然语言转化为 DOM 操作的'意图执行'层。
1.1 与传统方案的区别
| 维度 | 传统自动化 (Puppeteer/RPA) | Page-Agent 的变革 | 核心价值 |
|---|---|---|---|
| 运行环境 | Server-Based 需要 Node.js/Python 甚至完整的无头浏览器。 | Client-First 完全运行在当前网页的 JavaScript 线程中。 | 零后端成本 完美继承当前用户的 Session 和登录态,无需处理鉴权。 |
| 识别模式 | Vision-Heavy 依赖截图和昂贵的多模态视觉大模型(极慢)。 | Text-Based DOM 深度脱水解析 DOM 树结构,纯文本输入大模型。 | 极速且精准 即使没有强大的多模态能力,普通大语言模型也能精准点击。 |
| 交互场域 | Siloed App 运行在后台,用户看不见摸不着。 | In-Page UI 自带 UI 面板直接浮在你的网页上,支持 Human-in-the-loop。 | 无感融入 它就像是你网站原生自带的一个智能客服助手。 |
1.2 技术架构
Page-Agent 采用了'前端探针 + 云端大脑'的分离设计。
User / Natural Language Intent │ ▼ ┌───────────────────────────────┐ │ Page-Agent UI (Iframe) │ ← 隔离的交互面板 (Human-in-the-loop) └──────────────┬────────────────┘ │ (Message/Event) ┌────────┼────────┐ ▼ ▼ ▼ DOM Parser Agent Core LLM Client (脱水脱敏)(意图路由)(可插拔大脑) │ │ │ ▼ ▼ ▼ ================================= Host Webpage (宿主 DOM 环境)=================================
核心组件:
- Agent Core(端侧中枢神经):运行在宿主网页的 JavaScript 线程中,直接触达底层的 DOM API,模拟人类触发原生的
click、input和scroll等事件。 - DOM Parser(高强度脱水器):智能过滤掉所有的排版与布局标签,只提取出真正'可交互'的节点,大幅降低 Token 消耗并遏制 AI 的幻觉。
- LLM Client(可插拔大脑):将'如何操作页面'交给了 Agent Core,而将'该做什么'交给了大模型。支持接入 Claude 3.5 Sonnet、GPT-4o、通义千问或本地 Ollama 节点。
二、核心功能
2.1 极简接入
Page-Agent 的核心哲学是'不碰后端代码'。它不是需要用户手动下载的沉重客户端,而是直接嵌入在网页中的'幽灵操作员'。
- Vanilla HTML/JS:一行
<script>CDN 引入,开箱即用。 - React / Vue / Angular:NPM 安装,提供无缝的 Hook 集成。
- Legacy 遗留系统:无论后台是用 jQuery 还是 JSP 写的,只要有 DOM 树,它就能管。


