阿里开源纯前端浏览器自动化 PageAgent 技术解析 | 极客日志

JavaScriptAI大前端

阿里开源纯前端浏览器自动化 PageAgent 技术解析

介绍阿里开源的纯前端浏览器自动化框架 PageAgent，对比了 Playwright、OCBot 等传统方案。分析了 PageAgent 基于 LLM 和 DOM 语义理解的优势，并探讨了在富文本编辑器中实现自动化的技术难点及解决方案，包括实例调用和 Markdown 格式化清洗。最后总结了技术选型建议与 Token 成本优化方向。

随缘发布于 2026/4/5更新于 2026/7/2146 浏览

浏览器自动化演进：从 Playwright 到 PageAgent

摘要：浏览器自动化正在经历从"脚本执行"到"智能代理"的范式转移。阿里开源的 PageAgent 让 AI"住进"网页，但面对现代富文本编辑器的限制，纯 DOM 自动化面临挑战。本文深度解析技术演进与实战破局方案。

01 技术演进：三代浏览器自动化方案对比

浏览器自动化技术，正在经历一场从"机械执行"到"智能理解"的革命。

方案	核心原理	优势	局限
Playwright/Selenium	基于 DOM 选择器 + 预定义指令	稳定、成熟、生态完善	页面结构变化即失效，无法理解语义
PageAgent	LLM + 页面内嵌 JS 框架	自然语言交互、纯前端、免部署	依赖 LLM、Token 成本
OCBot	视觉识别 + 多模态理解	不依赖 DOM 结构、鲁棒性强	计算资源消耗大、推理速度慢

关键差异

传统方案（Playwright） 像是一个"盲眼执行者"——它能精准点击坐标，但不知道点击的是什么。

PageAgent 则像是一个"住在你网页里的智能助手"——它理解页面语义，能用自然语言对话，自主规划操作路径。

OCBot 更像是"视觉驱动的操作员"——通过截图和图像识别来定位元素，不依赖 DOM 结构。

02 PageAgent 深度解析：浏览器交互的新形态

什么是 PageAgent？

PageAgent 是阿里开源的纯前端 JavaScript GUI 智能体框架，核心理念用一句话概括：

The GUI Agent Living in Your Webpage（住在你网页里的 GUI 智能体）

GitHub 地址：alibaba/page-agent

新载体：标签页/浏览器插件

PageAgent 不再是一个独立的黑盒程序，它化身为两种形态：

Side Panel（侧边栏）
- 在浏览器一侧常驻
- 实时感知当前标签页内容
Browser Extension（插件）
- 注入页面上下文
- 直接操作 DOM 或调用页面内部 JS 实例

打破沙箱限制

![图片]

实现"所见即所得"的辅助

![图片]

工作原理

用户自然语言指令
  ↓
PageAgent 感知层
• DOM 树文本化
• Accessibility Tree 解析
• （可选）视觉截图
  ↓
LLM 决策层
• 理解页面结构
• 规划操作序列
• 生成执行代码
  ↓
执行层
• 调用页面 JS 实例
• 模拟用户交互
• 观察反馈并自我修正

核心优势

特性	传统方案	PageAgent

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online

// Markdown 格式化清洗函数
function fixMarkdown(text) {
    // 标题前后加空行
    let content = text.replace(/([^\n])(#{1,6}\s)/g, '$1\n\n$2');
    // 代码块前后加空行
    content = content.replace(/([^\n])(```)/g, '$1\n\n$2');
    // 合并多余空行
    content = content.replace(/\n{3,}/g, '\n\n');
    return content;
}

// 获取 CodeMirror 实例并调用 API
const editorRoot = document.querySelector('.bytemd-editor .CodeMirror');
const cmInstance = editorRoot.CodeMirror;
// 关键：获取实例
// 直接调用实例 API，而非操作 DOM
cmInstance.replaceRange(content, {line: lastLine, ch:0});
cmInstance.refresh();
// 强制刷新视图

用户在 IM 软件中对助手说： "写一篇关于浏览器自动化的文章，发到博客"
↓
1. IM 接收指令
2. 唤醒后端 PageAgent 服务
3. Agent 无头浏览器运行，完成撰写与发布
4. 结果回推至 IM 对话框

优化策略	说明	预期效果
小模型蒸馏	对于固定的 DOM 操作，训练专门的微小模型替代通用 LLM	降低 70%+ Token
规则 + AI 混合	已知站点使用硬编码"技能脚本"，未知站点才启用 LLM 推理	降低 50%+ Token
上下文压缩	仅向 LLM 传递关键的 DOM 片段，而非整页源码	降低 30%+ Token
缓存复用	相同页面的操作序列缓存复用	降低 40%+ Token

场景	推荐方案	理由
标准化测试	Playwright	稳定、成熟、生态完善
复杂网页交互	PageAgent	语义理解、自然语言交互
动态渲染页面	OCBot	视觉识别、不依赖 DOM
已知站点自动化	混合方案	规则 + AI，成本最优

部署方式	需配服务器/无头浏览器	一行 script 标签
交互方式	编写代码	自然语言对话
DOM 依赖	强依赖选择器	语义理解 + 实例调用
视觉识别	不支持	可选（但推荐跳过 OCR 省 Token）

阿里开源纯前端浏览器自动化 PageAgent 技术解析

浏览器自动化演进：从 Playwright 到 PageAgent

01 技术演进：三代浏览器自动化方案对比

关键差异

02 PageAgent 深度解析：浏览器交互的新形态

什么是 PageAgent？

新载体：标签页/浏览器插件

工作原理

核心优势

更多推荐文章

相关免费在线工具

03 实战痛点：当 PageAgent 遇上"顽固"编辑器

痛点一：特定平台的"换行消失术"

痛点二：富文本编辑器的"隐形墙"

04 未来展望：打通最后一公里

Agent 的跨界调用

挑战：Token 成本优化

05 总结与建议

技术选型建议

核心结论

更多推荐文章

相关免费在线工具

阿里开源纯前端浏览器自动化 PageAgent 技术解析

浏览器自动化演进：从 Playwright 到 PageAgent

01 技术演进：三代浏览器自动化方案对比

关键差异

02 PageAgent 深度解析：浏览器交互的新形态

什么是 PageAgent？

新载体：标签页/浏览器插件

工作原理

核心优势

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

03 实战痛点：当 PageAgent 遇上"顽固"编辑器

痛点一：特定平台的"换行消失术"

痛点二：富文本编辑器的"隐形墙"

04 未来展望：打通最后一公里

Agent 的跨界调用

挑战：Token 成本优化

05 总结与建议

技术选型建议

核心结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具