阿里开源 PageAgent:基于 DOM 的 Web 智能体框架
不需要浏览器插件,不需要 Python,不需要截图——一行 JS,让你的网页秒变 AI 智能体。
一、先说痛点:Web 自动化为什么这么难?
如果你用过 Selenium、Playwright,或者最近流行的 browser-use,你一定遇到过这些头疼的问题:
- 环境太重:得装 Python、headless 浏览器、各种依赖,部署复杂,维护成本高;
- 依赖截图 + OCR:很多方案靠多模态模型"看图操作",慢、贵、还不准;
- 权限门槛高:要控制浏览器,往往需要特殊权限甚至操作系统级别的访问;
- 对现有产品改造成本大:想给自己的 SaaS 产品加个 AI Copilot?对不起,可能要重写后端。
这些问题的根源在于:传统 Web 自动化思路是"从外面控制浏览器",就像隔着玻璃操作键盘,自然别扭。
阿里巴巴开源的 PageAgent,换了一个思路:让 AI Agent 直接住进网页里面。
二、PageAgent 是什么?
PageAgent(GitHub: alibaba/page-agent)是一个纯前端的 JavaScript GUI 智能体框架。
它的核心理念用一句话概括:
The GUI Agent Living in Your Webpage(住在你网页里的 GUI 智能体)
它能做什么?
用自然语言控制网页界面。你告诉它"点击登录按钮"、'把表单里的公司名改成阿里巴巴'、'帮我找到最近的订单并导出',它就真的去做。
它有多轻量?
- ✅ 纯 JavaScript,直接嵌入页面
- ✅ 不需要浏览器扩展(有可选插件用于多 Tab 场景)
- ✅ 不需要 Python / headless 浏览器
- ✅ 不需要截图,不需要 OCR,不需要多模态大模型
- ✅ 不需要特殊权限
它通过直接读取和操作页面 DOM 来理解和控制界面,把清理后的 DOM 结构发给 LLM,由 LLM 决策操作步骤,再由 PageAgent 执行。整个过程全在浏览器里完成。
典型应用场景:
- SaaS AI Copilot:几行代码给你的产品加上 AI 副驾,不用改后端
- 智能表单填写:把原本要点 20 下的操作,变成一句话
- 无障碍访问:让任何 Web 应用都能通过自然语言、语音操控
ERP / CRM 系统提效:这类系统交互复杂,PageAgent 特别适合

三、架构设计:它是怎么工作的?
PageAgent 是一个组织清晰的 monorepo,核心模块分工明确:
packages/
├── core/ # 核心 Agent 逻辑(无 UI)
├── page-agent/ # 带内置 面板的主入口
├── page-controller/# 操作层(独立于 )
├── ui/ # 面板 (与 解耦)
├── llms/ # 客户端适配层
└── extension/ # 扩展(多 支持,)


