阿里开源 PageAgent：让 AI 住进网页，用自然语言操控界面

阿里开源 PageAgent：让 AI 直接'住进'你的网页

不需要浏览器插件，不需要 Python，不需要截图——一行 JS，让你的网页秒变 AI 智能体。

痛点：Web 自动化为什么这么难？

如果你用过 Selenium、Playwright，或者最近流行的 browser-use，一定遇到过这些头疼的问题：

环境太重：得装 Python、headless 浏览器、各种依赖，部署复杂，维护成本高；
依赖截图 + OCR：很多方案靠多模态模型'看图操作'，慢、贵、还不准；
权限门槛高：要控制浏览器，往往需要特殊权限甚至操作系统级别的访问；
对现有产品改造成本大：想给自己的 SaaS 产品加个 AI Copilot？对不起，可能要重写后端。

这些问题的根源在于：传统 Web 自动化思路是'从外面控制浏览器'，就像隔着玻璃操作键盘，自然别扭。

阿里巴巴开源的 PageAgent，换了一个思路：让 AI Agent 直接住进网页里面。

PageAgent 是什么？

PageAgent（GitHub: alibaba/page-agent）是一个纯前端的 JavaScript GUI 智能体框架。

它的核心理念用一句话概括：

The GUI Agent Living in Your Webpage（住在你网页里的 GUI 智能体）

它能做什么？

用自然语言控制网页界面。你告诉它'点击登录按钮'、'把表单里的公司名改成阿里巴巴'、'帮我找到最近的订单并导出'，它就真的去做。

它有多轻量？

✅ 纯 JavaScript，直接嵌入页面
✅ 不需要浏览器扩展（有可选插件用于多 Tab 场景）
✅ 不需要 Python / headless 浏览器
✅ 不需要截图，不需要 OCR，不需要多模态大模型
✅ 不需要特殊权限

它通过直接读取和操作页面 DOM 来理解和控制界面，把清理后的 DOM 结构发给 LLM，由 LLM 决策操作步骤，再由 PageAgent 执行。整个过程全在浏览器里完成。

典型应用场景：

SaaS AI Copilot：几行代码给你的产品加上 AI 副驾，不用改后端
智能表单填写：把原本要点 20 下的操作，变成一句话
无障碍访问：让任何 Web 应用都能通过自然语言、语音操控
ERP / CRM 系统提效：这类系统交互复杂，PageAgent 特别适合

在这里插入图片描述

架构设计：它是怎么工作的？

PageAgent 是一个组织清晰的 monorepo，核心模块分工明确：

packages/
├── core/ # 核心 Agent 逻辑（无 UI）
├── page-agent/ # 带内置 UI 面板的主入口
├── page-controller/# DOM 操作层（独立于 LLM）
├── ui/ 
├── llms/ 
└── extension/

特性	PageAgent	browser-use	Playwright/Selenium
运行环境	纯浏览器 JS	Python + 浏览器	Python/Node + 无头浏览器
是否需要截图	❌ 不需要	✅ 需要	❌ 不需要
多模态模型	❌ 不需要	✅ 需要	❌ 不需要
嵌入现有产品	✅ 极易	❌ 困难	❌ 困难
适合场景	前端增强/Copilot	服务端自动化	测试/服务端自动化

阿里开源 PageAgent：让 AI 住进网页，用自然语言操控界面

阿里开源 PageAgent：让 AI 直接'住进'你的网页

痛点：Web 自动化为什么这么难？

PageAgent 是什么？

架构设计：它是怎么工作的？

更多推荐文章

相关免费在线工具

怎么用？三种接入方式

方式一：最快体验——Demo LLM

方式二：编程接入（BYOK，自带密钥）

方式三：多 Tab 场景——Chrome 扩展

隐私与安全

与其他方案对比

总结：它适合谁？

更多推荐文章

相关免费在线工具

阿里开源 PageAgent：让 AI 住进网页，用自然语言操控界面

阿里开源 PageAgent：让 AI 直接'住进'你的网页

痛点：Web 自动化为什么这么难？

PageAgent 是什么？

架构设计：它是怎么工作的？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

怎么用？三种接入方式

方式一：最快体验——Demo LLM

方式二：编程接入（BYOK，自带密钥）

方式三：多 Tab 场景——Chrome 扩展

隐私与安全

与其他方案对比

总结：它适合谁？

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具