1.5k stars！阿里开源 PageAgent：让 AI 直接“住进“你的网页，用自然语言操控一切！

Ne0inhk

26 Mar 2026 — 6 min read

阿里开源 PageAgent：让 AI 直接"住进"你的网页，用自然语言操控一切

不需要浏览器插件，不需要 Python，不需要截图——一行 JS，让你的网页秒变 AI 智能体。

一、先说痛点：Web 自动化为什么这么难？

如果你用过 Selenium、Playwright，或者最近流行的 browser-use，你一定遇到过这些头疼的问题：

环境太重：得装 Python、headless 浏览器、各种依赖，部署复杂，维护成本高；
依赖截图 + OCR：很多方案靠多模态模型"看图操作"，慢、贵、还不准；
权限门槛高：要控制浏览器，往往需要特殊权限甚至操作系统级别的访问；
对现有产品改造成本大：想给自己的 SaaS 产品加个 AI Copilot？对不起，可能要重写后端。

这些问题的根源在于：传统 Web 自动化思路是"从外面控制浏览器"，就像隔着玻璃操作键盘，自然别扭。

阿里巴巴开源的 PageAgent，换了一个思路：让 AI Agent 直接住进网页里面。

二、PageAgent 是什么？

PageAgent（GitHub: alibaba/page-agent）是一个纯前端的 JavaScript GUI 智能体框架。

它的核心理念用一句话概括：

The GUI Agent Living in Your Webpage（住在你网页里的 GUI 智能体）

它能做什么？

用自然语言控制网页界面。你告诉它"点击登录按钮"、“把表单里的公司名改成阿里巴巴”、“帮我找到最近的订单并导出”，它就真的去做。

它有多轻量？

✅ 纯 JavaScript，直接嵌入页面
✅ 不需要浏览器扩展（有可选插件用于多 Tab 场景）
✅ 不需要 Python / headless 浏览器
✅ 不需要截图，不需要 OCR，不需要多模态大模型
✅ 不需要特殊权限

它通过直接读取和操作页面 DOM 来理解和控制界面，把清理后的 DOM 结构发给 LLM，由 LLM 决策操作步骤，再由 PageAgent 执行。整个过程全在浏览器里完成。

典型应用场景：

SaaS AI Copilot：几行代码给你的产品加上 AI 副驾，不用改后端
智能表单填写：把原本要点 20 下的操作，变成一句话
无障碍访问：让任何 Web 应用都能通过自然语言、语音操控

ERP / CRM 系统提效：这类系统交互复杂，PageAgent 特别适合

三、架构设计：它是怎么工作的？

PageAgent 是一个组织清晰的 monorepo，核心模块分工明确：

packages/ ├── core/ # 核心 Agent 逻辑（无 UI） ├── page-agent/ # 带内置 UI 面板的主入口 ├── page-controller/# DOM 操作层（独立于 LLM） ├── ui/ # 面板 UI（与 Agent 解耦） ├── llms/ # LLM 客户端适配层 └── extension/ # Chrome 扩展（多 Tab 支持，WIP）

工作流程大致如下：

用户输入自然语言指令（如"帮我搜索最新订单"）
PageAgent 清理当前页面 DOM，提取语义化结构
将简化的 DOM + 指令发送给 LLM（支持 Qwen、OpenAI 等）
LLM 返回操作步骤（点击哪个元素、输入什么内容）
page-controller 执行具体 DOM 操作
循环直到任务完成

关键亮点：不依赖截图

绝大多数竞品（包括 browser-use 的原始方案）要截图发给视觉模型识别。PageAgent 直接用 DOM 结构，这意味着：

速度更快（无需图像处理）
成本更低（无需多模态模型）
准确性更高（结构化信息比图像识别可靠）

四、怎么用？三种接入方式

方式一：最快体验——Demo LLM

打开官网 alibaba.github.io/page-agent，使用项目提供的免费 Demo API（仅供技术评估，有频率限制），直接在页面上输入指令体验。

方式二：编程接入（BYOK，自带密钥）

npminstall page-agent

import{ PageAgent }from'page-agent'const agent =newPageAgent({model:'qwen3.5-plus',baseURL:'https://dashscope.aliyuncs.com/compatible-mode/v1',apiKey:'YOUR_API_KEY',language:'zh-CN',})// 用自然语言执行操作await agent.execute('点击登录按钮')await agent.execute('把用户名填写为 admin')await agent.execute('找到最近7天的订单，导出为 Excel')

支持任何兼容 OpenAI 接口的 LLM 服务，包括阿里云百炼（Qwen）、OpenAI、Anthropic 等。

方式三：多 Tab 场景——Chrome 扩展

对于需要跨多个标签页操作的复杂任务，可以安装配套的 Chrome 扩展（目前仍在开发中，标注为 WIP）。配置好 API Key 后，Agent 的操作范围可以从单页面扩展到整个浏览器。

隐私与安全

PageAgent 采用 BYOK（Bring Your Own Key） 架构：

数据只在你的浏览器和你配置的 LLM 服务商之间流动
项目本身没有任何后端，不收集用户数据
API Key 仅存储在浏览器本地（localStorage）
所有配置不会同步到外部服务器

五、与其他方案对比

特性	PageAgent	browser-use	Playwright/Selenium
运行环境	纯浏览器 JS	Python + 浏览器	Python/Node + 无头浏览器
是否需要截图	❌ 不需要	✅ 需要	❌ 不需要
多模态模型	❌ 不需要	✅ 需要	❌ 不需要
嵌入现有产品	✅ 极易	❌ 困难	❌ 困难
适合场景	前端增强/Copilot	服务端自动化	测试/服务端自动化

值得一提的是，PageAgent 在 README 中坦诚地致谢了 browser-use 项目——DOM 处理组件和部分 Prompt 设计借鉴自该项目，并遵循 MIT 协议开源。开放的态度让人好感度倍增。

六、总结：它适合谁？

PageAgent 是一个思路清晰、定位精准的开源项目，核心价值在于"轻量嵌入"。

适合这些人用：

🎯 想给自家 SaaS / 后台系统快速加上 AI Copilot 的前端开发者
🎯 做 RPA 或自动化工具的工程师，想降低环境依赖
🎯 希望让老旧内部系统（ERP/CRM）支持自然语言交互的团队
🎯 对 Web Agent 技术感兴趣、想研究客户端 Agent 方案的研究者

需要注意的是：

目前 Chrome 扩展仍在开发中（WIP）
跨域、登录态等复杂场景可能需要额外处理
Demo API 仅供评估，生产使用需自备 LLM API Key

AI 与 Web 的结合，正在从"服务端控制浏览器"向"Agent 住进页面"演进。PageAgent 是这个方向上一个值得关注的实践。

GitHub 地址：https://github.com/alibaba/page-agent
官网文档：https://alibaba.github.io/page-agent/

如果觉得有帮助，欢迎点个在看 👇

FaceFusion与主流框架对比：Stable Diffusion、DeepFaceLive谁更强？

FaceFusion、Stable Diffusion 与 DeepFaceLive：谁才是人脸生成的终极答案？在虚拟主播一夜爆红、AI换脸视频席卷社交平台的今天，我们正站在一个人脸数字化的奇点上。无论是电影工业中悄然替换演员面孔，还是直播镜头里实时变身“数字分身”，背后都离不开几类关键技术的支撑。其中， FaceFusion 、 Stable Diffusion 和 DeepFaceLive 成为了开发者圈内热议的三大代表方案——它们看似都在“换脸”，实则走着截然不同的技术路线。有人用 FaceFusion 精修每一帧影视画面，追求像素级的真实感；有人靠 Stable Diffusion 输入一句提示词就生成一张从未存在过的明星写真；还有人通过 DeepFaceLive 在直播中毫秒级切换身份，仿佛拥有无限人格面具。这三者究竟有何本质区别？当精度、创意与速度不可兼得时，又该如何抉择？要理解这些工具的本质差异，得先看清楚它们解决的是哪一类问题。 FaceFusion 的目标很纯粹：把A的脸，完美地贴到B的身体上，且看不出痕迹。它不关心你想要什么风格，也不需要输入一段文

【通义万相】蓝耘智算 | 开源视频生成新纪元：通义万相2.1模型部署与测评

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈人工智能与大模型应用 ⌋ ⌋ ⌋ 人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录 * 前言 * 一、通义万相概述 * 二、通义万相功能介绍 * （一）静态图像生成 * （二）动态视频创作 * 三、基于蓝耘智算部署通义万相2.1 * （一）注册蓝耘智算平台账号 * （二）部署通义万相2.1 * （三）测试文生视频 * 四、未来发展 * 五、影响意义 * 小结前言 2025年，当通义万相2.

GitHub 64k Star 神器！OpenCode 5 分钟上手指南：开源免费，Claude Code 平替！

OpenCode，开源版 Claude Code。 6.4 万 GitHub Stars（昨天还是 6.1 万），100 万月活开发者，75+ 模型。昨天写了 Anthropic 封杀第三方工具、OpenAI 主动开门的事。今天出一篇 OpenCode 教程，5 分钟上手。 01｜安装三种方式，按需选择。桌面客户端（新手推荐）不习惯命令行？直接下载桌面版。你可以理解为带 GUI 界面的 Claude Code，操作简单，新手友好。打开 opencode.ai/download，macOS、Windows、Linux 版本都有。

GitHub下载太慢？这15个镜像站+PowerShell脚本让你速度飞起（2024实测）

GitHub下载加速实战：2024最新镜像站与PowerShell自动化方案对于国内开发者而言，从GitHub下载大型项目或依赖包时遭遇的龟速问题早已是家常便饭。一个300MB的Docker镜像可能需要半小时，而某些机器学习模型仓库的克隆操作甚至会在中途断开连接。本文将提供一套完整的解决方案，包含15个经过实测可用的镜像站点，以及能够自动选择最优下载路径的PowerShell脚本工具集。 1. 镜像加速原理与现状分析 GitHub访问缓慢的本质在于国际网络带宽限制和DNS解析延迟。镜像站通过以下两种方式解决问题： 1. 内容缓存：定期同步GitHub热门仓库到国内服务器 2. 链路优化：使用BGP多线接入和CDN加速 2024年可用的镜像站主要分为三类：类型特点典型示例文件加速型替换URL域名即可下载ghproxy.com仓库克隆型需要修改git远程地址gitclone.com综合代理型提供API接口和网页双通道fastgit.org 实际测试数据（2024年7月，100MB测试文件）：原始GitHub链接：平均速度 200KB/s 最佳镜像站点：平