阿里开源 Page-Agent：一行 JS 代码实现大模型前端 DOM 控制 | 极客日志

JavaScriptSaaSAI大前端

阿里开源 Page-Agent：一行 JS 代码实现大模型前端 DOM 控制

Page-Agent 是阿里开源的前端智能体工具，通过注入单行 JavaScript 代码即可让大模型直接操作网页 DOM。它采用客户端优先架构，无需后端改造，利用 DOM 脱水技术降低 Token 消耗，支持多种大模型接入。相比传统 RPA 或 Playwright，它具备零鉴权成本、毫秒级响应及人机协同安全机制。适用于表单自动填充、SaaS 系统智能化升级及跨标签页数据搬运等场景，为 Web 自动化提供了轻量高效的解决方案。

不知所云发布于 2026/4/9更新于 2026/7/2543 浏览

阿里开源 Page-Agent：一行 JS 代码实现大模型前端 DOM 控制

当传统的自动化脚本还在艰难地寻找 DOM 节点时，Page-Agent 已经能够在网页内部主动与用户交互，确认操作意图。

一、项目背景与核心定位

近期 GitHub 上出现了一个现象级的开源项目——Page-Agent。如果说过去两年的 Web AI 创新多集中在后端的 API 调用，那么 Page-Agent 则代表了一种属于前端和界面的新范式。

这不是普通的开源库，它是对"云端算力霸权"和"重度后端依赖"的一次技术反抗。它将极其复杂的"网页级智能体"能力，压缩成了一行简单的 <script> 标签引入。

纯粹的端侧革命： 不依赖 Python 环境，不需要跑 Docker 容器，完全基于浏览器原生 JavaScript。
广泛的开发者拥趸： 从 SaaS 创业者到企业内部 ERP 系统的架构师，全球的开发者正在自发地将其接入到后台系统中。

用户对它的评价通常是：

'这才是 SaaS 产品的 Copilot 应该成为的样子。' '一旦加进系统，用户就再也不想自己去点鼠标了。'

Page-Agent 到底是什么？为什么它能引发如此关注？更重要的是——它对你我意味着什么？

二、Page-Agent 的本质：不只是浏览器插件

如果说传统的 Playwright 或者 Puppeteer 是被困在服务器里、只能听从硬编码指令的脚本，那么 Page-Agent 就是那个直接"寄生"在你网页内部、拥有视觉和触觉的超级操作员。

2.1 一句话定义

Page-Agent 不是一个传统的自动化测试工具，它是一个完全运行在浏览器环境下的、能直接将自然语言转化为 DOM 操作的"意图执行"层。

它不同于必须让用户额外安装的 Chrome 插件，也不同于笨重的桌面级 RPA 工具。市面上的 Web 自动化方案大多停留在"基于规则的脚本回放"层面：界面的 UI 元素一旦改变，脚本就会随之崩溃。而 Page-Agent 的设计哲学是**'上下文感知与动态执行'。它不仅仅是作为一个外挂存在，它更是无缝融入**了你当前的网页生态。

我们用三个核心维度来重新丈量 Page-Agent 与传统自动化方案的区别：

维度	传统自动化 (Puppeteer/RPA)	Page-Agent 的变革	核心价值
运行环境	Server-Based 需要 Node.js/Python 甚至完整的无头浏览器。	Client-First 完全运行在当前网页的 JavaScript 线程中。	零后端成本完美继承当前用户的 Session 和登录态，无需处理鉴权。
识别模式	Vision-Heavy 依赖截图和昂贵的多模态视觉大模型（极慢）。	Text-Based DOM 深度脱水解析 DOM 树结构，纯文本输入大模型。	极速且精准即使没有强大的多模态能力，普通大语言模型也能精准点击。
交互场域	Siloed App 运行在后台，用户看不见摸不着。

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online

User / Natural Language Intent
        ▼
+-----------------------------+
| Page-Agent UI (Iframe)      | ← 隔离的交互面板 (Human-in-the-loop)
+-----------------------------+
        │ (Message/Event)
        ▼
+-----------------------------+
│ DOM Parser │ Agent Core │ LLM Client
│ (脱水脱敏) │ (意图路由) │ (可插拔大脑)
+-----------------------------+
        │
        ▼
================================ Host Webpage (宿主 DOM 环境) ================================

框架生态	状态	接入方式与特色
Vanilla HTML/JS	稳定	一行 `<script>` CDN 引入，开箱即用，自带 UI 面板。
React / Next.js	稳定	NPM 安装，提供无缝的 Hook 集成，完美适配虚拟 DOM。
Vue 3 / Nuxt	稳定	同样支持 NPM 引入，可与现有的响应式状态双向绑定。
Legacy 遗留系统	稳定	无论你的后台是用 jQuery 还是 JSP 写的，只要有 DOM 树，它就能管。

<div class="flex-container w-full pt-4 shadow-lg bg-white">
  <div class="icon-wrapper">
    <svg viewBox="0 0 24 24">...</svg>
  </div>
  <button id="btn-submit" class="hover:bg-blue-500 rounded-md text-white">
    <span>确认提交</span>
  </button>
</div>

[{"id":104,"role":"button","text":"确认提交","actionable":true}]

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
  // ... 其他配置
  security: {
    masking: {
      enabled: true,
      // 根据类名或 ID 直接拦截
      maskedSelectors: ['.revenue-data', '#user-balance', '.private-info'],
      // 正则拦截：发现 11 位手机号或金额直接替换为 [MASKED]
      regexPatterns: [
        { pattern: /\b\d{11}\b/g, replacement: '[PHONE_MASKED]' },
        { pattern: /¥\d+(,\d{3})*(\.\d{1,2})?/g, replacement: '[MONEY_MASKED]' }
      ]
    }
  }
})

核心维度	🌐 Page-Agent (The Inside-Out)	🤖 传统 RPA / Playwright (The Outsider)	🍎 独立浏览器扩展 AI (The Observer)	🖥️ 桌面级多模态 Agent (The Slow Giant)
接入成本	即插即用只需在前端加一行 `<script>`，你的网站瞬间拥有 AI。	极高需部署独立服务器集群、配置 Node.js/Python 环境及爬虫脚本。	受限必须强迫你的用户去 Chrome 商店下载并安装第三方插件。	极重需要用户下载几百兆的本地客户端，且占用大量系统资源。
状态共享	完美继承 (God Mode) 与用户同处一个上下文，直接复用当前登录态和 Token，免疫所有验证码。	极度痛苦每次运行都要写脚本处理登录、滑块验证码、甚至被防爬策略封杀。	较好能读取部分页面信息，但受限于浏览器扩展的跨域和安全策略。	割裂它只是在看屏幕，不懂你的系统底层 Token 逻辑。
执行视角	DOM 级微操精准读取真实节点树，无视网络延迟，直接触发前端框架底层 Event。	外部黑盒操作通过 WebDriver 强行控制，经常因为一个 Loading 动画没结束而导致全盘崩溃。	视觉与权限盲区对深层绑定的 React/Vue 合成事件理解有限，容易点错。	纯视觉推测依赖昂贵的大模型去猜按钮的坐标，慢且容易产生幻觉。
持有成本	零服务器成本算力在客户端，仅仅产生极低的大模型纯文本 API 费用。	高昂且持续需要专门的自动化测试团队长期维护那些极易失效的 Xpath 脚本。	不确定通常需要按月向插件开发商支付订阅费。	极度昂贵每次点击都需要消耗大量的多模态视觉 Token 费用。

<script src="https://cdn.jsdelivr.net/npm/[email protected]/dist/iife/page-agent.demo.js" crossorigin="true"></script>

# 在你的前端项目根目录下执行
npm install page-agent

import { PageAgent } from 'page-agent'

// 1. 实例化超级操作员
const agent = new PageAgent({
  model: 'qwen3.5-plus', // 强烈推荐支持 ToolCall 的模型
  baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
  apiKey: process.env.VITE_APP_LLM_API_KEY, // 生产环境请务必通过环境变量或后端接口获取！
  language: 'zh-CN'
})

// 2. 将其绑定到你业务系统的某个交互上
document.getElementById('magic-ai-button').addEventListener('click', async () => {
  // 你可以直接把用户的语音或文本传给它，它会自动接管 DOM
  await agent.execute('提取当前列表中所有的待办事项，并帮我新建一个工作汇报草稿。')
})

const agent = new PageAgent({
  // 基础模型配置
  model: 'deepseek-chat',
  apiKey: 'YOUR_API_KEY',
  
  // 核心！配置你的特权与边界
  security: {
    masking: {
      enabled: true, // 开启数据脱敏
      maskedSelectors: ['.user-password', '.finance-revenue', '#credit-card-input'], // 命中的 DOM 节点数据将被替换为 [MASKED]，绝不上传云端
    }
  },
  
  // UI 表现控制
  ui: {
    visible: true, // 设置为 false 则隐藏自带对话框，你可以用自己画的 React 组件来操控它
    position: 'bottom-right',
    theme: 'dark' // 适配你的网站主题
  },
  
  // 动作节流保护
  action: {
    requireConfirmation: true, // 对于所有的表单提交操作，强制弹窗要求人类确认 (Human-in-the-loop)
  }
})

方案类型	推荐模型	适用场景与表现	成本估算
🧠 智力巅峰	Claude 3.5 Sonnet / GPT-4o	极其复杂的巨型表单、非标准前端组件的解析。它们极少在 JSON 格式输出上犯错，Tool Call 极其稳定。	`$$$` (较高)
🚀 性价比之王	DeepSeek-V3 / Qwen-Max	B2B 系统的日常表单填写、页面导航、数据抽取。逻辑能力完全溢出，且 API 价格低到可以忽略不计。	`¢` (极低)
🛡️ 隐私堡垒	Llama-3 (Ollama)	处理内网财务审批、医疗数据录入。完全断网运行，敏感业务数据绝对不出境。	`$0` (需自备显卡算力)
⚡ 极速响应	Qwen 3.5 Plus	官方推荐。在响应速度和 Tool Call 准确率之间取得了极佳的平衡。	`$` (低)

阿里开源 Page-Agent：一行 JS 代码实现大模型前端 DOM 控制

阿里开源 Page-Agent：一行 JS 代码实现大模型前端 DOM 控制

一、项目背景与核心定位

二、Page-Agent 的本质：不只是浏览器插件

2.1 一句话定义

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 架构揭秘：UI + Agent + LLM 铁三角设计

核心组件解析：

三、核心功能：为什么说它"真的能接管网页"

3.1 极简接入：一行代码的魔法

3.2 纯文本 DOM 操控：摆脱昂贵的"视觉依赖"

3.3 开放的模型生态（Bring Your Own LLM）

3.4 跨标签页魔法：从"单兵作战"到"全能外挂"

四、实际使用场景：它如何改变日常工作

场景 1：Smart Form Filling（终结"表单地狱"）

场景 2：Zero-Cost Copilot（SaaS 产品的零成本 AI 升级）

场景 3：The 'Invisible Onboarding'（无障碍与"手把手"的交互式培训）

场景 4：Cross-System Bridge（跨越数据孤岛的"搬运工"）

五、技术深度：为什么 Page-Agent 能做到这些

5.1 双重隔离架构 (Dual Architecture)：互不打扰的寄生美学

🛡️ 隔离与执行的完美平衡

5.2 高强度 DOM 脱水 (Intensive Dehydration)：大模型的降维打击

🦴 网页骨架提取术

5.3 数据脱敏与安全底线 (Data Masking)：你的数据绝不出境

🕵️‍♂️ 离线审查机制

六、终极对决：Page-Agent 与传统自动化的路线之争

6.1 维度打击：不仅仅是功能列表

6.2 Page-Agent 的核心护城河：为何它不可替代？

1. 鉴权主权：终结"验证码"与"滑块"的噩梦

2. 极致的行动力：降维打击"视觉识别"

3. 业务系统的"乐高式" Copilot 升级

6.3 硬币的背面：Page-Agent 适合你吗？

⚠️ 门槛 1：Canvas 与 WebGL 的"盲区"

⚠️ 门槛 2："跨界打击"的物理限制

⚠️ 门槛 3："上帝权限"的安全焦虑

七、实战部署：十分钟构建你的网页 JARVIS

7.1 快速启动：CDN 魔法注入（适合尝鲜）

7.2 NPM 工程化部署（生产环境推荐）

7.3 配置解密：打造你的专属配置

7.4 模型选型指南：给它一颗什么"心"？

八、社区与未来：一场全球前端的"造物运动"

8.1 '数字集市'：这里没有甲方，只有战友

8.2 路线图：下一站，Web 级别的全知全能

🔌 MCP 协议接入 (Model Context Protocol)

🛑 更强的 Human-in-the-Loop (人在回路的极致安全)

🌐 跨域虫洞：打破标签页的物理高墙 (Multi-page Agent)

8.3 终局思考：为什么 Page-Agent 代表了历史的必然？

1. 从"重度后端改造"到"纯前端寄生" (From Backend Rewrite to In-Page Injection)

2. 从"昂贵的多模态"到"脱水文本推理" (From Vision to Text-Based DOM)

3. 从"命令式 UI"到"意图式 UI" (From Imperative to Intent-Driven)

九、结语：交出鼠标，让网页自己'活'过来

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具