[特殊字符]阿里开源神器！一行代码让网站秒变 AI 原生应用，Page-Agent 太强了！

优质文章学习记录

10 Apr 2026 — 3 min read

前言

最近发现了一个超厉害的开源项目——Page-Agent，这是阿里巴巴开源的浏览器内 GUI Agent 框架，只需要一行代码就能让你的网站秒变 AI 原生应用！今天就来给大家详细扒一扒这个神器。

什么是 Page-Agent？

Page-Agent 是一个纯前端的浏览器内 GUI Agent 框架，它的核心理念是：让任何网站都能轻松集成 AI 能力，无需后端部署。

核心特点

✅ 纯前端方案 - 无需后端服务器，直接在浏览器内运行
✅ 支持多种 LLM - OpenAI、Claude、DeepSeek、Qwen、Gemini、Grok、Ollama、Kimi、GLM、LLaMA 等
✅ 隐私优先 - 所有操作都在浏览器内完成，数据不会外泄
✅ 人机协同 - 内置确认面板，用户可以实时查看和确认 AI 的操作
✅ MIT 开源 - 完全免费，可商用
✅ 轻量级 - 版本号 1.5.2，持续更新维护

核心功能

1️⃣ 智能表单填写

Page-Agent 可以自动识别网页中的表单字段，根据用户指令智能填写，大大提升工作效率。

2️⃣ SaaS AI 副驾驶

为 SaaS 应用添加 AI 助手，让用户通过自然语言即可完成复杂操作。

3️⃣ 无障碍增强

帮助残障人士更好地使用网页，提供语音控制和智能导航功能。

4️⃣ 多页面任务控制

通过浏览器扩展支持跨页面的复杂任务执行，实现真正的自动化工作流。

快速开始

使用 Page-Agent 非常简单，只需要在你的网站中引入一行代码：

import { PageAgent } from '@alibaba/page-agent'; const agent = new PageAgent({ model: 'gpt-4', apiKey: 'your-api-key' }); agent.run('帮我填写这个表单');

支持的模型

Page-Agent 支持市面上主流的几乎所有大语言模型：

🤖 OpenAI (GPT-4, GPT-3.5)
🧠 Claude (Anthropic)
🚀 DeepSeek
💫 Qwen (通义千问)
✨ Gemini (Google)
🔥 Grok (xAI)
🦙 Ollama (本地部署)
🌟 Kimi (月之暗面)
🎯 GLM (智谱 AI)
📚 LLaMA (Meta)

技术架构

Page-Agent 采用纯前端架构，主要包含以下模块：

DOM 解析器 - 智能分析网页结构
操作执行器 - 模拟用户交互行为
确认面板 - 人机协同交互界面
LLM 适配器 - 统一接口支持多种模型

应用场景

🏢 企业办公

自动填写各类业务系统表单
批量处理数据录入任务
跨系统数据同步

🛒 电商平台

智能客服助手
自动订单处理
商品信息批量管理

📊 数据分析

自动抓取网页数据
生成数据报告
可视化图表制作

♿ 无障碍辅助

语音控制网页浏览
智能内容朗读
简化操作流程

总结

Page-Agent 作为一个开源的浏览器内 GUI Agent 框架，为我们提供了一种全新的网站智能化方案。它不需要后端部署，支持多种大模型，隐私安全，非常适合想要快速为网站添加 AI 能力的开发者。

如果你也在寻找一种简单高效的方式来为你的网站或应用添加 AI 交互能力，那么 Page-Agent 绝对值得一试！

项目地址: https://alibaba.github.io/page-agent

GitHub: https://github.com/alibaba/page-agent

觉得这篇文章对你有帮助的话，欢迎点赞收藏转发！

WebRtc直播流的播放

后端服务已经使用ZLMediaKit框架提供了直播流地址一、WebRtc原生播放器播放直播流 1、使用ZLMediaKit框架提供的ZLMRTCClient.js <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <title>播放示例</title> <

深入理解 HTML5 Web Workers：提升网页性能的关键技术解析

深入理解 HTML5 Web Workers：提升网页性能的关键技术解析 * 引言 * 1. 什么是 Web Workers？ * Web Workers 的特点： * 2. Web Workers 的使用方式 * 2.1 创建一个 Web Worker * 步骤 1：创建 Worker 文件 * 步骤 2：在主线程中调用 Worker * 3. Web Workers 的高级应用 * 3.1 使用 `Blob` 方式创建 Worker * 3.2 终止 Worker * 4. Web Workers 的应用场景 * 示例：

OpenClaw Webhook 详解：完整指南

Webhook 是将 OpenClaw 从“聊天助手”快速转变为“响应式系统”的最佳方式。无需等待您主动发送消息，GitHub 可以在 PR 提交时通知 OpenClaw，Stripe 可以在支付失败时通知 OpenClaw，n8n 也可以按计划通知 OpenClaw。OpenClaw 会接收这些传入事件，并将其转换为代理运行或轻量级唤醒操作，然后将结果路由回您实际使用的任何渠道。本文重点介绍 OpenClaw 网关上的 HTTP Webhook。OpenClaw 中还有另一种东西，在一些文档和配置中也被称为“钩子”。这些是网关内部的事件钩子，当本地生命周期事件触发时运行。它们也很有用，但 Stripe 或 GitHub 与服务器通信的方式并非通过它们。如果您的 OpenClaw 实例是刚刚部署在 VPS 上，并且您仍然使用 SSH 进行基本操作，那么首先要确保网关稳定，

Cursor 3来了：内置Codex，前端福音Design Mode，WorkTree多开

Cursor 3来了：内置Codex，前端福音Design Mode，WorkTree多开用Cursor这种编辑器，经常遇到两个小痛点：一是他就一个聊天框，如果一个任务时间长一点，侧边栏就被占用，就没法干别的；二是害怕 Agent “一顿操作猛如虎”，直接把当前的主干分支改坏。刚刚发布的 Cursor 3，重点就在解决这类工作流层面的问题。总体来看，它好像不太满足于做一个带对话窗的编辑器，而是在加强多任务并行和代码环境的安全隔离。具体有三个最直接影响日常开发的新特性： 1. Agents Window：跑并行的任务控制台快捷键：Cmd+Shift+P 输入 Agents Window 以前的对话基本是一个单向的线性流。Cursor 3 将 Agent 抽离出了独立的面板区，你可以跨仓库、跨环境（本地、云端或远程 SSH）同时运行多个任务。配合新增的 Agent Tabs，

前言