阿里开源 Page-Agent：一行代码实现浏览器内 AI 原生应用 | 极客日志

JavaScriptSaaSAI大前端

阿里开源 Page-Agent：一行代码实现浏览器内 AI 原生应用

Page-Agent 是阿里开源的前端浏览器 GUI Agent 框架，支持零后端部署。它允许通过一行代码集成多种大语言模型（如 GPT、Claude、通义千问等），实现智能表单填写、SaaS 辅助及无障碍增强等功能。该方案采用纯前端架构，强调隐私安全与人机协同，适用于企业办公、电商及数据分析等场景。

FrontendX发布于 2026/4/6更新于 2026/7/860 浏览

简介

Page-Agent 是阿里巴巴开源的浏览器内 GUI Agent 框架，核心理念是让任何网站都能轻松集成 AI 能力，无需后端部署。

核心特点

纯前端方案：无需后端服务器，直接在浏览器内运行
支持多种 LLM：OpenAI、Claude、DeepSeek、Qwen、Gemini、Grok、Ollama、Kimi、GLM、LLaMA 等
隐私优先：所有操作都在浏览器内完成，数据不会外泄
人机协同：内置确认面板，用户可以实时查看和确认 AI 的操作
MIT 开源：完全免费，可商用
轻量级：持续更新维护

核心功能

1. 智能表单填写

Page-Agent 可以自动识别网页中的表单字段，根据用户指令智能填写，提升工作效率。

2. SaaS AI 副驾驶

为 SaaS 应用添加 AI 助手，让用户通过自然语言即可完成复杂操作。

3. 无障碍增强

帮助残障人士更好地使用网页，提供语音控制和智能导航功能。

4. 多页面任务控制

通过浏览器扩展支持跨页面的复杂任务执行，实现真正的自动化工作流。

快速开始

使用 Page-Agent 非常简单，只需要在你的网站中引入一行代码：

import { PageAgent } from '@alibaba/page-agent';
const agent = new PageAgent({ model: 'gpt-4', apiKey: 'your-api-key' });
agent.run('帮我填写这个表单');

使用示例

支持的模型

Page-Agent 支持市面上主流的几乎所有大语言模型：

OpenAI (GPT-4, GPT-3.5)
Claude (Anthropic)
DeepSeek
Qwen (通义千问)
Gemini (Google)
Grok (xAI)
Ollama (本地部署)
Kimi (月之暗面)
GLM (智谱 AI)
LLaMA (Meta)

技术架构

Page-Agent 采用纯前端架构，主要包含以下模块：

DOM 解析器：智能分析网页结构

阿里开源 Page-Agent：一行代码实现浏览器内 AI 原生应用

简介

核心特点

核心功能

1. 智能表单填写

2. SaaS AI 副驾驶

3. 无障碍增强

4. 多页面任务控制

快速开始

支持的模型

技术架构

更多推荐文章

相关免费在线工具

应用场景

企业办公

电商平台

数据分析

无障碍辅助

总结

更多推荐文章

相关免费在线工具

阿里开源 Page-Agent：一行代码实现浏览器内 AI 原生应用

简介

核心特点

核心功能

1. 智能表单填写

2. SaaS AI 副驾驶

3. 无障碍增强

4. 多页面任务控制

快速开始

支持的模型

技术架构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

应用场景

企业办公

电商平台

数据分析

无障碍辅助

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具