前言
最近发现了一个超厉害的开源项目——Page-Agent,这是阿里巴巴开源的浏览器内 GUI Agent 框架,只需要一行代码就能让你的网站秒变 AI 原生应用。

什么是 Page-Agent?
Page-Agent 是一个纯前端的浏览器内 GUI Agent 框架,它的核心理念是:让任何网站都能轻松集成 AI 能力,无需后端部署。
核心特点
✅ 纯前端方案 - 无需后端服务器,直接在浏览器内运行
✅ 支持多种 LLM - OpenAI、Claude、DeepSeek、Qwen、Gemini、Grok、Ollama、Kimi、GLM、LLaMA 等
✅ 隐私优先 - 所有操作都在浏览器内完成,数据不会外泄
✅ 人机协同 - 内置确认面板,用户可以实时查看和确认 AI 的操作
✅ MIT 开源 - 完全免费,可商用
✅ 轻量级 - 版本号 1.5.2,持续更新维护
核心功能
1️⃣ 智能表单填写
Page-Agent 可以自动识别网页中的表单字段,根据用户指令智能填写,大大提升工作效率。
2️⃣ SaaS AI 副驾驶
为 SaaS 应用添加 AI 助手,让用户通过自然语言即可完成复杂操作。
3️⃣ 无障碍增强
帮助残障人士更好地使用网页,提供语音控制和智能导航功能。
4️⃣ 多页面任务控制
通过浏览器扩展支持跨页面的复杂任务执行,实现真正的自动化工作流。
快速开始
使用 Page-Agent 非常简单,只需要在你的网站中引入一行代码:
import { PageAgent } from '@alibaba/page-agent';
const agent = new PageAgent({ model: 'gpt-4', apiKey: 'your-api-key' });
agent.run('帮我填写这个表单');

支持的模型
Page-Agent 支持市面上主流的几乎所有大语言模型:
- 🤖 OpenAI (GPT-4, GPT-3.5)

