概述
Page-Agent 是阿里巴巴开源的一个纯前端浏览器内 GUI Agent 框架。它的核心优势在于无需后端部署,即可通过简单的集成将 AI 能力注入现有网站。

核心特性
- 纯前端架构:直接在浏览器运行,数据不经过外部服务器,隐私性更好。
- 多模型支持:兼容 OpenAI、Claude、DeepSeek、Qwen、Gemini 等多种主流大语言模型。
- 人机协同:内置确认面板,允许用户实时查看并确认 AI 的操作步骤。
- 轻量级:版本迭代稳定,MIT 协议开源,可商用。
快速集成
在项目中引入库后,初始化实例非常简单。只需几行代码即可完成配置:
import { PageAgent } from '@alibaba/page-agent';
const agent = new PageAgent({
model: 'gpt-4',
apiKey: 'your-api-key'
});
// 执行指令,例如自动填写表单
agent.run('帮我填写这个表单');
实际开发中,建议根据业务需求调整 model 参数以适配不同的成本或性能要求。

支持的模型
Page-Agent 支持市面上主流的几乎所有大语言模型,包括:
- OpenAI (GPT-4, GPT-3.5)
- Claude (Anthropic)
- DeepSeek
- Qwen (通义千问)
- Gemini (Google)
- Grok (xAI)
- Ollama (本地部署)
- Kimi (月之暗面)
- GLM (智谱 AI)
- LLaMA (Meta)
适用场景
该框架主要适用于以下场景:
- 智能表单填充:自动识别网页字段并根据指令完成录入。
- SaaS 辅助:为复杂系统添加自然语言操作入口。
- 无障碍增强:提供语音控制和智能导航,提升残障人士使用体验。

