截至 2025 年中,业界已有多个成熟的基于大模型(LLM)的 Web UI 自动化方案,它们利用 LLM 的语义理解、推理和工具调用能力,实现'自然语言驱动'的浏览器自动化。以下是主流开源/商业方案的详细对比与分析。
一、主流大模型 Web UI 自动化方案概览
| 方案 | 类型 | 开源 | 核心技术 | 定位 |
|---|---|---|---|---|
| Browser Use | 开源框架 | ✅ GitHub 50k+ Stars | Playwright + GPT/Claude + Vision | 通用智能浏览器代理 |
| OpenDevin (原 SWE-Agent) | 开源框架 | ✅ GitHub 45k+ Stars | Code Interpreter + Browser Sandbox | 软件工程 + Web 混合智能体 |
| LangGraph + Playwright | 开源组合 | ✅(LangChain 生态) | State Graph + Tool Calling | 可编排、可审计的工作流 |
| Dify / Flowise + Custom Agent | 低代码平台 | ⚠️ 部分开源 | 可视化 Agent 编排 + API 调用 | 企业级智能体工厂 |
| Microsoft AutoGen + Web Tools | 开源框架 | ✅ Microsoft | Multi-Agent + Function Call | 多智能体协作自动化 |
| Axiom.ai / Bardeen / SmythOS | 商业产品 | ❌ | Proprietary LLM + RPA | 无代码自动化(面向非开发者) |
二、详细方案对比(含优缺点)
1. Browser Use —— 当前最流行的开源方案
优点:
- 开箱即用:一行代码即可执行自然语言任务(如'登录并截图')
- 支持视觉理解:可启用 GPT-4V 分析截图,处理无文本元素(图标、图表)
- 底层基于 Playwright:稳定、跨浏览器、支持移动端模拟
- 支持自定义模型:兼容 OpenAI、Claude、Ollama、vLLM 等
- 云服务可选:提供托管执行(带录像回放)
缺点:
- 黑盒决策:LLM 内部步骤不可控,调试困难

