agent-browser：Vercel 开源的 AI 智能体浏览器自动化 CLI 工具

agent-browser 是 Vercel Labs 推出的 AI 智能体专用浏览器自动化 CLI 工具。采用 Rust+Node.js 混合架构，支持跨平台部署。核心功能包括网页导航、元素操作、数据提取等，提供 AI 友好的元素引用机制和多种定位方式。支持本地运行、CDP 协议连接及云浏览器服务集成。通过 npm 或源码编译安装，可无缝集成至各类 AI 智能体系统，降低开发成本。

极客零度发布于 2026/4/6更新于 2026/7/2548 浏览

引言

在 AI 智能体落地过程中，浏览器自动化是连接虚拟智能与现实网页服务的关键桥梁，而传统浏览器自动化工具往往存在配置复杂、AI 适配性差、跨环境部署困难等问题。Vercel Labs 开源的 agent-browser 完美解决了这些痛点，作为一款专为 AI 智能体设计的无头浏览器自动化 CLI 工具，它采用 Rust+Node.js 混合架构，兼顾速度与兼容性，提供了简洁直观的命令集和 AI 友好的交互方式，成为 AI 智能体实现网页操作的首选工具。本文将从项目概况、核心优势与应用、技术原理与部署实践三方面，全面解析这款工具的使用价值与实操方法。

项目概况

agent-browser 是 Vercel Labs 推出的AI 智能体专用浏览器自动化 CLI 工具，基于 Apache-2.0 开源协议，目前在 GitHub 收获 11.8k stars、656 forks，已迭代 13 个版本，最新稳定版为 v0.8.5。该工具专为 AI 智能体设计，核心定位是提供简单、高效、AI 友好的浏览器自动化能力，支持网页导航、元素操作、数据提取、截图录屏、网络拦截等全流程浏览器操作，可无缝集成到各类 AI 智能体系统中。

工具采用创新的'Rust CLI+Node.js 守护进程'架构，Rust 实现的原生二进制文件保证了极致性能，Node.js 作为 fallback 确保跨平台兼容性，支持 macOS、Linux、Windows 等主流操作系统，默认使用 Chromium 浏览器引擎，同时兼容 Firefox、WebKit。核心亮点包括 AI 友好的元素引用（ref）机制、语义化定位器、多会话隔离、持久化配置、CDP 协议支持等，还可集成 Browserbase、Browser Use、Kernel 等云浏览器服务，解决无本地浏览器环境的部署难题。

agent-browser 提供了 npm、源码编译两种安装方式，支持命令行直接调用，无需复杂的代码封装，AI 智能体可通过简单指令即可完成复杂的浏览器操作，大幅降低 AI 与浏览器交互的开发成本。

核心优势与应用场景

核心技术优势

AI 友好设计，无缝适配智能体：创新推出快照（snapshot）+ 元素引用（ref）机制，快照生成包含元素引用的可访问性树，AI 可直接通过@e1、@e2 等确定性引用操作元素，无需复杂的 DOM 查询，配合–json 参数可输出机器可读格式，完美适配 AI 智能体的交互逻辑。
高性能跨平台架构：核心 CLI 采用 Rust 开发，启动速度快、执行效率高，同时提供 Node.js fallback 方案，兼容无 Rust 环境的运行场景，支持 macOS、Linux、Windows 全平台，Linux 系统还提供一键依赖安装脚本。
丰富的命令集，覆盖全场景需求：提供核心操作、数据获取、元素查找、等待机制、鼠标控制、浏览器设置、网络拦截、会话管理等 8 大类命令，支持点击、输入、文件上传、截图、PDF 导出、Cookie 管理等全流程浏览器操作，满足各类自动化需求。
灵活的元素定位方式：支持 AI 友好的 ref 引用、传统 CSS 选择器、文本/XPath 定位、语义化定位（按角色、标签、占位符等），可根据 AI 智能体的识别能力灵活选择，降低元素定位的复杂度。
多环境部署适配：支持本地浏览器运行、CDP 协议连接现有浏览器、云浏览器服务集成三种部署模式，可适配本地开发、服务器部署、Serverless 等多种场景，解决无本地浏览器环境的部署痛点。
会话与配置隔离：支持多会话并行运行，每个会话拥有独立的浏览器实例、Cookie 和存储；提供持久化配置文件，可保存认证状态、浏览器设置等，避免重复配置，提升自动化流程的连贯性。

典型应用场景

AI 智能体网页交互：作为 AI 智能体的浏览器操作插件，实现网页信息爬取、表单自动填写、在线工具调用、网页功能测试等，例如让 AI 智能体自动完成登录、数据查询、报告生成等流程。
自动化测试与 CI/CD 集成：在开发流程中集成自动化测试，通过命令行批量执行网页功能测试、UI 回归测试，支持无头模式运行，可无缝接入 CI/CD 流水线，提升测试效率。
网页数据采集与分析：针对需要动态渲染的网页，通过浏览器自动化模拟人工操作，获取渲染后的页面数据，支持文本提取、HTML 获取、截图验证等，适用于舆情监控、数据统计等场景。
Serverless 环境浏览器操作：集成云浏览器服务后，可在 Vercel、AWS Lambda 等 Serverless 环境中实现浏览器自动化，无需担心本地浏览器依赖，适用于无服务器架构的 AI 应用。
跨浏览器兼容性测试：支持 Chromium、Firefox、WebKit 多种浏览器引擎，可快速切换浏览器进行兼容性测试，验证网页在不同浏览器中的表现。
智能办公自动化：配合 AI 智能体实现办公流程自动化，例如自动登录办公系统、下载报表、填写表单、生成 PDF 文件等，减少重复办公操作。

引言

项目概况

核心优势与应用场景

核心技术优势

AI 友好设计，无缝适配智能体：创新推出快照（snapshot）+ 元素引用（ref）机制，快照生成包含元素引用的可访问性树，AI 可直接通过@e1、@e2 等确定性引用操作元素，无需复杂的 DOM 查询，配合–json 参数可输出机器可读格式，完美适配 AI 智能体的交互逻辑。
高性能跨平台架构：核心 CLI 采用 Rust 开发，启动速度快、执行效率高，同时提供 Node.js fallback 方案，兼容无 Rust 环境的运行场景，支持 macOS、Linux、Windows 全平台，Linux 系统还提供一键依赖安装脚本。
丰富的命令集，覆盖全场景需求：提供核心操作、数据获取、元素查找、等待机制、鼠标控制、浏览器设置、网络拦截、会话管理等 8 大类命令，支持点击、输入、文件上传、截图、PDF 导出、Cookie 管理等全流程浏览器操作，满足各类自动化需求。
灵活的元素定位方式：支持 AI 友好的 ref 引用、传统 CSS 选择器、文本/XPath 定位、语义化定位（按角色、标签、占位符等），可根据 AI 智能体的识别能力灵活选择，降低元素定位的复杂度。
多环境部署适配：支持本地浏览器运行、CDP 协议连接现有浏览器、云浏览器服务集成三种部署模式，可适配本地开发、服务器部署、Serverless 等多种场景，解决无本地浏览器环境的部署痛点。
会话与配置隔离：支持多会话并行运行，每个会话拥有独立的浏览器实例、Cookie 和存储；提供持久化配置文件，可保存认证状态、浏览器设置等，避免重复配置，提升自动化流程的连贯性。

典型应用场景

AI 智能体网页交互：作为 AI 智能体的浏览器操作插件，实现网页信息爬取、表单自动填写、在线工具调用、网页功能测试等，例如让 AI 智能体自动完成登录、数据查询、报告生成等流程。
自动化测试与 CI/CD 集成：在开发流程中集成自动化测试，通过命令行批量执行网页功能测试、UI 回归测试，支持无头模式运行，可无缝接入 CI/CD 流水线，提升测试效率。
网页数据采集与分析：针对需要动态渲染的网页，通过浏览器自动化模拟人工操作，获取渲染后的页面数据，支持文本提取、HTML 获取、截图验证等，适用于舆情监控、数据统计等场景。
Serverless 环境浏览器操作：集成云浏览器服务后，可在 Vercel、AWS Lambda 等 Serverless 环境中实现浏览器自动化，无需担心本地浏览器依赖，适用于无服务器架构的 AI 应用。
跨浏览器兼容性测试：支持 Chromium、Firefox、WebKit 多种浏览器引擎，可快速切换浏览器进行兼容性测试，验证网页在不同浏览器中的表现。
智能办公自动化：配合 AI 智能体实现办公流程自动化，例如自动登录办公系统、下载报表、填写表单、生成 PDF 文件等，减少重复办公操作。

agent-browser：Vercel 开源的 AI 智能体浏览器自动化 CLI 工具

引言

项目概况

核心优势与应用场景

核心技术优势

典型应用场景

agent-browser：Vercel 开源的 AI 智能体浏览器自动化 CLI 工具

引言

项目概况

核心优势与应用场景

核心技术优势

典型应用场景

更多推荐文章

相关免费在线工具

技术原理与部署实践

核心技术原理与架构

环境搭建与安装

1．npm 安装（推荐，适用于大多数用户）

2．源码编译安装（适用于开发或需最新功能的场景）

快速上手：核心命令实践

1．基础网页操作流程（登录表单填写）

2．传统选择器操作示例

3．云浏览器服务集成（Browserbase 示例）

4．CDP 协议连接现有浏览器

关键配置与注意事项

更多推荐文章

相关免费在线工具

agent-browser：Vercel 开源的 AI 智能体浏览器自动化 CLI 工具

引言

项目概况

核心优势与应用场景

核心技术优势

典型应用场景

agent-browser：Vercel 开源的 AI 智能体浏览器自动化 CLI 工具

引言

项目概况

核心优势与应用场景

核心技术优势

典型应用场景

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

技术原理与部署实践

核心技术原理与架构

环境搭建与安装

1．npm 安装（推荐，适用于大多数用户）

2．源码编译安装（适用于开发或需最新功能的场景）

快速上手：核心命令实践

1．基础网页操作流程（登录表单填写）

2．传统选择器操作示例

3．云浏览器服务集成（Browserbase 示例）

4．CDP 协议连接现有浏览器

关键配置与注意事项

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具