Agent-Browser: 适合ai的浏览器自动化 CLI 工具(以OpenCode为例）

优质文章学习记录

10 Apr 2026 — 5 min read

介绍

Agent-Browser是Vercel 专为AI Agent 设计的一个浏览器自动化 CLI 工具，能让它们模拟人类操作浏览器（点击、滚动、截图和填表单等），是对playwright作为封装和优化，默认是无头模式操作浏览器。

agent-browser 及关联 Skill vs playwright-skill 综合信息表

Skill（技能 / 工具）	来源（获取 / 运行方式）	核心功能	核心技术（底层实现）
agent-browser	npm install -g agent-browser	通用浏览器自动化（CLI 版）	Playwright + 自有 CLI 封装
dogfood	agent-browser 内置子 skill	QA 测试、探索性测试	基于 agent-browser 核心能力
electron	agent-browser 内置子 skill	Electron 桌面应用测试	无额外标注（默认基于 agent-browser）
slack	agent-browser 内置子 skill	Slack 聊天工具自动化	无额外标注（默认基于 agent-browser）
playwright-skill	本地 skill（自定义 / 内置）	浏览器自动化测试	原生 Playwright（无额外封装）

agent-browser vs playwright-skill 功能特性对比表

特性	agent-browser	playwright-skill
接口	CLI 命令（如 `agent-browser click @e1`）	Playwright 多语言 API（Python/JS/Java 代码调用，如 `page.click('#btn')`）
元素引用	快照生成 @e1, @e2 简化引用	CSS/XPath/ 文本选择器（如 `//div[@id="e1"]`），支持精准定位
会话管理	内置 `--session` 参数一键管理	自定义代码实现（通过 `context` 上下文对象手动管理）
状态保存	内置 `state save/load` 命令	手动调用 `storage_state` 方法序列化 / 反序列化状态
认证	`auth save/login` 命令，加密存储凭证	手动处理 Cookie/Token，需结合加密库 / 环境变量存储
iOS 模拟器	原生支持	无原生支持，需结合 BrowserStack/Appium 等工具
浏览器引擎	Chrome, Lightpanda	Chrome、Firefox、Safari、Edge 等全主流引擎
Diff 测试	内置 `diff` 命令一键执行	原生支持 `toHaveScreenshot()` / `toMatchSnapshot()`，内置 `pixelmatch` 像素级比对

选择建议

简单重复任务、QA 快速验证 → agent-browser（CLI 命令简洁，无需编写代码）
复杂业务逻辑、自定义自动化流程 → playwright-skill（代码化控制，灵活性和扩展性更高）

安装与使用

执行npm install -g agent-browser安装（当然你可以让ai自动安装，只是耗一点token，下同）

创建符号链接，让OpenCode、OpenClaw和Codex都能发现 agent-browser，记得路径按自己的电脑实际情况改

# 1. Codex & Opencode 全局 skills 目录 ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/agent-browser ~/.agents/skills/agent-browser ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/dogfood ~/.agents/skills/dogfood ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/slack ~/.agents/skills/slack ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/electron ~/.agents/skills/electron # 2. Openclaw 项目目录 ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/agent-browser ~/Desktop/work/openclaw/.agents/skills/agent-browser ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/dogfood ~/Desktop/work/openclaw/.agents/skills/dogfood ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/slack ~/Desktop/work/openclaw/.agents/skills/slack ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/electron ~/Desktop/work/openclaw/.agents/skills/electron

执行opencode，让ai调查亚马逊平台的热门电器产品，可以发现ai执行了cli命令agent-browser open https://www.amazon.com && agent-browser wait --load networkidle && agent-browser screenshot amazon-home.png，这三个命令的作用分别是打开亚马逊平台链接、仅当页面成功打开后，等待页面的网络请求基本停止（动态内容完全加载）和对亚马逊首页截图为amazon-home.png

接下来ai自行操作，完成搜索、爬取数据、处理超时、模拟滚动、点击和截图等

最终结果

由于浏览器常规截图并非整个页面，不妨以ai打开电子产品链接（可以在ai的思考和执行过程看到那个链接）https://www.amazon.com/gp/bestsellers/electronics/ref=zg_bs_electronics_sm找另外几个产品进行验证，可以发现基本符合事实，只是部分评价最多的产品（很可能是ai只对提取前10个数据或当时页面没加载到更多商品，因为亚马逊平台的页面是动态的，不会一次性加载完全部产品）

创作不易，禁止抄袭，转载请附上原文链接及标题

“全结构化录入+牙位可视化标记”人工智能化python编程路径探析

1. 目标与使用场景 * 将所有关键信息结构化：主诉/现病史、龋/充/根管/牙周/修复/种植、影像读片所见、处置与术式、医嘱、收费关联等。 * 通过牙位图可视化标注与表单联动，做到“点哪颗牙、哪一面，就写哪一项”，杜绝游离文本。 * 用 AI 做三件事：①录入提效（自动补全/术语标准化/编码建议）；②质控（规则与模型双验）；③影像辅助（龋、残髓、根尖周、牙周骨丧失等初筛）。 * 与医院信息平台/医保/第三方影像顺畅对接（HL7/FHIR、DICOM）。 2. 标准与术语（建议落地用） * 牙位编码：FDI 两位码（11–48，51–

Vibe Coding - AI 编程五件套：Rules、Commands、Subagent、MCP、Skills 实战指南

文章目录 * 一、引言：AI 编程，已经远不止“问一句、回一句” * 二、Rules：先写好“项目宪法”，别让 AI 乱来 * 2.1 Rules 是什么？ * 2.2 在 Claude Code 里怎么写 Rules？ * 2.3 Rules 具体能带来什么变化？ * 三、Commands：把“日常活”缩成一个命令 * 3.1 Commands 是什么？ * 3.2 Claude Code 里常见的 Commands * 3.3 Commands 的价值在哪？ * 四、

Python 构建AI多智能体系统：让三个 AI 协作完成复杂任务

单个 AI 能做的事有限，三个 AI 分工协作能做的事远超你想象。本文用纯 Python 从零实现一个多智能体系统，完整代码可直接运行。 * 一、什么是多智能体系统（Multi-Agent System）？ * 二、为什么不用现成框架？ * 三、系统架构设计 * 四、代码实现 * 4.1 基础类：定义 Agent * 4.2 定义三个专业 Agent * 4.3 协调者：任务调度中心 * 4.4 主程序：启动你的 AI 团队 * 五、执行流程详解 * 六、扩展：加入工具能力 * 七、性能对比 * 八、注意事项 * 总结一、

2026爆款AI Agent｜OpenClaw从入门到中级实操指南（含飞书对接+多Agent配置+避坑指南）

摘要本文详细讲解2026年热门开源AI Agent项目OpenClaw（GitHub 6.8万+星标）的从新手到中级的完整实操流程，包含环境准备、安装部署、核心概念、技能配置、飞书对接（企业级实操）、多Agent管理、Docker沙盒安全配置等核心内容，附实践任务清单和常见问题解答，适配开发者快速上手，助力提升办公/开发效率，同时提供学习资源和进阶方向，新手可直接跟着实操，老手可参考高级配置优化方案。前言 2026年，AI Agent领域迎来爆发式增长，而OpenClaw无疑是其中的标杆性项目——不同于传统聊天式AI（如ChatGPT），OpenClaw以“可执行、可落地”为核心，实现了从“对话建议”到“实际操作”的跨越，其开源特性、多平台适配能力及高扩展性，使其快速成为GitHub热门项目，累计星标突破6.8万。 OpenClaw（曾用名ClawdBot/Moltbot）的出现，开启了个人AI助理的新时代，堪比当年OpenAI的面世对AI领域的影响。

介绍