Agent-Browser: 适合ai的浏览器自动化 CLI 工具(以OpenCode为例)

Agent-Browser: 适合ai的浏览器自动化 CLI 工具(以OpenCode为例)

介绍

Agent-Browser是Vercel 专为AI Agent 设计的一个浏览器自动化 CLI 工具,能让 它们模拟人类操作浏览器(点击、滚动、截图和填表单等), 是对playwright作为封装和优化,默认是无头模式操作浏览器。

agent-browser 及关联 Skill vs  playwright-skill 综合信息表

Skill(技能 / 工具)来源(获取 / 运行方式)核心功能核心技术(底层实现)
agent-browsernpm install -g agent-browser通用浏览器自动化(CLI 版)Playwright + 自有 CLI 封装
dogfoodagent-browser 内置子 skillQA 测试、探索性测试基于 agent-browser 核心能力
electronagent-browser 内置子 skillElectron 桌面应用测试无额外标注(默认基于 agent-browser)
slackagent-browser 内置子 skillSlack 聊天工具自动化无额外标注(默认基于 agent-browser)
playwright-skill本地 skill(自定义 / 内置)浏览器自动化测试原生 Playwright(无额外封装)

agent-browser vs playwright-skill 功能特性对比表

特性agent-browserplaywright-skill
接口CLI 命令(如 agent-browser click @e1Playwright 多语言 API(Python/JS/Java 代码调用,如 page.click('#btn')
元素引用快照生成 @e1, @e2 简化引用CSS/XPath/ 文本选择器(如 //div[@id="e1"]),支持精准定位
会话管理内置 --session 参数一键管理自定义代码实现(通过 context 上下文对象手动管理)
状态保存内置 state save/load 命令手动调用 storage_state 方法序列化 / 反序列化状态
认证auth save/login 命令,加密存储凭证手动处理 Cookie/Token,需结合加密库 / 环境变量存储
iOS 模拟器原生支持无原生支持,需结合 BrowserStack/Appium 等工具
浏览器引擎Chrome, LightpandaChrome、Firefox、Safari、Edge 等全主流引擎
Diff 测试内置 diff 命令一键执行

原生支持 toHaveScreenshot() / toMatchSnapshot(),内置 pixelmatch 像素级比对

选择建议

  • 简单重复任务、QA 快速验证 → agent-browser(CLI 命令简洁,无需编写代码)
  • 复杂业务逻辑、自定义自动化流程 → playwright-skill(代码化控制,灵活性和扩展性更高)

安装与使用

执行npm install -g agent-browser安装(当然你可以让ai自动安装,只是耗一点token,下同)

创建符号链接,让OpenCode、OpenClaw和Codex都能发现 agent-browser,记得路径按自己的电脑实际情况改

# 1. Codex & Opencode 全局 skills 目录 ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/agent-browser ~/.agents/skills/agent-browser ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/dogfood ~/.agents/skills/dogfood ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/slack ~/.agents/skills/slack ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/electron ~/.agents/skills/electron # 2. Openclaw 项目目录 ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/agent-browser ~/Desktop/work/openclaw/.agents/skills/agent-browser ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/dogfood ~/Desktop/work/openclaw/.agents/skills/dogfood ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/slack ~/Desktop/work/openclaw/.agents/skills/slack ln -s /opt/homebrew/lib/node_modules/agent-browser/skills/electron ~/Desktop/work/openclaw/.agents/skills/electron

执行opencode,让ai调查亚马逊平台的热门电器产品,可以发现ai执行了cli命令agent-browser open https://www.amazon.com && agent-browser wait --load networkidle && agent-browser screenshot amazon-home.png,这三个命令的作用分别是打开亚马逊平台链接、仅当页面成功打开后,等待页面的网络请求基本停止(动态内容完全加载)和对亚马逊首页截图为amazon-home.png

接下来ai自行操作,完成搜索、爬取数据、处理超时、模拟滚动、点击和截图等

最终结果

由于浏览器常规截图并非整个页面,不妨以ai打开电子产品链接(可以在ai的思考和执行过程看到那个链接)https://www.amazon.com/gp/bestsellers/electronics/ref=zg_bs_electronics_sm找另外几个产品进行验证,可以发现基本符合事实,只是部分评价最多的产品(很可能是ai只对提取前10个数据或当时页面没加载到更多商品,因为亚马逊平台的页面是动态的,不会一次性加载完全部产品)

创作不易,禁止抄袭,转载请附上原文链接及标题

Read more

2026 AI“龙虾”大战!OpenClaw、MaxClaw、AutoClaw、QClaw、ArkClaw、KimiClaw、LobsterAI等9款产品横评 + 场景推荐,谁值得你“养”?

2026 AI“龙虾”大战!OpenClaw、MaxClaw、AutoClaw、QClaw、ArkClaw、KimiClaw、LobsterAI等9款产品横评 + 场景推荐,谁值得你“养”?

2026 AI“龙虾”大战!OpenClaw、MaxClaw、AutoClaw、QClaw、ArkClaw、KimiClaw、LobsterAI等9款产品横评 + 场景推荐,谁值得你“养”? 🦞 2026年开年,最火的不是新GPT,而是“养龙虾”! 一只来自奥地利的开源AI Agent框架OpenClaw,以26万+ GitHub Stars一举登顶全球TOP1,超越React和Linux!它能真正“动手干活”:操控浏览器、发邮件、写代码、整理Excel、甚至远程微信控制电脑,被大家亲切叫作“小龙虾”。 大厂们闻风而动:MiniMax、月之暗面、智谱、腾讯、火山引擎、网易有道、阿里云等纷纷推出简化版/云托管版,门槛从“极客专属”降到“小白5分钟上手”。 本文横评9款主流产品(OpenClaw原版 + 8大商业/优化版)

Qlib——AI 导向量化投资平台:2026 年最新简单入门

Qlib——AI 导向量化投资平台:2026 年最新简单入门

Qlib 是微软开源的 AI 导向量化投资平台(AI-oriented quantitative investment platform),旨在用 AI 技术赋能量化研究,从探索想法到生产落地全流程支持。目前最新活跃版本基于 GitHub microsoft/qlib 主仓库,它不是一个简单的回测框架,而是试图把机器学习(尤其是监督学习、市场动态建模、强化学习)无缝融入量化全链路。 一句话总结: Qlib = Quant + ML 的“一站式”工具箱,让你可以用 Python 快速实验 Alpha 挖掘、特征工程、模型训练、回测、组合优化、风险建模,甚至现在还集成了 RD-Agent 来自动化部分 R&D 过程。 核心定位与设计理念 Qlib 的目标是“

AI搜索大战彩票!实测7大平台竟算出这些号码…结果是?

AI搜索大战彩票!实测7大平台竟算出这些号码…结果是?

“AI能预测彩票”的传闻最近火遍全网,我们抓来DeepSeek、百度AI、豆包、元宝、通义千问等7大平台‌,要求它们用算法预测‌4月18日双色球/大乐透‌。结果…… 一、这些算法测试数据与方法 数据输入 Deepseek,豆包,KIMI都没有给出预测结果。拒绝预测,百度AI,腾讯元宝,通义千问给出了一些数字。复式太贵,用单式去做测试,具体结果等18号开奖留言公布。 模拟生成2025年4月16日前100期历史开奖数据(含红球/蓝球、前区/后区号码) 数据格式标准化处理(CSV文件导入) 二、评估维度 ‌1. 技术性限制:算法与随机性的本质冲突‌ ‌独立随机事件理论‌(伯努利大数定律): 彩票本质属于独立随机事件(每期开奖号码间无关联性),AI依赖历史数据的统计建模(如百度AI的蒙特卡洛模拟)本质上属于“用确定性模型拟合随机过程”,其预测准确率理论上趋近于随机概率。 例:大乐透中奖概率为1/21,425,886,

OpenClaw 深度原理解析:从智能体平台到AI操作系统的架构革命

OpenClaw 深度原理解析:从智能体平台到AI操作系统的架构革命

1 引言:重新定义个人AI助手的能力边界 OpenClaw 是2026年以来最受关注的开源AI智能体项目,它并非简单的聊天机器人,而是一个 完整的AI代理运行时平台 。其核心设计哲学是成为“AI应用的操作系统”,将大型语言模型的智能与本地系统的操作能力深度融合。 与普通Agent只能进行“问答响应”不同,OpenClaw实现了从“被动响应”到“主动干活”的范式转变。它支持自动化编程、浏览器自动化、智能家居控制、跨终端协作等复杂任务,几乎可以视作一位全能的“数字员工”。 2 核心架构设计 2.1 四层架构模型 OpenClaw的架构可抽象为四个逻辑层级,它们协同工作,完成从“用户输入”到“智能响应”的全过程。 2.1.1 平台适配层 作为系统与外部世界交互的“皮肤”和“感官”,该层由一系列“平台适配器”构成。每个适配器都是一个独立的服务或插件,专门用于与特定平台(