OpenClaw 浏览器自动化实战:让 AI 模拟人类操作网页
前言
在之前的实践中,我们探讨了自定义 Skill,核心在于 Prompt 模板的设计。但 Skill 只是告诉 AI'怎么做',真正执行动作还需要 Tool。
今天重点介绍一个强大的 Tool:browser。它赋予 AI 像人一样操作浏览器的能力——点击、输入、截图、甚至执行 JS 脚本。
browser 工具概览
OpenClaw 的 browser 工具提供了多种连接模式,以适应不同场景:
1. 内置浏览器(默认)
OpenClaw 自带 Playwright 浏览器,AI 可直接调用,开箱即用。
| 功能 | 说明 | 示例 |
|---|---|---|
| navigate | 打开网页 | 访问百度、知乎 |
| snapshot | 获取页面快照 | 了解当前页面状态 |
| screenshot | 截图 | 保留证据 |
| click | 点击元素 | 登录、搜索、提交 |
| type | 输入文字 | 填表单、发评论 |
| evaluate | 执行 JS | 提取数据、计算 |
| select | 下拉选择 | 选择日期、分类 |
| hover | 悬停 | 显示隐藏菜单 |
适合大多数日常场景。
2. CDP 模式(Chrome DevTools Protocol)
连接你已有的 Chrome 浏览器,通过调试端口控制。启动时加上调试端口即可:
# macOS
/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --remote-debugging-port=9222
# Windows
"C:\Program Files\Google\Chrome\Application\chrome.exe" --remote-debugging-port=9222
# Linux
google-chrome --remote-debugging-port=9222
然后在 OpenClaw 配置中指定:
browser:
remoteUrl: http://localhost:9222
优势:保持登录状态(Cookie、Session 持久化),不额外占用资源,支持多标签页。
3. 浏览器扩展插件模式
安装 OpenClaw 的 Chrome 扩展,可控制已打开的标签页,获取历史、书签,或在用户当前上下文中执行。适合需要「接管用户当前页面」的场景。
4. 远程浏览器服务
通过 CDP 协议连接远程服务器上的浏览器,适合服务器环境或需要更高隔离性的批量任务。
browser:


